数据处理收集

时间:2020-12-02 18:29:48


海量数据

    那些年Google公开的大数据领域论文

    大数据量,海量数据 处理方法总结

    布隆过滤器应用

    Google Dremel 原理 – 如何能3秒分析1PB

     Google Spanner原理- 全球级的分布式数据库

 

    悉数那些“巨型”数据仓库

    Hadoop在业界的使用情况

    淘宝Hadoop集群的概况

    淘宝数据魔方技术架构解析

 

    Facebook的实时Hadoop系统

    Apache Hadoop Goes Realtime at Facebook(译) 

数据统计

  网站统计中的数据收集原理及实现

数据挖掘

  一个电商数据分析师的经验总结

 

  五个免费开源的数据挖掘软件

  Google推出Prediction API

 

  K Nearest Neighbor 算法(归类)

  K-Means 算法(聚类)

  kmeans算法java版本