015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记

1、大数据金字塔结构

Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions

2、从业职位
业务人员、ETL工程师、数据仓库工程师（及时需求）、数据分析师、数据展现设计师、
IT支持人员：运维。程序员、生产线数据管理员

3、数据分析：统计方法，有目的地对收集到的数据进行处理。
   数据挖掘：查找隐藏在数据中的信息的技术、应用算法从大数据集提取知识、隐性关联
   商业智能：Business Intelligece简称BI。
   BI=数据仓库（存储层）+数据分析与数据挖掘（分析层）+报表（展示层）

4、数据分析常用的算法和软件
回归、时间序列分析、分类器（学习集）、聚类（聚合）、频繁模式挖掘

5、常用的传统数据分析工具排行
   R、SAS、Weka、STATISTICA、Matlab……
   这些都是实验室工具，当建模结束后，就不要他们，后面的预测工作就可以使用java、php、oracle等来做。
   后者是生产环境里面实现模型的工具。
   将建模的过程与实现建模生产的过程区分开来。

6、数据分析的层次
   第一层：业务人员主导-------------------遍地黄金
   第二层：业务人员与数据分析师共同主导：最好的层次，分析师喜欢、业务员肯定---------------浅表黄金
   第三层：完全由数据分析师主导的分析：数据分析师王国（人工智能、模式识别、机器学习）、失败率高、业务人员反感抗拒-----黄金深埋
   业务是数据分析扎根的土壤，提升业务业绩是数据分析的目标，因此任何数据分析必须要和业务相连接。
   有意思的分析主题可能比分析技术本身更重要。

7、大数据定义：超过当前数据处理能力的数据量。

8、传统数据分析软件与hadoop区别

R、SAS、SPASS等典型的应用场景为实验室工具，是试管和蒸馏瓶
Hadoop集群和Map-Reduce计算才是大规模生产的可行之路。

9、实例
   1）场景一：电信运营商信令分析与监测：信令处理模块---CDR(collect report data)生成（基站信号、国际电话中转）
   2）场景二：DNA数据库---------匹配
   3）社会学分析——人物重要度计算----社交网络

10、Hadoop体系下的分析手段
   1）主流，Map-Reduce:java程序
   2）轻量级的脚本语言：Pig
   3）SQL技巧平稳过度：Hive
   4）机器学习平台：Mahout
   5）NoSQL：HBase

11、典型的实验环境
1）服务器：ESXi，可以在服务器上面部署多台虚拟机，能同时启动3台。
2）PC，要求Linux环境或者windows+Cygwin，linux可以使standalone或者使用虚拟机。

12、实验环境
   1）部署Pig
   2）部署Hive
   3）部署Mahout

13、典型案例
   1）巨型网站日志系统分析，提取KPI数据（Map-Reduce）
   2）电信运营商LBS应用，分析手机用户移动轨迹（Map-reduce）
   3）电信运行商用户分析，通过童话指纹判别重入网用户（Map-reduce）
   4）电子商务推荐系统设计（Map-reduce）
   5）更复杂的推荐系统场景（Mahout）
   6）社交网络，判断微博用户关系亲疏程度，发现社区（Pig）
   7）在社交网络中衡量节点的重要程度（Map-reduce）
   8）聚类算法应用，分析优质客户（Map-reduce、Mahout）
   9）金融数据分析，从历史数据中提取逆回购信息（Hive）
   10）通过数据分析指定股票策略（Map-reduce，Hive）
   11）GPS应用，签到数据分析（Pig）
   12）Map-reduce全排序实现和优化
   13）中间件开发，让过个Hadoop集群协作起来。

备注：这段时间将云帆大数据的《Hadoop从入门到企业级开发》一共14天教程，80+集看完了，后面的部分目前网上还没有公开的视频教程，等找到再看或者直接去买。博客还没来得及整理，技术有一定了解，又看了黄老师的视频加深了自己对Hadoop应用领域的了解，甚是感谢！

秒客网

015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记

相关文章