本课程的基础课程是,Hadoop数据分析平台课程。相信,能看我本博文的朋友,是有一定的基础了。
只是前个课程是讲解,这个课程是应用。
第一层是:数据源层,代表有生产线上的数据,比如关系型数据库orcal,电子商务网站,网站的访问日志。
第二层是:数据仓库或数据集层。
第三层是:数据探索层,如要列出本月话费达到500元的用户等,理解为对数据的简单一些加工。
第四层是:数据挖掘层,主要是以知识挖掘为主。
数据探索层和数据挖掘层的区别:
比如,数据挖掘层,不是求什么平均多少,指标,而是隐藏的规律和知识、模型。
有一大堆身高体重的数据,感兴趣的不是说每个年龄段的身高体重,最大身高多少,最小身高多少,,,而是感兴趣的是身高跟体重是一个怎样的规律关系。这才是数据挖掘层。
第五层:数据表示层,按照它的情况来画图。比如画散点图,给予直观的感受。
第六层:数据决策层
Hdfs来保存数据,hive来作数据仓库,Hbase来数据库
注意:我们的课程是定位在数据探索层、数据挖掘层、数据决策层。
数据挖掘,在不同场景下,叫法不同。如机器学习下的人工智能。其实,所使用的技术基本一样,可理解为同一座山峰,不同的侧面罢了。