公司要搞个hadoop的项目,最终的目标是想在上面做些挖掘的东西出来。
数据基本上是结构化的数据,顶多有缺失值;
就是字段比较多,2000以内;
时间序列那种,文本形式,每个文本不到100M;
每天固定时间段从生产里面拿出来,放到系统里面。
有个前期的需求是能搞个小系统时不时对已存在的数据做一些查询,最好还能出些图表什么的;
以后计划以后借助mahout之类的挖掘些东西。
目前我搭建好了一个小的hadoop集群,hadoop-2.2.0 + hbase-0.96.2 + hive-0.13.1
Q1:数据存放哪?hbase,hive(hbase/hdfs),或者之间放到hdfs上?
Q2:实现这些需求还需要额外的hadoop产品吗?
9 个解决方案
#1
对文件使用hadoop作业进行处理,提取需要的字段,然后存到Hive中已提前建好的表中,在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了
#2
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
#3
Hive or Mahout
#4
前期数据存放到HIVE就行了
#5
谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?
#6
字段数好像没有限制,暂时没有看到有文档描述对表字段的限制
#7
字段个数没有限制吧
#8
HIVE中一个表的字段数应该是INT的最大值
#9
只能学习,帮不了忙
#1
对文件使用hadoop作业进行处理,提取需要的字段,然后存到Hive中已提前建好的表中,在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了
#2
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
#3
Hive or Mahout
#4
前期数据存放到HIVE就行了
#5
谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?
#6
字段数好像没有限制,暂时没有看到有文档描述对表字段的限制
#7
字段个数没有限制吧
#8
HIVE中一个表的字段数应该是INT的最大值
#9
只能学习,帮不了忙