hadoop上数据挖掘系统该怎么搞?

时间:2022-02-14 08:26:47
新人小白,如有表达不准确,见谅~

公司要搞个hadoop的项目,最终的目标是想在上面做些挖掘的东西出来。

数据基本上是结构化的数据,顶多有缺失值;
就是字段比较多,2000以内;
时间序列那种,文本形式,每个文本不到100M;
每天固定时间段从生产里面拿出来,放到系统里面。

有个前期的需求是能搞个小系统时不时对已存在的数据做一些查询,最好还能出些图表什么的;
以后计划以后借助mahout之类的挖掘些东西。

目前我搭建好了一个小的hadoop集群,hadoop-2.2.0 + hbase-0.96.2 + hive-0.13.1 

Q1:数据存放哪?hbase,hive(hbase/hdfs),或者之间放到hdfs上?

Q2:实现这些需求还需要额外的hadoop产品吗?

9 个解决方案

#1


对文件使用hadoop作业进行处理,提取需要的字段,然后存到Hive中已提前建好的表中,在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了

#2


hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

#3


Hive or Mahout

#4


前期数据存放到HIVE就行了

#5


谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?

#6


字段数好像没有限制,暂时没有看到有文档描述对表字段的限制

#7


引用 5 楼 ramontop1 的回复:
谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?


字段个数没有限制吧

#8


HIVE中一个表的字段数应该是INT的最大值

#9


只能学习,帮不了忙

#1


对文件使用hadoop作业进行处理,提取需要的字段,然后存到Hive中已提前建好的表中,在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了

#2


hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

#3


Hive or Mahout

#4


前期数据存放到HIVE就行了

#5


谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?

#6


字段数好像没有限制,暂时没有看到有文档描述对表字段的限制

#7


引用 5 楼 ramontop1 的回复:
谢谢各位帮助,还想问下hive里面表能有多宽?一张表能塞下多少字段?


字段个数没有限制吧

#8


HIVE中一个表的字段数应该是INT的最大值

#9


只能学习,帮不了忙