hadoop上数据挖掘系统该怎么搞？

新人小白，如有表达不准确，见谅～

公司要搞个hadoop的项目，最终的目标是想在上面做些挖掘的东西出来。

数据基本上是结构化的数据，顶多有缺失值；
就是字段比较多，2000以内；
时间序列那种，文本形式，每个文本不到100M；
每天固定时间段从生产里面拿出来，放到系统里面。

有个前期的需求是能搞个小系统时不时对已存在的数据做一些查询，最好还能出些图表什么的；
以后计划以后借助mahout之类的挖掘些东西。

目前我搭建好了一个小的hadoop集群，hadoop-2.2.0 + hbase-0.96.2 + hive-0.13.1

Q1：数据存放哪？hbase，hive（hbase/hdfs），或者之间放到hdfs上？

Q2：实现这些需求还需要额外的hadoop产品吗？

9 个解决方案

#1

对文件使用hadoop作业进行处理，提取需要的字段，然后存到Hive中已提前建好的表中，在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了

#2

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

#3

Hive or Mahout

#4

前期数据存放到HIVE就行了

#5

谢谢各位帮助，还想问下hive里面表能有多宽？一张表能塞下多少字段？

#6

字段数好像没有限制，暂时没有看到有文档描述对表字段的限制

#7

引用 5 楼 ramontop1 的回复:

谢谢各位帮助，还想问下hive里面表能有多宽？一张表能塞下多少字段？

字段个数没有限制吧

#8

HIVE中一个表的字段数应该是INT的最大值

#9

只能学习，帮不了忙

#1

对文件使用hadoop作业进行处理，提取需要的字段，然后存到Hive中已提前建好的表中，在Hive中进行统计查询然后导出到关系数据库就可以做表之类的了

#2

#3

Hive or Mahout

#4

前期数据存放到HIVE就行了

#5

谢谢各位帮助，还想问下hive里面表能有多宽？一张表能塞下多少字段？

#6

字段数好像没有限制，暂时没有看到有文档描述对表字段的限制

#7

引用 5 楼 ramontop1 的回复:

谢谢各位帮助，还想问下hive里面表能有多宽？一张表能塞下多少字段？

字段个数没有限制吧

#8

HIVE中一个表的字段数应该是INT的最大值

#9

只能学习，帮不了忙

秒客网

hadoop上数据挖掘系统该怎么搞？

9 个解决方案

#1

#2

#3

#4

#5

#6

#7

#8

#9

#1

#2

#3

#4

#5

#6

#7

#8

#9

相关文章