hadoop的应用场景

时间:2021-02-03 08:15:05
最近hadoop 的名字 不断在各大网站出现
本人都好想研究一下ta
但在研究之前我想问问 各位, 
我是一名java 程序员, hadoop 能够可以帮助我什么? 在什么情景下需要用hadoop?
好样自己研究过程中 有个 目标实现

15 个解决方案

#1


可以帮助你完成需要进行高并发、大数据存储的架构支撑。

#2


引用 1 楼 shuixian0626 的回复:
可以帮助你完成需要进行高并发、大数据存储的架构支撑。

可否细致一下 讲解一下么?

#3


我是用来执行并行聚类算法,
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。

#4


最简单的就是处理大数据

#5


hdfs提供文件系统
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵

#6


HADOOP分两部分,HDFS文件系统和MapReduce计算框架
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。

HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。

HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。

#7


如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

#8


引用 7 楼 xtm_rongbing 的回复:
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?

#9


该回复于2013-04-25 13:49:23被管理员删除

#10


hadoop的应用场景

#11


引用 8 楼 huangli6 的回复:
Quote: 引用 7 楼 xtm_rongbing 的回复:

如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?


比如统计网站那个页面访问次数最多,访问时间,访问者IP等等

#12


该回复于2013-05-12 22:21:17被版主删除

#13


该回复于2013-06-03 09:16:59被管理员删除

#14


引用 11 楼 GUITK 的回复:
Quote: 引用 8 楼 huangli6 的回复:

Quote: 引用 7 楼 xtm_rongbing 的回复:

如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?


比如统计网站那个页面访问次数最多,访问时间,访问者IP等等

说了半天,还是这种回答对零基础的人来说看得比较懂。

#15


该回复于2014-02-23 20:22:52被版主删除

#1


可以帮助你完成需要进行高并发、大数据存储的架构支撑。

#2


引用 1 楼 shuixian0626 的回复:
可以帮助你完成需要进行高并发、大数据存储的架构支撑。

可否细致一下 讲解一下么?

#3


我是用来执行并行聚类算法,
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。

#4


最简单的就是处理大数据

#5


hdfs提供文件系统
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵

#6


HADOOP分两部分,HDFS文件系统和MapReduce计算框架
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。

HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。

HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。

#7


如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

#8


引用 7 楼 xtm_rongbing 的回复:
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?

#9


该回复于2013-04-25 13:49:23被管理员删除

#10


hadoop的应用场景

#11


引用 8 楼 huangli6 的回复:
Quote: 引用 7 楼 xtm_rongbing 的回复:

如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?


比如统计网站那个页面访问次数最多,访问时间,访问者IP等等

#12


该回复于2013-05-12 22:21:17被版主删除

#13


该回复于2013-06-03 09:16:59被管理员删除

#14


引用 11 楼 GUITK 的回复:
Quote: 引用 8 楼 huangli6 的回复:

Quote: 引用 7 楼 xtm_rongbing 的回复:

如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序

我想问一下Hadoop用于什么日志的处理呢?


比如统计网站那个页面访问次数最多,访问时间,访问者IP等等

说了半天,还是这种回答对零基础的人来说看得比较懂。

#15


该回复于2014-02-23 20:22:52被版主删除