本人都好想研究一下ta
但在研究之前我想问问 各位,
我是一名java 程序员, hadoop 能够可以帮助我什么? 在什么情景下需要用hadoop?
好样自己研究过程中 有个 目标实现
15 个解决方案
#1
可以帮助你完成需要进行高并发、大数据存储的架构支撑。
#2
可否细致一下 讲解一下么?
#3
我是用来执行并行聚类算法,
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。
#4
最简单的就是处理大数据
#5
hdfs提供文件系统
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵
#6
HADOOP分两部分,HDFS文件系统和MapReduce计算框架
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。
HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。
HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。
HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。
HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。
#7
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
#8
我想问一下Hadoop用于什么日志的处理呢?
#9
#10
#11
比如统计网站那个页面访问次数最多,访问时间,访问者IP等等
#12
#13
#14
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
我想问一下Hadoop用于什么日志的处理呢?
比如统计网站那个页面访问次数最多,访问时间,访问者IP等等
说了半天,还是这种回答对零基础的人来说看得比较懂。
#15
#1
可以帮助你完成需要进行高并发、大数据存储的架构支撑。
#2
可以帮助你完成需要进行高并发、大数据存储的架构支撑。
可否细致一下 讲解一下么?
#3
我是用来执行并行聚类算法,
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。
我目前还没有java领域找到替代Hadoop MapReduce的其他开源并行执行框架。
#4
最简单的就是处理大数据
#5
hdfs提供文件系统
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵
mr提供并行计算
还可以集成nosql数据库,提供在线/实时业务,Big Data就更不在话下了
再加上高扩展性和容错性,运维成本大大减少
你说用处大不大呢,呵呵
#6
HADOOP分两部分,HDFS文件系统和MapReduce计算框架
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。
HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。
HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。
HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了
MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。
你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
优势:几百上千台机器被当成同一个文件系统,即疲当成一块硬盘,可以存储很多数据。这么多台电脑一块跑MAPREDUECE并行处理数据,可以想象几T的数据也用不了多久。
HIVE,是可以用类SQL的形式调用MAPREDUCE计算框架的系统。写个SQL,它自动解析成N个MAPREDUCE任务分发到集群上面跑。
HBASE建立在HADOOP上的NOSQL数据库,因为HADOOP只是文件系统,而HIVE查询处理很慢。所以HBASE应运而生,专门用于实时查数。
#7
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
#8
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
我想问一下Hadoop用于什么日志的处理呢?
#9
#10
#11
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
我想问一下Hadoop用于什么日志的处理呢?
比如统计网站那个页面访问次数最多,访问时间,访问者IP等等
#12
#13
#14
如果是用Java的话,学Hadoop要简单些吧,现在云计算比较火,如果想做云计算,hadoop还是比较好的,hadoop主要用在大数据处理,而且还要求数据之间关联性不高,也就是多元异构,hadoop现在常用在日志处理,搜索引擎,不过它也有缺点,其中一个就是不太适合低延迟的程序
我想问一下Hadoop用于什么日志的处理呢?
比如统计网站那个页面访问次数最多,访问时间,访问者IP等等
说了半天,还是这种回答对零基础的人来说看得比较懂。