mapreduce相关文章_第4页

hadoop之mapreduce详解（优化篇）
时间：2024-01-25 13:33:43
一、概述优化前我们需要知道hadoop适合干什么活，适合什么场景，在工作中，我们要知道业务是怎样的，能才结合平台资源达到最有...
MapReduce源代码分析MapTask分析
时间：2024-01-21 19:53:32
前言MapReduce该分析是基于源代码Hadoop1.2.1代码分析进行的基础上。该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是怎样处理map之后的collect输出的数据。map端的主要处理流程图1 MapTask处理流程图1所看到的为MapTask的主要...
Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据
时间：2024-01-21 11:43:10
Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据输入是GBK文件, 输出也是 GBK 文件的示例代码: Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8，如果文件编码格式是其它类型（如GBK)，则会...
一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)
时间：2024-01-21 10:33:53
上一篇我们学习了MapReduce的原理，今天我们使用代码来加深对MapReduce原理的理解。wordcount是Hadoop入门的经典例子，我们也不能免俗，也使...
用python写MapReduce函数——以WordCount为例
时间：2024-01-20 09:40:24
尽管Hadoop框架是用java写的，但是Hadoop程序不限于java，可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例，而不是用Jython把python代码转化成jar文件。例子的目的是统计输入文件的单词的词频。输入：文本文件输出：文本（每行包括单...
Python实现MapReduce,wordcount实例，MapReduce实现两表的Join
时间：2024-01-20 09:22:31
Python实现MapReduce下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序:from functools import reducefrom multiprocessing import Poolfrom collections import Counterdef ...
mapReduce编程之Recommender System
时间：2024-01-18 12:09:35
1 协同过滤算法协同过滤算法是现在推荐系统的一种常用算法。分为user-CF和item-CF。本文的电影推荐系统使用的是item-CF，主要是由于用户数远远大于电影数，构建矩阵的代价更小；另外，电影推荐系统中使用基于物品的推荐对用户来说更有说服力。因此本文对user-CF只做简单介绍，主要介绍ite...
Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
时间：2024-01-17 18:57:57
1. MapReduce - 映射、化简编程模型1.1 MapReduce 的概念1.1.1 map 和 reduce1.1.2 shufftle 和排序MapReduce 保证每个 reducer 的输入都已经按键排序。1.1.3 MapReduce 类型和输入输出MapReduce 中的 ma...
MapReduce输出文件名更改
时间：2024-01-15 09:14:41
1、默认情况下生成的文件名是part-r-00000格式，想要自定义生成输出文件名可以使用org.apache.hadoop.mapreduce.lib.output.MultipleOutputs类用来写出2、MultipleOutputs类需要在Reduce的setup()方法初始化，最好在cl...
Hadoop 系列文章(三) 配置部署启动YARN及在YARN上运行MapReduce程序
时间：2024-01-15 08:28:13
这篇文章里我们将用配置 YARN，在 YARN 上运行 MapReduce。1、修改 yarn-env.sh 环境变量里的 JAVA_HOME 路径[bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/yarn-env.shexport JAVA_H...
MapReduce编程入门实例之WordCount：分别在Eclipse和Hadoop集群上运行
时间：2024-01-15 08:15:36
上一篇博文如何在Eclipse下搭建Hadoop开发环境，今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序！1. 在Eclipse环境下运行MapReduce程序（WordCount程序）首先看一下我的项目结构和WordCount程序：其中word....
Hadoop YARN上运行MapReduce程序
时间：2024-01-15 07:59:45
（1）配置集群（a）配置hadoop-2.7.2/etc/hadoop/yarn-env.sh配置一下JAVA_HOMEexport JAVA_HOME=/home/hadoop/bigdatasoftware/jdk1.8.0_161（b）配置yarn-site.xml<!-- reduce...
基于MapReduce的贝叶斯网络算法研究参考文献
时间：2024-01-14 16:43:51
原文链接（系列）：http://blog.csdn.net/XuanZuoNuo/article/details/10472219论文：加速贝叶斯网络：Accelerating Bayesian NetworkParameter Learning.pdf概率论与信念传播：Axioms for pro...
搭建及修正Hadoop1.2.1 MapReduce Pipes C++开发环境
时间：2024-01-13 22:38:16
Hadoop目前人气超旺，返璞归真的KV理念让人们再一次换一个角度来冷静思考一些问题。但随着近些年来写C/C++的人越来越少，网上和官方WIKI的教程直接落地的成功率却不高，多少会碰到这样那样的问题。现在我就重新整理下搭建过程的一些细节，供同好者分享，也请多多指点。1，一些条件：VituralBox...
MongoDB中MapReduce介绍与使用
时间：2024-01-13 13:13:45
一、简介在用MongoDB查询返回的数据量很大的情况下，做一些比较复杂的统计和聚合操作做花费的时间很长的时候，可以用MongoDB中的MapReduce进行实现MapReduce是个非常灵活和强大的数据聚合工具。它的好处是可以把一个聚合任务分解为多个小的任务，分配到多服务器上并行处理。MongoDB...
MapReduce介绍
时间：2024-01-12 17:07:38
一、MapReduce模型1、MapReduce是大规模数据(TB级)计算的利器，Map和Reduce是它的主要思想，来源于函数式编程语言。2、Map负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现Map和Reduce两个接口，即可完成TB级数据的计算。3、常见的应用包括：日志分析和数...
初识分布式计算：从MapReduce到Yarn&Fuxi
时间：2024-01-10 20:55:32
这些年，云计算、大数据的发展如火如荼，从早期的以MapReduce为代表的基于文件系统的离线数据计算，到以Spark为代表的内存计算，以及以Storm为代表的实时计算，还有图计算等等。只要数据规模到了一定的程度，都需要依赖分布式计算来实时或者离线做出决策。虽然本人并未从事相关工作，但是了解一下还...
Python初次实现MapReduce——WordCount
时间：2024-01-10 20:38:31
前言Hadoop 本身是用 Java 开发的，所以之前的MapReduce代码小练都是由Java代码编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop 运行。本文用Python语言实现了词频统计功能，最后通过Hadoop Streaming使其运行在Had...
【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程
时间：2024-01-08 20:39:19
一、概要描述 shuffle是MapReduce的一个核心过程，因此没有在前面的MapReduce作业提交的过程中描述，而是单独拿出来比较详细的描述。根据官方的流程图示如下：本篇文章中只是想尝试从代码分析来说明在map端是如何将map的输出保存下来等待reduce来取。在执行每个map task...
使用MapReduce实现join操作
时间：2024-01-07 22:28:33
在关系型数据库中，要实现join操作是非常方便的，通过sql定义的join原语就可以实现。在hdfs存储的海量数据中，要实现join操作，可以通过HiveQL很方便地实现。不过HiveQL也是转化成MapReduce来完成操作，本文首先研究如何通过编写MapReduce程序来完成join操作。一...

1 2 3 4 5