文件名称:DSC字数与地图减少实验室NYC DS-060319
文件大小:1.15MB
文件格式:ZIP
更新时间:2024-03-12 02:46:02
JupyterNotebook
MapReduce的字数统计-实验 介绍 现在,我们已经了解了Spark中的键映射和reduce运算符,并且还知道何时使用转换和动作运算符,我们可以回顾一下本节前面介绍的字数统计问题。 在本实验中,我们将在Spark环境中阅读一个文本语料库,执行字数统计,并尝试基本的NLP思想以更好地掌握MapReduce的性能。 目标 在本实验中,您将: 将map(func)转换应用于不同分区中RDD的所有元素上的给定函数 对RDD的所有元素应用地图变换 比较RDD中转换和动作之间的区别 使用collect(),count()和take()操作触发火花转换 使用过滤器选择RDD中符合某些规范的数据 使用Spark和MapReduce框架完成完整的并行字数统计问题 MapReduce任务 这是我们的问题: 我们有一个巨大的文本文件 我们需要计算每个单词在文档中出现的次数 样例应用程序: 分析Web服
【文件预览】:
dsc-word-count-with-map-reduce-lab-nyc-ds-060319-master
----index.ipynb(16KB)
----.learn(87B)
----text()
--------prideandprejudice.txt(708KB)
--------hamlet.txt(187KB)
--------emma.txt(906KB)
--------senseandsensibility 2.txt(706KB)
--------romeoandjuliet.txt(152KB)
--------othello.txt(168KB)
----images()
--------word_count.png(129KB)
----CONTRIBUTING.md(2KB)
----LICENSE.md(1KB)
----README.md(12KB)
----.gitignore(64B)