文件名称:黑白棋java源码-dsc-word-count-with-map-reduce-lab:dsc-word-count-with-map-re
文件大小:1.15MB
文件格式:ZIP
更新时间:2024-07-08 18:31:01
系统开源
黑白棋java源码使用 MapReduce 进行字数统计 - 实验室 介绍 现在我们已经看到了 Spark 中的 key map 和 reduce 操作符,也知道什么时候使用转换操作符和 action 操作符,我们可以重新讨论我们在本节前面介绍的字数问题。 在本实验中,我们将在 Spark 环境中读取文本语料库,执行字数统计,并尝试使用基本的 NLP 思想来很好地掌握 MapReduce 的执行方式。 目标 在本实验中,您将: 将 map(func) 转换应用于不同分区中 RDD 的所有元素上的给定函数 对 RDD 的所有元素应用映射转换 比较 RDD 中的转换和操作之间的差异 使用 collect()、count() 和 take() 动作触发火花转换 使用过滤器选择符合 RDD 中特定规范的数据 使用Spark和MapReduce框架完成一个全并行字数统计问题 MapReduce 任务 这是我们的问题: 我们有一个巨大的文本文件 我们需要计算每个不同单词在文档中出现的次数 示例应用: 分析 Web 服务器日志以查找流行的 URL 分析文本的内容或样式 字数 我们将说明 MapRed
【文件预览】:
dsc-word-count-with-map-reduce-lab-master
----index.ipynb(16KB)
----.learn(87B)
----text()
--------prideandprejudice.txt(708KB)
--------hamlet.txt(187KB)
--------emma.txt(906KB)
--------senseandsensibility 2.txt(706KB)
--------romeoandjuliet.txt(152KB)
--------othello.txt(168KB)
----images()
--------word_count.png(129KB)
----CONTRIBUTING.md(2KB)
----LICENSE.md(1KB)
----README.md(12KB)
----.gitignore(64B)