edx-Introduction-to-Big-Data-with-Apache-Spark

时间:2024-06-08 07:45:38
【文件属性】:

文件名称:edx-Introduction-to-Big-Data-with-Apache-Spark

文件大小:108KB

文件格式:ZIP

更新时间:2024-06-08 07:45:38

Python

edx-Apache-Spark大数据简介 实验1:使用Spark的字数统计示例 本练习包括4个部分: 第1部分:创建基本RDD和配对RDD 第2部分:对RDD计数第3部分:寻找独特的单词和平均值第4部分:将字数应用于文件 实验2:使用Apache Spark进行Web服务器日志分析 本练习包括4个部分: 第1部分:Apache Web服务器日志文件格式第2部分:Web服务器日志文件上的样本分析第3部分:分析Web服务器日志文件第4部分:探索404响应代码 实验3:文本分析和实体解析 本练习包括5个部分和测验问题: 第1部分:作为文本相似性的ER-单词袋第2部分:作为文本相似性的ER-使用术语频率/文档反向频率的加权词袋第3部分:作为文本相似性的ER-余弦相似性第4部分:可扩展的ER 第5部分:分析(这是您单击并查看第4部分中的工作图的部分) 实验4:使用Apache Spark的电影


【文件预览】:
edx-Introduction-to-Big-Data-with-Apache-Spark-master
----.gitattributes(378B)
----lab0_student.py(6KB)
----lab2_apache_log_student.ipynb(50KB)
----lab4_machine_learning_student.ipynb(70KB)
----lab2_apache_log_student.py(40KB)
----lab3_text_analysis_and_entity_resolution_student.py(59KB)
----README.md(1KB)
----lab1_word_count_student.py(19KB)
----lab4_machine_learning_student.py(48KB)
----lab3_text_analysis_and_entity_resolution_student.ipynb(73KB)
----lab1_word_count_student.ipynb(27KB)
----.gitignore(574B)
----lab0_student.ipynb(8KB)

网友评论