文件名称:java8集合源码-VT_Fall18_CS4984-CS5984:CS4984/CS5984课程资源,Fall18,弗吉尼亚理工大学
文件大小:69KB
文件格式:ZIP
更新时间:2024-06-24 10:49:12
系统开源
java8集合源码使用 ArchiveSpark 处理 Web 存档 关于 ArchiveSpark 课程 CS4984/CS5984:大数据文本摘要,2018 年秋季,弗吉尼亚理工大学的补充信息。 您将了解的内容:Github、Docker、Zeppelin、ArchiveSpark、Spark。 描述 ArchiveSpark 作为 Web 存档数据提取项目管道中的第一个(不限于)组件。 在本教程中,您将学习为 ArchiveSpark 部署测试环境、在本地测试代码并在 DLRL 集群上执行代码。 您还将找到有关 Spark 编程和使用 Spark 进行 NLP 处理的更多信息。 问题和问题 如果您遇到任何问题或问题,请先查看相关文档。 更多问题,您可以在此 GitHub 页面中创建问题: 目录 档案火花 “一个 Apache Spark 框架,用于轻松处理、提取和派生档案集合。” - 赫尔格霍 在本课程中,我们将利用 ArchiveSpark 处理我们的网络档案馆藏。 我们可以通过多种方式利用 ArchiveSpark 的强大功能:内容提取、字数统计、聚类 (LDA) 等。 在以
【文件预览】:
VT_Fall18_CS4984-CS5984-master
----sample_scripts()
--------ArchiveSpark_HtmlText_extraction.scala(2KB)
--------ArchiveSpark_sentence_extraction.scala(3KB)
----sample_notebooks()
--------SampleCode_PySpark.json(166KB)
--------ArchiveSpark_HtmlText_extraction.json(30KB)
----ReadMe.markdown(10KB)
----doc()
--------img_2.png(5KB)
--------img_1.png(25KB)