stackexchange-parquet:用于将 StackExchange 网络数据转换为镶木地板格式的 Spark 作业

时间:2024-06-18 13:48:49
【文件属性】:

文件名称:stackexchange-parquet:用于将 StackExchange 网络数据转换为镶木地板格式的 Spark 作业

文件大小:11KB

文件格式:ZIP

更新时间:2024-06-18 13:48:49

Scala

Stack Exchange 实木复合地板转换 通过互联网档案馆定期发布的。 转储由对用户数据进行编码的 XML 文件组成。 该项目包含一个 Spark 作业,用于将数据转换为 parquet 文件,以便于后续处理。 目前仅转换了以下站点,但添加更多站点是微不足道的: travel.stackexchange.com diy.stackexchange.com security.stackexchange.com english.stackexchange.com *.com (这些是从最小到最大的数据集排序的。) 准备数据 spark 作业假定您已获取并解压完整的转储文件,将其解压缩并将文件上传到/stackexchange/目录中的 HDFS。 单个 XML 文件可能是 gzip 压缩的,也可能不是; 如果被压缩,则由于不可拆分,转换速度会较慢


【文件预览】:
stackexchange-parquet-master
----.gitignore(26B)
----project()
--------project.sbt(113B)
--------build.properties(19B)
----src()
--------main()
----README.md(2KB)
----build.sbt(2KB)

网友评论