SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat下载

【文件属性】：

文件名称：SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat

文件大小：11KB

文件格式：ZIP

更新时间：2024-07-15 06:06:28

Java

Apache Hive 的 InputFormat，在查询 SequenceFiles 时将返回 (Text) 键和 (Text) 值。我需要在不拆分内容的情况下完整解析大量文本文件。 HDFS 在处理大型连续文件时提供最佳吞吐量，因此我使用 Apache Mahout 将充满文本文件的目录转换为 SequenceFiles，以文件名作为键，内容作为值。将默认的 SequenceFileInputFormat 与 Hive 一起使用时，Hive 仅提供值，而不提供键。我需要访问文件名，所以我编写了 SequenceFileKeyValueInputFormat。警告：Hive 使用 Ctrl+A 字符（“\001”）来识别单独的列。 RecordReader 的这个实现将用“\000”替换所有“\001”。如果您的 SequenceFile 在其键或值中包含 Ctrl+A

立即下载

【文件预览】：
SequenceFileKeyValueInputFormat-master
----.gitignore(26B)
----src()
--------main()
----LICENSE(11KB)
----pom.xml(2KB)
----README.md(963B)
----example()
--------data()
--------test.hql(604B)
--------identity.py(125B)

秒客网

SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat

网友评论

相关文章