SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat

时间:2024-07-15 06:06:28
【文件属性】:

文件名称:SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat

文件大小:11KB

文件格式:ZIP

更新时间:2024-07-15 06:06:28

Java

Apache Hive 的 InputFormat,在查询 SequenceFiles 时将返回 (Text) 键和 (Text) 值。 我需要在不拆分内容的情况下完整解析大量文本文件。 HDFS 在处理大型连续文件时提供最佳吞吐量,因此我使用 Apache Mahout 将充满文本文件的目录转换为 SequenceFiles,以文件名作为键,内容作为值。 将默认的 SequenceFileInputFormat 与 Hive 一起使用时,Hive 仅提供值,而不提供键。 我需要访问文件名,所以我编写了 SequenceFileKeyValueInputFormat。 警告:Hive 使用 Ctrl+A 字符(“\001”)来识别单独的列。 RecordReader 的这个实现将用“\000”替换所有“\001”。 如果您的 SequenceFile 在其键或值中包含 Ctrl+A


【文件预览】:
SequenceFileKeyValueInputFormat-master
----.gitignore(26B)
----src()
--------main()
----LICENSE(11KB)
----pom.xml(2KB)
----README.md(963B)
----example()
--------data()
--------test.hql(604B)
--------identity.py(125B)

网友评论