mr_python:用于 Crossbow 预处理阶段的 python MR 脚本

时间:2024-07-29 20:27:14
【文件属性】:

文件名称:mr_python:用于 Crossbow 预处理阶段的 python MR 脚本

文件大小:7KB

文件格式:ZIP

更新时间:2024-07-29 20:27:14

Python

介绍 下面的这些脚本是用Python编写的,用于替换Crossbow的预处理阶段的 Perl 脚本。 提供的Python脚本采用 MR 风格,这意味着与 Crossbow 的并行性较差的Perl脚本相比,它们以大规模并行方式执行。 大规模并行的代价是FASTQ数据的要求是: BZIP2存档,因为bzip2提供了可拆分的存档格式,但任何其他格式,如可拆分的LZO也可以使用。 Hadoop通过类似的sshfs访问FASTQ数据。 mapper.py 读取每个 Hadoop 数据节点上的FASTQ块,定位标题行,并将 4 行格式转换为单行格式,由FASTQ块中的第 1、第 2 和第 4 行组成。 转换后的FASTQ标头是一个HASH1 'ed 字母数字,对于每个读取对 + 前面的“@”符号都是HASH1的。 最后添加".1"或".2" ,以便能够在以下代码中识别此读取。 reducer.p


【文件预览】:
mr_python-master
----settings.yaml(342B)
----README.md(4KB)
----reducer.py(672B)
----crossbowPairedEnds.yaml(7KB)
----mapper.py(964B)
----crossbowSingleEnds.yaml(5KB)

网友评论