ISATabParser:ISA-Tab 数据格式的 Tika 解析器

时间:2024-06-25 04:32:38
【文件属性】:

文件名称:ISATabParser:ISA-Tab 数据格式的 Tika 解析器

文件大小:64.94MB

文件格式:ZIP

更新时间:2024-06-25 04:32:38

Java

ISAtab解析器 这是为 Tika 添加解析 ISA-Tab 数据格式的能力的初步工作。 ISA-Tab 文件与相关。 这项工作旨在提供以下功能: 基于全局模式和头值模式匹配的检测。 每个 ISA-Tab 文件类型一个 Tika 解析器(三个解析器:调查、研究、分析) 调查解析器仅获取元数据。 由于 ISA-Tab 文件是自上而下组织的,我正在努力扩展它,以便从调查开始解析相关文件(研究和分析文件)。 Study 和 Assay 解析器依靠 Apache Commons CSV 来执行解析,因为研究和分析文件都是按行组织的,它们本质上是使用制表符作为分隔符的 CSV 文件。 下一步是什么 最重要的改进是细化这三个解析器并将它们组合起来,以便尽可能好地解析 ISArchive。 另一个改进是在 XHTML 结构上更好地映射研究和分析数据。 TIKA-1580 已在 Tika 问


【文件预览】:
ISATabParser-master
----build.sh(670B)
----BII-I-1()
--------s_BII-S-2.txt(6KB)
--------a_transcriptome.txt(18KB)
--------a_proteome.txt(6KB)
--------a_microarray.txt(8KB)
--------a_metabolome.txt(42KB)
--------s_BII-S-1.txt(41KB)
--------i_investigation.txt(23KB)
--------a_bii-s-2_metabolite profiling_NMR spectroscopy.txt(8KB)
----src()
--------TestISATabAssay.java(1KB)
--------TestISATabStudy.java(1KB)
--------TestISATabInvestigation.java(2KB)
--------org()
----lib()
--------tika-app-1.8-SNAPSHOT.jar(42.98MB)
--------commons-csv-1.1.jar(36KB)
--------junit-4.12.jar(308KB)
--------tika-app-1.7.jar(29.59MB)
----run.sh(1KB)
----LICENSE(11KB)
----test()
--------test-documents()
----README.md(1KB)
----.gitignore(629B)

网友评论