article-dataset-builder:Open Access PDF收集器,元数据聚合器和全文输入

时间:2024-05-10 17:45:00
【文件属性】:

文件名称:article-dataset-builder:Open Access PDF收集器,元数据聚合器和全文输入

文件大小:686KB

文件格式:ZIP

更新时间:2024-05-10 17:45:00

pdf s3-storage harvester pdf2xml openaccess

开放获取PDF收割机和收料器 Python实用程序,用于有效地收集大型PDF(容错,可恢复,并行下载和提取)的大型Open Access集合,并将其转换为适合文本挖掘和信息检索应用程序的结构化XML。 当前支持的输入: 文件中的DOI列表,每行一个DOI 来自元数据csv输入文件,请参阅下面的CORD-19结果部分,以查看该工具具有比正式数据集更多的全文本和更好的数据质量的功能 文件中PMID的列表,每行一个DOI 文件中的PMC ID列表,每行一个DOI 收获是在合理使用之后进行的(这意味着它涵盖了不可再销售的商品),并且正在利用各种开放获取资源。 因此,收获应导致对全文的接近最佳的发现。 例如,从同一个CORD-19元数据文件中,该工具可以比CORD-19数据集中的可用全文收获多35.5%(140,322篇文章至少包含一个可用全文,而103,587篇文章至少具有一个可用全文)


【文件预览】:
article-dataset-builder-master
----nlm2tei.py(6KB)
----Readme.md(20KB)
----S3.py(3KB)
----notes-cord19.md(6KB)
----check_cord19_coverage.py(8KB)
----requirements.txt(58B)
----LICENSE(11KB)
----test()
--------pmcids.txt(55B)
--------metadata-sample.csv(13KB)
--------pmids.txt(61B)
--------dois.txt(199B)
----config.json(773B)
----data()
--------.gitkeep(0B)
----resources()
--------elsevier_covid_map_20_09_2020.csv.gz(646KB)
--------.gitkeep(0B)
--------build_elsevier_map.py(1KB)
----harvest.py(66KB)
----.gitignore(365B)

网友评论