arxiv-public-datasets:一组脚本，用于从与arXiv相关的资源中获取公共数据集下载

【文件属性】：

文件名称：arxiv-public-datasets:一组脚本，用于从与arXiv相关的资源中获取公共数据集

文件大小：71KB

文件格式：ZIP

更新时间：2024-05-23 08:22:55

Python

arXiv公共数据集该项目是向ICLR 2019研讨会提交的``图形和流形上的RLGM表示学习''的一部分。该手稿可在上找到。我们的主要目的是开发一套工具，以标准化和促进arXiv作为数据集的使用。由于许可和发行问题，我们的工作主要是一组脚本，这些脚本从各种公共数据源构建数据集。它还具有其他执行的清理，组织和聚合功能。该项目正在开发中，因为我们将尽力满足社区的需求。我们采用了，因此将以带标签的版本中的第一个数字表示主要版本。当前，该项目获取或生成：文章元数据-标题，作者字符串，类别，doi，摘要，提交者 PDF-可通过arXiv批量下载获得的所有PDF 纯文本-将PDF转换为UTF-8编码的纯文本引文图-仅arXiv ID之间的arXiv内引文图（从纯文本生成）作者字符串解析-将元数据作者字符串转换为名称，从属关系的标准化列表我们能够将该数据集的某些生成

立即下载

【文件预览】：
arxiv-public-datasets-master
----bin()
--------authorsplit.py(524B)
--------metadata.py(175B)
--------fulltext.py(2KB)
--------cocitations.py(770B)
--------pdfdownload.py(248B)
----arxiv_public_data()
--------tex2utf.py(8KB)
--------fixunicode.py(3KB)
--------pdfstamp.py(2KB)
--------authors.py(17KB)
--------regex_arxiv.py(6KB)
--------oai_metadata.py(9KB)
--------fulltext.py(9KB)
--------__init__.py(0B)
--------s3_bulk_download.py(13KB)
--------slice_pdfs.py(3KB)
--------config.py(2KB)
--------internal_citations.py(3KB)
--------embeddings()
----TODO(226B)
----LICENSE(1KB)
----setup.cfg(26B)
----analysis()
--------cocitation_category_feature.py(3KB)
--------regex_test.py(3KB)
--------kipf_welling_GCN()
--------__init__.py(0B)
--------classification.py(8KB)
--------.gitignore(38B)
--------find_graph_stats.py(6KB)
--------intra_citation.py(3KB)
----requirements.txt(108B)
----setup.py(1001B)
----.gitignore(1KB)
----config.json.example(59B)
----README.md(8KB)

秒客网

arxiv-public-datasets:一组脚本，用于从与arXiv相关的资源中获取公共数据集

网友评论

相关文章