文件名称:arxiv-public-datasets:一组脚本,用于从与arXiv相关的资源中获取公共数据集
文件大小:71KB
文件格式:ZIP
更新时间:2024-05-23 08:22:55
Python
arXiv公共数据集 该项目是向ICLR 2019研讨会提交的``图形和流形上的RLGM表示学习''的一部分。 该手稿可在上找到。 我们的主要目的是开发一套工具,以标准化和促进arXiv作为数据集的使用。 由于许可和发行问题,我们的工作主要是一组脚本,这些脚本从各种公共数据源构建数据集。 它还具有其他执行的清理,组织和聚合功能。 该项目正在开发中,因为我们将尽力满足社区的需求。 我们采用了 ,因此将以带标签的版本中的第一个数字表示主要版本。 当前,该项目获取或生成: 文章元数据-标题,作者字符串,类别,doi,摘要,提交者 PDF-可通过arXiv批量下载获得的所有PDF 纯文本-将PDF转换为UTF-8编码的纯文本 引文图-仅arXiv ID之间的arXiv内引文图(从纯文本生成) 作者字符串解析-将元数据作者字符串转换为名称,从属关系的标准化列表 我们能够将该数据集的某些生成
【文件预览】:
arxiv-public-datasets-master
----bin()
--------authorsplit.py(524B)
--------metadata.py(175B)
--------fulltext.py(2KB)
--------cocitations.py(770B)
--------pdfdownload.py(248B)
----arxiv_public_data()
--------tex2utf.py(8KB)
--------fixunicode.py(3KB)
--------pdfstamp.py(2KB)
--------authors.py(17KB)
--------regex_arxiv.py(6KB)
--------oai_metadata.py(9KB)
--------fulltext.py(9KB)
--------__init__.py(0B)
--------s3_bulk_download.py(13KB)
--------slice_pdfs.py(3KB)
--------config.py(2KB)
--------internal_citations.py(3KB)
--------embeddings()
----TODO(226B)
----LICENSE(1KB)
----setup.cfg(26B)
----analysis()
--------cocitation_category_feature.py(3KB)
--------regex_test.py(3KB)
--------kipf_welling_GCN()
--------__init__.py(0B)
--------classification.py(8KB)
--------.gitignore(38B)
--------find_graph_stats.py(6KB)
--------intra_citation.py(3KB)
----requirements.txt(108B)
----setup.py(1001B)
----.gitignore(1KB)
----config.json.example(59B)
----README.md(8KB)