文件名称:acl-anthology-network:“ ACL Anthology Network”语料库的后处理(aanrelease2013)
文件大小:7KB
文件格式:ZIP
更新时间:2024-06-01 04:14:53
Python
ACL Anthology Network衍生产品 aanrelease2013.tar.gz一团糟。 编码无处不在。 某些数据显然丢失或存在,但已损坏。 尚不清楚哪些文件是原始数据,哪些是从这些数据派生的统计信息。 看起来像它们应该是脚本输出的文件实际上是这些脚本的帮助消息。 许多papers_text/文件(从PDF提取的纯文本)存在以下问题: 由于不兼容的PDF编码(例如P00-1032 , W06-3709 ),其中一些显得乱七八糟 由于原始PDF中的OCR错误(从有问题的T75-2033到无法使用的J79-1013 ),其他文件在不同程度上都乱七八糟。 其他人不是英语(例如C73-2029 ) 其他包含完全不同的论文的文本(例如L08-1302 ) Makefile声明性地提供了有关问题和涉及的清理工作的一些文档。 该存储库不包含任何原始数据,仅包含有关如何修
【文件预览】:
acl-anthology-network-master
----print_id_author_title_venue_year.py(2KB)
----print_id_text.sh(419B)
----.gitignore(90B)
----Makefile(2KB)
----README.md(7KB)