文件名称:biographies:从*摘录的传记工具
文件大小:2.19MB
文件格式:ZIP
更新时间:2024-06-04 13:43:54
Java
*是人类历史上最大的百科全书数据集。 由于它的覆盖范围和以机器可读格式的可用性,它已成为历史和文化研究中大规模研究的主要资源。 在这项工作中,我们专注于描述人的页面子集,并研究从中识别人物传记部分的任务:给定一个人的页面,我们确定存在有关他/他的生活信息的部分列表。 我们将此模型建模为序列分类问题,并提出一个监督设置,在该设置中自动获取训练数据。 此外,我们显示仅从章节标题中提取的六个简单特征非常有用,并且在良好的基线之上也能产生良好的结果。 在这个GitHub项目中,您将找到用于运行实验的材料和源代码。 例如页面的培训/开发/测试集, 培训数据,分类结果和注释协议。 要编译项目的源代码,只需使用git克隆它,然后从外壳mvn package运行mvn package 。 该软件是根据GPLv3许可证发行的。
【文件预览】:
biographies-master
----.gitignore(64B)
----src()
--------bin()
--------main()
----material()
--------agreement.png(28KB)
--------dev-dataset-gold-ann1.csv(28KB)
--------crfsuite-test.txt(1.84MB)
--------test-dataset-gold-ann1.csv(137KB)
--------res-test.txt(154KB)
--------crfsuite-train.txt(13.45MB)
--------res-baseline.txt(154KB)
--------dev-dataset-gold-ann2.csv(28KB)
----pom.xml(4KB)
----README.md(1KB)