biographies:从*摘录的传记工具下载

【文件属性】：

文件名称：biographies:从*摘录的传记工具

文件大小：2.19MB

文件格式：ZIP

更新时间：2024-06-04 13:43:54

Java

*是人类历史上最大的百科全书数据集。由于它的覆盖范围和以机器可读格式的可用性，它已成为历史和文化研究中大规模研究的主要资源。在这项工作中，我们专注于描述人的页面子集，并研究从中识别人物传记部分的任务：给定一个人的页面，我们确定存在有关他/他的生活信息的部分列表。我们将此模型建模为序列分类问题，并提出一个监督设置，在该设置中自动获取训练数据。此外，我们显示仅从章节标题中提取的六个简单特征非常有用，并且在良好的基线之上也能产生良好的结果。在这个GitHub项目中，您将找到用于运行实验的材料和源代码。例如页面的培训/开发/测试集，培训数据，分类结果和注释协议。要编译项目的源代码，只需使用git克隆它，然后从外壳mvn package运行mvn package 。该软件是根据GPLv3许可证发行的。

立即下载

【文件预览】：
biographies-master
----.gitignore(64B)
----src()
--------bin()
--------main()
----material()
--------agreement.png(28KB)
--------dev-dataset-gold-ann1.csv(28KB)
--------crfsuite-test.txt(1.84MB)
--------test-dataset-gold-ann1.csv(137KB)
--------res-test.txt(154KB)
--------crfsuite-train.txt(13.45MB)
--------res-baseline.txt(154KB)
--------dev-dataset-gold-ann2.csv(28KB)
----pom.xml(4KB)
----README.md(1KB)

秒客网

biographies:从*摘录的传记工具

网友评论

相关文章