文件名称:SAWD-maker:句法注释的Wikipedia转储的源代码
文件大小:21KB
文件格式:ZIP
更新时间:2024-05-20 17:23:25
Java
句法注释的Wikipedia转储工具 语法注释的Wikipedia转储(SAWD)工具是一种Java实现,用于从包含Wikipedia原始文本的一组文件夹中创建语法分析。 可以使用G.Attardi WikiExtractor Python脚本获得此文本。 目前,该解析仅适用于英语(我们正在解析其他语言)。 它使用CoreNLP工具套件。 该程序的输入是的输出所在的文件夹。 通常,它是许多名为AA , AB , AC等的文件夹,其中包含干净的Wikipedia文本(干净表示没有表,没有图像,没有标记等)。 依存关系: 它们都包含在Maven pom.xml文件中,因此您只需要使自己的编程框架下载它们即可(当然也可以使用mvn)。 尽管如此,仍需要斯坦福Shift-Reduce解析器。 您可以从官方网站。 选择可用软件包的选项2(我们使用stanford-srparser-2014-1
【文件预览】:
SAWD-maker-master
----SAWD-maker.iml(2KB)
----src()
--------main()
----target()
--------MANIFEST.MF(85B)
--------maven-status()
--------target.iml(427B)
--------maven-archiver()
----LICENSE(18KB)
----README.md(2KB)
----pom.xml(3KB)
----.gitignore(195B)