poliglot:用于解析语料库和标签集等语言资源的 Scala 库

时间:2024-07-13 21:29:02
【文件属性】:

文件名称:poliglot:用于解析语料库和标签集等语言资源的 Scala 库

文件大小:31KB

文件格式:ZIP

更新时间:2024-07-13 21:29:02

Scala

政治家 Poliglot 是一个 Scala 库,用于解析通用语言资源,例如语料库和标签集。 它的创建是为了方便使用双语语料库。 目前,它具有以下语言支持: 德语: 波兰语: 、 TCP 绑定 特定于语言的标记集被转换为基于类的通用层次结构。 语料库创建与分析 Poliglot 还提供了以下用于创建双语语料库和分析注释的工具: AnalyseAdpositions 分析副词的语义。 AnalyseCorpus 打印双语语料库的统计信息。 AnnotateSentences 从形态句法上注释选定的句子。 为了实现标记化的一致性,德语句子由 concraft-pl 标记化。 带注释的对齐方式被写入alignments-import.xml 。 然后可以使用将此转储导入到现有数据库 ( alignments.xml ) 中。 DeriveAlignments 训练对齐实体的模型。 E


【文件预览】:
poliglot-master
----.gitignore(260B)
----project()
--------Build.scala(623B)
----src()
--------main()
----README.md(2KB)

网友评论