用于统计机器翻译的英博平行语料库的构建-研究论文

时间:2024-06-30 05:06:21
【文件属性】:

文件名称:用于统计机器翻译的英博平行语料库的构建-研究论文

文件大小:865KB

文件格式:PDF

更新时间:2024-06-30 05:06:21

Bodo Language Corpus

语料库是一种以机器可读形式存在的特定自然语言的同类和真实书面文本(或语音)的大型集合。 语料库的范围在计算语言学和自然语言处理 (NLP) 中是无穷无尽的。 并行语料库对于 NLP 的大多数应用来说是非常有用的资源,尤其是对于统计机器翻译 (SMT)。 SMT 是当今最流行的机器翻译 (MT) 方法,它可以基于源语言和目标语言中大量对齐的平行文本语料库产生高质量的翻译结果。 虽然博多语是印度公认的自然语言和阿萨姆邦的共同官方语言,但博多语的机器可读信息仍然很低。 因此,为了扩展语言的计算机化信息,开发了English to Bodo SMT系统。 但本文主要侧重于构建English-Bodo 平行文本语料库,以使用Phrase-Based SMT 方法实现English to Bodo SMT 系统。 我们设计了一个 E-BPTC(English-Bodo Parallel Text Corpus)创建工具,并构建了 General 和 Newspaper 域 English-Bodo 平行文本语料库。 最后,在 SMT 系统中使用两种评估技术对构建的平行文本语料库的质量进行了测试。


网友评论