alignment:用于存储项目“自动对齐密切相关语言的词典”的存储库

时间:2024-06-23 14:27:28
【文件属性】:

文件名称:alignment:用于存储项目“自动对齐密切相关语言的词典”的存储库

文件大小:567KB

文件格式:ZIP

更新时间:2024-06-23 14:27:28

Python

结盟 用于存储“密切相关语言的字典自动对齐”项目的存储库。 请参阅论文 (Automatic_alignment.pdf) 中的更多信息。 对齐文件 在alignment.py 脚本中,我们遍历哈萨克语和鞑靼语的词条,并使用Levenshtein 距离搜索彼此最接近的字符串,该距离在levenshtein.py 脚本中计算 莱文斯坦.py 此处计算 Levenshtein 距离。 它的各种修改被相互覆盖,因此只有最后一个幸存下来。 但其余的都不是特别感兴趣的,并且很容易从作品的文本中恢复。 过渡.py 在这里,从一个符号到另一个符号的转换频率是根据在之前 Levenshtein 修改期间获得并记录在 Levenshtein_pairs.txt 中的列表来计算的。 read_scores.py 在这里,我们使用alignment.py 的结果遍历文件并使其更具可读性。 这个脚本的结果是


【文件预览】:
alignment-master
----extract_words.py(688B)
----alignment.py(1KB)
----vector_models.py(2KB)
----kz_lemmas.txt(182KB)
----levenshtein.py(928B)
----tt_lemmas.txt(307KB)
----.idea()
--------scopes()
--------misc.xml(1KB)
--------vcs.xml(180B)
--------.name(9B)
--------modules.xml(270B)
--------alignment.iml(284B)
--------encodings.xml(164B)
--------workspace.xml(12KB)
----Automatic_alignment.pdf(416KB)
----read_scores.py(919B)
----transition.py(1KB)
----README.md(3KB)

网友评论