文件名称:simalign:使用预训练的语言模型(例如,mBERT)获得单词对齐
文件大小:51KB
文件格式:ZIP
更新时间:2024-05-13 03:26:32
Python
SimAlign:基于相似度的单词对齐器 SimAlign是一种高质量的单词对齐工具,它使用静态和上下文化的嵌入,并且不需要并行训练数据。 下表显示了它与流行的统计对齐模型的比较: 消费电子展 ENG-DEU 英文 英文 英轩 英伦 快速对齐 .78 .71 .46 .84 .38 .68 股骨的 .85 .77 .63 .93 .52 .72 mBERT-精氨酸 .87 .81 .67 .94 .55 .65 显示的是F1,子词和词级别的最大值。 有关更多详细信息,请参见。 安装及使用 已在Python 3.7,Transformers 3.1.0,Torch 1.5.0中进行了测试。 Networkx 2.4是可选的(仅匹配算法需要)。 有关依赖项的完整列表,请参见setup.py 。 有关安装变压器的信息,请参见其。 下载回购协议以供使用
【文件预览】:
simalign-master
----setup.py(676B)
----requirements.txt(1B)
----assets()
--------example.png(40KB)
----LICENSE(1KB)
----examples()
--------visualize.py(4KB)
--------align_example.py(303B)
--------align_files.py(9KB)
----README.md(5KB)
----simalign()
--------__init__.py(55B)
--------utils.py(600B)
--------simalign.py(9KB)