文件名称:labse:与语言无关的BERT句子嵌入(LaBSE)
文件大小:2KB
文件格式:ZIP
更新时间:2024-05-13 01:12:45
Python
与语言无关的BERT句子嵌入(LaBSE) 将原始的tfhub权重转换为BERT格式。 LaBSE 论文: : TFHUB: ://tfhub.dev/google/LaBSE/1 原始介绍: 我们采用多语言BERT来为109种语言生成与语言无关的句子嵌入。 众多单语言和多语言NLP任务的最新技术是屏蔽语言模型(MLM)预培训,然后进行任务特定的微调。 尽管通过微调预训练的BERT模型已经获得了英语句子嵌入,但是这种模型尚未应用于多语言句子嵌入。 我们的模型将屏蔽语言模型(MLM)和翻译语言模型(TLM)的预训练与使用双向双重编码器的翻译排名任务结合在一起。 最终的多语言句子嵌入将112种语言的平均双文本检索准确度提高到83.7%,远高于现有技术在Tatoeba上所达到的65.5%。 我们的句子嵌入还建立了关于BUCC和联合国双文本检索的最新技术成果。 下载 转换后的权重可以
【文件预览】:
labse-master
----convert.py(2KB)
----README.md(2KB)