vietnamese-electra:使用越南语料库的Electra预训练模型

时间:2024-05-04 09:56:13
【文件属性】:

文件名称:vietnamese-electra:使用越南语料库的Electra预训练模型

文件大小:124.84MB

文件格式:ZIP

更新时间:2024-05-04 09:56:13

natural-language-processing deep-learning vietnamese transformer language-model

使用越南语料库的Electra预训练模型 概述 是一种用于自我监督的语言表示学习的新方法。 该存储库包含在大型越南语料库(约50GB文本)中经过训练的Electra小模型(tensorflow 2.1.0)。 根据: 受到生成对抗网络(GAN)的启发,ELECTRA训练模型以区分“真实”和“伪造”输入数据。 我们的方法不是通过在BERT中用“ [MASK]”替换令牌来破坏输入,而是通过用不正确但有些合理的伪造品替换一些输入令牌来破坏输入。 例如,在下图中,单词“ cooked”可以替换为“ ate”。 尽管这有点道理,但它并不适合整个上下文。 预训练任务需要模型(即鉴别器)来确定原始输入中的哪些标记已被替换或保持不变。 所有语料库都使用。 要正确使用此训练模型,请先安装coccoc-tokenizer lib。 使用conda准备环境 # Create new env conda c


【文件预览】:
vietnamese-electra-master
----electra.png(28KB)
----electra_model_tf2.py(6KB)
----model_pretrained()
--------config_files()
--------dis()
--------gen()
--------.DS_Store(6KB)
--------raw_model()
----requirements.txt(71B)
----gen_dis_explorer.ipynb(10KB)
----vocab()
--------vocab.json(1.08MB)
--------merges.txt(675KB)
----.gitignore(4KB)
----README.md(4KB)
----convert_tf2.py(4KB)

网友评论