kor_pretrain_LM:https

时间:2024-05-12 15:31:40
【文件属性】:

文件名称:kor_pretrain_LM:https

文件大小:36.04MB

文件格式:ZIP

更新时间:2024-05-12 15:31:40

Python

预先训练的朝鲜语语言模型 为了开发NLP,我们发布了经过Hangul Corpus预训练的语言模型。 训练前模型下载 V2模型的max_seq_length为384。 使用V2模型时,请将配置中的max_position_embeddings更改为384。 在大型模型的情况下,没有高端机器就很难进行微调,因为即使在微调步骤中也需要大量的计算资源。 因此,还发布了已进行基准测试的三个任务(KorQuAD1.0,KorNLI,KorSTS)的微调模型。 精调模型下载 V1 V2 训练前语料库 小:韩国* V1:韩文Wikipedia +新闻(88M句) V2:韩文Wikipedia +新闻(1.74亿个句子) 型号细节 遮罩策略:动态遮罩( RoBERTa )+ n-gram遮罩( ALBERT ) 附加任务:SOP(句子顺序预测)( ALBERT ) 优化器


【文件预览】:
kor_pretrain_LM-master
----.gitignore(2KB)
----requirements.txt(106B)
----src()
--------eval_qa.py(9KB)
--------data()
--------models()
--------run_classifier.py(17KB)
--------debug()
--------utils()
--------eval_classifier.py(7KB)
--------run_qa.py(15KB)
----LICENSE(11KB)
----README.md(9KB)
----img()
--------enai_logo.png(10KB)

网友评论