文件名称:polish-roberta:RoBERTa波兰语模型
文件大小:27KB
文件格式:ZIP
更新时间:2024-05-24 06:35:00
bert polish-language roberta Python
波兰RoBERTa 该存储库包含针对波兰语的经过预训练的模型,以及针对几种波兰语语言任务的评估代码。 使用波兰华沙国家信息处理研究所的对发布的模型进行了训练。 我们提供了两种基于BERT基本架构和BERT大型架构的模型。 每个模型都有两个版本:一个用于 ,一个用于 。 21.03.2021-我们发布了基本模型的新版本。 更新的模型已在与原始模型相同的语料库上进行了训练,但是我们使用了不同的超参数。 我们进行了以下更改:1)使用Sentencepiece Unigram模型代替BPE,2)使用全字掩蔽目标而不是经典标记掩蔽对模型进行训练,3)我们利用512个标记的全部上下文,因此训练示例可以包括超过一个句子(原始模型仅在单只百姓身上接受过训练),4)更长的预训练(40万步)。 模型 L / H / A * 批量大小 更新步骤 语料库大小 KLEJ分数** Fairseq 变形金刚
【文件预览】:
polish-roberta-master
----train()
--------evaluator.py(5KB)
--------__init__.py(0B)
--------trainer.py(6KB)
--------bart.py(825B)
----run_tasks.py(4KB)
----run_server.py(2KB)
----LICENSE(7KB)
----requirements.txt(55B)
----preprocess()
--------processor.py(6KB)
--------spm_encode.py(2KB)
--------__init__.py(0B)
----.gitignore(389B)
----tasks.py(26KB)
----README.md(11KB)
----utils()
--------table.py(3KB)
--------__init__.py(0B)
--------export_klej_results.py(4KB)
--------normalizer.py(2KB)
--------reduce_checkpoint_size.py(365B)
--------show_results.py(2KB)
----download_data.py(4KB)