t5-pegasus：中文生成式预训练模型下载

【文件属性】：

文件名称：t5-pegasus：中文生成式预训练模型

文件大小：418KB

文件格式：ZIP

更新时间：2024-03-23 11:16:35

Python

T5飞马中文生成式预训练模型，以mT5为基础架构和初始权重，通过类似PEGASUS的方式进行预训练。详情可见： ://kexue.fm/archives/8209 分词器我们将T5 PEGASUS的令牌生成器转换成BERT的令牌生成器，它对中文更友好。同时，我们重新排列一版词表，从而里边的字，词都更加完善，目前的vocab.txt共包含5万个token，真正覆盖了中文的常用字，词。预训练任务具体来说，假设一个文档有n个句子，我们从中挑出大约n / 4个句子（可以不连续），因此这n / 4个句子拼起来的文本，跟剩下的3n / 4个句子拼写的文本，更长公共子序列重置长，然后我们将3n / 4个句子拼写的文本视为标题，n / 4个句子拼起来的文本透视摘要，通过这样的方式构成一个“（Reuters，摘要）”的伪摘要数据对。模型下载目前开源的T5 PEGASUS是基本版，总参数量为2

立即下载

【文件预览】：
t5-pegasus-main
----csl-lcsts.png(285KB)
----finetune.py(6KB)
----few-shot.png(157KB)
----README.md(2KB)
----train.py(7KB)

秒客网

t5-pegasus：中文生成式预训练模型

网友评论

相关文章