文件名称:pretrained-unilm-Chinese:中文版unilm预训练模型
文件大小:1.55MB
文件格式:ZIP
更新时间:2024-05-29 10:25:57
Python
Pretrained-Unilm-Chinese 中文版unilm预训练语言模型 Table of Contents Background 最近由于公司业务的需要,做了一些基于预训练seq2seq模型的文本生成式任务,研究了、、之后,发现unilm这风格的seq2seq非常优雅。但是作者只开源了英文版的预训练模型,在git上也没找到合适的中文版unilm的预训练模型以及预训练代码,于是自己写了一个tensorflow版本。本项中预训练基于tensorflow-gpu==1.14.0,后续的微调任务基于。 Pretrain Training Data 简体中文*数据,处理成一行一行句子对的形式。 Input Mask And Attention Mask 在一条数据中随机mask15%的token,被mask的token中80%用[MASK]表示,10%从vocab中随机选择一个tok
【文件预览】:
pretrained-unilm-Chinese-master
----pic()
--------image-20201123144313297.png(161KB)
--------image-20201119142146145.png(247KB)
--------image-20201126145937390.png(39KB)
--------image-20201126141922904.png(25KB)
--------image-20201029110703723.png(739KB)
--------image-20201126141626762.png(24KB)
--------image-20201126145730036.png(39KB)
--------image-20201126141822288.png(24KB)
--------image-20201118100107676.png(263KB)
--------image-20201126142013570.png(25KB)
----base()
--------optimization_google.py(8KB)
--------bert()
--------admw.py(7KB)
--------data_load.py(10KB)
--------lamb_optimizer_google.py(6KB)
--------run_pretraining_google.py(17KB)
----task()
--------task_web_qa.py(9KB)
--------task_seq2seq_autotitle_csl.py(6KB)
--------dataset()
--------task_summary.py(7KB)
----README.md(6KB)