文件名称:KGPT:EMNLP2020论文“ KGPT的代码和数据
文件大小:1010KB
文件格式:ZIP
更新时间:2024-05-04 07:47:46
pre-training data-to-text Python
KGPT:知识基础的预培训 EMNLP2020论文代码和数据,本文提出了一种监督监督的预训练算法来训练一般的数据到文本体系结构:1)序列KGPT和2)图表KGPT。 这两个模型都可以应用于各种数据到文本的生成任务。 我们从Wikipedia检索了700万个不受监督的数据到文本数据,以预训练这一代并将其微调到下游任务上。 经过微调的模型可以在多个数据集上实现SOTA,并且在少拍设置下的改进尤其显着。 序列编码器: 图形编码器: 要求: 张量板 tqdm 下载预处理数据集 wget https://kgpt.s3-us-west-2.amazonaws.com/dataset.zip unzip dataset.zip 如果您想进行预培训,请也下载WikiData Graph。 wget https://kgpt.s3-us-west-2.amazonaws.com/preproces
【文件预览】:
KGPT-main
----sequence-encoder.png(105KB)
----preprocess()
--------create_db.py(1KB)
--------Database.py(2KB)
--------properties.json(76KB)
--------README.md(309B)
--------create_summarized.py(2KB)
----graph-encoder.png(159KB)
----scripts()
--------e2enlg()
--------wikibio()
--------webnlg()
--------wikidata()
----code()
--------run.py(27KB)
--------DataLoader.py(20KB)
--------template-gpt2.py(13KB)
--------Model.py(40KB)
--------preprocess.py(10KB)
----overview.png(168KB)
----LICENSE(1KB)
----README.md(5KB)
----GPT2_tokenizer()
--------special_tokens_map.json(96B)
--------vocab.json(878KB)
--------added_tokens.json(116B)
--------tokenizer_config.json(26B)
--------knowledge_config.json(276B)
--------merges.txt(446KB)