CDial-GPT:大规模中文短文本对话数据集和中文预训练对话模型

时间:2024-04-07 07:04:03
【文件属性】:

文件名称:CDial-GPT:大规模中文短文本对话数据集和中文预训练对话模型

文件大小:715KB

文件格式:ZIP

更新时间:2024-04-07 07:04:03

dialogue text-generation pytorch gpt gpt-2

CDial GPT 本项目提供了一个大规模中文对话数据集,并提供了在此数据集上的中文对话预训练模型(中文GPT模型),更多信息可参考我们的。 本项目代码修改自 ,使用了HuggingFace Pytorch版的库,可用于预训练与微调。 目录 消息 2021-02-28:一个,欢迎大家提bug和加速优化算法,以及新的清洗功能等等。 2021-01-09:实验室出版新书 ,欢迎大家阅读购买。 2020-11-20:预训练模型新工作 。本工作将词级的语言学知识(包括词性和词的情感极性)。表示模型SentiLARE,欢迎大家使用。 2020-10-18:我们的论文《大规模中文短文本对话数据集》获得了NLPCC2020最佳学生论文奖。 :party_popper: :party_popper: :party_popper: 2020-09-08:感谢所提供的。 2020-09-02:可用加载,感谢苏剑林提供代码。 我们所提供的数据集LCCC(大规模汉语清洁会话


【文件预览】:
CDial-GPT-master
----figures()
--------inputs.png(6KB)
----train.py(13KB)
----contrib()
--------__init__.py(0B)
--------README.md(244B)
--------dash_app()
----infer.py(7KB)
----requirements.txt(104B)
----config()
--------cgpt()
--------bert()
----LICENSE(1KB)
----README.md(31KB)
----od()
--------utils()
--------inputters()
----data()
--------toy_train.txt(786KB)
--------toy_data.json(272KB)
--------toy_valid.txt(159KB)
----.gitignore(69B)
----interact.py(7KB)

网友评论