chinese_chatbot_corpus:中文公开聊天语料库

时间:2024-05-25 22:59:17
【文件属性】:

文件名称:chinese_chatbot_corpus:中文公开聊天语料库

文件大小:72KB

文件格式:ZIP

更新时间:2024-05-25 22:59:17

Python

说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。 注意 以下所有语料都已经统一下载好,存在 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项


【文件预览】:
chinese_chatbot_corpus-master
----.gitignore(1KB)
----LICENSE(11KB)
----config.py(1KB)
----language()
--------__init__.py(0B)
--------zh_wiki.py(172KB)
--------langconv.py(8KB)
----util.py(1KB)
----readme.md(5KB)
----main.py(975B)
----process_pipelines()
--------subtitle.py(2KB)
--------__init__.py(0B)
--------chatterbot.py(1KB)
--------sms.py(28B)
--------douban.py(2KB)
--------tieba.py(871B)
--------xiaohuangji.py(1KB)
--------weibo.py(1KB)
--------qingyun.py(995B)
--------ptt.py(993B)

网友评论