Gossiping-Chinese-Corpus:PTT 八卦版问答中文语料

时间:2024-06-16 04:33:01
【文件属性】:

文件名称:Gossiping-Chinese-Corpus:PTT 八卦版问答中文语料

文件大小:133.63MB

文件格式:ZIP

更新时间:2024-06-16 04:33:01

chatbot dialog corpus dataset question-answering

PTT 中文语料 嗨,这里是PTT中文语料集,我透过将每篇文章化简为问答配对,其中问题来自文章的标题,而回覆是该篇文章的推文。可惜的是目前这份资料集的噪声还有点大,若您有更好的方法能提取出文章的问答配对,或发现这份资料集有什么能改进的部份,还请与我联系,也祝各位开发顺利:> 资料说明 资料集一共有两份,您可于或是从本专案的data资料夹里取得。 Gossiping-QA-Dataset.txt 搜集了PTT八卦版于2015年至2017年6月的文章,每一行都是一个问答配对,问与答之间以一个tab ( \t )区隔开,比如说 matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫 有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐 姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔 有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外 情人節


【文件预览】:
Gossiping-Chinese-Corpus-master
----data()
--------Gossiping-QA-Dataset.txt(32.5MB)
--------Gossiping-QA-Dataset-2_0.csv(58.51MB)
--------source_replies()
----LICENSE(11KB)
----Explore-Gossiping-Dataset.ipynb(43KB)
----.gitignore(9B)
----README.md(3KB)

网友评论