self_dialogue_corpus:自我对话语料库-跨音乐,电影和体育的自我对话集合

时间:2024-02-24 12:28:12
【文件属性】:

文件名称:self_dialogue_corpus:自我对话语料库-跨音乐,电影和体育的自我对话集合

文件大小:9.25MB

文件格式:ZIP

更新时间:2024-02-24 12:28:12

nlp dialogue corpora NaturallanguageprocessingPython

自对话语料库 这是自对话语料库的早期版本,包含涉及23个主题的24,165个对话或3,653,313个单词。 有关数据的更多信息,请参见或。 统计 类别 计数 话题 23 对话内容 24,165 话 3,653,313 转弯 141,945 不重复使用者 2,717 每个用户的会话 〜9 唯一令牌 117,068 主题包括电影,音乐,体育和其中的子主题。 使用数据 corpus包含来自Amazon Mechanical Turk的原始CSV,按单个任务(主题)排序; blocked_workers.txt列出了不符合任务要求的工人,默认情况下将其省略; get_data.py


【文件预览】:
self_dialogue_corpus-master
----blocked_workers.txt(59B)
----LICENSE(1KB)
----get_data.py(6KB)
----corpus()
--------beatles()
--------harry_potter()
--------disney()
--------transition_music_movies()
--------music_and_movies()
--------thriller()
--------action()
--------fast_furious()
--------music()
--------rock()
--------nfl_football()
--------lady_gaga()
--------basketball()
--------horror()
--------comedy()
--------icehockey()
--------superhero()
--------baseball()
--------rap_hiphop()
--------pop()
--------movies()
--------star_wars()
--------fashion()
----README.md(2KB)

网友评论