文件名称:ubuntu-corpus:Ubuntu 对话语料库
文件大小:6KB
文件格式:ZIP
更新时间:2024-08-07 01:05:43
Python
描述 此存储库包含用于提取以下论文中使用的对话框的源代码: Ubuntu 对话语料库:用于研究非结构化多轮对话系统的大型数据集 。 依赖关系 PostgreSQL 附魔 PyPy(pyenchant,psycopg2) NodeJS(蓝鸟、knex、mkdirp) 创建数据库 psql -d template1 > create database ubuntu; 处理语料库(~5 分钟) # ln -s /path/to/ubuntu/corpus data # node createTable.js # pypy main.py 这会生成一个文件ubuntu.sql 将语料库加载到 postgres(~5 分钟) # psql -d ubuntu > copy messages from '/tmp/ubuntu.sql'; 添加索引(~20 分钟) # node c
【文件预览】:
ubuntu-corpus-master
----extractDialogs.js(4KB)
----main.py(3KB)
----createTable.js(1KB)
----irclogparser.py(4KB)
----README.md(837B)
----.gitignore(105B)