文件名称:qe-clean:受质量估计启发的并行数据清理
文件大小:48KB
文件格式:ZIP
更新时间:2024-06-21 10:03:57
Python
注意:自 qe-clean 开发以来,cdec 中的一些工具已经发生了变化。 使用以下内容确保您拥有 qe-clean 期望的 cdec 版本: git clone https://github.com/redpony/cdec.git cdec-old cd cdec-old git reset --hard bf10ad9d1d3a17ae82804f947616db89f41d4f28 qe-clean qe-clean 使用受机器翻译质量评估启发的数据清理技术。 代码:迈克尔·登科夫斯基 版权所有:卡内基梅隆大学 qe-clean 是在 GNU LGPL 许可下发布的。 所需的 cdec 工具包是在 Apache 许可下发布的。 请参阅包含的 COPYING 文件。 结果: WMT 2013 俄文-英文数据: 新闻评论(干净):149k 句 常见爬行(嘈杂):878k
【文件预览】:
qe-clean-master
----tools()
--------pipecut.py(336B)
--------align.py(2KB)
--------select.py(704B)
--------__init__.py(42B)
----qe-clean.py(14KB)
----README.md(4KB)
----files()
--------scores-plot.png(31KB)
----COPYING(42KB)