Wiki-Extractor:从Wikipedia数据库转储中提取纯文本的命令行工具

时间:2024-03-18 01:31:20
【文件属性】:

文件名称:Wiki-Extractor:从Wikipedia数据库转储中提取纯文本的命令行工具

文件大小:20KB

文件格式:ZIP

更新时间:2024-03-18 01:31:20

wikipedia wikipedia-dump wikipedia-corpus Python

维基提取器 是用于从给定的Wikipedia数据库转储中提取纯文本的命令行工具。 它处理数据库转储中包含的原始Wikipedia文档,并生成一系列包含相同文档但清除了Wiki语法标记的文本文件。 这些文件可由需要大量纯文本格式的高质量文档的任何后续处理使用。 执照 此代码是根据。 学分 (与Yahoo! Research合作)针对一项创新技术进行了研究,以构建基于语义关系的问题回答系统,该工具于2007年实施。 从这种实现开始,多年来已经开发了许多其他版本的通行费。 将重要的进展合并到此存储库中将是非常好的。 就我而言,在空闲时间,我将尽力而为,并感谢您的贡献,以恢复这一有用且美观的工具的发展。


【文件预览】:
wiki-extractor-main
----wiki-extractor.py(28KB)
----LICENSE(34KB)
----README.md(1KB)

网友评论