文件名称:WikiParser:快速的基于C ++的英语*解析器
文件大小:12.26MB
文件格式:ZIP
更新时间:2024-05-17 06:40:23
C++
Wiki Parser:英语*的高性能数据提取器 Wiki解析器是一种高性能的解析器,旨在使Wikipedia可以更容易地访问数据挖掘和文本分析。 *是用一种相当棘手的格式语言编写的,叫做 ; Wiki解析器将MediaWiki格式的Wikipedia页面转换为常规的人类可读文本和标准XML。 在XML输出中,每个Wikipedia页面都表示为一个抽象语法树(AST),该树保留页面结构(标题,第一段,各节及其标题)以及诸如链接,图像引用,信息框模板等元素。 尽管许多Wikipedia解析器,但Wiki Parser属于其自身性能类别。 它可以在现代计算机上大约2-3小时内将英语*的完整转储(截至2018年7月,未压缩为66 GB)解析为纯文本和XML,这比其他解析器快10-100倍。 速度优势主要是由于仅很少使用正则表达式的多线程C ++代码。 提供了64位Wind