infoboxer:*信息提取库

时间:2024-06-17 16:46:20
【文件属性】:

文件名称:infoboxer:*信息提取库

文件大小:12.97MB

文件格式:ZIP

更新时间:2024-06-17 16:46:20

mediawiki wikipedia data-extraction Ruby

信息拳击手 Infoboxer是纯Ruby Wikipedia(和通用MediaWiki)的客户端和解析器,用于信息提取(因此得名)。 在以下任务中可能很有用: 获得文章的纯文本摘要(第一个标题之前的段落); 从页面的信息框中获取结构化数据变量; 列出页面的部分并计算其中的段落,图像和表格; 将一些巨大的“比较表”转换为数据; 还有更多! 整个想法是:您可以将任何Wikipedia页面作为具有明显结构的已解析树,可以轻松地导航该树,并且具有一堆高级帮助程序方法,因此典型的信息提取任务应该非常简单,一个-在最好的情况下划线。 (对于那些已经在思考“为什么要这样做,我们已经拥有DBPedia?”的人,请阅读我们Wiki中的“ ”页面。) 展示柜 Infoboxer . wikipedia . get ( 'Breaking Bad (season 1)' ) .


网友评论