boilerpipe:从 HTML 页面中删除样板和全文提取

时间:2024-07-06 12:18:20
【文件属性】:

文件名称:boilerpipe:从 HTML 页面中删除样板和全文提取

文件大小:2.29MB

文件格式:ZIP

更新时间:2024-07-06 12:18:20

Java

锅炉管 样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。 该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由编写的 Java 库。 它是在 Apache License 2.0 下发布的。 从自动导出


网友评论