文件名称:boilerpipe:从 HTML 页面中删除样板和全文提取
文件大小:2.29MB
文件格式:ZIP
更新时间:2024-07-06 12:18:20
Java
锅炉管 样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。 该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由编写的 Java 库。 它是在 Apache License 2.0 下发布的。 从自动导出