文件名称:hotsax-html-truncate:HotSax HTML SAX 解析器的快速演示
文件大小:97KB
文件格式:ZIP
更新时间:2024-07-13 05:26:18
Java
hotsax-html-截断 使用 HotSax HTML SAX 解析器提取一些 HTML 的截断评论的快速演示,用于在 GitHub 上回答此问题: 几年前,我使用 HotSax 作为从 HTML 中提取文本、图像和链接的低开销、“类流”方式。 虽然有像 jsoup 这样出色的工具来处理 HTML,但这些工具会在您提取您想要的内容之前创建完整的 DOM 作为对象(在处理损坏的 HTML 方面做得非常出色,例如丢失或不平衡的标签)。 相比之下,HotSax 只为您提供开始/结束/文本事件流,由您来收集所需的信息。 所以你可以说,收集所有和标签之间的所有文本。 这些可以被推送到 lucene 引擎来索引页面的内容,并且标签被推送到蜘蛛程序,蜘蛛程序正在将页面拉入索引。
【文件预览】:
hotsax-html-truncate-master
----pom.xml(655B)
----src()
--------main()
----.gitignore(37B)
----README.md(943B)