text-extractor:一个用于从网页提取主要文本内容的小型库下载

【文件属性】：

文件名称：text-extractor:一个用于从网页提取主要文本内容的小型库

文件大小：63KB

文件格式：ZIP

更新时间：2024-05-23 10:37:00

HTML

TextExtractor 是一个使用Java编写HTML页面正文提取工具 TextExtractor 可以帮助您快速将一个网页中的杂质文本剔除，只保留与正文相关的主题内容。它的原理是判断文本段落中链接文本的密度，只使用非常少的软件包依赖，因而能够提供快速且智能的提取效果，帮助你建立质量较高的网页索引。工程使用Maven管理，可以很方便地导入Eclipse中。当您获取工程文件之后，在工程根目录执行： mvn compile package appassembler:assemble 成功之后，请将target目录下生成的TextExtractor-x.x-SNAPSHOT.jar复制到目录target\appassembler\repo下。运行生成的以下文件来执行自带的Demo程序： target\appassembler\bin\run_demo.bat

立即下载

【文件预览】：
text-extractor-master
----src()
--------main()
--------test()
----.classpath(1KB)
----LICENSE(18KB)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
----pom.xml(2KB)
----README.md(789B)
----.project(449B)

秒客网

text-extractor:一个用于从网页提取主要文本内容的小型库

网友评论

相关文章