【文件属性】:
文件名称:cl-boilerpipe:从文章和博客文章中提取主要内容
文件大小:6KB
文件格式:ZIP
更新时间:2021-05-01 05:28:11
CommonLisp
CL-BOILERPIPE是Common Lisp库,用于从报纸文章和博客文章等网页中提取主要内容。 它设计用于扩展提要中的截短的文章。
CL-BOILERPIPE基于Java 库,而该库又基于Kohlschütter等人的 。
这里仅实现最简单的Boilerpipe算法版本。 我发现它运作良好。
用法
给定一个HTML字符串,请调用:
(cl-boilerpipe:strip-boilerpipe html)
这将主要内容作为另一个HTML字符串返回。
【文件预览】:
cl-boilerpipe-master
----cl-boilerpipe.lisp(8KB)
----package.lisp(232B)
----util.lisp(651B)
----README.markdown(775B)
----cl-boilerpipe.asd(591B)
----sanitize.lisp(2KB)
----LICENSE.txt(1KB)