文件名称:cl-boilerpipe:从文章和博客文章中提取主要内容
文件大小:6KB
文件格式:ZIP
更新时间:2024-05-20 23:14:51
CommonLisp
CL-BOILERPIPE是Common Lisp库,用于从报纸文章和博客文章等网页中提取主要内容。 它设计用于扩展提要中的截短的文章。 CL-BOILERPIPE基于Java 库,而该库又基于Kohlschütter等人的 。 这里仅实现最简单的Boilerpipe算法版本。 我发现它运作良好。 用法 给定一个HTML字符串,请调用: (cl-boilerpipe:strip-boilerpipe html) 这将主要内容作为另一个HTML字符串返回。
【文件预览】:
cl-boilerpipe-master
----cl-boilerpipe.lisp(8KB)
----package.lisp(232B)
----util.lisp(651B)
----README.markdown(775B)
----cl-boilerpipe.asd(591B)
----sanitize.lisp(2KB)
----LICENSE.txt(1KB)