文件名称:boilerpipe-ruby:针对在线文章调整的Boilerpipe内容提取算法的纯Ruby实现
文件大小:81KB
文件格式:ZIP
更新时间:2024-05-29 12:36:04
news webscraping content-extraction boilerpipe boilerpipe-algorithm
锅炉管 样例算法的纯Ruby实现。 这是一个由Christian Kohlshutter首次编写的文本提取实用程序- 我直接去了原始作者的github ,在这里分叉了该代码库。 我看到其他宝石通过利用样板,但由于超出托管计划,该api会根据一天的时间而关闭。 我还检查了一些使用Jruby的工具,但是遇到了各种依赖性和错误问题。 因此,我对叉子进行了一些调整,并创建了一个新的。 如果您使用的是Jruby,则此解决方案效果很好,但我希望在MRI上使用纯Ruby解决方案。 打开Vim-开始编码... 这是系统工作方式的高级。 TLDR 只需使用ArticleExtractor,DefaultExtractor或KeepEverythingExtractor-在您尝试进行实验时尝试其他方法... 目前,以下提取器已实现 文章提取器 文章句子提取器 双低油菜籽提取器 Defa