php-article-extractor:从网页中提取文章文本的 PHP 库

时间:2024-08-12 09:46:37
【文件属性】:

文件名称:php-article-extractor:从网页中提取文章文本的 PHP 库

文件大小:42KB

文件格式:ZIP

更新时间:2024-08-12 09:46:37

php website extractor extraction extract-website

PHP 文章提取器 这是一个用于 PHP 的网络文章解析和语言检测库。 该库从网页读取文章内容,删除所有 HTML 并仅提供原始文本,适用于文本到语音或机器学习过程。 对于我开发的一个项目,我发现许多现有的开源解决方案很好的起点,但每个都有独特的失败。 该库将三种不同的方法聚合到一个解决方案中,同时添加了语言检测的附加功能。 如何使用 这个库是通过 packagist.org 分发的,所以你可以使用 composer 来检索依赖项 composer require crscheid/php-article-extractor 通过 URL 调用 该库将尝试为您检索 HTML。 您只需创建一个 ArticleExtractor 类并在其上调用parseURL函数,传入所需的 URL。 use Cscheide \ ArticleExtractor \ ArticleExtractor


【文件预览】:
php-article-extractor-master
----.gitignore(54B)
----src()
--------ArticleExtractor.php(30KB)
----.travis.yml(173B)
----composer.json(694B)
----CHANGELOG.md(2KB)
----README.md(8KB)
----phpunit.xml(543B)
----tests()
--------html_test_cnbc.html(90KB)
--------ExtractorTest.php(6KB)
--------phpunit-bootstrap.php(96B)

网友评论