文件名称:autoscraper:适用于Python的智能,自动,快速,轻量级的Web抓取工具
文件大小:12KB
文件格式:ZIP
更新时间:2024-02-23 23:46:19
python crawler machine-learning scraper automation
AutoScraper:适用于Python的智能,自动,快速,轻便的Web抓取工具 该项目专为自动刮刮而设计,使刮刮变得容易。 它获取网页的url或html内容以及我们要从该页面抓取的示例数据列表。 该数据可以是该页面的文本,URL或任何html标签值。 它学习抓取规则并返回相似的元素。 然后,您可以将这个学习到的对象与新的url一起使用,以获取这些新页面的相似内容或完全相同的元素。 安装 与python 3兼容。 使用pip从git仓库安装最新版本: $ pip install git+https://github.com/alirezamika/autoscraper.git 从PyPI安装: $ pip install autoscraper 从源安装: $ python setup.py install 如何使用 获得相似的结果 假设我们要在*页面中获取所有相关的帖子标题: from autoscraper import AutoScraper url = 'https://*.com/questions/2081
【文件预览】:
autoscraper-master
----.github()
--------FUNDING.yml(725B)
--------workflows()
----LICENSE(1KB)
----autoscraper()
--------utils.py(2KB)
--------__init__.py(49B)
--------auto_scraper.py(23KB)
----setup.py(946B)
----.gitignore(1KB)
----README.md(5KB)