文件名称:HeadlineScraper:从新闻网站抓取标题的脚本
文件大小:6KB
文件格式:ZIP
更新时间:2024-03-07 21:01:09
Python
标题刮板脚本 这是一个非常基本的新闻网站标题抓取类,使用urllib用于分页网页,使用Selenium用于连续滚动网页。 我这样做是为了为现在废弃的机器学习项目收集数据。 这个脚本是专门为我试图从中抓取的网站而制作的,但是在某种程度上可以扩展到其他网站。 我不打算维护此功能,因此使用后果自负,但是如果有帮助,您可以*使用它们。 虽然那里可能还有更多有用的代码。 所需的包 Selenium(我使用的版本为3.141.0,但以后的版本可能会起作用) WebScraper类 此文件包含WebScraper基类,它是html,parser.HTMLParser的子类。 此存储库中包括的五个示例Web WebScraper是WebScraper实例,而另一个是从其继承的子类中获得的。 通常,通过实例化该类,通过更改对象的字段进行配置来使用该类,然后调用其scrape方法。 WebScraper.s
【文件预览】:
HeadlineScraper-master
----Onion scraper.py(577B)
----clickholeScraper.py(343B)
----buzzfeedScraper.py(843B)
----huffPoScraper.py(415B)
----webScraper.py(5KB)
----readme.md(5KB)
----reductressScraper.py(352B)