文件名称:Dia_31_16abril:网页抓取(BeautifulSoup和请求)
文件大小:4KB
文件格式:ZIP
更新时间:2024-05-07 07:25:26
Python
网页抓取: 刮除提示: 抓取之前,请务必检查网站的条款和条件。 它们通常具有限制多长时间进行一次刮擦或可以进行刮擦的条件。 由于您的脚本运行速度比人类浏览的速度快得多,因此请确保您不会对网站提出过多要求。 甚至可以在网站的条款和条件中考虑到这一点。 如果您的请求使网站超载或试图以违反您同意的条款和条件的方式使用它,则可能会遇到法律麻烦。 网站一直在变化,因此您的报废将中断一天。 知道这一点:如果您希望刮板继续工作,则必须对其进行维护。 ->注意: 不幸的是,您从网站获得的数据可能是一场灾难。 与任何数据分析活动一样,您需要清理它以对您有用。 1.导入所需的库: 让我们导入一些重要的库,例如Requests和BeautifulSoup。 import requests from bs4 import BeautifulSoup 2.使用Beautiful Soup库从网站获取
【文件预览】:
Dia_31_16abril-master
----poetry.lock(2KB)
----Info.txt(506B)
----main.py(1KB)
----README.md(2KB)
----pyproject.toml(285B)