web_scraping

时间:2024-04-27 20:21:12
【文件属性】:

文件名称:web_scraping

文件大小:5.93MB

文件格式:ZIP

更新时间:2024-04-27 20:21:12

Python

练习1:网页抓取 描述 这种实践是在加泰罗尼亚开放大学数据科学硕士所属的类型学和数据生命周期的背景下进行的。 在其中,使用Python编程语言应用了网络抓取技术,以从Filmaffinty和IMDb网页中提取数据。 为了汇编有关电影的信息并比较每个页面上给出的分数,将以csv格式生成数据集。 团队成员 该活动由Rafael Corvillo Alonso和PabloLópezLadrónde Guevara共同进行。 源代码文件 src / movies_scraping.py :程序的入口点。 开始抓取过程,并通过创建目标数据集结束。 src / http_utils.py :配置以执行HTTP请求,以修改标头并捕获异常。 src / scraper.py :包含必要的功能,以刮除Filmaffinity中每部电影的页面。 该信息将存储在字典中。 对应于每部电影封面的JPG格式图像也


【文件预览】:
web_scraping-main
----movies.csv(627KB)
----src()
--------http_utils.py(1KB)
--------selen.py(5KB)
--------movies_scraping.py(2KB)
--------chromedriver.exe(10.2MB)
--------scraper.py(8KB)
----requirements.txt(152B)
----README.md(2KB)
----.gitignore(2KB)

网友评论