【文件属性】:
文件名称:TrailRunningRaces:刮除2021年越野跑比赛
文件大小:994KB
文件格式:ZIP
更新时间:2021-04-08 04:35:45
JupyterNotebook
练习1:越野跑比赛2021
描述
第一次实习,对应于UOC数据科学硕士的数据类型和生命周期主题。 使用浏览器使用和网页抓取的自动化技术,可以获得2021年组织的所有正式越野跑比赛的相关数据。
团队成员
这项工作是由ÀlexPeláezMembrado和Albert Amurgo Pacheco的学生完成的。
档案文件
PRA1.ipynb:源代码文件
WindowsEnvironment.ps1:在Windows上安装
越野跑比赛2020-2029.csv:输出文件
PRACTICE1.docx:实践文档
设计
最初,该期间被划分为与我们想要的执行线程一样多的子时段,并并行运行每个线程。
当Selenium驱动的浏览器加载大量内容时,由于我们检测到错误,每个线程将子时段重新划分为30天(月)子时段。 对于每个月度的时段,我们打开一个新的浏览器实例,然后:
•我们加载该时期的所有比赛;
【文件预览】:
TrailRunningRaces-main
----pip.ini(89B)
----PRA1.ipynb(21KB)
----DOCX()
--------Figure1.png(182KB)
--------PRACTICA1.docx(269KB)
--------Gr協icPRA1.pptx(48KB)
----MacEnvironment.sh(304B)
----.gitignore(41B)
----README.md(3KB)
----CSV()
--------Trail Running Races 2020-2029.csv(3.54MB)
----WindowsEnvironment.ps1(2KB)