爬取Stanford、Harvard关于professor的信息

时间:2021-11-25 16:47:30
【文件属性】:

文件名称:爬取Stanford、Harvard关于professor的信息

文件大小:213KB

文件格式:ZIP

更新时间:2021-11-25 16:47:30

python

以Stanford University和Harvard University为例,进行爬虫。通过设置多个代理ProxyHandler和User-Agent来解决反爬虫的拒绝。访问主页的url,并抓取主页上的所有teacher,并对每个teacher进行爬取,最后进行筛选,最后再输出到EXCEL中。


【文件预览】:
爬虫源码及结果
----Stanford()
--------teacher-StanfordInfo.xlsx(61KB)
--------stanford.py(9KB)
----Harvard()
--------teacherInfo1.xls(235KB)
--------Harvard.py(5KB)
--------teacherInfo-retired.xls(54KB)
--------筛选后的结果.xlsx(68KB)
--------Harvard2.py(9KB)

网友评论