文件名称:爬取Stanford、Harvard关于professor的信息
文件大小:213KB
文件格式:ZIP
更新时间:2021-11-25 16:47:30
python
以Stanford University和Harvard University为例,进行爬虫。通过设置多个代理ProxyHandler和User-Agent来解决反爬虫的拒绝。访问主页的url,并抓取主页上的所有teacher,并对每个teacher进行爬取,最后进行筛选,最后再输出到EXCEL中。
【文件预览】:
爬虫源码及结果
----Stanford()
--------teacher-StanfordInfo.xlsx(61KB)
--------stanford.py(9KB)
----Harvard()
--------teacherInfo1.xls(235KB)
--------Harvard.py(5KB)
--------teacherInfo-retired.xls(54KB)
--------筛选后的结果.xlsx(68KB)
--------Harvard2.py(9KB)