文件名称:spider:中禄财务spdier
文件大小:144.68MB
文件格式:ZIP
更新时间:2024-06-04 09:41:38
HTML
爬虫项目整理: 1、园区爬虫: 请求方式:GET 源url: https://www.qcc.com/more_zonesearch.html?p={}、https://s.tianyancha.com/parks/p{} 表名:spider_park_data 库名:99服务器下的 spider 反爬措施:无 更新策略:以园区id作为判断条件,布隆过滤器进行过滤出新的URL,并且入库,之后合并企查查和天眼查数据完成增量数据的增加 2、园区-映射公司爬虫: 请求方式:GET 源url: 园区爬虫的url 表名:spider_park_company_connect 库名:99服务器下的 spider 反爬措施:出现封账号, 更新策略:无 3、杰出人才爬虫: 请求方式:POST