比如亚马逊网站,运用爬虫爬取其网站数据时,其状态码会返回503,原因是因为其网站有反扒机制。
1.爬取京东网站,直接爬取,成功
2.用相同的方法爬取亚马逊的网站,失败
那么亚马逊网站是如何识别到是爬虫浏览而非用户通过浏览器浏览呢?不管是用浏览器还是爬虫登录网站都会有一个Headers,其中有一个user-agent字段,爬虫此字段为,亚马逊通过此字段判定是爬虫。我们可以通过修改此字段来正常爬取,
成功!
比如亚马逊网站,运用爬虫爬取其网站数据时,其状态码会返回503,原因是因为其网站有反扒机制。
1.爬取京东网站,直接爬取,成功
2.用相同的方法爬取亚马逊的网站,失败
那么亚马逊网站是如何识别到是爬虫浏览而非用户通过浏览器浏览呢?不管是用浏览器还是爬虫登录网站都会有一个Headers,其中有一个user-agent字段,爬虫此字段为,亚马逊通过此字段判定是爬虫。我们可以通过修改此字段来正常爬取,
成功!