文件名称:Crawler:从newegg,walmart,bestbuy,synnex搜寻商品价格
文件大小:147KB
文件格式:ZIP
更新时间:2024-05-26 08:40:11
C++
履带式 该项目具有适用于newegg,walmart,bestbuy和synnex的爬虫。 这些搜寻器从电子商务网站搜寻菜单和商品信息。 获取这些信息的主要方法是向该电子商务网站的移动应用程序发送请求。 比较直接将请求发送到网站,如果您使用移动应用程序,则会得到json响应。 如果您不熟悉正则表达式,则Json比html解析起来更容易。(在某些情况下,该网站可能具有mobile.example.com或m.example.com 。它也返回json或易于解析) 我们在此项目中遇到的主要问题是: 如何尽快抓取整个网站 如何避免我们的IP被阻止 为了解决第一个问题,我们使用mlutithread重写了第一个版本。 我们用Qt编写这个项目。 因为没有C ++的本机网络和线程库(跨平台)。 为了解决第二个问题,我们购买了许多代理IP。 我们使用不同的代理IP发送每个请求。 但是因为这些代理I