文件名称:Scrapy-SearchEngines:bing,google,baidu搜索引擎爬虫。python3.6和scrapy
文件大小:12KB
文件格式:ZIP
更新时间:2024-02-23 19:32:51
google bing python-3-6 scrapy baidu
seCrawler(搜索引擎搜寻器) 拼凑的项目可以抓取Google / Bing / Baidu的搜索结果 通过复制 感谢你的分享 先决条件 python 3.6和scrapy是必需的。 命令 运行一个命令以关键字从搜索引擎获取50页结果,结果将保存在当前目录下的“ urls.txt”中。 #### Bing scrapy crawl keywordSpider -a keyword=Spider-Man -a se=bing -a pages=50 #### Baidu scrapy crawl keywordSpider -a keyword=Spider-Man -a se=baidu -a pages=50 #### Google scrapy crawl keywordSpider -a keyword=Spider-Man -a se=google -a pages=50 局限性 该项目未提供任何反蜘蛛措施的变通办法,例如CAPTCHA,IP禁令列表等。 但是为了减少这些措施,我们建议在settings.py文件中设置DOWNLOAD_DELAY=10在两个页面
【文件预览】:
Scrapy-SearchEngines-master
----scrapy.cfg(262B)
----README.md(2KB)
----seCrawler()
--------pipelines.py(553B)
--------spiders()
--------__pycache__()
--------__init__.py(1B)
--------common()
--------settings(3KB)