Scrapy-SearchEngines:bing,google,baidu搜索引擎爬虫。python3.6和scrapy

时间:2024-02-23 19:32:51
【文件属性】:

文件名称:Scrapy-SearchEngines:bing,google,baidu搜索引擎爬虫。python3.6和scrapy

文件大小:12KB

文件格式:ZIP

更新时间:2024-02-23 19:32:51

google bing python-3-6 scrapy baidu

seCrawler(搜索引擎搜寻器) 拼凑的项目可以抓取Google / Bing / Baidu的搜索结果 通过复制 感谢你的分享 先决条件 python 3.6和scrapy是必需的。 命令 运行一个命令以关键字从搜索引擎获取50页结果,结果将保存在当前目录下的“ urls.txt”中。 #### Bing scrapy crawl keywordSpider -a keyword=Spider-Man -a se=bing -a pages=50 #### Baidu scrapy crawl keywordSpider -a keyword=Spider-Man -a se=baidu -a pages=50 #### Google scrapy crawl keywordSpider -a keyword=Spider-Man -a se=google -a pages=50 局限性 该项目未提供任何反蜘蛛措施的变通办法,例如CAPTCHA,IP禁令列表等。 但是为了减少这些措施,我们建议在settings.py文件中设置DOWNLOAD_DELAY=10在两个页面


【文件预览】:
Scrapy-SearchEngines-master
----scrapy.cfg(262B)
----README.md(2KB)
----seCrawler()
--------pipelines.py(553B)
--------spiders()
--------__pycache__()
--------__init__.py(1B)
--------common()
--------settings(3KB)

网友评论