文件名称:Tieba_Spider:百度贴吧爬虫(基于scrapy和mysql)
文件大小:23KB
文件格式:ZIP
更新时间:2024-06-03 04:43:06
spider scrapy tieba Python
Tieba_Spider 贴吧爬虫。 依赖参考 Python >= 3.6 mysql >= 5.5 beautifulsoup4 >= 4.6.0 scrapy >= 2.4 mysqlclient >= 1.3.10 使用方法 先打开config.json文件,在其中配置好数据库的域名、用户名和密码。接着直接运行命令即可: scrapy run <贴吧名> <数据库名> <选项> 其中贴吧名不含末尾的“吧”字,而数据库名则是要存入的数据库名字,数据库在爬取前会被创建。例如 scrapy run 仙五前修改 Pal5Q_Diy 但若要在控制台输入中文(非ASCII字符),请确保控制台编码为UTF8。 若在config.json里面已经配置好贴吧名和对应数据库名,则可以忽略数据库名。若忽略贴吧名,则爬取config.json里面DEFAULT的数据库。 特别提醒 任务一旦断开,不可继续进行
【文件预览】:
Tieba_Spider-master
----scrapy.cfg(124B)
----filter.py(375B)
----tieba()
--------middlewares.py(2KB)
--------pipelines.py(3KB)
--------commands()
--------spiders()
--------items.py(795B)
--------__init__.py(0B)
--------settings.py(430B)
----.gitignore(39B)
----README_en.md(5KB)
----config.py(3KB)
----README.md(6KB)
----config.json(253B)
----emotion.json(33KB)