文件名称:爬虫获取CSDN全站热榜前100标题及热词词频统计项目
文件大小:60KB
文件格式:ZIP
更新时间:2021-11-11 10:26:05
scrapy 爬虫 jieba关键词提取 selenium
使用scrapy框架对csdn热榜前100的标题热词爬虫,并且统计关键词词频。注意一下,该项目是2021年10月开发,如果页面有变动,xpath需要稍微调整。
【文件预览】:
csdn_hot_words
----main.py(215B)
----scrapy.cfg(282B)
----csdn_hot_words()
--------settings.py(3KB)
--------pipelines.py(1KB)
--------middlewares.py(4KB)
--------__init__.py(0B)
--------tools()
--------items.py(298B)
--------__pycache__()
--------spiders()
----.idea()
--------misc.xml(305B)
--------workspace.xml(6KB)
--------csdn_hot_words.iml(335B)
--------inspectionProfiles()
--------deployment.xml(1KB)
--------modules.xml(287B)
--------.gitignore(184B)
--------vcs.xml(185B)
----README.md(83B)
----.git()
--------logs()
--------packed-refs(114B)
--------info()
--------index(1KB)
--------objects()
--------HEAD(23B)
--------config(332B)
--------refs()
--------hooks()
--------description(73B)