news_crawler:新闻搜寻器

时间:2024-04-11 06:15:15
【文件属性】:

文件名称:news_crawler:新闻搜寻器

文件大小:10KB

文件格式:ZIP

更新时间:2024-04-11 06:15:15

Python

新闻网站数据爬取和分析 实现了Chinadaily上特定关键字(COVID-19)相关新闻的爬取和数据分析,可以修改现有代码爬取和分析其他新闻网站。 使用说明 初步步骤 检查python安装成功,可以控制台(cmd)中输入python --version,如果输出版本号,说明安装成功了。 在cmd中执行: pip3安装numpy matplotlib枕头wordcloud imageio jieba snownlp itchat请求 到此,软件安装完成。 使用 数据爬取 执行 刮y的中国日报 会在工程目录下生成一个covid-19.html,里面包含了标题和内容。数据量比较大,执行的时候会一直控制台刷新消息,等待即可。 数据可视化 执行 python scrapy.py 可以生成词云图片 代码修改 主要修改爬虫下的chinadaily.py文件,修改爬取的URL和parse()函数中的解


【文件预览】:
news_crawler-main
----scrapy.cfg(257B)
----crawler()
--------middlewares.py(4KB)
--------pipelines.py(361B)
--------spiders()
--------__pycache__()
--------.DS_Store(6KB)
--------items.py(282B)
--------__init__.py(0B)
--------settings.py(3KB)
----analyze.py(516B)
----.gitignore(5B)
----README.md(1KB)

网友评论