文件名称:今日头条爬取+实体分析+storm流处理.rar
文件大小:27.22MB
文件格式:RAR
更新时间:2023-01-29 02:19:23
python ltp实体分析 storm流处理 kafka 今日头条爬取
本项目主要实现了首先通过python编写的爬虫程序,对今日头条的新闻进行爬取,爬取的内容相对丰富,内容,图片都有爬取,另外,将获取到的新闻进行了实体分析,用textrank图算法计算了关联程度,得到了每篇新闻的一个关键词,高频词,实体对象的力引导图,同时结合大数据流处理的storm技术,在进行实体分析的同时进行了新闻数据的存储,即新闻数据的持久化,整个项目比较有学习价值,欢迎大家下载