基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本系统结构如下: (1)网络爬虫模块。 (2)中文分词模块。 (3)中3文相似度判定模块。 (4)数据结构化存储模块。 (5)数据可视化展示模块 某些系统的源代码和论文会放在评论处 急需要的可以【联系博主】获取 该系统源码部署教程:https://www.bilibili.com/video/BV1bv41167UM |
1.综述国内外网络爬虫技术研究现状; 2.深入了解网络爬虫与文字分析的相关技术; 3.熟练掌握网络爬虫爬取策略以及分析策略; 4.设计并实现针对网络新闻的爬虫程序; 5.深入分析与整合爬取到的网络新闻数据; 6.训练检索文献资料和利用文献资料的能力; 7.训练撰写技术文档与学位论文的能力。 |
毕业设计(论文)主要内容: 1.综述网络爬虫在大数据分析中的应用; 2.了解网络爬虫以及文字分析的相关技术; 3.熟悉网络爬虫的开发环境; 4.设计以网络新闻为目标的爬虫程序; 5.学习研究文字分析的关键技术与编写网络爬虫的设计流程; 6.熟练掌握程序绘制分析结果统计图的技术; 7.设计与实现针对网络新闻爬取与分析整合的程序。 |
面向对象设计UML图
(1)在这里首先介绍一下系统中使用的数据库连接池,MF_DBCP自己写的一个数据库连接池,UML类图如图3-5所示。
图3-5 系统类图
在DBCP连接池UML图中,定义了数据库异常抛出类,数据库配置的POJO类,数据库连接池核心类 Pool 以及代理实现了Connection的close() 方法、setAutoCommit()等方法,还有数据库连接池监视器类,用来监视数据库的健康状况等等。
(2)爬虫核心是Web类,凤凰网新闻、搜狐新闻、网易新闻分别集成了核心Web类,然后各自实现各自的解析规则,核心Web类负责一些基础操作,例如打开网页,获取网页源码,还有一些正则表达式抽取分析算法,其实,Web类也包含了POJO类的作用,也是作为爬虫爬取新闻后生成的结果的载体,如图3-5所示。