文件名称:BaiduZhidaoSpider:百度知道爬虫,爬取问答对
文件大小:7.15MB
文件格式:ZIP
更新时间:2024-06-19 23:41:31
Java
QA 问答系统,目前还只针对百度知道 QA系统使用说明 1.数据库说明: 数据库中的字段跟师兄给我的一样,只有两个评论字段没有下载。 另外为了实现师兄所说的多线程下载,我在query表,qapair_resultslist表中添加了finished字段,用来表示该条记录是否已经下载过,为1时表示已经下载过,该记录的所对应的网页都已下载到本地,只要调用相应的分析程序即可;为0表示还没有下载。 系统使用说明: 可以有两个方法来执行该程序。 1)运行Main函数(该函数在com.hitsz.main中) 只要数据库中的query表中有查询问句,并且finished字段为0,该函数就会将query中的问句列表逐一的去下载,并将网页结果保存到本地,将分析结果保存到数据库中。中间不需要任何干预,除非出现了还没有考虑到的错误。 整个系统目前使用的还是单线程,因此在下载网页时可能会比较慢,为了防止由于频繁