BaiduZhidaoSpider:百度知道爬虫，爬取问答对下载

【文件属性】：

文件名称：BaiduZhidaoSpider:百度知道爬虫，爬取问答对

文件大小：7.15MB

文件格式：ZIP

更新时间：2024-06-19 23:41:31

Java

QA 问答系统，目前还只针对百度知道 QA系统使用说明 1.数据库说明：数据库中的字段跟师兄给我的一样，只有两个评论字段没有下载。另外为了实现师兄所说的多线程下载，我在query表，qapair_resultslist表中添加了finished字段，用来表示该条记录是否已经下载过，为1时表示已经下载过，该记录的所对应的网页都已下载到本地，只要调用相应的分析程序即可;为0表示还没有下载。系统使用说明：可以有两个方法来执行该程序。 1）运行Main函数（该函数在com.hitsz.main中）只要数据库中的query表中有查询问句，并且finished字段为0,该函数就会将query中的问句列表逐一的去下载，并将网页结果保存到本地，将分析结果保存到数据库中。中间不需要任何干预，除非出现了还没有考虑到的错误。整个系统目前使用的还是单线程，因此在下载网页时可能会比较慢，为了防止由于频繁

立即下载

秒客网

BaiduZhidaoSpider:百度知道爬虫，爬取问答对

网友评论

相关文章