文件名称:网络爬虫爬虫软件
文件大小:2.18MB
文件格式:RAR
更新时间:2015-05-12 09:19:41
网络爬虫 搜索网页 数据库 分词
需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server 2005 3、程序中运用了基于字符串匹配的分此方法中的正向最大匹配法 4、此爬虫程序采用的是广度优先的搜索方法搜索网络中的网页