c# 多线程蜘蛛爬虫

时间:2012-11-27 13:52:17
【文件属性】:
文件名称:c# 多线程蜘蛛爬虫
文件大小:2.42MB
文件格式:RAR
更新时间:2012-11-27 13:52:17
c# 多线程 爬虫 文档 正则表达 1.CSpider文件夹下是我开始编写前参考的开源代码,结构比较清晰。单线程 2.任务概述是我这次写spider的过程的描述,我做这次spider的目的是完成一项课程设计。 3.整个spider的开发过程为增量式,从最开始的单页搜索url到最后的多线程spider,这在版本规划中又很明显的体现。每个版本都有自己的readme,其中详细叙述了各个版本的不同 4.由于是初学者,我在每个版本中都是边写边测试,以查找爬虫的bug,所以代码中有很多被注释的段落可能是测试使用。 5.具体版本信息查看各自的readme 另外,爬虫不止提取了url,同时提取了相应的锚文本。这个提取过程导致了爬虫速度的下降,但也是一个必须的开销

网友评论

  • 谢谢 非常好 可以使用
  • 代码有一定帮助
  • 很不错,简单易懂,初步了解
  • 我这里也提示缺少证书,不能使用
  • 还不错,有帮助
  • 不能用 缺少文件
  • 代码不错,只是不能采集ajax的页面!
  • 不错的东东,很有参考价值
  • 还不错啊,我觉得很用心做的
  • 虽然简单,但还是不错哦