金油条网页正文提取器1.0

时间:2011-09-21 14:09:58
【文件属性】:

文件名称:金油条网页正文提取器1.0

文件大小:22KB

文件格式:RAR

更新时间:2011-09-21 14:09:58

文本挖掘 正文提取 油条 蜘蛛 采集

该DEMO文件是基于文本距离去噪,精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本和在线演示。详见: http://www.shoula.net/ParseContent 如果要最新版本,或者对这个感兴趣的。 可以和我联系或者加入 QQ群:50453294. QQ:6782435 金油条


【文件预览】:
parseContent.exe

网友评论

  • 不能运行啊
  • 可以参考思路,程序并不能直接跑
  • 有一定的帮组