利用中文标点实现正文提取

时间:2013-01-03 05:33:01
【文件属性】:

文件名称:利用中文标点实现正文提取

文件大小:10KB

文件格式:RAR

更新时间:2013-01-03 05:33:01

正文提取 中文标点标点正文提取实现

利用中文标点来实现正文提取,并且对部分网页建立简单规则的方法,效果较为理想。


【文件预览】:
PageContent
----src()
--------test_ExtractText.cpp(801B)
--------pagerule.ini(2KB)
--------RuleStruct.h(740B)
--------File.cpp(2KB)
--------ExtractText.h(3KB)
--------ExtracText.cpp(19KB)
--------FileDir.cpp(1KB)
--------File.h(632B)
--------FileDir.h(511B)

网友评论

  • 感觉还可以。但需要有一定的知识积累。