文件名称:利用中文标点实现正文提取
文件大小:10KB
文件格式:RAR
更新时间:2013-01-03 05:33:01
正文提取 中文标点标点正文提取实现
利用中文标点来实现正文提取,并且对部分网页建立简单规则的方法,效果较为理想。
【文件预览】:
PageContent
----src()
--------test_ExtractText.cpp(801B)
--------pagerule.ini(2KB)
--------RuleStruct.h(740B)
--------File.cpp(2KB)
--------ExtractText.h(3KB)
--------ExtracText.cpp(19KB)
--------FileDir.cpp(1KB)
--------File.h(632B)
--------FileDir.h(511B)