文件名称:基于DOM-TREE网页正文提取方法
文件大小:48KB
文件格式:RAR
更新时间:2013-12-08 05:05:24
DOM-TREE 页正文提取 c#
利用DOM-TREE模型对网页进行表示 对原始网页进行修正缺省标签的补充等 利用网页正文提取方法对网页进行正文提取,去除网页中的噪声信息,提取出网页中的正文、相关超链接
【文件预览】:
WindowsFormsApplication1
----WindowsFormsApplication1.exe(12KB)
----WindowsFormsApplication1()
--------Form1.cs(5KB)
--------bin()
--------obj()
--------Properties()
--------Program.cs(516B)
--------WindowsFormsApplication1.csproj(4KB)
--------Form1.Designer.cs(4KB)
--------Form1.resx(6KB)
----WindowsFormsApplication1.sln(962B)
----WindowsFormsApplication1.suo(19KB)