cx-extractor:基于行块分布函数的通用网页正文抽取,C#版本

时间:2024-05-26 08:25:09
【文件属性】:

文件名称:cx-extractor:基于行块分布函数的通用网页正文抽取,C#版本

文件大小:945KB

文件格式:ZIP

更新时间:2024-05-26 08:25:09

C#

cx_extractor 基于行块分布函数的通用网页正文抽取 由于本人做网络爬虫的时候使用过这个方法的java版本,现在自己把java版本的改成了C#版本,希望对大家有用。基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关。原版本的作者为哈工大的陈鑫,代码放在google code上。


【文件预览】:
cx-extractor-master
----cx-extractor()
--------TextExtract.cs(5KB)
--------Demo.cs(449B)
--------cx-extractor.csproj.user(441B)
--------cx-extractor.csproj(4KB)
--------App.config(182B)
--------Properties()
----cx-extractor.sln(906B)
----基于行块分布函数的通用网页正文抽取算法.pdf(1.15MB)
----.gitignore(574B)
----README.md(429B)
----.gitattributes(378B)

网友评论