url-pattern-algorithm:网页搜索引擎中用于url规范化、网页分类和网页信息整合的基本算法

时间:2024-07-02 16:16:30
【文件属性】:

文件名称:url-pattern-algorithm:网页搜索引擎中用于url规范化、网页分类和网页信息整合的基本算法

文件大小:62KB

文件格式:ZIP

更新时间:2024-07-02 16:16:30

Java

网址模式算法 Web搜索引擎中用于url规范化、网页分类和web信息整合的基本算法 该算法的思想来自A Pattern Tree-based Approach to Learning URL Normalization Rules(来自WWW),我根据实际应用。


【文件预览】:
url-pattern-algorithm-master
----TreeNodePair.java(875B)
----README.md(338B)
----Fun.java(23KB)
----LinkEdge.java(4KB)
----Cluster.java(750B)
----CalculateUtil.java(23KB)
----Main.java(9KB)
----ProcessedUrl1.java(7KB)
----applications()
--------GarbagePageUrlPatternJob.java(13KB)
--------ThemePageUrlPatternJob.java(10KB)
--------GarbageStatisticJob.java(8KB)
--------StatisticJob.java(7KB)
--------TestJob1.java(9KB)
--------ContentPageAnalyzer.java(2KB)
--------PredictFssJob.java(8KB)
--------PatternJob.java(12KB)
--------TestJob3.java(8KB)
----TreeNode.java(48KB)
----dedupping()
--------RewriteTool.java(4KB)
----ProcessedUrl.java(12KB)
----KeyValuePair.java(788B)
----InputUtil.java(7KB)
----KeyPair.java(734B)

网友评论