如何判断多个URL指向同一个页面?

时间:2022-10-30 22:29:15
如题。
下面是个简单的例子,但也不完全局限于此
www.touja.org/bbs/viewtopic.php?p=104184
touja.org/bbs/viewtopic.php?p=104184

8 个解决方案

#1


这个没有办法判断,即使两个页面的内容完全一模一样,也有可能不是同一个页面,除了网站的部署人员应该没有其他人知道。我同一个页面部署两个网站,你又不知道我是一个还是两个。

#2


那能不能够通过网页之间的跳转关系来判断?
对这些知识不大了解,望多赐教

#3


该回复于2010-02-08 10:04:46被版主删除

#4


这是什么??
引用 3 楼 yadongkang 的回复:
参考:
http://school.itzcn.com/special-spid-50.html
上面讲解的比较详细,希望对你有所帮助。

#5


1.简单点做用正则表达式匹配一下咯

2.复杂一点抓取
   抓取url 然后ping www.touja.org  ,ping touja.org 
   然后替换域名成ip数据库中记录ip不记录域名




个人做法仅限参考

#6


top top top

#7


是判断两个连接是否是同一个页面还是说判断页面内容是否相同,方法不一样
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。

#8


对啊 楼上的分析和清楚啊

#1


这个没有办法判断,即使两个页面的内容完全一模一样,也有可能不是同一个页面,除了网站的部署人员应该没有其他人知道。我同一个页面部署两个网站,你又不知道我是一个还是两个。

#2


那能不能够通过网页之间的跳转关系来判断?
对这些知识不大了解,望多赐教

#3


该回复于2010-02-08 10:04:46被版主删除

#4


这是什么??
引用 3 楼 yadongkang 的回复:
参考:
http://school.itzcn.com/special-spid-50.html
上面讲解的比较详细,希望对你有所帮助。

#5


1.简单点做用正则表达式匹配一下咯

2.复杂一点抓取
   抓取url 然后ping www.touja.org  ,ping touja.org 
   然后替换域名成ip数据库中记录ip不记录域名




个人做法仅限参考

#6


top top top

#7


是判断两个连接是否是同一个页面还是说判断页面内容是否相同,方法不一样
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。

#8


对啊 楼上的分析和清楚啊