下面是个简单的例子,但也不完全局限于此
www.touja.org/bbs/viewtopic.php?p=104184
touja.org/bbs/viewtopic.php?p=104184
8 个解决方案
#1
这个没有办法判断,即使两个页面的内容完全一模一样,也有可能不是同一个页面,除了网站的部署人员应该没有其他人知道。我同一个页面部署两个网站,你又不知道我是一个还是两个。
#2
那能不能够通过网页之间的跳转关系来判断?
对这些知识不大了解,望多赐教
对这些知识不大了解,望多赐教
#3
#4
这是什么??
#5
1.简单点做用正则表达式匹配一下咯
2.复杂一点抓取
抓取url 然后ping www.touja.org ,ping touja.org
然后替换域名成ip数据库中记录ip不记录域名
个人做法仅限参考
2.复杂一点抓取
抓取url 然后ping www.touja.org ,ping touja.org
然后替换域名成ip数据库中记录ip不记录域名
个人做法仅限参考
#6
top top top
#7
是判断两个连接是否是同一个页面还是说判断页面内容是否相同,方法不一样
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。
#8
对啊 楼上的分析和清楚啊
#1
这个没有办法判断,即使两个页面的内容完全一模一样,也有可能不是同一个页面,除了网站的部署人员应该没有其他人知道。我同一个页面部署两个网站,你又不知道我是一个还是两个。
#2
那能不能够通过网页之间的跳转关系来判断?
对这些知识不大了解,望多赐教
对这些知识不大了解,望多赐教
#3
#4
这是什么??
#5
1.简单点做用正则表达式匹配一下咯
2.复杂一点抓取
抓取url 然后ping www.touja.org ,ping touja.org
然后替换域名成ip数据库中记录ip不记录域名
个人做法仅限参考
2.复杂一点抓取
抓取url 然后ping www.touja.org ,ping touja.org
然后替换域名成ip数据库中记录ip不记录域名
个人做法仅限参考
#6
top top top
#7
是判断两个连接是否是同一个页面还是说判断页面内容是否相同,方法不一样
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。
假定你说的是判断页面内容是否相同,那么做法相当复杂,对于商业应用的爬虫来讲,需要有一个shingle库,即对文档中每一个字符或者说是符号用32位的整数id进行标识的库,然后将对字符串的比较化为整数的比较,并且每次最好只取10个符号来比较,然后自己还要定义一下相似度,当相似度大于多少时才会定义为页面内容不同。
#8
对啊 楼上的分析和清楚啊