碰到这个问题的前因是我的博客挂载在github上面,但是由于工作原因导致博客SEO被搁置了有一段时间。
碰到这个问题的时候,原以为是dns解析的问题,因为github上面不允许爬虫去爬连接,所以博客是同时还挂载了一份在coding上面的。也就是说当国外访问时,我设置的是将地址解析到github上面,而国内访问时,是解析至coding上面的(如下图所示)。
遂重新配置,期间盯着每一个字母,确认完全没有错误后排除这猜测。
转念又想是不是sitemap文件出了问题呢?
直接输入sitemap路径访问,也排除了这一可能。
在图中可以看到,sitemap是可以正常被访问的。
无解,打开百度抓取诊断测试了一波。
发现了这样一个现象:
移动端是可以抓取到的,但是pc端却抓取失败(牛皮),跳转可以理解,但是为什么移动端抓取成功,但PC却不行呢?
百思不得其解,最后做出结论:百度又抽风了。
点击【抓取详情】
发现IP是185开头的,突然灵光一闪:会不会是跳转出了问题呢?会不会是原本应该爬取coding上面的blog却爬到github上面去了呢(上面说过,github禁止了百度爬虫去爬连接)?
刹那间仿佛柯南附体,在脑海中自动脑补出破案时播放的BGM,手中win+r组合键瞬间按下,飞快的打开cmd,输入:
ping rbuli.github.io
简直不敢相信我的双眼,于是我再次测了一遍。
破案!
刚刚说过,dns解析是绝对不存在问题的(我表示对我5.1视力很有信心)
也证明了我看似随意的结论:百度又抽风了
为了结论的严谨性,为确保万一我把指向github的解析删除后再测试了一遍(甚至专门添上了百度访问的解析):
再测一遍(此处你应该可以感受到,我对这个结论同样存在一丝丝怀疑)。
/愣住
自己默默的点了首凉凉,表达此刻伤感的心情。
解决方案:
点击报错,提交反馈。(还能怎么办,我也很绝望)
P.S:如果你能够从百度上面搜索到了此篇文章且域名为(cssmini.com),说明我的问题已经解决。文章地址
同时送给搜到这篇文章的你一首凉凉: