robots禁止搜索引擎抓取动态网址的方法

时间:2022-09-05 00:05:11

所谓的动态网址也就是指URL中包括 ?,& 等字符类的网址,如:news.php?lang=cn&class=1&id=2,当我们在开启了网站的伪静态之后,为了网站的SEO,就很有必要避免搜索引擎抓取我们网站的动态网址。

robots禁止搜索引擎抓取动态网址的方法

为什么要这么做?因为搜索引擎在对相同的页面抓取两次之后但最后判定为同一个页面的时候会而对网站做些触发的,具体是怎么处罚的,这个不太清楚,总之是不利于整个网站的SEO的。那么该如何禁止搜索引擎抓取我们网站的动态网址呢?

利用robots.txt文件即可解决这个问题,请看下面的详细操作。

我们知道动态页面都有一个共同的特征,就是在链接里会带有"?"这个问号的符号,因此我们可以在robots.txt文件里写入如下这样的规则:

User-agent: *

Disallow: /*?*

这样即可禁止搜索引擎抓取整个网站的动态链接了。另外如果我们只想让搜索引擎抓取指定类型文件,如html格式的静态页面,可在robots.txt里面加入如下这样的规则:

User-agent: *

Allow: .html$

Disallow: /

另外记得一定要将写好的robots.txt文件放在你网站的根目录中哦,不然是不起作用的。另外写入规则有一个简便的捷径,登陆google网站管理员工具,只接在里面写入规则后,生成robots.txt文件即可。