一般来说,网站可以用域名和IP来访问。你的网站可以通过IP直接访问,本来这没什么问题,但是会有些隐患:
- 由于搜索引擎也会收录你的IP地址的页面,所以同一个页面搜索引擎会重复收录,造成页面的权重不如单个收录高。
- 域名恶意指向的可能。还记得去年还是前年的 google.com.sb 事件吗?google.com.sb 这个域名被恶意指向了百度,后来证实了 google.com.sb 这个域名为第三者恶意指向的,并不是Google所为。当然这只是个玩笑,但是如果被人恶意用别的域名解析到你的IP的话,那么你的网站就能通过别人的域名来访问了。接下来会发生什么?假如那域名是不友善的域名,比如曾经指向非法网站,容易引发搜索引擎惩罚,连带IP受到牵连。即使域名没什么问题,但流量也会被劫持到别的域名,从而遭到广告联盟的封杀。
- ……
如何解决这个问题?最直接的方法是让用户只能通过域名来访问网站,而不能通过IP来直接访问。这个可以修改Apache配置文件httpd.conf来实现。下面是小站的实现:
01 |
NameVirtualHost 121.*.*.* |
02 |
<VirtualHost 121.*.*.*> |
10 |
<VirtualHost 121.*.*.*> |
11 |
DocumentRoot /var/www/nowamagic/ |
12 |
ServerName www.nowamagic.net |
15 |
<VirtualHost 121.*.*.*> |
16 |
DocumentRoot /var/www/nowamagic/ |
17 |
ServerName nowamagic.net |
第一部分代码是实现拒绝直接通过 121.*.*.* 这个IP的任何访问请求,这时如果你用 121.*.*.* 访问,会提示拒绝访问。
第二部分代码就是允许通过 http://www.nowamagic.net/ 这个域名访问,主目录指向 /var/www/nowamagic/ (这里服务器OS是 CentOS)
第三部分代码是允许不带 www 的域名访问,应该能和上面的合并一起写吧。
在这里记录下,方便以后信手拈来。
最近有人用小站数据,利用反向代理技术,做了个小偷站。用户访问的是他的网址,但实质上内容数据确是我的,这是一起恶意反向代理事件。
什么是反向代理?
先说说正向代理的概念:
正向代理,也就是传说中的代理,他的工作原理就像一个跳板。简单的说,我是一个用户,我访问不了某网站,但是我能访问一个代理服务器。这个代理服务器呢,他能访问那个我不能访问的网站,于是我先连上代理服务器,告诉他我需要那个无法访问网站的内容,代理服务器去取回来,然后返回给我。从网站的角度,只在代理服务器来取内容的时候有一次记录,有时候并不知道是用户的请求,也隐藏了用户的资料,这取决于代理告不告诉网站。
结论就是,正向代理是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),然后代理向原始服务器转交请求并将获得的内容返回给客户端。客户端必须要进行一些特别的设置才能使用正向代理。
那么反向代理的概念呢?
比如用户访问 http://www.nowamagic.net/librarys/veda 这个页面,但www.nowamagic.net实际上并不存在这个页面,他是偷偷从另外一台服务器上取回来,然后作为自己的内容吐给用户。
但用户并不知情,这很正常,用户一般都很笨。这里所提到的 www.nowamagic.net 这个域名对应的服务器就设置了反向代理功能。
结论就是反向代理正好相反,对于客户端而言它就像是原始服务器,并且客户端不需要进行任何特别的设置。客户端向反向代理 的命名空间(name-space)中的内容发送普通请求,接着反向代理将判断向何处(原始服务器)转交请求,并将获得的内容返回给客户端,就像这些内容原本就是它自己的一样。
恶意反向代理的危害
网站被恶意反向代理有什么危害呢?这里列举一下:
- 首先肯定会占用服务器资源,网站打开速度受影响。
- 其次,别人通过代理盗用你的网站数据,对用户与不是那么智能的搜索引擎而言,相当于建了一个与你一模一样的站点,那么很有可能你的站点会进搜索引擎沙箱,甚至被降权。
- 如果被恶意代理的页面,还挂有你的联盟广告(比如Adsense),这就十分危险了,如果有人点击了上面的广告,很容易被Adsense封号。
- 还有很多危害,读者可以自行脑补……
js 级别的解决方案
1 |
<script type= "text/javascript" > |
2 |
if (document.domain != 'nowamagic.net' && document.domain != 'www.nowamagic.net' ){ |
脚本很简单,如果地址栏中的网址不是 nowamagic.net 和 www.nowamagic.net 中的任何一个,那么就把地址栏转向 http://www.nowamagic.net/ 。这段代码同样可以避免被人使用反向代理技术“伪造”一个跟自己一模一样的网站。
题外话:如何防止网站被iframe嵌入。有些人用iframe做了个框架,把我们网站嵌入其中,访客来浏览的时候,好像是在浏览他自己的网站一样,那么如何解决呢?以下方法可破:
1 |
<script type= "text/javascript" > |
3 |
if (top.location != self.location)top.location=self.location; |
php 级别的解决方案
js 级别的解决方案虽然能够让恶意代理页面跳回来,但是对搜索引擎不怎么友好。下面是服务器端(PHP)的解决方案,代码比较简单,就不多说了。
01 |
$proxy_rs = $this -> proxy_filter(); |
02 |
if ( $proxy_rs != 'nowamagic.net' || $proxy_rs != 'www.nowamagic.net' ) |
09 |
public function proxy_filter() |
12 |
$svrUrl = 'http://' . $_SERVER['SERVER_NAME'].$_SERVER["PHP_SELF"]; |
13 |
if (!empty($_SERVER["QUERY_STRING"])) |
15 |
$svrUrl .= "?".$_SERVER["QUERY_STRING"]; |
20 |
return $_SERVER [ 'SERVER_NAME' ]; |
htaccess 级别的解决方案
.htaccess
3 |
php_value auto_append_file proxy.php |
proxy.php
2 |
$f = getenv ( "HTTP_X_FORWARDED_FOR" ); |
3 |
$server = getenv ( "HTTP_HOST" ); |
4 |
if (( $f != "" )&&( $server != "nowamagic.net" )&&( $server != "www.nowamagic.net" )){ |
这个由于我网站的特殊性,没试验过,但是网上常用这种方法