白话空间统计二十一:密度分析(三)
昨天我们看到的都是一维(单变量平滑)的问题,实际上对于做地理信息的同学来说,这种在一个数轴上展开的各种曲线完全就不符合我们的认知或者审美观嘛……别急,今天开始,我们就把这种抽象的数轴曲线,变成大家喜闻乐见的二维密度图了。就像下面这个:
这是中国近一周的地震数据(2016年4月20日-2016年4月24日,数据来源:国家地震科学数据中心,网址:http://data.earthquake.cn/datashare/globeEarthquake_csn.html)
使用R语言的ggplot2包进行的核密度分析
其实扩展到二维,无非是在一维的基础上,加上每个点的旋转函数。在二维平面上进行核密度计算,就是将核函数凡在研究区域的每一个点上面,并且计算一个精细绘制的格网上由那个点所贡献出来的值的曲面。格网分辨率一般不会影响所得到的曲面的形式。但是在分析的过程中,我们会去考虑有关实际空间上的一些实体对这种密度的影响,最后可以计算出一个负责的曲面来。而且通过可视化,还可以变成三维的曲面:比如这个区域进行三维可视化,结果如下:
通过ArcGIS做出来的三维可视化(Z值2倍拉伸)
通过这种计算模式,可以对点数据的聚集区域进行识别,所以聚类的分析,很多在数据探索的时候,也会先采用核密度来进行探索。
我们得到的这种网格密度,可以是一下的一些模式:
1、相对密度。这种密度值是指单位面积上面的事件数,也就是他们由网格的大小来决定,给出诸如每平方公里或者每平方米上有多个个事件这样的数字。这种也是大多数GIS软件的默认选项——需要注意的时候,在ArcGIS里面,这样是默认且唯一的选项。
2、绝对密度。这种密度值是为每个单元网格上面的事件数——也就是说,会把密度图的单元格变成数字,这样来说,所有单元格上的数字之和,就正好等于所进行分析的的总事件数目。
不管哪种软件,他们的密度无非就是这两类,但是实际上来说核函数有很多种,下面是是一些被广泛使用的单变量核密度函数:
其中,dij是距离,h是核带宽, t = dij / h 公式为归一化函数。这个表里面每一个函数都被归一化,似的曲线下的面积之和等于1.
每个函数的曲线如下:
带宽的选择灰常灰常重要……如何重要呢?我们下次继续说这个问题。
本篇中的所有具体的数据和脚本,可以通过虾神的邮箱获取。关注公众号之后,发送任意信息就可以得到提示了。