统计学基础知识-欧式距离与其他

时间:2024-02-23 18:13:09

 

刷了一篇“Measures of distance between samples: non-Euclidean”,顺手写个笔记

×××××××××××××××××××××××××啦啦啦今天浑身都痛简直萌萌哒××××××××××××××××××××××××××××××××××××

衡量距离的东西,我们称为metric,那么两个点a和b之间的距离应该满足这些条件(朝老师提过!!好爱她)

但是有的时候第三条会很难满足,因为它们并不是距离,而是一种dissimilarity

Bray-Curtis dissimilarity: 衡量样本之间的差异

下面是栗子!!!大栗子!!!!

样本数据:

计算:

也就是这个公式:

如果说我们计算了30个样本两两之间的BC-dissimilarity,可以发现(3)被违背了。

一般会把它写成百分比,那么Bray-Curtis index = 100 - Bray-Curtis dissimilarity

 

Bray-Curtis dissimilarity versus chi-square distance

首先,chi-square distance是啥:

很难说到底哪个更好。

BC的好处是:直观(0就是相同,1就是不同),但违反三角不等式;

chi-square的好处是:true metric(0是指相对丰度identical,最大值与数据有关)

如果都用relative count,那么两者相似;如果使用raw count,size(数值大小)相差大时,很不同。

比如下面的例子,当样本之间的差异不够大时,卡方反映的不够准确。

 

L1 distance (city-block)

Lp distance,J是维度数。L2就是欧式距离。

 

Dissimilarity measures for presence–absence data(dichotomous,二叉的)

Jaccard index:co-presence/(sum - co-absence)

比如A和B,有sp1,sp2,sp5和sp10是co-presence的,sp6和sp7是co-absence的,sp3sp4sp8sp9是mis-match,

所以应为4/(10-2)=0.5

dissimilarity = 1 - Jaccard index

注意:co-absence也是一种match,但是很多时候我们不关心那些,所以才用Jaccard index来衡量相似度

 

correlation coefficient

 

 Distances for heterogeneous data(异构数据,比如下面这种连续和离散混合的)

 

Gower’s generalized coefficient of dissimilarity(将连续和离散的数据标准化)

1)计算各类别的均值与标准差。Region可以把几个可能的值列出来,用01序列来表示。类似下图

2) 标准化

连续值是减去均值再除以标准差,离散值标准化后再乘系数1/√2 = 0.7071(补偿0/1编码)

3)计算距离,如L1,L2等。总=连续的+离散的

 

另一种处理方法

先对每组数据计算distance/dissimilarity,然后再把这些东西按加权平均。

下面是有三种不同数据的情况。权重可以根据自己的需要调整。