随机图 & 如何处理Power-law(幂律)分布的数据

时间:2022-08-20 16:18:59

在研究复杂网络中,研究者使用的主要工具就是随机图理论。该理论创始于上个世纪40年代。由Erdos等人创立。最早提出的经典随机图模型就是ER模型。在随机图中,边的出现成为概率事件。随机图和经典图之间最大的区别在于引入了随机的方法,使得图的空间变得更大,其数学性质也发生了巨大的变化,在随机图的经典数学模型中,随机图上的结点度数分布服从泊松分布。经过长达60多年的研究,最近由圣塔非的M.E.J Newman等人将随机图中的度数分布扩展到任意度数分布,我们称之为"广义随机图",这使得对复杂网络的研究有了进一步的深入。虽然我觉得广义随机图理论在解决power-law问题上仍然存在这一定的缺陷。但是至少它在仿真上已经被证实了。


数学中,随机图是指由随机过程产生的[1]。随机图的理论处于图论概率论的交叉地带,主要研究各种经典随机图的性质。第一批关于随机图的结果是保罗·埃尔德什阿尔弗雷德·雷尼在1959年至1966年的一系列论文中提出的[2].

目录

   [隐藏

[编辑]定义与模型

随机图的“随机”二字体现在边的分布上。一个随机图实际上是将给定的顶点之间随机地连上边。假设将一些纽扣散落在地上,并且不断随机地将两个纽扣之间系上一条线,这样就得到一个随机图的例子[3]。边的产生可以依赖于不同的随机方式,这样就产生了不同的随机图模型。一个典型的模型是埃尔德什雷尼共同研究的ER模型。ER模型是指在给定 n 个顶点后,规定每两个顶点之间都有 p 的概率连起来(随机图 & 如何处理Power-law(幂律)分布的数据),而且这些判定之间两两无关。这样得到的随机图一般记作 随机图 & 如何处理Power-law(幂律)分布的数据 或 ERn(p)[4]

另一种随机图模型叫做内积模型内积模型的机制是对每一个顶点指定一个系数的向量,而两个顶点之间是否连接的概率则是它们的向量的内积的函数。

一般来说,可以定义任意两个顶点之间相连的概率,这个概率也被称为边概率。定义更广泛的随即图模型的方法是定义所谓的网络概率矩阵。这个矩阵的系数就是边概率,因此详细刻画了随机图的模型。

随机规则图是随机图中特殊的一类,它的性质可能会与一般的随机图不同。

[编辑]性质

随着边概率的不同,随机图可能会呈现不同的属性。对于最典型的ER模型,埃尔德什与雷尼研究了当顶点数目 n 趋向于正无穷大时,ER随机图的性质与概率 p 之间的关系。他们发现,当 p 的值越过某些门槛时,ER随机图的性质会发生突然的改变[3]。ER随机图的许多性质都是突然涌现的,比如说,当 p 的值小于某个特殊值之前,随机图具有某个性质的可能性等于0,但当 p 的值大于这个特殊值以后,随机图具有这个性质的可能性会突然变成1。

举例来说,当概率 p 大于某个临界值 pc(n) 后,生成的随机图几乎必然是连通的(概率等于1)。也就是说,对于散落在地上的 n 个纽扣,如果你以这样的概率 p 将两个纽扣之间系上线,那么你拿起一颗纽扣时就几乎能带起所有的纽扣了[3]

[编辑]随机树

主条目: 随机树

随机树是随机图的一类。如同随机图一样,随机树是一个经由随机过程建立的。随机树的一种生成方法是利用随机置换。首先生成一个 随机图 & 如何处理Power-law(幂律)分布的数据 阶随机置换函数,将 随机图 & 如何处理Power-law(幂律)分布的数据个可能连起来的边标上 1 至 随机图 & 如何处理Power-law(幂律)分布的数据 的序号。然后按照从小到大的序号排列为原本没有边的图一一添加边。添加第 随机图 & 如何处理Power-law(幂律)分布的数据 条边时,如果发现添加后会导致图中出现一个,那么就放弃添加这条边,而开始添加第 随机图 & 如何处理Power-law(幂律)分布的数据 条边。最后得到的就是一个随机树[5]

[编辑]参见

[编辑]参考来源

  1. ^ Béla BollobásRandom Graphs, 2nd Edition, 2001, Cambridge University Press
  2. ^ 第一篇论文发表于1959年,标题为“On Random Graphs I”(《论随机图 I》),Publ. Math. Debrecen 6, p290.
  3. 3.0 3.1 3.2 汪小帆,李翔,陈关荣. 《复杂网络理论及其应用》. 清华大学出版社. 2006. ISBN 9787302125051 (中文).
  4. ^ Romeo Van Der Hofstad. Random Graphs and Complex Networks. Eindhoven University of Technology. 2011年2月25日 (英文).
  5. ^ Alexandr Kazda. The Random Tree Process. Center for Discrete Mathematics and Theoretical Computer Science [2011-04-24].




如何处理Power-law(幂律)分布的数据?


[] [] []
 
   1 。比如两个自变量 IV1 IV2 都是高度偏态,在对其进行对数变换后转化为正态。但是 IV1 IV2 可能对因变量 DV 存在交互影响, 那么在检测交互影响的时候 interaction term 是应该用 lnIV1*lnIV2 么?因为这里有个疑问是 lnIV1+lnIV2=ln IV1*IV2 ),如果 lnIV1 lnIV2 进入后 R Squared Change 显著的话是不是就代表已经存在交互影响了么?还需要继续进入 lnIV1*lnIV2 么?对这个问题我感觉有点钻到牛角尖里了,想了很久都不太清楚?
   2 。另外是关于前面 0 值太多的自变量 (单峰非正态),有点类似于 medical research 里面的 account variable 0 代表没发生,但他们是自变量,而不是因变量, 所以感觉不能用 Logistic 回归。 我试着用了 log 之类的转换, 很难变成正态分布,目前我将其转换成了 dummy variable 0  1 做了一个 model ,然后再选择所有不为 0 obsevation 做了一个 model ,但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢?
  问题一较简单:交互影响模型中的自变量是否可以取对数?答案是肯定的。因为在你的模型  Y = b0 + b1ln IV1  + b2ln IV2  + b3ln IV1 ln IV2 中的右边前两项,即 IV1 IV2 各有一个回归系数 b1 b2 ,所以它们不会被约简为另一个 b3ln IV1 ln IV2
  同理,模型右边第三项  b3ln IV1 ln IV2 简约后成为  b3  IV1 + IV2 ),也不等同于前两项  b1ln IV1  + b2ln IV2 )。当然,第三项的变量 IV1 + IV2  中的联合分布比 IV1 IV2 原先的独立分布更加不对称,即更加偏离正态分布。但是,据我的理解,当你将  ln IV1 ln IV2 输入 OLS 回归时,计算程序是将  ln IV1 ln IV2 当做一个值处理而不会将它分析成 IV1 + IV2 的。
  问题二很复杂:如何处理服从 power-law (幂律)分布的数据?这种分布特征的数据,具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸( left-censored ),而全部堆积在一起。也有人称其为  "floor effects”  地板效应 )数据(如下图 a )。初看,这些最小值(本例是 1 )堆起来不像是地板效应、而像  “ceiling effects” 天花板 效应)。但如果将图 a 90 度旋转,就可以理解 地板 的意思。当然,这种分布的反面,即一组数据中有很多个无法更大的最大值( right-censored values ),就是 天花板 了。
  随机图 & 如何处理Power-law(幂律)分布的数据
  以上图 a 中的 X ,按三个不同的幂律值( 1 2 4 )而形成三种不同的 地板 分布(即 P X =X-1 P X =X-2 、和 P X =X-4 。具体说来,当幂律 =-1 时, X 的最小值占了总体的 19% ;当幂律 =-2 时, X 的最小值占了总体的 61% ;而当当幂律 =-3 时, X 的最小值占了总体的 92% !在经典的 正态分布世界 the world of normal distribution 里,我们都是用 log 来转换服从幂律分布的数据。以下图 b 就是对图 a 中的三组 X log 转换以后的分布形状:
 
  与图 a 相比,图 b 中的三种分布的形状不那么 地板 了,但是还远远不是正态分布的。如果将 X 的频数(即 P X ))也作 log 转换,即得到一个单调递减的线性分布
 
  图 c 也不是正态分布。但在 正态世界 里,线性分布是我们对付幂律数据的(相对)最好方法了;就是说,幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗?有,那就要离开正态世界而进入 变态世界 the world of abnormality )、做一个研究 变态行为 变态学者 变态 这个字太刺眼。做 变态研究 的绝大多数是拘谨的物理学家,当然无法承受世俗的歧视,所以将变态世界叫做 复杂系统 complex system )。我一开始说 这个问题很复杂 ,意思就是 这是一个复杂世界的问题 。当然,复杂系统也不能点石为金,将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见 A. Clauset  C.R. Shalizi  and M.E.J. Newman  "Power-law distributions in empirical data" SIAM Review  2009 )。
    可以试试以下几种方法:一、对 X log 之后、再取 log (当然,如果 log X )有非正值、需要先对其做线性转换成正值);二、将 X 转换成 0-1 值的 dummy variable 后直接进入模型(而不是用来分拆成两个模型);三、将 X 与其他相关的自变量合成新的变量;等等。注意,上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。