influence maximization 第二弹

时间:2022-03-14 19:11:19

Robust Influence Maximization

首先简要介绍一下这个问题:在一个社交网络图中寻找固定数量的节点,使得这些节点对所有节点的影响值尽可能的大。先对这个问题给出形式化的定义:给一个有向图G = (V,E) ,V代表节点,E代表有向边,每一条边有一个权值  ∈ [0,1],代表源点对终点的影响因子(源点有多大的几率对终点产生影响)。定义参数向量θ=( ) e∈E 代表每一条边上的影响因子。我们定义 (S)为影响传播函数,( (S)代表从S出发能传播到的所有节点数目的期望值) 其中L代表图G的子图, [L]代表在参数向量θ下子图L出现的概率。(每一条边出现的概率就是传播因子)RL(S)代表在子图L中从S节点能到达所有节点的个数。

Influence maxization问题就是要找到使得  (S)取得最大值得集合S。这个问题有多种多样的解法,适用于不同的情况。下面是搜索到的针对不同问题的针对性解法:

(1)Influence maximization in social networks based on discrete particle swarm optimization

(2)Influence maximization in complex networks through optimal percolation

(3)Influence Maximization in Social Networks When Negative Opinions May Emerge and Propagate∗

(4)Efficient Influence Maximization in Social Networks

(5)Efficient Influence Maximization in Social Networks

(6)Influence Maximization in Dynamic Social Networks

不难发现,Influence maximization problem的解法多种多样。但是Robust Influence Maximization 却是作者提出来的。这篇论文中,首先形式化的定义了一个问题robust influence maxization(RIM)

给一个有向图G = (V,E) ,V代表节点,E代表有向边,每一条边有一个权值区间[le,re],代表源点对终点的影响因子。定义参数空间Θ =  [le,re],我们希望能找到一个大小为k的集合,使得目标函数g(Θ,S)取得最大值。也就是找公式中的集合 (定义如下)

作者在提出这个问题之后,证明这个问题是NP-hard的,并且提供了一个LUGreedy算法给出 一个近似的解法。

作者接下来证明了,当图的规模很大的时候, RIM问题不存在令人满意的解,直观上也很容易想出来,当每一条边上的影响因子都有很大不确定度的时候,目标函数 的最大值也不会很大。

这个时候作者就另辟蹊径地解决这个问题,通过采样的方式来减小边上的影响因子的不确定度,作者提出了两种算法,一种是uniform sampling另一种是 adaptive  sampling。

对于第一种算法,我们对于每一条边采样次数都是一样的,并且作者给出了一个采样次数与最终解的好坏之间的一个函数关系。对于第二种算法,是一个启发式的算法,这个算法对于一些重要的边进行了多次的采样,对于其他的边采样次数就明显减少。从结果上来看,第二种算法能明显提升解的正确性。

这个作者名字是Wei Chen,他研究influence maximization问题很长时间,还写过书,而且我在查找论文的时候发现,很多论文的一作都是他。他主导的方法就是启发式算法,他很多论文都是关于influence maximization问题的启发式算法,我这个论文也不例外,论文中表现最好的算法adaptive  sampling就是启发式的。

这个算法的不足还是很明显的,第一个贪心算法时间复杂度太高,只能针对比较小的社交网络图进行运算。还有就是作者提出的最后一个算法仅仅是一个启发式的算法,没有证明第四个算法结果的下界是多好,但是作者只在两个数据集合上进行了测试,实在是难以令人信服。

还有就是第二个贪心算法的下界实在是太高了,而且这个算法的想法实在是太过朴素了,我想可能存在一些解法使得这个算法的下界能够进一步的提高。

最重要的不足我觉得是论文的证明有一些问题,论文提出了RIM问题,设计了一个LUGREEDY算法来解决它,但是算法有一个假设前提是真实的影响因子是在影响因子的区间里面,然后在这个基础上进行的算法下界的证明。但是真实的情况是我们只能得到一个影响因子的置信区间,使得真实值落在置信区间里面的概率是很大的,也就是说,影响因子有一定的可能性不在区间里面,这样的话对已经得到的算法的下界有影响,虽然我没有进一步的研究,但是直觉上是可以感觉到这个影响可能将会导致我们得到的算法的下界毫无意义。