浅谈社交网络中垃圾用户检测

时间:2022-08-09 15:18:56

    马上就步入研二的时期了,研究方向也是换了又换几经波折,最近定下来的研究方向为:社交网络数据中的垃圾用户检测,这是一个比较新的领域,毕竟中文博客sina微博起步和鼎盛也没有多久的时间嘛,从最开始的仿冒网站检测到接下来的社交网络中用户隐私保护又到社交网络中的个性化服务推荐到最终的垃圾用户检测这里,可以说是一个很漫长的曲折的道路,中间每个方面都看了很多的论文,在这里也不敢说自己很懂这个领域,只是说以我现在的阶段和认识来简单谈一下我对这个研究领域的看法和想法,毕竟看多了自然会有一点想法的嘛,下面是我的一个简单的总结:

问题背景:

社交网络中的垃圾用户经常对用户的隐私信息进行窥探、向用户推广业务、获取较高的知名度、传播虚假信息,以上这些行为可能会误导甚至欺诈用户。

垃圾账号:充满心灵鸡汤和网络摘抄、直接复制其他账号博文或图片、微博抽奖的作弊账号、刷排名的账号。

常见可疑行为:“僵尸粉”关注行为、垃圾传播、散播谣言、信息操纵等。

垃圾行为检测的应用场景:

应用:异常模式检测、垃圾信息检测、拍卖网中的欺诈检测、垃圾传播行为分析、视频平台中垃圾传播和内容推广者检测、社交媒体垃圾传播者的行为规律、个人资料可疑程度评价、异常用户组检测、假冒账号检测、需要消费者群体检测、操纵市场行为检测。

有垃圾行为检测需求的平台:网络、计算机系统、在线拍卖网站、在线视频网站、在线评论、社交媒体、Twitter、健康医疗应用、微博、Facebook

 

行为模型设计中的关键属性

1、 个人情感

2、 个人属性:谨慎度。加入谨慎度增加检测的适用范围和性能。

3、 行为属性:同步性(节点相互之间行为模式相似的程度)。

4、 网络结构特征:亲和力(类似谨慎度)、度特征、聚类系数、PageRank

5、 融合特征:个人概要特征、发布内容特征、行为特征、关系特征、历史特征、统计特征

6、 网络信息特征:图特征、邻居特征、时间特征、自动化特征

7、 用户与发布信息间的关系

前期研究中的重要结论:

1、 动态行为、内容分享模式和时间信息在垃圾用户识别问题中很重要。

2、 大多数垃圾用户采用一种合作策略与其他垃圾用户建立链接以形成“垃圾场”

3、 尽管不同社会网络中的语言学特征并不相同,但其间并不存在明显不同。

4、 垃圾用户为躲避系统检测,会经常改变自己的关注数量来维持关注数与粉丝数的平衡(Twitter)。

5、 垃圾用户与垃圾信息间存在较强的联系。

6、 垃圾用户与普通用户的发布行为模式存在一定差异。

7、 谨慎度与其他属性存在一致的相关性,故具有描述用户的合理性。

8、 垃圾账号之间是否存在互相关注,不同平台不尽相同。人人、微博几乎不会,Twitter会。

9、 正常用户除了关注正常用户也会存在关注异常用户的现象。

 

用户识别方法:

属性角度

1) 用户关系信息

使用概率图模型识别多关系社会网络中的垃圾用户;利用链接信息,基于谨慎度、度特征、聚类系数和pagerank,利用随机森林算法进行垃圾用户识别;

不足:准确率较低。

2) 用户属性、在线行为和发布信息

使用用户个体属性和社会属性,采用SVM和懒惰联想分类方法进行识别;利用外部媒体先验知识,采用非负矩阵分解方法识别垃圾用户;视为异常检测问题,利用基本信息和微博流属性,采用改进的流聚类算法,小样本上召回率达到99%微博和用户概要特征,采用SVM识别垃圾用户(监督方法)

不足:刻画不全面,精确度低。

3) 两者融合

使用用户统计特征、发布文本特征、行为特征和关系特征,准确率和F1均较高,证明:meta分类优于树分类、基于函数分类且度量方法适用于变化的训练集。对用户概要特征、朋友关系特征、发布内容特征和历史特征对区分垃圾用户能力进行检验,基于提出的特征采用随机森林方法识别用户,准确率为95%~98%。对发布内容、网络信息,采用矩阵分解框架达到高效的在线处理。对提出的图特征、邻居特征、时间特征和自动化特征利用随机森林、决策树、贝叶斯网和Decirate算法证明了本文特征的有效性。利用用户与信息间的发布关系设计约束函数,将预测问题转化为求解矩阵分解最优解问题,证明了模型准确率方面 优于SVM、逻辑回模型、逻辑回归Lasso模型。

4) 子图特征:定点度数、聚类系数

技术角度

基于图的检测

1) 基于特征变量

从顶点等与子图相关的特征(顶点度数、聚类系数)出发,利用机器学习技术(SVM、流聚类、贝叶斯网络),训练模型检测技术。

不足:特征大多只与顶点局部结构有关,垃圾账号刻意模仿正常社交关系则失效

2) 基于传播的概率模型随机游走和概率图模型

不足:垃圾账号较少,其间没有紧密链接则检测方法失效;假设相邻账号同为正常或异常的假设不成立。

3) 基于矩阵分解

不足:矩阵分解的时间、空间复杂度都较高,模型设计时,要考虑如何扩展。

子图挖掘

不足:需要参数(密度/类别数量);容易规避。

垃圾信息传播者检测

不足:针对内容设计模型不完备,需要根据行为模式进行建模。

行为分析与建模面临的挑战与拟方案:

1. 高稀疏度<多源行为数据融合

2. 海量动态<设计增量行为数据处理模型

3. 多元异构<采用通用的矩阵、张量模型或图模型表达用户行为。

PS:异构问题详述:行为权重在不同的社交媒体中不一致。需要如无向图、有向图、二部图、带权图乃至超图的不同模型表示,需要使用(非)对称矩阵、二值矩阵、非负矩阵和非负张量等数学表示。社交媒体需要除用户节点外的内容信息节点、设备节点等网络元素

动态行为模式建模——特征概念:

1. 概要特征:账户创建时间、发布信息数、昵称长度、自我描述长度

2. 关系特征:关注数、粉丝数、动态关注数、

3. 发布信息特征:动态URL数、发布模式、动态@数、信息自相似度、情感统计特征

下一步可研究:

用户转发行为研究、用户采纳信息行为、进行网络去噪(利用谨慎度)。