数据挖掘之图挖掘

时间:2023-01-08 16:29:19
  1. 图挖掘
    传统的数据挖掘任务,比如关联规则挖掘、市场购物篮分析和聚类分析等,都是试图从一个具有单一关系的独立实例集中寻找模式
    许多真实数据集描述的都是通过多种关系连接在一起的各种实体类型,应当小心妥善处理由于样本之间连接而导致的潜在关系,事实上,记录联动应该是可以利用的信息,显然,这些信息可以用来提高学习模型的预测准确度,:连接对象的属性往往是相关的,并且拥有共同点的对象之间往往有连接存在,作为一种通用的数据结构,图可以满足建模数据间的复杂关系的要求
    2.基于图的数据挖掘代表了一个技术集合,这些技术用来挖掘基于图形表示的数据的相关信息,他的任务是在数据的图形表示中寻找新颖有用且便于理解的图论模式
    3.只有节点而没有边的图称为空图(或零图),只有一个节点的图称为平凡图,如果两个节点ni和nj之间有边相连接,则称二者是相邻的
  2. 如果一个图的节点是图G节点的子集,并且节点对之间有与图G相同的边,则称该图是图G的导出子图
  3. 图数据挖掘算法中,最简单的核心方法是度用来衡量图中节点重要性的核心指标和方法,它是指一个给定节点拥有边的数量,在某种意义上,度是用来衡量图中节点的“人气方法”,节点度数越高,就越核心,另一个核心方法类是中介性,中介性用来衡量一个点在其他顶点之间的路径上出现的次数,最简单、应用最广泛的中介性方法是最短路径中介性
  4. 确定边中介性值的过程通常分为两个步骤:A: 计算通过该边的图中所有节点对之间最短路径的长度和数量 B: 对所有的链接依赖求和
  5. 时态数据挖掘
    时间是数据的一个基本属性,时态数据挖掘关注的是大顺序数据集的挖掘,这里顺序数据指的是按照某个指标标排过序的数据
    顺序数据包括:A:时态序列,代表来自一个特定字母表的标称符号的有序序列 B: 时间序列,代表一个连续的实值元素的时间戳序列
    由于原始数据中存在噪声、缺失值或不正确的记录等,因此,传统的时态数据分析方法需要使用一个统计方法,包括长期趋势估计、周期变化、季节性模式、代表异常点的不规则运动
  6. 时态数据表示
    A: 原始数据或用最少的预处理
    B: 窗口和分段逼近
    C: 基于变换的表示
  7. 序列之前的相似性度量
    序列的单个元素可能是实值向量,或者用符号数据,当序列用字母表中的离散符号表示时,两个序列之间的相似性大多通过比较其中一个序列中的元素与另一个序列中的响应元素来获得,这种距离度量的方法中最著名的便是最长公共子序列(LCS)相似性度量方法
  8. 时态数据模型
    时态模式是一个局部模型,它对一些具有时效性的数据样本进行了具体说明
    有限状态机(FSM)由一组状态和一组转换组成,如果满足转换条件,一个状态可以转换到其他多个状态,FSM必须有一个由箭头指向的初始状态,它是模型的入口,这里模型的输入数据是符号序列,序列中的符号就是一个状态转换到另一个状态的触发器
  9. 空间数据挖掘(SDM)
    SDM是通过对大的数据空间数据集发现有趣的和先前未知的且潜在有用的信息的过程,空间数据包含拓扑和距离信息,通常在数据库中,该类数据是按照空间索引结构组织并且按照空间访问方式存取
  10. 分布式数据挖掘(DDM)
    分布式数据挖掘包含一些特性:
    A: 系统包含多个计算和数据的独立节点
    B: 节点之间的通信代价高昂通常称为瓶颈
    C: 节点通过其他节点交换结果,通常通过消息传递
    D: 节点资源存在约束,例如分布式传感器系统的电池能源
    E: 节点需要考虑隐私和/或安全
    F: 系统应该具有能够扩展的能力,因为当前的分布式系统可能包含数百万个节点
    G: 系统应该具有在局部节点失效、丢失或出现不正确数据时还能够正确运行的能力