文件名称:混合模型的离群点检测-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:49
RapidMiner
(2) 混合模型的离群点检测 这里首先介绍下混合模型。混合是一种特殊的统计模型,它使用若干统计分布对数据建 模。每一个分布对应一个簇,而每个分布的参数提供对应簇的描述,通常用中心和发散描述。 混合模型将数据看作从不同的概率分布得到的观测值的集合。概率分布可以是任何分 布,但是通常是多元正态的,因为这种类型的分布不难理解,容易从数学上进行处理,并且 已经证明在许多情况下都能产生好的结果。这种类型的分布可以对椭圆簇建模。 总的讲,混合模型数据产生过程为:给定几个类型相同但参数不同的分布,随机地选取 一个分布并由它产生一个对象。重复该过程m 次,其中m 是对象的个数。 具体地讲,假定有 K 个分布和m 个对象 1 2{ , , , }mx x x 。设第 j 个分布的参数为 j ,并设是所有参数的集合,即 1 2{ , , , }K 。则 |i jP x 是第 i 个对象来自 第 j 个分布的概率。选取第 j 个分布产生一个对象的概率由权值 1jw j K 给定,其中