学习笔记（二）数据挖掘概念与技术

1中心趋势度量：均值(mean)、中位数、众数

截尾均值：丢掉高低极端值后的均值

加权算术均值（加权平均）: 学习笔记（二）数据挖掘概念与技术

中位数(median)是有序数据的中间值，对于非对称数据是数据中心更好的度量。

用插值法计算中位数的近似值：median= 学习笔记（二）数据挖掘概念与技术其中是中位数区间的下界，N是整个数据集中值的个数，是低于中位数区间的所有区间的频率和，是中位数区间的频率，而width是中位数区间的宽度。

众数（mode）：集合中出现最频繁的值，可以对定性和定量属性确定众数。（可能出现多个众数）

对于适度倾斜（非对称）的单峰数值数据，有经验关系：学习笔记（二）数据挖掘概念与技术 ,就是说如果均值和中位数已知，则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数（midrange）:是数据集的最大和最小值的平均值学习笔记（二）数据挖掘概念与技术。具有完全对称的数据分布的单峰频率曲线中，均值、中位数、众数相同

2度量数据散布：极差、四分位数、方差、标准差和四分位数极差

（1）极差：最大值与最小值之差。分位数：取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。2-分位数对应于中位数，4-分位数是3个数据点，把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量，给出数据中间一半所覆盖的范围称为四分位数极差（IQR）=Q3-Q1

（2）五数概括、盒图与离群点

识别可疑离群点的通常规则是，挑选落在第三个四分位数之上或者Q1之下至少1.5*IQR处的值。

五数概括：minimum,Q1,Median.Q3,maximum

boxplot(盒图)：端点一般在四分位数上，使得盒的长度是四分位数极差IQR，中位数用盒内线做标记，胡须延伸到min和max的观测值。

方差和标准差：指出数据的散布（离散）程度，越小说明数据观测趋于均值，越大离散程度越大。学习笔记（二）数据挖掘概念与技术注意：一个观测一般不会远离均值超过标准差的数倍，精准的说，最少%的观测离均值不超过k个标准差。因此，标准差是数据集发散的很好指示器。

3数据统计描述的图形显示：分位数图、分位数-分位数图、直方图和散点图（涉及两个属性，前三个只关于一个属性）

分位数图：是一种观察单变量数据分布的简单有效的方法。在分位数图中xi对应fi画出，学习笔记（二）数据挖掘概念与技术这些数从1/2N到1-1/2N，以相同的步长1/N递增。

分位数-分位数图（q-q图）：对着另一个对应的分位数，绘制一个单变量分布的分位数。使得用户可以观察从一个分布到另一个分布是否有漂移。

直方图：

散点图：去定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。

4数据可视化：旨在通过图形表示清晰有效的表达数据。

（1）基于像素的可视化技术：可视化一维值，使用像素反映该维的值。对于宽窗口，已先行方法安排数据记录填充窗口的效果可能不好。解决方法：空间填充曲线（希尔伯特曲线、格雷码、z-曲线）。窗口不必是矩形的。例如，圆弓分割技术。

（2）几何投影可视化技术：首要挑战是设法解决如何在二维上显示可视化高维空间。，可以增加第三维。三维散点图同样也可以使用颜色增加4维数据点。超过4维，散点图矩阵是二维散点图的n*n网格，提供每个维与所有其他维的可视化。平行坐标（流行）可以处理更高的维度，绘制n个等距离、互相平行的轴，每维一个。数据记录用折线表示，与每个轴在对应于相关维值的点上相交。学习笔记（二）数据挖掘概念与技术

（3）基于图符的可视化技术：使用少量图符表示多维数据值。（切尔诺夫脸：已经发现，眼睛大小和眉毛的歪斜是重要的。人物线条画：两个维被映射到显示轴，其余的被映射到四肢角度和长度。----》人口普查）

（4）层次可视化技术：把所有维划分成子集（子空间），这些子空间按层次可视化。例如：“世界中的世界（Worlds-within-Worlds）”又称n-Vision，以6维数据可视化为例，选定某三维数据为固定值，使用世界（三维图）对另外三个维度可视化。可以在外世界中交互的改变的内世界原点的位置，然后观察内世界的变化结果。

（5）可视化复杂对象和关系:标签云是用户产生的标签统计量的可视化。

5度量数据的相似性和相异性：簇是数据对象的集合，使得同一个簇中的对象互相相似，而与其他簇中的对象相异。相似性和相异性都称邻近性。

（1）数据矩阵（二模two-mode矩阵）与相异性矩阵（单模one-mode矩阵）：数据矩阵(对象-属性结构)：这种数据结构用关系表的形式或n*p矩阵存放n个数据对象。学习笔记（二）数据挖掘概念与技术每一行对应着一个对象，在记号中，我们可能使用f取遍p个属性的下标。相异性矩阵（对象-对象矩阵）：存放n个对象两两之间的邻近度，通常用一个n*n矩阵表示：其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量，一般是非负数，两个对象越相似越接近0越不同该值越大。相似性度量：学习笔记（二）数据挖掘概念与技术

（2）标称属性的邻近性度量:标称属性可以取两个或多个状态。两个对象i和j之间的相异性可以根据不匹配率来计算：学习笔记（二）数据挖掘概念与技术其中，m是匹配的数目，而p是刻画对象的属性总数。所以，（3）二元属性的邻近性度量：给出一个具有相同权重的二元属性列联表对称的二元相异性非对称的二元相异性，其中负匹配（两个都取值为0）数t被认为是不重要的，被忽略有学习笔记（二）数据挖掘概念与技术可以基于相似性来度量，非对称的二元相似性被称为Jaccard系数。

（4）数值属性的相异性：欧几里得距离、曼哈顿距离和闵可夫斯基距离。最流行的距离度量是欧几里得距离（“乌鸦飞行”）令i= 学习笔记（二）数据挖掘概念与技术和j=是两个被p数值属性描述的对象。对象i和j之间的欧几里得距离定义为：曼哈顿（城市块）距离这两个距离都满足如下性质：非负性、同一性、对称性、三角不等式（d(i,j)<=d(i,k）+d(k,j)）。满足这些条件的测度称做度量。

闵可夫斯基距离：学习笔记（二）数据挖掘概念与技术是欧几里得距离和曼哈顿距离的推广。h是实数，.（又称范数，其中p就是h。L1范数表示曼哈顿距离，L2范数表示欧几里得距离。）

上确界距离（切比雪夫距离、学习笔记（二）数据挖掘概念与技术、范数又称一致范数）

（5）序数属性的邻近性度量：与数值型非常类似，可以先把数据进行规范化。

（6）混合类型属性的相异性：更可取的一种方法是将不同属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同区间[0.0,1.0]上。假设数据集包含p个混合类型的数据，对象i和对象j之间的相异性d(i,j)定义为：学习笔记（二）数据挖掘概念与技术其中,指示符的取值为0和1，如果或缺失（对象i或j没有属性f的度量值）或者,并且f是非对称的二元属性取值为0，否则取值为1.属性f对i和j之间相异性的贡献根据不同的类型计算：f是数值的：学习笔记（二）数据挖掘概念与技术，其中h取遍属性f的所有非缺失对象。f是标称或者二元的：如果,则=0;否则.f是序数的：计算排位和,并将作为数值属性对待。

（7）余弦相似性：是一种度量，可以用来比较文档，或针对给定查询词向量对文档排序。x和y是两个待比较的向量，使用余弦度量作为相似性函数，我们有学习笔记（二）数据挖掘概念与技术其中，分母是向量x.y的欧几里得范数。余弦值越接近于1夹角越小，向量间的匹配度越大。当属性为二值属性时，余弦相似性函数可以用共享特征或属性解释。假设xi=1，则对象x具有第i个属性。于是学习笔记（二）数据挖掘概念与技术是x和y共同具有的属性数，而是x具有的属性数与y具有的属性数的几何均值。这时的sim（x,y）是公共属性相对拥有的一种度量。此时，（Tanimoto距离或Tanimoto系数）。

秒客网

学习笔记（二）数据挖掘概念与技术

相关文章