文件名称:数据特征分析-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:17
RapidMiner
6.2 数据特征分析 对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的 特征分析。 6.2.1 分布分析 分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称 的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、 绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。 1. 定量数据的分布分析 对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般 按照以下步骤: 1) 求极差 2) 决定组距与组数 3) 决定分点 4) 列出频率分布表 5) 绘制频率分布直方图 遵循的主要原则有: 1) 各组之间必须是相互排斥的 2) 各组必须将所有的数据包含在内 3) 各组的组宽最好相等 下面结合具体实例来运用分布分析对定量数据进行特征分析: 表 6-1 是描述菜品捞起生鱼片在 2014 年第二个季度的销售数据,绘制销售量的频 率分布表、频率分布图,对该定量数据做出相应的分析。 表 6-1 捞起生鱼片的销售情况 日期 销售额 日期 销售额 日期 销售额 2014/4/1 420 2014/5/1 1770 2014/6/1 3960 2014/4/2 900 2014/5/2 135 2014/6/2 1770 2014/4/3 1290 2014/5/3 177 2014/6/3 3570 2014/4/4 420 2014/5/4 45 2014/6/4 2220 2014/4/5 1710 2014/5/5 180 2014/6/5 2700