----------------维度---------------
维度是观察数据的角度和对数据的描述。可以说地区是一种维度,这个维度包含上海、北京这些城市。也可以认为销售额是一个维度,里面有各类销售数据。维度可以用时间、数值表示,也可以用文本,文本常作为类别。数据分析的本质是各种维度的组合,我想了解和分析全国各地的销售额,就需要将地区维度和销售维度结合,如果想知道各个年份的变化,那么再加入时间维度。
说的再透彻点,Excel首行各字段就可以理解成维度。
维度类型和转换
维度主要是三大类的数据结构:文本、时间、数值。地区的上海、北京就是文本维度(也可以称为类别维度),销售额度就是数值维度,时间更好理解了。不同图表有维度使用限制。
数值维度可以通过其他维度加工计算得出,例如按地区维度,count出有多少是上海的,有多少是北京的。
维度可以互相转换。比如年龄原本是数值型的维度,但是可以通过对年龄的划分,将其分类为小孩、青年、老年三个年龄段,此时就转换为文本维度。具体按照分析场景使用。
-----------------图表-----------------
图表是"数据可视化"的常用手段,其中又以基本图表:柱状图、折线图、饼图等等最为常用。一、柱状图(Bar Chart)
柱状图是最常见的图表,也最易解读。它适用于二维数据集,但只有一个维度需要比较的情况。
二、折线图(Line Chart)数据
折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。它还适合多个二维数据集的比较。
上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。
三、饼图(Pie Chart)
饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。上图中,左侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。
一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。
四、散点图(Scatter Chart)
散点图适用于三维数据集,但其中只有两维需要比较。上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。
五、气泡图(Bubble Chart)
气泡图是散点图的一种变体,通过每个点的面积大小,反映第三维。上图是卡特里娜飓风的路径,三个维度分别为经度、纬度、强度。点的面积越大,就代表强度越大。
气泡图适用不要求精确辨识第三维的场合。如果为气泡加上不同颜色(或文字标签),气泡图就可用来表达四维数据。下图就是通过颜色,表示每个点的风力等级。
六、雷达图(Radar Chart)
雷达图适用于多维数据(四维以上),且每个维度必须可以排序。但是数据点最多6个,否则无法辨别,因此适用场合有限。下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。
画成雷达图,就是下面这样。
面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。
七、总结
图表 | 维度 | 注意点 |
---|---|---|
柱状图 | 二维 | 只需比较其中一维 |
折线图 | 二维 | 适用于较大的数据集 |
饼图 | 二维 | 只适用反映部分与整体的关系 |
散点图 | 二维或三维 | 有两个维度需要比较 |
气泡图 | 三维或四维 | 其中只有两维能精确辨识 |
雷达图 | 四维以上 | 数据点不超过6个 |
另外,python数据可视化也有比较丰富的形式,后面参见:
http://blog.sciencenet.cn/blog-251664-800766.html
http://www.360doc.com/content/16/0713/08/1317564_575118618.shtml
参考:
http://www.cbdio.com/BigData/2017-01/06/content_5424962.htm
http://www.ruanyifeng.com/blog/2014/11/basic-charts.html