数据分析之--可视化分析

时间:2021-09-12 03:53:18

----------------维度---------------

维度是观察数据的角度和对数据的描述。可以说地区是一种维度,这个维度包含上海、北京这些城市。也可以认为销售额是一个维度,里面有各类销售数据。
维度可以用时间、数值表示,也可以用文本,文本常作为类别。数据分析的本质是各种维度的组合,我想了解和分析全国各地的销售额,就需要将地区维度和销售维度结合,如果想知道各个年份的变化,那么再加入时间维度。
说的再透彻点,Excel首行各字段就可以理解成维度。

数据分析之--可视化分析

维度类型和转换
维度主要是三大类的数据结构:文本、时间、数值。地区的上海、北京就是文本维度(也可以称为类别维度),销售额度就是数值维度,时间更好理解了。不同图表有维度使用限制。
数值维度可以通过其他维度加工计算得出,例如按地区维度,count出有多少是上海的,有多少是北京的。
维度可以互相转换。比如年龄原本是数值型的维度,但是可以通过对年龄的划分,将其分类为小孩、青年、老年三个年龄段,此时就转换为文本维度。具体按照分析场景使用。

-----------------图表-----------------

图表是"数据可视化"的常用手段,其中又以基本图表:柱状图、折线图、饼图等等最为常用。

一、柱状图(Bar Chart)

柱状图是最常见的图表,也最易解读。

数据分析之--可视化分析

它适用于二维数据集,但只有一个维度需要比较的情况。

二、折线图(Line Chart)数据

折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。

数据分析之--可视化分析

它还适合多个二维数据集的比较。

数据分析之--可视化分析

上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。

三、饼图(Pie Chart)

饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。

数据分析之--可视化分析数据分析之--可视化分析

上图中,左侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。

一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。

数据分析之--可视化分析

四、散点图(Scatter Chart)

散点图适用于三维数据集,但其中只有两维需要比较。

数据分析之--可视化分析

上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。

五、气泡图(Bubble Chart)

气泡图是散点图的一种变体,通过每个点的面积大小,反映第三维。

数据分析之--可视化分析

上图是卡特里娜飓风的路径,三个维度分别为经度、纬度、强度。点的面积越大,就代表强度越大。

气泡图适用不要求精确辨识第三维的场合。如果为气泡加上不同颜色(或文字标签),气泡图就可用来表达四维数据。下图就是通过颜色,表示每个点的风力等级。

数据分析之--可视化分析

六、雷达图(Radar Chart)

雷达图适用于多维数据(四维以上),且每个维度必须可以排序。但是数据点最多6个,否则无法辨别,因此适用场合有限。
下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。

数据分析之--可视化分析

画成雷达图,就是下面这样。

数据分析之--可视化分析

面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。

七、总结



图表 维度 注意点
柱状图 二维 只需比较其中一维
折线图 二维 适用于较大的数据集
饼图 二维 只适用反映部分与整体的关系
散点图 二维或三维 有两个维度需要比较
气泡图 三维或四维 其中只有两维能精确辨识
雷达图 四维以上 数据点不超过6个

另外,python数据可视化也有比较丰富的形式,后面参见:

http://blog.sciencenet.cn/blog-251664-800766.html

http://www.360doc.com/content/16/0713/08/1317564_575118618.shtml

参考:
http://www.cbdio.com/BigData/2017-01/06/content_5424962.htm
http://www.ruanyifeng.com/blog/2014/11/basic-charts.html