在做titanic分析的过程中,看了一些大神的想法,发现在分析数据的过程中,许多大神会使用到seaborn,plotly这些库,而我等小白仅仅知道matplotlib这个唯一的数据可视化库而已。上网查找资料后整理如下:
数据可视化库可以根据其应用场景来分为以下几类:基础的2D,3D图绘制库,交互信息可视化库,地图可视化库
基础的2D,3D可视化
主要包括了matplotlib和seaborn,其中seaborn又是基于matplotlib的高级可视化效果库。
matplotlib是最基础的可视化库
seaborn针对的点主要是数据挖掘和机器学习中的变量特征选取,seaborn可以用短小的代码去绘制描述更多维度数据的可视化效果图。(比如可以通过seaborn.heatmap画出各特征之间的相关度图,找出冗余特征)
交互信息可视化
数据分析的一个业务场景就是用数据讲故事,交互信息可视化的工具就在此凸显出了优势。
plotly实现了在线导入数据做可视化并保存内容在云端server的功能。做演示的时候,只需要在本地的jupyter notebook与plotly server建立通信,即可调用已经做好的可视化内容做展示。Plotly同时有freemium和premium两种账户,免费账户已经可以满足基本需要。
此外,作为数据分析师,一个重要的工作场景就是为业务团队建立dashboard,plotly强大的交互功能得到了淋漓尽致的体现。
另外的交互可视化库有Bokeh,Pyecharts
地图可视化库
处理地理信息数据,一般用于机器学习的可能性小,主要有Geoplotlib和Mapbox