初学pandas与seaborn（一）系统配…

　　前言，整了一通Anaconda，开始学习大数据、数据挖掘……balabala。作为一个啥都没有的小白，零基础开始了。之前的JavaEE先告一段落，个人感觉对JavaEE的学习最重要的还是各种框架单独走一遍、组合走一遍，然后就会对java里面设计模式精髓理解得比较清晰透彻，也对企业中分工协作有个清楚的认识。当然，这是后话。

　　一开始有个误解，以为学习Anaconda就是学习这些大数据。但是上网几乎搜不到单独的Anaconda的教程，然后它自己的官网各种培训又是收费的，这几百刀那几百刀，感觉人都挂了还没学会。后面发觉入门最重要的还是学习Anaconda这个类库包里面的几个重要类库。

　　先上本讲的效果图：

　　是的，Anaconda是个类库包。因为我直接安装了Anaconda，所以包含了pandas

一. 安装pandas

1. Anaconda

　　安装pandas、Python和SciPy最简单的方式是用Anaconda 。Anaconda是关于Python数据分析和科学计算的分发包。

2. Miniconda

　　使用Anaconda会安装一百多个依赖包，如果想灵活控制安装的依赖包或带宽有限，使用Miniconda是个不错的选择。Conda是个包管理器，Anaconda就是建立在它的基础上。Conda不只跨平台还与语言无关，与pip和virtualenv相结合的作用相似。Miniconda允许先创建包含Python的安装包，然后用conda安装其他的依赖包。

3. Pypi

　　pandas可以通过pip安装，但要安装相关的依赖包。

　　pip installpandas

4. 包管理器

　　可以用linux的包管理器进行安装，如

　　sudo apt-get installpython-pandas

　　zypper inpython-pandas

5. 源码安装

　　从源码安装需要安装最新的Cython，可用easy-install -Ucython安装。源码位于

　　http://github.com/pydata/pandas，安装过程为

　　git clonegit://github.com/pydata/pandas.git

　　cd pandas

　　python setup.pyinstall

　　这里使用的IDE是 PyCharm，有社区版本可以免费使用，真是棒极了。在研究生阶段用过它们公司的WebStorm，我感觉几个渣语言就是因为JetBrains公司的IDE产品红遍全球，以前没啥人舍得大规模地用这些语言的。界面我喜欢那种暗色风格的，很保护眼睛，也很科幻。不过缺点就是切出去看其他资料的时候，眼睛会瞬间亮瞎，尤其满屏白色的网页。暗色风格的设置如下，在PyCharm里：

File菜单下

+ Settings选项

Appearance &Behavior折叠下的

+ Appearance选项

+ Theme:Darcula （把主题设置成Darcula）

　　本节比较重要的文件只有2个，一个births.csv，另一个是自己写的python文件，都放在同一个目录里。其实上网搜很多数据分析的教程，悲剧的在于没有数据，直接一个语句告诉你导入xxx.csv，卧槽！那个csv在哪里？我要自己编一个数据么？！有图片都不错了。于是这里给大家把数据贴出来：

births.csv

,prglngth,birthord,birthwgt_oz1,agepreg,birthwgt_lb1

0,41,1,8,28.58,8

1,41,2,0,30.58,9

2,40,3,11,34.25,7

3,38,1,3,27.91,7

4,40,2,1,30,7

5,36,3,1,34,5

6,39,1,0,29,8

7,41,2,8,31.58,8

8,41,1,3,33.93,10

9,39,2,6,35.41,9

10,39,3,3,37.58,8

11,39,1,12,30,8

12,39,2,2,33.75,9

13,40,1,5,26.16,7

14,42,1,3,20.33,8

15,38,2,11,21.58,9

16,34,3,6,32.83,5

17,41,1,7,30.75,7

18,41,2,13,34.5,7

19,38,1,12,40.83,5

　　直接复制到记事本，把扩展名改成csv就能用了

然后自己写的python文件，文件名无所谓，里面代码是关键：

fourth.py

"""#import matplotlib.pyplot as plt似乎也没什么用"""

import seaborn assns

"""# %matplotlib inline 为了在jupyternotebook里作图，需要用到这个命令。编译不通过，似乎是ipython的扩展。直接去掉就好"""

import pandas aspd

births =pd.read_csv('births.csv')

sns.distplot(births['prglngth'])

sns.plt.show()

分析：

其实看许多介绍说明，我们知道pandas是一个数据类型，很方便地存储很多数。

而seaborn又是一个比较漂亮的图形输出库。

程序先通过pandas读取csv并生成一个实例叫births

然后seaborn再根据这个births实例里面的数据，生成直方图。

参考教程：http://www.cnblogs.com/kylinlin/p/5236601.html

秒客网

初学pandas与seaborn（一）系统配…

相关文章