初学pandas与seaborn(一)系统配…

时间:2021-02-03 15:50:41
  前言,整了一通Anaconda,开始学习大数据、数据挖掘……balabala。作为一个啥都没有的小白,零基础开始了。之前的JavaEE先告一段落,个人感觉对JavaEE的学习最重要的还是各种框架单独走一遍、组合走一遍,然后就会对java里面设计模式精髓理解得比较清晰透彻,也对企业中分工协作有个清楚的认识。当然,这是后话。
  一开始有个误解,以为学习Anaconda就是学习这些大数据。但是上网几乎搜不到单独的Anaconda的教程,然后它自己的官网各种培训又是收费的,这几百刀那几百刀,感觉人都挂了还没学会。后面发觉入门最重要的还是学习Anaconda这个类库包里面的几个重要类库。
  先上本讲的效果图:
初学pandas与seaborn(一)系统配…
  是的,Anaconda是个类库包。因为我直接安装了Anaconda,所以包含了pandas

一. 安装pandas
1. Anaconda
   安装pandas、Python和SciPy最简单的方式是用Anaconda 。Anaconda是关于Python数据分析和科学计算的分发包。
2. Miniconda
  使用Anaconda会安装一百多个依赖包,如果想灵活控制安装的依赖包或带宽有限,使用Miniconda是个不错的选择。Conda是个包管理器,Anaconda就是建立在它的基础上。Conda不只跨平台还与语言无关,与pip和virtualenv相结合的作用相似。Miniconda允许先创建包含Python的安装包,然后用conda安装其他的依赖包。
3. Pypi
  pandas可以通过pip安装,但要安装相关的依赖包。
  pip installpandas
4. 包管理器
  可以用linux的包管理器进行安装,如
  sudo apt-get installpython-pandas
  zypper inpython-pandas
5. 源码安装
  从源码安装需要安装最新的Cython,可用easy-install -Ucython安装。源码位于
  http://github.com/pydata/pandas,安装过程为
  git clonegit://github.com/pydata/pandas.git
  cd pandas
  python setup.pyinstall

  这里使用的IDE是 PyCharm,有社区版本可以免费使用,真是棒极了。在研究生阶段用过它们公司的WebStorm,我感觉几个渣语言就是因为JetBrains公司的IDE产品红遍全球,以前没啥人舍得大规模地用这些语言的。界面我喜欢那种暗色风格的,很保护眼睛,也很科幻。不过缺点就是切出去看其他资料的时候,眼睛会瞬间亮瞎,尤其满屏白色的网页。暗色风格的设置如下,在PyCharm里:

File菜单下
+ Settings选项

Appearance &Behavior折叠下的
+ Appearance选项
  + Theme:Darcula (把主题设置成Darcula)

  本节比较重要的文件只有2个,一个births.csv,另一个是自己写的python文件,都放在同一个目录里。其实上网搜很多数据分析的教程,悲剧的在于没有数据,直接一个语句告诉你导入xxx.csv,卧槽!那个csv在哪里?我要自己编一个数据么?!有图片都不错了。于是这里给大家把数据贴出来:
births.csv
,prglngth,birthord,birthwgt_oz1,agepreg,birthwgt_lb1
0,41,1,8,28.58,8
1,41,2,0,30.58,9
2,40,3,11,34.25,7
3,38,1,3,27.91,7
4,40,2,1,30,7
5,36,3,1,34,5
6,39,1,0,29,8
7,41,2,8,31.58,8
8,41,1,3,33.93,10
9,39,2,6,35.41,9
10,39,3,3,37.58,8
11,39,1,12,30,8
12,39,2,2,33.75,9
13,40,1,5,26.16,7
14,42,1,3,20.33,8
15,38,2,11,21.58,9
16,34,3,6,32.83,5
17,41,1,7,30.75,7
18,41,2,13,34.5,7
19,38,1,12,40.83,5
  直接复制到记事本,把扩展名改成csv就能用了

然后自己写的python文件,文件名无所谓,里面代码是关键:
fourth.py
"""#import matplotlib.pyplot as plt似乎也没什么用"""
import seaborn assns
"""# %matplotlib inline 为了在jupyternotebook里作图,需要用到这个命令。编译不通过,似乎是ipython的扩展。直接去掉就好"""
import pandas aspd

births =pd.read_csv('births.csv')
sns.distplot(births['prglngth'])
sns.plt.show()
分析:
其实看许多介绍说明,我们知道pandas是一个数据类型,很方便地存储很多数。
而seaborn又是一个比较漂亮的图形输出库。
程序先通过pandas读取csv并生成一个实例叫births
然后seaborn再根据这个births实例里面的数据,生成直方图。