pandas
对于数据分析的人员来说都是必须熟悉的第三方库,pandas
在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了numpy
,但是numpy
还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中excel
扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。
pandas
是对表格数据模型在python上的模拟,它有简单的像sql
对数据的处理,能够方便的在python上实现。
pandas 的安装
pandas
在python上的安装同样的使用pip
进行:
1
|
pip install pandas
|
pandas 创建对象
pandas
有两种数据结构:series
和 dataframe
。
series
series
像python中的数据list
一样,每个数据都有自己的索引。从list
创建 series
。
1
2
3
4
5
6
7
8
|
>>> import pandas as pd
>>> s1 = pd.series([ 100 , 23 , 'bugingcode' ])
>>> s1
0 100
1 23
2 bugingcode
dtype: object
>>>
|
在series
中添加相应的索引:
1
2
3
|
>>> import numpy as np
>>> ts = pd.series(np.random.randn( 365 ), index = np.arange( 1 , 366 ))
>>> ts
|
在index中设置索引值是一个从1到366的值。
series
的数据结构最像的是python中的字典,从字典中创建series
:
1
2
|
sd = { 'xiaoming' : 14 , 'tom' : 15 , 'john' : 13 }
s4 = pd.series(sd)
|
这时候可以看到series
已经是自带索引index。
pandas
本身跟 python的另外一个第三方库matplotlib
有很多的连接,matplotlib
一个最经常用到的是用来展示数据的,如果还对matplotlib
不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip
命令安装 pip install matplotlib
, 展示如下数据:
1
2
3
4
5
6
7
|
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.series(np.random.randn( 365 ), index = np.arange( 1 , 366 ))
ts.plot()
plt.show()
|
一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas
中也提供了关于时间的一些函数,使用date_range
生成一系列时间。
1
2
3
4
5
6
7
8
9
10
|
>>> pd.date_range( '01/01/2017' ,periods = 365 )
datetimeindex([ '2017-01-01' , '2017-01-02' , '2017-01-03' , '2017-01-04' ,
'2017-01-05' , '2017-01-06' , '2017-01-07' , '2017-01-08' ,
'2017-01-09' , '2017-01-10' ,
...
'2017-12-22' , '2017-12-23' , '2017-12-24' , '2017-12-25' ,
'2017-12-26' , '2017-12-27' , '2017-12-28' , '2017-12-29' ,
'2017-12-30' , '2017-12-31' ],
dtype = 'datetime64[ns]' , length = 365 , freq = 'd' )
>>>
|
之前我们的图形不规则,有一个原因是数据不是连续的,使用cumsum
让数据连续:
如下:
1
2
3
4
5
6
7
8
|
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.series(np.random.randn( 365 ), index = pd.date_range( '01/01/2017' ,periods = 365 ))
ts = ts.cumsum()
ts.plot()
plt.show()
|
dataframe
dataframe
相当于series
一维的一个扩展,是一种二维的数据模型,相当于excel表格中的数据,有横竖两种坐标,横轴很series
一样使用index,竖轴用columns 来确定,在建立dataframe
对象的时候,需要确定三个元素:数据,横轴,竖轴。
1
2
|
df = pd.dataframe(np.random.randn( 8 , 6 ), index = pd.date_range( '01/01/2018' ,periods = 8 ),columns = list ( 'abcdef' ))
print df
|
数据如下:
1
2
3
4
5
6
7
8
9
|
a b c d e f
2018 - 01 - 01 0.712636 0.546680 - 0.847866 - 0.629005 2.152686 0.563907
2018 - 01 - 02 - 1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018 - 01 - 03 1.762894 0.783614 - 0.301468 0.289608 - 0.780844 0.873074
2018 - 01 - 04 - 0.818066 1.629542 - 0.595451 0.910141 0.160980 0.306660
2018 - 01 - 05 2.008658 0.456592 - 0.839597 1.615013 0.718422 - 0.564584
2018 - 01 - 06 0.480893 0.724015 - 1.076434 - 0.253731 0.337147 - 0.028212
2018 - 01 - 07 - 0.672501 0.739550 - 1.316094 1.118234 - 1.456680 - 0.601890
2018 - 01 - 08 - 1.028436 - 1.036542 - 0.459044 1.321962 - 0.198338 - 1.034822
|
在数据分析的过程中,很常见的一种情况是数据直接从excel
或者cvs
过来,可以excel
中读取数据到dataframe
,数据在 dataframe
中进行处理:
1
2
|
df = pd.read_excel( 'data.xlsx' ,sheet_name = 'sheet1' )
print df
|
同样的有保存数据到excel
中 to_excel
。
处理cvs数据的函数是:read_cvs
和 to_cvs
,处理hdf5的函数为 read_hdf
和 to_hdf
。
访问dataframe
可以跟二位数组一样的访问方式:
1
|
print df[ 'a' ]
|
带出横轴标签:
1
2
3
4
5
6
7
8
|
2018 - 01 - 01 0.712636
2018 - 01 - 02 - 1.292799
2018 - 01 - 03 1.762894
2018 - 01 - 04 - 0.818066
2018 - 01 - 05 2.008658
2018 - 01 - 06 0.480893
2018 - 01 - 07 - 0.672501
2018 - 01 - 08 - 1.028436
|
同样的可以指定某一个元素:
1
|
print df[ 'a' ][ '2018-01-01' ]
|
对数组进行切片出来,认清横轴和纵轴:
1
2
3
4
5
6
7
8
|
>>> import pandas as pd
>>> df = pd.read_excel( 'data.xlsx' ,sheet_name = 'sheet1' )
>>> df[:][ 0 : 3 ]
a b c d e f
2018 - 01 - 01 0.712636 0.546680 - 0.847866 - 0.629005 2.152686 0.563907
2018 - 01 - 02 - 1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018 - 01 - 03 1.762894 0.783614 - 0.301468 0.289608 - 0.780844 0.873074
>>>
|
dataframe 涉及的较多的函数,接下来会有更多的介绍。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://www.cnblogs.com/bugingcode/p/8310032.html