《python数据分析与应用》第四章:pandas统计分析基础

时间:2024-10-27 15:30:29

第四章

4.1 读写不同数据源的数据
4.1.1 读/写数据库数据

1.数据库数据读取:

注意:数据库的用户名(一般都是root)和密码(自己设置的)都是要用自己的,地址默认的127.0.0.1

读取函数(你自己把文件存在哪了?)和存储函数(你要把问价存在哪?)的路径,一定要区别开

先明确读取表与查询表的区别:
①查询的数据集合时临时存在的;
②不同查询的条件产生不同的数据集合,是对原数据的重新整合;
③当关闭查询后,查询记录随之清空,保存下来的只有查询方式,再次打开查询重新调入数据。

查询操作仿佛新建了一个数据表(其实没有)来储存符合查询命令的数据集,它使原数据发生了临时性的改变,对原数据进行了整合操作;而读取就是读原数据的所有信息,没有对原数据进行整合操作。

read_sql_table:只能读取数据库中的某一个表格,不能实现查询的操作,第一个参数是具体的表格名称;
read_sql_query:只能实现查询操作,不能直接读取,第一个参数是sql语句(查询数据库或者某个表格);
read_sql:是上面两者的集合,既能读取也能查询,第一个参数是表名或者sql语句。

2.数据库数据存储:to_sql
4.1.2 读/写文本文件
1.文本文件读取
read_table读取文本文件,read_csv读取CSV文件
2.文本文件存储:to_csv
4.1.3 读/写Excel文件
文件读取:read_excel
文件存储:to_excel
4.1.4任务实现
1.读取订单详情数据库数据
2.读取订单信息CSV数据
3.读取客户Excel数据

4.2 掌握DataFrame的常用操作
4.2.1查看DataFrame的常用属性
values元素,index索引,columns列名,dtypes类型,
size元素个数,ndim维度数,shape数据形状(行列数目),转置T
4.2.2改查增删DataFrame数据
1.查看访问DataFrame中的数据
(1)DataFrame数据的基本查看方式:字典,属性 (不建议使用)
(2)DataFrame的loc,iloc访问方式
(3)切片方法之ix
2.更改DataFrame中的数据:提取出来重新赋值(无法撤销)
3.为DataFrame增添数据:新建索引并赋值
4.删除某列或某行数据:drop
4.2.3描述分析DataFrame数据 describe方法
1.数值型特征的描述性统计
Numpy中的描述性统计函数:P101下
最大,最小,均值,极差,中位数,标准差,方差,协方差
2.类别型特征的描述性统计
pandas描述性统计方法:P103上
astype方法:将目标特征的数据类型转换为category类型
4.2.4任务实现
1.查看餐饮数据的大小和维度
2.统计餐饮菜品销售状况
3.剔除全为空值或者所有元素取值相同的列

4.3 转换与处理时间序列数据
4.3.1转换字符串时间为标准时间:
to_datetime函数,DatetimeIndex函数,PeriodIndex函数
4.3.2提取时间序列数据信息
使用Timestamp类属性:P109
4.3.3加减时间数据:Timedelta函数
4.3.4任务实现
1.时间字符串转换为标准时间格式
2.提取菜品数据中的年月日和星期信息
3.查看订单信息表时间统计信息

4.4 使用分组聚合进行组内计算
4.4.1使用groupby方法拆分数据
4.4.2 使用agg、aggregate方法聚合数据
4.4.3使用apply方法聚合数据
4.4.4使用transfrom方法聚合数据
4.4.5任务实现
1.按照时间对菜品订单详情表进行拆分
2.使用agg方法计算单日菜品销售的平均单价和售价中位数
3.使用apply方法统计单日菜品销售数目

4.5 创建透视表与交叉表
4.5.1使用pivot_table函数创建透视表
4.5.2使用crosstab函数创建交叉表
4.5.3任务实现
1.创建单日菜品成交总额与总数均价透视表
2.创建单个菜品单日成交总额透视表