《python数据分析与应用》第四章：pandas统计分析基础

第四章

4.1 读写不同数据源的数据
4.1.1 读/写数据库数据

1.数据库数据读取：

注意：数据库的用户名（一般都是root）和密码（自己设置的）都是要用自己的，地址默认的127.0.0.1

读取函数（你自己把文件存在哪了？）和存储函数（你要把问价存在哪？）的路径，一定要区别开

先明确读取表与查询表的区别：
①查询的数据集合时临时存在的;
②不同查询的条件产生不同的数据集合，是对原数据的重新整合;
③当关闭查询后，查询记录随之清空，保存下来的只有查询方式，再次打开查询重新调入数据。

查询操作仿佛新建了一个数据表（其实没有）来储存符合查询命令的数据集，它使原数据发生了临时性的改变，对原数据进行了整合操作；而读取就是读原数据的所有信息，没有对原数据进行整合操作。

read_sql_table：只能读取数据库中的某一个表格，不能实现查询的操作，第一个参数是具体的表格名称；
read_sql_query：只能实现查询操作，不能直接读取，第一个参数是sql语句（查询数据库或者某个表格）；
read_sql：是上面两者的集合，既能读取也能查询，第一个参数是表名或者sql语句。

2.数据库数据存储：to_sql
4.1.2 读/写文本文件
1.文本文件读取
read_table读取文本文件，read_csv读取CSV文件
2.文本文件存储：to_csv
4.1.3 读/写Excel文件
文件读取：read_excel
文件存储：to_excel
4.1.4任务实现
1.读取订单详情数据库数据
2.读取订单信息CSV数据
3.读取客户Excel数据

4.2 掌握DataFrame的常用操作
4.2.1查看DataFrame的常用属性
values元素，index索引，columns列名，dtypes类型，
size元素个数，ndim维度数，shape数据形状（行列数目），转置T
4.2.2改查增删DataFrame数据
1.查看访问DataFrame中的数据
（1）DataFrame数据的基本查看方式：字典，属性（不建议使用）
（2）DataFrame的loc，iloc访问方式
（3）切片方法之ix
2.更改DataFrame中的数据：提取出来重新赋值（无法撤销）
3.为DataFrame增添数据：新建索引并赋值
4.删除某列或某行数据：drop
4.2.3描述分析DataFrame数据 describe方法
1.数值型特征的描述性统计
Numpy中的描述性统计函数：P101下
最大，最小，均值，极差，中位数，标准差，方差，协方差
2.类别型特征的描述性统计
pandas描述性统计方法：P103上
astype方法：将目标特征的数据类型转换为category类型
4.2.4任务实现
1.查看餐饮数据的大小和维度
2.统计餐饮菜品销售状况
3.剔除全为空值或者所有元素取值相同的列

4.3 转换与处理时间序列数据
4.3.1转换字符串时间为标准时间：
to_datetime函数，DatetimeIndex函数，PeriodIndex函数
4.3.2提取时间序列数据信息
使用Timestamp类属性：P109
4.3.3加减时间数据：Timedelta函数
4.3.4任务实现
1.时间字符串转换为标准时间格式
2.提取菜品数据中的年月日和星期信息
3.查看订单信息表时间统计信息

4.4 使用分组聚合进行组内计算
4.4.1使用groupby方法拆分数据
4.4.2 使用agg、aggregate方法聚合数据
4.4.3使用apply方法聚合数据
4.4.4使用transfrom方法聚合数据
4.4.5任务实现
1.按照时间对菜品订单详情表进行拆分
2.使用agg方法计算单日菜品销售的平均单价和售价中位数
3.使用apply方法统计单日菜品销售数目

4.5 创建透视表与交叉表
4.5.1使用pivot_table函数创建透视表
4.5.2使用crosstab函数创建交叉表
4.5.3任务实现
1.创建单日菜品成交总额与总数均价透视表
2.创建单个菜品单日成交总额透视表

秒客网

《python数据分析与应用》第四章：pandas统计分析基础

相关文章