python 计算缺失值个数以及缺失率
import os
import pandas as pd
os.chdir(r"D:\pycharm程序文件\练习1")
data = pd.read_excel("")
# 计算表格行列数
print(data.shape)
print(data.shape[0]) # 计算行的个数
# 查看某 一/多 列的缺失值isnull()
print(data['被保险人年龄'].isnull())
# 计算每一列缺失值个数 info(); 输出非空值non-null的个数及数据类型
print(data.info())
# 查看两列非空值个数及数据类型data[['列1','列2']].info()
print(data[['风险类别(A最低,E最高)','被保险人年龄']].info())
# 查看某一列非空值个数data[['列1']].info()
print(data[['风险类别(A最低,E最高)']].info())
# info()不支持series类型, 所以不能用data['列1'].info()
"""
(1)
找不到直接计算空值行数的方法
利用加减法计算缺失值个数及缺失率
1. 先用count()计算出行数(列非空值的行数); count(axis=1)是计算列数的. 默认axis=0
2. shape[0]计算出总行数
"""
missing_value = data['风险类别(A最低,E最高)'].shape[0] - data['风险类别(A最低,E最高)'].count()
missing_rate = missing_value/data['风险类别(A最低,E最高)'].shape[0]
print("missing_value = %d"%missing_value)
print('missing_rate = {}'.format(missing_rate))