处理缺失数据-3gpp-23501-g10(中文版)

时间:2024-07-31 07:48:13
【文件属性】:

文件名称:处理缺失数据-3gpp-23501-g10(中文版)

文件大小:28.14MB

文件格式:PDF

更新时间:2024-07-31 07:48:13

python 量化交易

3.2 处理缺失数据 在访问数据的基础上,我们可以更改数据,例如,修改某些元素为缺失值: df['openPrice'][df['secID'] == '000001.XSHE'] = np.nan df['highestPrice'][df['secID'] == '601111.XSHG'] = np.nan df['lowestPrice'][df['secID'] == '601111.XSHG'] = np.nan df['closePrice'][df['secID'] == '000002.XSHE'] = np.nan df['turnoverVol'][df['secID'] == '601111.XSHG'] = np.nan print df.head(10) secID tradeDate secShortName openPrice highestPri ce lowestPrice closePrice turnoverVol 19 000001.XSHE 2015-01-30 平安银行 NaN 14.12 13.76 13.93 93011669 39 000002.XSHE 2015-01-30 万科A 13.09 13 .49 12.80 NaN 209624706 59 000568.XSHE 2015-01-30 泸州老窖 19.15 19.51 19.11 19.12 14177179 79 000625.XSHE 2015-01-30 长安汽车 19.16 19.45 18.92 19.18 21233495 99 000768.XSHE 2015-01-30 中航飞机 25.38 25.65 24.28 24.60 59550293 119 600028.XSHG 2015-01-30 中国石化 6.14 6.17 6.02 6.03 502445638 139 600030.XSHG 2015-01-30 中信证券 28.50 28.72 27.78 27.86 304218245 159 601111.XSHG 2015-01-30 中国国航 7.92 NaN NaN 7.69 NaN 179 601390.XSHG 2015-01-30 中国中铁 8.69 8.69 8.12 8.14 352357431 199 601998.XSHG 2015-01-30 中信银行 7.10 7.14 6.92 6.95 68146718 原始数据的中很可能存在一些数据的缺失,就如同现在处理的这个样例数据一样, 处理缺失数据有多种方式。通常使 用 dataframe.dropna() , dataframe.dropna() 可以按行丢弃带有 nan 的数 据;若指定 how='all' (默认是 'any' ),则只在整行全部是 nan 时丢弃数 据;若指定 thresh ,则表示当某行数据非缺失列数超过指定数值时才保留;要指 定根据某列丢弃可以通过 subset 完成。 print "Data size before filtering:" print df.shape print "Drop all rows that have any NaN values:" print "Data size after filtering:" print df.dropna().shape print df.dropna().head(10) 量化分析师的Python日记【第6天:数据处理的瑞士军刀pandas下篇 76


网友评论