金融风控-贷款违约预测
今天是task02的打卡时间点,作为社畜,时间着实紧张。EDA结果不是很好。但是也是作为一种记录,记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩,我觉得,我也是可以的,周末好好加油学习,你也是可以的。
本章主要是进行数据可视化,探索可自变量与应变量之间的关系
首先看了变量类型,里面共有5个类别型变量,其余都为数值型变量。但是看了其分布,感觉这些数值型变量中,还有一些是类别型变量。
1 ) 贷款违约风险,及label Y变量“isDefault”,分布如下
从这个比例来看,违约的比例还是比较高的,数据的分布还算比较均衡的。
2)贷款金额分布
3)贷款年限分布
大多数都还是短期贷款为主的。其实这里应该看,这不同贷款年限下,违约风险是否有差别(后面再补充吧)。
4)贷款利率分布
从分布来看,基本是服从正太部分的。
5)分期金额
总体来看近似服从正太分布。
6)贷款登记分布
从贷款等级分布来看,基本上越是次级贷款,其违约比例是越高的。
7)贷款等级分布
趋势上面的基本一致,这两个特征,可以考虑去掉其中一个。
8)工作年限与违约
和我们认知基本也是一致的,工作时间越长,违约的比例是成比例降低。
9) 住房情况,如下
从这个分布来看,和别人博客中所描述的,应该0是有房的,其他都是无房的情况,数据处理时,可以考虑将 > 1 的都改成1.
10)verificationStatus 验证状态,不确定具体含义如何解释
与违约之间的关系如下。这里和预期不太一样,后面还需要仔细研究下。
11)债务收入比,分布严重失衡,是否后续需要数据分桶处理。
异常值较多。
12)delinquency_2years
13)fico范围,结果包含很多0,不知道这个是如何解释。数据应该需要特殊处理的。
14)applicationType
这里0应该是两个贷款,1是1人贷款。
总结
总的来说,确认了一些基础特征的分布情况,为后面的特征工程奠定了基础。但是还有部分特征是没有好好做可视化的,时间匆忙。后面再进一步处理。
代码后续会更新到git上。