银行信用卡风险大数据分析与挖掘
使用excel数据挖掘功能完成
一、信用卡客户信用等级影响因素分析与挖掘
基于客户信用记录表
1. 数据预处理
浏览数据
-
客户等级占比,其中优质客户占比较少,风险客户很多,分析影响客户信用等级的原因
-
年龄分布,为了方便挖掘,后续会重新标记为30岁以下,30-50,50岁以上
-
婚姻状态,有一个离散值
-
户籍分布,分为特别发达、一般和偏远
-
教育程度,后续会重新标记为是否上过大学
-
住房类型,其他影响挖掘,后续会当作离散值删除
-
职业类别
-
工作年限,将20年以上的标记为一类
- 个人收入 收入差距太大了
可以看到部分人的收入过高,部分人过低
- 保险缴纳
-
车辆情况
-
信用评分
-
额度
- 审批结果
离群值清除
-
婚姻状态,选择将一个丧偶人士的数据清除
-
住房类型
重新标记
-
年龄 重新标记为低于30、30-50、大于50
-
户籍
-
教育程度
-
工作年限
采用突出显示异常值处理
异常值报表
异常值数据,共36条
选择删除异常值
数据处理结果
2. 数据挖掘
采用分类中决策树构建模型,判断信用卡客户信用等级影响因素,这里没有选择收入,是因为收入是连续值,所以我们判断的是除收入外最重要的影响因素
生成结果
3. 挖掘结论分析与建议
决策树:
分析及建议:
该模型用于预测客户的风险等级(A、B、C或D),基于几个关键特征:居住类型(自购房或租房)、年龄和教育程度。
从这个决策树中可以得出以下几点:
- 对于居住类型为“自购”的客户:
- 如果年龄小于30岁且教育程度为本科及以上,则风险等级为A的概率较高。
- 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为B的概率较高。
- 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
- 对于居住类型为“租”的客户:
- 如果年龄小于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
- 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为D的概率较高。
- 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为C的概率较高。
基于这些信息,给出建议如下:
-
针对居住类型为“自购”的年轻高学历客户(年龄小于30岁且教育程度为本科及以上),他们可能具有较低的风险等级(A或B)。因此,对于这类客户,可以考虑提供更优惠的产品和服务,以吸引并保留他们。
-
相反地,针对居住类型为“租”且年龄较大、教育程度较低的客户(年龄大于等于30岁且教育程度为本科及以下),他们可能具有较高的风险等级(C或D)。因此,在与这类客户打交道时要更加谨慎,并采取相应的风险管理措施。
-
对于居住类型为“租”的年轻低学历客户(年龄小于30岁且教育程度为本科及以下),他们的风险等级也相对较高(C)。因此,需要对他们进行更多的关注和管理,以便及时发现潜在问题并采取相应措施。
依赖关系网络
图中可以看出,最强连接是居住类型,也就是客户是否有房
说明:以上分析均不考虑连续收入,因为连续数据实在不好重新标注,可以把它当成单独的重要因素进行挖掘
二、欺诈人口属性分析与挖掘(同样为不考虑收入因素)
基于消费历史记录表
1. 数据预处理
1.1 分析关键影响因素
根据表格中的数据,我们可以得到以下结论:
- 日均消费金额:当日均消费金额在7到12次之间时,欺诈的可能性更高(红色);而在5到7次之间时,欺诈的可能性较低(绿色)。
- 卡类别的影响:白金卡和金卡的欺诈可能性较低(绿色),而普卡的欺诈可能性较高(红色)。
- 客户号的影响:某些特定的客户号(999993847675和999993864022)有较高的欺诈可能性(红色)。
- 额度的影响:额度为100000的信用卡存在较高的欺诈可能性(红色)。
综上所述,银行或其他金融机构可以根据这些信息调整其风险管理策略。例如,对于日均交易次数较多、持有普卡、拥有特定客户号以及信用额度较大的账户,应加强监控和审核,以降低欺诈风险。同时,也可以通过提高安全措施、实施更严格的审批流程等方式来防范欺诈行为。
1.2 类别检测
- 类别1的用户主要进行小额交易,无论是单笔最小还是最大金额都很低。
- 用户的日均交易次数处于中等水平,表明他们是频繁但非过度使用者。
- 使用的卡片多为普通卡,可能意味着这些用户尚未达到升级卡级别的资格或需求。
- 所有记录都没有欺诈行为,这可能是因为这一类别的用户交易模式较为常规,不容易被标记为欺诈。
1.3 突出显示异常值
选择删除异常值
2. 数据挖掘
决策树
分析建议
通过这个决策树模型,我们可以看出日均交易次数和额度对欺诈行为的影响。具体来说,当日均交易次数较高(大于等于4次且小于6次),并且额度不是固定值10000元时,欺诈的可能性会增加。因此,银行或其他金融机构可以通过监控这类账户来提高风险预警能力,并采取相应的预防措施,如加强审核或设置更高的安全阈值。
此外,该模型也可以帮助我们了解欺诈行为发生的概率随日均交易次数和额度变化的趋势。例如,在日均交易次数较低(小于4次)或额度固定为10000元时,欺诈行为的概率较小。这有助于优化风控策略,比如设定不同的风险评估标准以适应不同的用户行为模式。
聚类
通过这个图形,我们可以看到不同分类之间的差异。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。另一方面,分类3的用户额度最低,日均交易次数最少,且单笔消费的最大金额也最低。这可能表明分类1的用户是高价值客户,而分类3的用户可能是新用户或低活跃度用户。
分析与建议
要深入分析这些数据,我们需要知道每个分类的具体含义,例如,它们可能代表不同的用户群体,如新老用户、活跃度高低、信用评分等级等。有了这些额外信息,我们可以构建更精确的用户画像,从而制定更好的市场营销策略或风险管理政策。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。
一共聚类9个,关于其他类别的分析在这里不再详述。
三、excel数据挖掘总结
文章主要完成了两项重要任务:一是分析信用卡客户的信用等级影响因素,二是挖掘信用卡欺诈的人口属性特征。以下是具体总结:
首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。预处理阶段包括数据清理、变量转换和异常值处理。模型分析中,居住类型、年龄和教育程度被识别为决定客户信用等级的关键特征。例如,居住类型为自购房的年轻且受过高等教育的客户(年龄小于30岁,本科及以上)具有较低的风险等级(A或B)。相反,租房的、年龄较大且教育程度较低的客户(年龄30岁以上,本科以下)风险等级较高(C或D)。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。
其次,关于信用卡欺诈的人口属性分析,文章基于消费历史记录表进行了数据预处理和决策树建模。分析结果显示,日均消费金额、卡类别、特定客户号和额度是欺诈行为的关键影响因素。日均消费金额在7到12次之间欺诈可能性更高,普卡的欺诈可能性比白金卡和金卡高,特定客户号和大额度信用卡存在较高的欺诈风险。进一步的类别检测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。
在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。
测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。
在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。
至此,该项目完成,使用到数据源4个表中的两个;涉及到的数据集与挖掘报告pdf版本均已上传资源,资源名与本文标题一致,如果觉得图片不清晰,可以下载资源查看pdf