python信用评分卡(附代码,博主录制)
核心
正态分布+逻辑回归+Fico建模
数据清洗(正则表达式)
获取外部数据(*公开信用数据,外购征信数据)
谨慎大数据黑天鹅事件,对历史数据权重处理
信用评分 | 人数百分比 | 累计百分比 | 违约率 |
---|---|---|---|
300~499 | 2% | 2% | 87% |
500~549 | 5% | 7% | 71% |
550~599 | 8% | 15% | 51% |
600~649 | 12% | 27% | 31% |
650~699 | 15% | 42% | 15% |
700~749 | 18% | 60% | 5% |
750~799 | 27% | 87% | 2% |
800~850 | 13% | 100% | 1% |
http://www.21jingji.com/2017/7-29/wMMDEzODBfMTQxNDUwMA.html
http://www.cnblogs.com/nxld/p/6364341.html
揭秘银行信用贷款风控术:风险评分模型成逆袭关键
风险评分
信用评分体系:评分系统包括个人信用记录、个人财产与收入水平等评分
内部数据来自银行掌握的个人履约能力、社交活动、行为偏好、银行关系、信息齐全等;
外部数据来自第三方传统征信、第三方互联网征信、*系统和电信数据等。
21世纪经济报道记者获悉,国内商业银行的信用评分系统大多借鉴美国FICO评分系统,该系统根据信用偿还历史(35%)、欠款金额(30%)、信用历史时长(15%)、信贷产品组合(10%)和新开立信用账户(10%)等指标进行评分。
对于信用评分,“不是说评分越高,那么给你的相应的额度就会越高。”该风控人士表示,只能说比较重视。
数据清洗是风控模型的前提
信用评分的背后,则是风控模型。
一位消费金融高管表示,从风险模型来讲,银行发行信用卡需要填写各种资料,比较繁琐,审批需要人工、电核,后来演变到线上。“关键是我们用什么方式让这些尽量少得麻烦客户,尽量准确地挡住欺诈人群。”其中,“要把握一个平衡的问题,风险成本不是说把握得越严,风险损失就越小,否则就没有利润。”
我们放贷款的风控中,最大的挑战是防欺诈,信用风险倒在其次。”一位城商行零售总监表示,信贷业务主要通过线下进行,审批环节会筛掉10%的客户。最终还会通过模糊搜索模型再次筛选客户。
前述资深风控人士认为,“从国外经验看,目前风控仍然是经验驱动数据,而且数据的技术含量不低于风控模型。”而实际上,目前国内金融机构过度重视风控模型,对于数据质量的重视程度不够。
在风控模型设计中,“FICO标准流程中,数据清洗就有12个步骤,甚至是风控负责人来做数据整理工作。”他表示,否则模型会存在过拟合问题,将指标放入风控模型结果很好,但在生产过程中不稳定。
对于数据来源,前述高管表示,金融机构不是平台性企业,其实数据链是断的。有的地方多一点,有的地方少一点,饱和度不太一样。要得到完整的客户的风险的画像,还是要多方的数据来源来拼合。
美国FICO评分系统简介
美国的个人信用评分系统,主要是Fair IsaacCompany 推出的 FICO,评分系统也由此得名。一般来讲, 美国人经常谈到的你的得分 ,通常指的是你目前的FICO分数。而实际上, Fair Isaac 公司开发了三种不同的FICO 评分系统 ,三种评分系统分别由美国的三大信用管理局使用评分系统的名称也不同。
信用管理局名称 | FICO 评分系统名称 |
---|---|
Equifax | BEACON* |
Experian | ExperianPFair Isaac Risk Model |
TransUnion | FICO Risk Score, Classic |
Fair Isaac 公司所开发的这三种评分系统使用的是相同的方法, 并且都分别经过了严格的测试。即使客户的历史信用数据在三个信用管理局的数据库中完全一致, 从不同的信用管理局的评分系统中得出的信用得分也有可能不一样, 但是相差无几。
fico评分系统全球分布图
FICO 评分系统得出的信用分数范围在300- 850分之间。分数越高, 说明客户的信用风险越小。但是分数本身并不能说明一个客户是好还是坏,贷款方通常会将分数作为参考, 来进行贷款决策。每个贷款方都会有自己的贷款策略和标准, 并且每种产品都会有自己的风险水平, 从而决定了可以接受的信用分数水平。一般地说, 如果借款人的信用评分达到680 分以上, 贷款方就可以认为借款人的信用卓著,可以毫不迟疑地同意发放贷款。如果借款人的信用评分低于620 分, 贷款方或者要求借款人增加担保, 或者干脆寻找各种理由拒绝贷款。如果借款人的信用评分介于620- 680 分之间, 贷款方就要作进一步的调查核实, 采用其它的信用分析工具, 作个案处理。目前, 美国的信用分数分布状况见图1。FICO 评分主要用于贷款方快速、客观的度量客户的信用风险, 缩短授信过程。FICO 评分在美国应用的十分广泛, 人们能够根据得分, 更快地获得信用贷款, 甚至有些贷款, 可以直接通过网络申请, 几秒钟就可以获得批准, 缩短了交易时间, 提高了交易效率, 降低了交易成本。信用评分系统使用, 能够帮助信贷方做出更公正的决策, 而不是把个人偏见带进去, 同时, 客户的性别、种族、宗教、国籍和婚姻状况等因素, 都对信用评分没有任何影响, 保证了评分的客观公正性。在评分系统中, 每一项信用信息的权重不同, 越早的信用信息, 对分数的影响越小
FICO 评分系统得出的信用分数范围在300-850 分之间分数越高, 说明客户的信用风险越小,但是分数本身并不能说明一个客户是好还是坏,贷款方通常会将分数作为参考, 来进行贷款决策,每个贷款方都会有自己的贷款策略和标准。
信用评分 | 人数百分比 | 累计百分比 | 违约率 |
---|---|---|---|
300~499 | 2% | 2% | 87% |
500~549 | 5% | 7% | 71% |
550~599 | 8% | 15% | 51% |
600~649 | 12% | 27% | 31% |
650~699 | 15% | 42% | 15% |
700~749 | 18% | 60% | 5% |
750~799 | 27% | 87% | 2% |
800~850 | 13% | 100% | 1% |
从上表中可以看到两个规律:一是信用评分特别低和特别高的人占比都较少,大多数信用评分中等,大体呈现为左偏态的正态分布;二是信用评分分值越高,违约率越低。这个就是信用评分的核心价值所在,可以根据信用评分的高低进行诸如是否发放、贷款额度、是否需要抵押等重要决策。每种产品都会有自己的风险水平, 从而决定了可以接受的信用分数水平。一般地说, 如果借款人的信用评分达到 680分以上, 贷款方就可以认为借款人的信用卓著可以毫不迟疑地同意发放款如果借款人的信用评分低于,620分 贷款方或者要求借款人增加担保, 或者干脆寻找各种理由拒绝贷款。如果借款人的信用评分介于620-680 分之间, 贷款方就要作进一步的调查核实, 采用其它的信用分析工具 ,作个案处理。
FICO 评分模型中所关注的主要因素有五类, 分别是客户的信用偿还历史、信用账户数、使用信用的年限、正在使用的信用类型、新开立的信用账户。
(一) 信用偿还历史
影响FICO得分的最重要的因素是客户的信用偿还历史 ,大约占总影响因素的35%支付历史主要显示客户的历史偿还情况, 以帮助贷款方了解该客户是否存在历史的逾期还款记录 ,主要包括:
(1) 各种信用账户的还款记录 ,包括信用卡( 例如 Visa Master Card American Express Discover) 、零售账户(直接从商户获得的信用) 、分期偿还贷款、金融公司账户、抵押贷款。
(2) 公开记录及支票存款记录, 该类记录主要包括破产记录、丧失抵押品赎回权记录、法律诉讼事件、留置权记录及判决。涉及金额大的事件比金额小的对FICO 得分的影响要大, 同样的金额下, 越晚发生的事件要比早发生的事件对得分的影响大。一般来讲, 破产信息会在信用报告上记录7-10 年.
(3) 逾期偿还的具体情况, 包括, 逾期的天数、未偿还的金额、逾期还款的次数和逾期发生时距现在的时间长度等。例如, 一个发生在上个月的逾期天的记录对FICO 得分的影响会大于一个发生在 年前的逾期90 天的记录。据统计, 大约有不足,50%的人有逾期30天还款的记录, 大约只有30%的人有逾期 天60以上还款的记录. 而77%的人从来没有过逾期 90天以上不还款的 仅有低于20%的人有过违约行为而被银行强行关闭信用账户
最近几个月的重大违约
(二) 信用账户数
该因素仅次于还款历史记录对得分的影响 占总影响因素的30%,对于贷款方来讲 ,一个客户有信用账户需要偿还贷款 ,并不意味着这个客户的信用风险高。相反地 ,如果一个客户有限的还款能力被用尽, 则说明这个客户存在很高的信用风险 ,有过度使用信用的可能 ,同时也就意味着他具有更高的逾期还款可能性。该类因素主要是分析对于一个客户, 究竟多少个信用账户是足够多的 ,从而能够准确反应出客户的还款能力。
总余额在循环账户总限额比
( 三) 使用信用的年限
该项因素占总影响因素的15%。一般来讲 ,使用信用的历史越长, 越能增加FICO 信用得分。该项因素主要指信用账户的账龄,既考虑最早开立的账户的账龄 ,也包括新开立的信用账户的账龄 ,以及平均信用账户账龄。据信用报告反映 ,美国最早开立的信用账户的平均账龄是14 年,超,25%的客户的信用历史长于20年, 只有不足5%的客户的信用历史小于2 年
( 四) 新开立的信用账户
该项因素占总影响因素的10%,。在现今的经济生活中, 人们总是倾向于开立更多的信用账户, 选择信用购物的消费方式, FICO 评分系统也将这种倾向体现在信用得分中。据调查 ,在很短时间内开立多个信用账户的客户具有更高的信用风险 ,尤其是那些信用历史不长的人。该项因素主要包括
(1) 新开立的信用账户数, 系统将记录客户新开立的账户类型及总数 ;
(2) 新开立的信用账户账龄;
(3) 目前的信用申请数量 ,该项内容主要由查询该客户信用的次数得出, 查询次数在信用报告中只保存两年;
(4) 贷款方查询客户信用的时间长度
(5) 最近的信用状况, 对于新开立的信用账户及时还款, 会在一段时间后, 提高客户的FICO 得分
( 五) 正在使用的信用类型
该项因素占总影响因素的10%。 主要分析客户的信用卡账户、零售账户、分期付款账户、金融公司账户和抵押贷款账户的混合使用情况 ,具体包括 :持有的信用账户类型和每种类型的信用账户数
主要参考文献
1、http://www.yinhang.com/a_2014_0402_197987.html
2、http://www.docin.com/p-63842901.html
芝麻信用与FICO评分的差异
FICO评分是Fair Isaac公司开发的信用评分系统,也是目前美国应用得最广泛的一种。FICO评分系统得出的信用分数范围在300~850分之间,分数越高,说明客户的信用风险越小,它采集客户的人口统计学信息、历史贷款还款信息、历史金融交易信息、人民银行征信信息等,通过逻辑回归模型计算客户的还款能力,预测客户在未来一年违约的概率:
1. 人口统计学信息:如客户年龄、家庭结构、住房情况、工作类别及时间等;
2. 历史贷款还款信息:即过去6个月或12个月的付款方式、逾期次数等;
3. 历史金融交易信息:即过去6个月或12个月的平均月交易笔数、金额等;
4. 银行征信信息:如过去12个月中新开的账户总数、所有账户的总额度、账户是否逾期等。
看,以上这些信息都是FICO评分模型的自变量,最终会通过逻辑回归模型输出最终分数。
阿里巴巴推出的芝麻信用分则是以大数据分析技术为基础,采集多元化数据,包括传统的金融类交易、还款数据,第三方的非金融行为数据,互联网、移动网络和社交网络数据等,帮助贷款方从多个方面考察个体的还款能力、还款意愿,做出合理、全面的信用评分。
一、大数据风控发展迅速
(一)国外案例
Zest Finance公司开发10个基于机器学习的分析模型,1万条原始信息,7万个特征变量,5秒内完成。
Kabbage公司通过获取企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息、以及在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。
(二)国内案例
阿里面向社会的信用服务体系芝麻信用,通过分析大量的网络交易及行为数据吗,对用户进行信用评估。
腾讯的微众银行推出“微粒贷”,风控核心通过社交数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。
二、当前大数据有效性欠佳的原因
(一)数据的质量问题
1.社交数据的真实性问题
Lending club 、facebook合作、宜信尝试后,结论社交数据不可用。
(二)交易数据的真实性问题
刷单。
三、大数据风控的理论有效性问题
从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面、大数据风控还面临一些问题需要解决。
(一)金融信用与社会信用的相关性不确定
线上与线下行为方式反差强烈。
(二)大数据对于“黑天鹅”事件的滞后性
(三)大数据收集和使用的制度问题
四、提高大数据风控有效性的路径
(一)对于金融企业而言,要构建多样化、连续化和实时性的基础数据
1.多维度的收集数据,互联互通,打破数据的孤岛。
2.从供应链交易环节获取数据。
3.积极布局“物联网+”
获取生产环节和使用环节的数据,如企业机器运行数据
(二)对于金融研究部门而言,可从经济、金融等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持
如大数据风控如何顺应经济周期的变化,如何从统计上论证过去的数据对于未来行为判断的准确性,如何解决道德风险所带来的不确定性。
(三)对于*监管部门而言,要推动和完善与数据相关的制度建设
1.法律制度的建设,对数据的收集和使用予以法律上的保护
《个人信息保护法》
2.会计制度建设,对数据资产予以明确的计量
风控模型-美国FICO标准的更多相关文章
-
【图文】雪佛兰Suburban 美国特工标准座驾_新闻中心_易车网
[图文]雪佛兰Suburban 美国特工标准座驾_新闻中心_易车网 雪佛兰Suburban 美国特工标准座驾
-
美国FICO评分系统简介
美国的个人信用评分系统,主要是Fair IsaacCompany 推出的 FICO,评分系统也由此得名.一般来讲, 美国人经常谈到的你的得分 ,通常指的是你目前的FICO分数.而实际上, Fair I ...
-
盒子模型--IE与标准
从上图可以看到标准 W3C 盒子模型的范围包括 margin.border.padding.content,并且 content 部分不包含其他部分. 从上图可以看到 IE 盒子模型的范围也包括 ma ...
-
信贷风控模型开发----模型流程&;好坏样本定义
第二章 模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述 该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含 ...
-
笔记+R︱风控模型中变量粗筛(随机森林party包)+细筛(woe包)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本内容来源于CDA-DSC课程内容,原内容为& ...
-
标准W3C盒子模型和IE盒子模型
标准W3C盒子模型和IE盒子模型 CSS盒子模型:网页设计中CSS技术所使用的一种思维模型. CSS盒子模型组成:外边距(margin).边框(border).内边距(padding).内容(co ...
-
CSS的W3C标准的盒子模型和低版本IE浏览器的盒子模型
CSS中盒子模型的组成由内容区(content).内边距(padding).边框(border).外边距(margin)组成.内边距可细分为 padding-top.padding-right.pad ...
-
【css】IE盒子模型和标准W3C盒子模型
其实盒子模型有两种,分别是 IE 盒子模型和标准 W3C 盒子模型. 1.标准盒子 从上图可以看到标准 W3C 盒子模型的范围包括 margin.border.padding.content,并且 c ...
-
理解标准盒模型和怪异模式&;box-sizing属性
盒子模型 主要有两种,w3c标准盒模型,IE下的怪异盒模型,其实还有就是弹性盒模型(上篇文章我们用他很好的解决了对齐问题) DTD规范 盒模型分为:标准w3c盒模型.IE盒模型.以及css中的伸缩盒模 ...
随机推荐
-
dedecms /install/index.php.bak Installation File Not Deleted &;&; Executed Via Apache Analytic Vul
catalog . 漏洞描述 . 漏洞触发条件 . 漏洞影响范围 . 漏洞代码分析 . 防御方法 . 攻防思考 1. 漏洞描述 概括梳理一下这个漏洞的成因 . dedecms默认情况下安装完成之后,i ...
-
为Unity项目生成文档(二)
Unity项目生成文档 接着上篇文章:为Unity项目生成文档(一) .Net项目可在VS配置XML 我们可以在VS中通过配置来生成xml文件,但是unity的project,就算同样配置了xml文档 ...
-
腾讯云ubuntu下mysqli服务的开启
腾讯云ubuntu下mysqli服务的开启 今天晚上搞了好久,在本地操作系统deepin下操作完全无需开启mysqli模块,自动就开启了.这次介绍一下服务器ubuntu下mysqli模块的开启. 首先 ...
-
【转】Centos系统文件与用户权限分配详解ftp,nginx,php
linux系统中权限是非常完善的一个功能了,我们如果设置不正确文件就无法使用了,像我们以一般情况需要把文件权限设置为777或644了,对于用户权 限就更加了,像素ftp,nginx,php这些我们都可 ...
-
asp.net服务器控件开发系列一
最近想写写博客记录下自己学习开发服务器控件. 第一步:搭建环境. 1.新建一个项目类库,用于保存控件: 2.新建一个Web工程,用于调用控件: 如图: 第二步:在控件类库下,新建一个服务器控件类Tex ...
-
一个简单的mfc单页界面文件读写程序(MFC 程序入口和执行流程)
参考:MFC 程序入口和执行流程 http://www.cnblogs.com/liuweilinlin/archive/2012/08/16/2643272.html 程序MFCFlie ...
-
sublime_text 破解
之前一直使用vi的,但是总觉的vi差了一点什么,不够现代化,老古董了.没办法,只是因为vi在linux下面是预装的,有些时候必须使用vi. 不过除了这种情况之外,vi的可配置性比较高,但是在使用了一段 ...
-
加班计时App
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
-
CF.802C.Heidi and Library (hard) (费用流zkw)
题目链接 复习了下餐巾计划问题.全忘了=-= 首先这是一道网络流.然后本题有\(n\)种建图方法,以及\(smy\) dalao还有单纯形做法. 先假设所有物品都是买入的.那么对于每一天,拆成两个点\ ...
-
python 下 判断操作系统
import platform OS = platform.system() # Windows, Linux, Darwin def get_sys(): if OS == 'Darwin': pr ...