-
从蚂蚁金服一窥人工智能在金融领域的机遇与挑战
阅读2469
编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,届时,蚂蚁金服人工智能部技术总监李小龙将在智能金融论坛上分享蚂蚁金服在“人工智能+金融”的进展。在此之前,我们专访了李小龙。
金融被誉为是人工智能的风口之一,蚂蚁金服无疑是这一风口下的先行者。
蚂蚁金服只做Tech(技术),用技术支持金融机构做好Fin(金融),这样的定位和大多数试水“人工智能+金融”企业大相径庭。
不久前,蚂蚁金服把其在深度学习图像算法研究上的最新成果开放给了保险行业:开放车险定损产品——定损宝。
而这只是蚂蚁金服用技术服务金融行业的冰山一角,从支付、智能风控、信贷决策、理财、保险定价、信用到智能客服,蚂蚁金服正在在用人工智能来影响和助力金融行业。
这背后给技术带来了多大的挑战?
蚂蚁金服人工智能部技术总监李小龙表示,蚂蚁金服所做的人工智能研究都是基于场景,而这样的尝试远比单纯的学术研究复杂。以定损宝为例,产品核心的技术是图像识别,但它的实现比人脸识别、普通的图像识别难度更高;除此之外,还需要根据不同的输出结果来计算出保费的变化情况。
问题的维度更加复杂,这是金融行业独有的挑战,这种情况下算法需要怎样的创新?模型是否具备可解释性?蚂蚁金服正在攻克“人工智能+金融”领域最棘手的问题。
采访正文
您一直专注机器学习和数据挖掘等领域,这些技术在蚂蚁金服业务中发挥了什么样的价值?
李小龙:机器学习和数据挖掘在蚂蚁金服很多场景上都有应用。金融行业非常关键的能力之一是洞察用户,给用户更精准的画像,这是数据挖掘里面很重要的一环,我们可以根据用户画像更好的进行产品推荐,或者是智能营销。
比如支付宝线下支付的营销活动(奖励金),应该给什么样的人发奖励金?发多少奖励金会进一步提升他消费的活跃度?这些会涉及到智能圈人和智能推荐的问题,我们用到了机器学习的模型;还有金融产品推荐,如基金推荐、保险产品的推荐也需要用到机器学习的算法;而智能客服、理财社区机器人还涉及到NLP、语义匹配、长句分析匹配等问题。
这些应用场景都需要机器学习的模型包括深度学习的模型来解决。
蚂蚁金服一直希望用技术助力金融行业,现在做出了哪些创新?
李小龙:蚂蚁金服在技术上有很多的创新,保险产品的推荐就是其中之一,在这个产品中我们利用了多维度的用户画像数据。
举个例子,我们基于大数据分析发现穿紧身牛仔裤的女孩手机比较容易碎屏。因此启发了手机碎屏险的精准推荐,事实证明转化成交率也比较高。
还有在智能客服里面,我们采用了基于语义匹配的大规模层次聚类算法来做用户原始问句的聚类,然后用聚类产生的标准问题来代替原来人工定义的知识点的问题,这可以更好的反映用户的真实诉求,也能简化知识库的建设过程。
另一个值得一提的是机器人问答,蚂蚁金服客服机器人的解决率现在已经超过了人工(比人工高了三个百分点),这是怎么实现的呢?除了应用很多业界比较新的深度学习的算法并且结合我们的实际进行模型创新之外,我们还采用了问题推荐和相关问题推荐,也就是在精准匹配模型的信心分较低的情况下,把多个问题的推荐作为问答机器人的一种输出方式,另外,即使在信心分较高的情况下,在直接输出知识点的同时,也会输出相关问题的推荐(一般对于比较复杂的问题,相关问题往往也是用户关心的),然后通过点击数据就能够得到用户的反馈来训练模型,从而通过不断自学习来提升模型效果,这在QA上是相对比较少的一种做法,但在我们的客服机器人上取得了很好的效果。
不久前,蚂蚁金服向保险行业开放了“定损宝”,这其中使用了哪些人工智能技术?
李小龙:传统保险公司的车险处理流程,一般为报案、现场查勘、提交理赔材料、审核、最终赔付。用户完成整套链路获得理赔的周期往往长达几周甚至一个月。而定损宝可以通过技术来提升车险理赔的效率。
这其中涉及的人工智能技术种类非常多,如图像识别、图像分割,图像定位以及决策模型、目标检测,噪声去除等等。
当然,这其中实际上存在很多挑战。虽然在深度学习的成熟让图像识别在最近几年取得了突飞猛进的发展,各项大赛中的识别率每年都在提升,但在图像定损上依然有非常大的挑战。这比人脸的识别、普通的图像识别难度更高,比如光照反光程度的细微变化就会极大地增加识别难度,即便是人眼也很难分辨这其中的差异。我们基于计算机视觉算法以及多模型才能精准输出针对各种程度的刮擦、变形、部件的开裂和脱落等损伤的定损结论。
您之前提到过深度学习的局限性,例如小样本场景下的挑战?蚂蚁金服是如何解决的?
李小龙:深度学习需要克服的一个问题是不可解释性,例如芝麻信用是需要强解释性的,减分和加分都需要解释,如果用深度学习则是比较难解释的;另一个例子是信用风控,虽然目前在中国拒绝贷款不需要给理由(在美国是必须要给理由的),但实际上这会给客服带来很大的压力,如果不给理由,用户会打很多电话去问客服。
另外,深度学习在样本数量过小的场景下也比较难发挥作用,小样本学习现在是学术界非常感兴趣的问题。不过,蚂蚁金服的个别场景中存在的另一个严重问题就是标注样本比较少,而大部分机器学习算法以有监督学习为主,这对样本的标注需求比较大。例如在安全风控里面没有标注,或者说是标注非常少的情况下怎么去做建模,我们叫做隐案挖掘,这是很大的挑战,目前,我们采用的是无监督学习或者半监督学习方法来克服这样的难题。
针对大规模数据训练,蚂蚁金服现在在使用大规模参数服务器“鲲鹏”,介绍一下这其中的应用。
李小龙:鲲鹏是蚂蚁金服和阿里巴巴一起合作研发的大规模参数服务器,我们从2014年就开始研发,2015年在阿里集团正式上线。目前它的规模能够支持百亿甚至千亿的特征,千亿级别的样本,以及最大万亿的参数规模,这是业界的一流水平。阿里经济体内部包括几乎所有BU的120多个场景都在用鲲鹏训练模型,包括现在蚂蚁很多场景也都在使这个功能,比如前面提到的智能营销、智能推荐,还有智能客服。另外,在安全风控领域我们也用到了鲲鹏来训练大规模的深度学习模型。借这个机会也打个广告:今年8月份在加拿大举行的全球*数据挖掘会议KDD上我们会以Oral报告的方式第一次向学术界和工业界介绍鲲鹏系统和算法的特点、我们的创新以及在阿里和蚂蚁业务的应用,欢迎大家到时候参加和指正。
金融领域会面临很多安全问题,蚂蚁金服如何通过人工智能技术来规避这些风险?
李小龙:金融领域最核心的两个问题就是安全风控和信用风控,针对安全风控问题,蚂蚁金服人工智能部和安全业务部门正在进行紧密的合作,用先进的人工智能技术,如深度学习模型来代替代原来人工规则为主的体系,这可以大大提高效率。举几个例子,我们目前把深度学习用在了可信领域,即在每天的几亿笔交易中判断是不是可信的交易,如果不可信就中断,我们的模型能在尽可能减少用户打扰的情况下,保持很高的安全性。第二种情况下是盗账号模型,当一笔交易被系统判断它是不可信的情况下,我们还要再确认是不是盗帐号,这需要更多精细的特征来描述,也需要创新的算法才能实现。我们采用了业界创新的GBDT+DNN的模型,超越了之前的单个模型以及GBDT+LR的效果,在实际业务中取得了很好的效果。
越来越多的互联网企业和传统金融机构都开始着手研究人工智能+金融,蚂蚁金服有哪些技术特点?
李小龙:蚂蚁金服的特点就是依托了阿里和蚂蚁的丰富场景(安全、信用、征信、微贷、客服、保险等)来构建机器学习平台。在实时性、安全性、稳定性和可靠性这几个方面,蚂蚁金服的人工智能技术比常规的人工智能要求更高,换句话说就是金融级的人工智能。
因为现在有很多研究是纯研究,或者纯应用的,而蚂蚁金服是基于场景在研究,结合了研究和应用两个方面,它带来的挑战更大。例如,车险定损就是非常好的例子,它比一般意义上的人脸识别或者图像识别的挑战更大,因为这些都是基于真实的用户问题出发的场景。基于真实的用户问题,基于真实的场景来研究,最终是解决这些大规模的实际问题,实现普惠金融的目标,让金融触达80%以上的用户,这比单纯的学术研究更具挑战性,也更有价值和意义。
未来,人工智能+金融的发展方向在哪?现在最需要哪方面的人才?
李小龙:从技术角度看,共享学习、强化学习、迁移学习、无监督学习和图推理是业界的一个方向,虽然有些方面的基础研究的进展并不理想,但我相信它们一定是未来的趋势。
关于人才,懂算法又懂工程是我们最需要的,同时,算法不仅要要紧随国际前沿,在功能上它还需要快速的落地。目前蚂蚁金服非常缺的是图像、信息安全加密算法以及大规模分布式系统的人才。
作为 CCAI 智能金融论坛的主席,组织这一论坛的出发点是什么?本次论坛将主要围绕哪些内容展开?希望为听众解决哪些问题?
李小龙:组织智能金融论坛的目的是为了针对金融智能前沿的一些挑战,集中学术界和工业界的智慧,大家一起来碰撞然后产生更好的观点和可能的方向,从而推进人工智能+金融的进展。
我们邀请了许多学术界和工业界的*专家:例如工业界的嘉宾有柳崎峰老师,他现在专注做量化交易的工具,通俗点说是通过智能的方法去判断交易的风险,然后帮用户做决策;学术界的嘉宾比如ACM Fellow邓小铁老师是专门做博弈论市场机制的,对于金融博弈下的价值学习有很好的经验和观点;香港中文大学计算机系的张胜誉老师,他正在研究计算复杂性理论以及AI在资源分配中的应用;王梦迪老师是普林斯顿大学的助理教授,研究的内容包括增强学习在智能金融的应用;还有佐治亚理工学院的杰出教授Sudheer Chava,专注计算金融学的研究,他将带来对于AI应用在金融界的优势和挑战的一些整体思考。
我们希望通过工业界和学术界的*专家在论坛上的思想碰撞让听众了解到金融智能的热点话题,例如有哪些比较实用的方法,学术界在探索哪些新的方法,学术界和工业界怎么更好的结合,等等。