受访者 | 涂威威,第四范式副总裁、主任科学家&CEO
记者 | 夕颜
出品 | CSDN(ID:CSDNnews)
「AI技术生态论」是CSDN发起的“百万人学AI”倡议下的重要组成部分,与AIProCon万人开发者大会、Top30 AI技术生态行业案例征集和评选、开发者与AI大调查、AI大师课一起,打造一个覆盖百万开发者的AI生态联盟。
2020年,「AI技术生态论」栏目将对1000+AI生态大咖进行系列访谈,勾勒出AI生态最具影响力人物图谱和AI产业全景图!
本文为 「AI 技术生态论」系列访谈第二十五期。
百万人学 AI 你也有份!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!
每个人都希望有免费的午餐,就像希望 AutoML 能够提供一个一统天下的算法,可以轻松搞定一切机器学习问题一样。但这本身就是一个悖论,没有一套可以适用于所有问题的算法和系统。
AutoML 如今已经算不上是一个新鲜词汇了,自 2018 年谷歌发布第一款 AutoML 产品以来,围绕这项技术的讨论就一直存在。有人将之视为实现通用人工智能的利器,但是也有人反对将这项技术的作用过度夸张化。但得到大家一致同意的一点是,AutoML 在实现 AI 推广中,的确有着非凡的意义。
今天,CSDN 采访到在国内第一批从事 AutoML 研究的专家之一——第四范式副总裁、主任科学家涂威威,从他的专业视角,审视自动化机器学习的技术和应用进展现状,并尝试找到推进这项技术继续完善的突破口所在。
师从周志华,受戴文渊触动走向AutoML研究之路
涂威威开始关注 AutoML,源于他在百度的工作经历。大学期间,涂威威所学的专业是计算机,研究生阶段在南京大学师从 AI 大师周志华,从此与机器学习结下不解之缘。在他求学期间,机器学习并没有现在这样火,但涂威威敏感地捕捉到,这将是一个很有潜力的发展方向。
在机器学习还未大火之时,涂威威偶然间获得了一次到百度实习的机会。在这里,他认识了他的 导师,在迁移学习领域已经有所建树,也是后来创立了第四范式的戴文渊。初入百度,涂威威惊讶于机器学习在百度广告系统中的重要作用,因为在那个时代,百度已经在依靠机器学习获得可观的广告收入。
涂威威与戴文渊团队一起做广告点击率预估时,为了让效果付费的成果更好,他们开始研究精准匹配、点击率预测等当时还比较困难的问题,并构建出点击率预测模型。相比于一般的专家系统,百度的搜索系统规则成千上亿条,大量的数据人根本无法理解,机器在这时就可以做到人所不能做到的,机器总结出足够复杂的模型,用机器学习的方式处理数据,相比于原有的系统,收入提升 8 倍多。这样,在涂威威离开百度之前,已经在广告系统中应用深度学习方法,构建了一整套机器学习底层框架和训练系统。
做这些事情的过程中,涂威威和戴文渊其实已经开始思考,如何才能将这些能力带给更多企业和行业,因为不是所有的企业都有着充足的时间、金钱和 AI 人才,来做这些耗资巨大的研究和部署,如果可以用一种简单的方法,把 AI 技术更好地输入给需要的企业,为什么不做?这也是后来戴文渊创立第四范式的初衷——希望能降低 AI 技术和应用门槛,让AI能够在各行各业落地,实现AI for Everyone的目标。涂威威非常认同这样的愿景和业务价值,因此加入了第四范式并开始了创业之旅。
从范式平台,看AutoML典型技术迭代路线
几年下来,如今涂威威带领的自动机器学习算法研发团队已发展到上百人的规模,按照研发的技术方向,下设独立的小分队,囊括了结构化数据、图像识别、自然语言处理、语音识别、交互式 AutoML优化、半监督学习、强化学习等多个方向。
在这样的分工下,第四范式AutoML产品HyperCycle ML进行着持续优化迭代。在涂威威的解说下 CSDN 了解到,作为国内较早的 AutoML 产品,它们经历过同类产品类似的技术迭代,从中我们得以一窥这项技术的发展轨迹。
在最早的版本中,第四范式AutoML能做的事情实际上更多地是分类任务,研究的重点是特征工程,比如组合特征。 什么是组合特征?比如新闻资讯类软件为用户做推荐,对于男性用户,不同职业的人关注点不一样,即便是同一个人,不同时间段想看的内容可能也有巨大的差别,这就需要对用户的职业、性别、爱好等特征做组合,刻画微观场景,推荐效果才会有提升。问题是,这个组合会产生的可选结果可能是个天文数字,如何从中选择最优组合,是一件非常困难的事情。针对这个问题,第四范式自研了自动特征组合AutoCross,取得了非常好的效果。涂威威发现,通过这种显式组合特征的方式,效果甚至比一些深度学习系统还要更好。
随着业务的拓展,涂威威发现需要解决的问题越来越多,除了二分类问题,还需要解决多分类问题、回归问题,等等,以及这些结构化数据问题之外的非结构化数据和半结构化数据的问题。
随后,涂威威又相继带领团队开发出了模型自带自动化特征的线性分形分类器、自动时序树模型工具HE-TreeNet、自动时序嵌入(TemporalGo)、自动多表时序特征(FeatureZero)、自动深度稀疏网络AutoDSN(Deep Sparse Network)、AutoSSL(自动半监督学习)、AutoPU、AutoWSL、AutoCV、AutoSpeech、AutoNLP、AutoRL、多保真度优化、交互式AutoML等多项AutoML技术,已涵盖结构化数据、非结构化数据(图像、文本、语音等)、半结构化数据(异构信息网络、知识图谱等)等全场景的AutoML探索。
在实际落地中,算法只是其中一环,解决一个业务问题,除了算法之外,还会面临数据、模型应用系统等问题。首先是数据,比如高质量标注数据远远不够,离线数据分析时数据产生不一致,都会造成坏的影响。此外,他们需要做非结构化数据和半结构化数据的自动机器学习处理,技术难度更大。
再者,实际生产过程中还会产生目标需要探索的问题。涂威威举了两个例子,第一个例子是多目标优化,当前AutoML系统优化的目标是固定的,往往现实的问题是多种目标综合的,比如需要在效果和成本之间做微妙的选择,这样的多目标的探索,往往人在获得结果之前也没有办法有效评判。这样的情况目前的AutoML就很难支持。第二个例子是可解释性问题,自动化机器可以找到一个解,但这个解可能并不是用户想要的,用户可能想要的是一个可解释的模型。然而,涂威威说到,可解释性本身即存在着很大的不确定性,因为每个人的理解不同,与个人判断有很大的关系,让模型具有可解释性就难上加难。
最后,涂威威提到了自动化机器学习的一个弊端,即在没有任何业务背景的情况下,机器会进行各种各样的尝试,但人无法将丰富的经验加入到自动机器学习系统中。对此,第四范式提出了交互式自动机器学习。目前,这种交互式自动化机器学习的方式已经在第四范式进行小规模尝试,现在的产品中也已经有了应用,下文将会有详细解释。
总结下来,第四范式做自动化机器学习经历了很多版本的迭代,从最早的只有二分类拓展到多分类、回归,从结构化数据拓展到图像、视频、文本、NLP等非结构化数据,到覆盖低质量数据的自动弱监督学习,再到保护隐私的自动多方机器学习……第四范式的自动化机器学习产品随着业务的不断扩展,不断优化迭代,未来也还将继续拓展至更多的技术方向和应用领域。
虽然AutoML还有很长的路要走,但是涂威威相信,随着全球研究者和众多厂商的加入,AI规模化应用之路必将会创造更大的价值。为此,第四范式打造了全球首个AutoML社区,同时也是最大的AutoML算法比赛平台—— AutoML.ai,通过发布企业AI应用建设需求的AutoML赛事,让更多的科研机构、技术大牛参与进来,去解决企业复杂的业务问题。该平台上的比赛不仅可以保护企业数据安全,且比赛结果具备极高的复现性,可将模型快速应用于企业实际业务场景。技术的更新迭代永远不能脱离真实场景,这也是第四范式在AutoML路上不断前行的动力。
AutoML热门研究方向那么多,哪些意义更大?
AutoML 作为自动化机器学习的统称,下面还有很多分支研究方向,其中比较热门的方向包括神经网络架构搜索(NAS)、效率和泛化性优化、动态 AutoML、强化学习 AutoML 等。在涂威威眼里,这些方向的研究和应用现状是怎么样的?哪些方向研究对于实际应用的意义更大呢?
神经网络架构搜索
AutoML 技术将来要想取得重大突破,在更广阔的搜索范围里搜索真正的新架构是一个重要方向。第四范式在神经网络架构搜索方面有一些探索,比如如何更加高效地进行神经网络架构搜索,如何搜索更加高效的神经网络架构以实现更低成本的推理,等等。
效率和泛化性
此外,AutoML 的热点研究方向包括效率和泛化性,第四范式在提高模型和算法的效率和泛化性上的做法,也许也值得大家参考。
在效率和泛化性上,第四范式主要的思路是算法与底层架构相结合。比如结构化数据上,第四范式有探索自动特征组合、自动多表时序特征、自动模型融合、自动深度稀疏网络等,图像有探索自动分类、自动检测、自动图像分割、自动生成等,文本、语音也有相关的分类、识别、问答、增强、生成等的自动化探索。
在效率上,一方面在算法层面,第四范式通过多种手段来提升 AutoML 的效率,包括优化配置搜索空间、提升配置评估效率以及利用类似于基于迁移学习的多保真度优化、超高维超参数优化、混合优化策略等提升配置优化算法的效率。除了算法层面,同样重要的是,在自动机器学习计算上有很多的重复可复用的计算,当前主流的计算框架(比如 Tensorflow、PyTorch 等)只是为单次机器学习模型训练优化,并没有为自动机器学习的计算进行优化,第四范式重新为自动机器学习设计了底层计算架构,对多次模型学习提供了配置评估和优化上横向和纵向的动态计算优化,同时在参数上探索参数共享计算等,可以做到只用增加单次模型学习 60% 左右的计算代价,就可以获得数十次的配置评估,比原来的架构有数量级的效率提升。
在泛化性上,第四范式也探索了诸如弱监督学习、元学习、动态环境学习等自动化。举例来说,弱监督学习领域的噪声标记学习、半监督学习、PU 学习等不同的学习场景的关键问题很不一样,有的由于标记比较少,需要探索更好的配置评估方式,提出更能估计泛化能力的度量指标,有的需要探索更有效的模型训练方式。再比如,对于动态环境学习,需要能够根据数据分布的变化,自动进行模型适配。
动态环境中的 AutoML
另一个值得关注的点,是在动态环境中进行 AutoML 与静态环境相比难度更大,具体来说难在哪?第四范式是怎么做的?
涂威威表示,相比静态环境,动态环境的核心是环境是动态变化的,机器学习如何有效地应对动态环境至今都是国际学术界一个开放的问题,也是目前研究的热点难点方向之一。
动态变化可能包含很多方面的变化,比如数据分布、数据表达、问题目标变化等。对此,第四范式主要从几个方面进行应对:一方面对于特征表达的学习,第四范式有动态的特征学习,可以更快地适应数据的变化,并从特征的自动化设计上,更好地应对潜在动态的变化;另一方面从模型的学习方法上,第四范式利用自动迁移学习技术,检测分布变化,并自动适配对应的迁移学习技术,还会利用动态集成学习技术,通过分布变化,自动适配不同类型的模型等。在架构层面上,第四范式也构建了针对 AutoML 的在线学习架构,对于快速变化的环境,尽快地进行模型迭代,让 AutoML 更加快速有效地适应环境的变化。
强化学习与 AutoML 结合
近年来,强化学习得到了业界和学界的关注和重视,自然有人会探索强化学习与 AutoML 相结合的方法,以释放 AutoML 的更大能量。然而,此前涂威威曾在公开演讲中表示,用强化学习进行 AutoML 有种“杀鸡用牛刀”的感觉。几年过去,强化学习与 AutoML 结合的时机成熟了吗?
对此,涂威威表示仍然对这个问题保留原有的看法,在他看来,目前还没有真正有突破性进展的结果,主要的原因是强化学习本身的发展不是一蹴而就的,而是一个艰难的长期问题。当前我们经常看到的强化学习研究,其实多是强化学习应用的研究,而针对强化学习核心问题的研究其实极少,且难度极大,强化学习本身依然是一个很难的问题,因此与 AutoML 相结合,仍然任重而道远。
安全性与可解释性
安全性和可解释性也是 AutoML 的热点研究方向,第四范式在提高 AutoML 的安全性和可解释性上,也有一些独特的思路。
涂威威提到,在 AutoML 的安全性上,第四范式针对不同的场景探索不同的技术方案,如隐私保护的自动机器学习、自动多方机器学习、基于多方安全计算的自动机器学习、自动联邦迁移学习等。
他说到,一方面,需要降低具有很强安全性的机器学习算法落地的门槛,机器学习算法已经有很高的门槛了,因此安全的机器学习算法门槛更高,难度更大,所以需要自动化的安全机器学习算法来降低落地使用门槛;另外一方面,以往非自动的安全自动机器学习算法,都需要人类专家的介入,在一定程度上引入了数据和模型安全的风险,自动化安全机器学习技术能够在降低门槛的同时,进一步提升安全性。
其次,与其他非技术问题相比,安全性在技术问题上的解决方案是相对成熟的,或者是有技术解决方案的,但是目前落地缺乏法律法规和行业标准的支持,第四范式也在积极与众多研究机构与厂商推进如IEEE 联邦学习、多方安全计算等标准的建立和完善。
在可解释性上,第四范式支持了多种主流的可解释性方案,比如数据,特征、模型,学习过程的可解释方案等,也基于二次学习、博弈论等技术探索了独有的可解释方案。涂威威说,实际上,可解释机器学习关于“什么是可解释”是模糊的,每个人对可解释的理解不同,因此,他个人认为一个好的可解释模式应该是交互式的,由 AutoML 给出结果,人来判断是否符合自己的可解释标准以及一致性标准,人再给出反馈,修改 AutoML 学习目标,让 AutoML 更新结果。这也是第四范式交互式 AutoML 的重要功能之一。
另外,值得一提的是,第四范式目前也在推进可解释机器学习相关的标准制定。
难点它还是难点,就在那里
然而,虽然不断地有企业推出各种声称简单便捷的 AutoML 产品和服务,但是在实际落地过程中还是有很多的难点,用涂威威的话来说,这些难点过了很久还是难点,就在那里。
首先,在“道”,即理论上,AutoML 还有太多的问题没有得到回答,比如说神经网络,目前来看,神经网络理论本身就处于很不成熟的状态,更不用说自动化神经网络了,理论进展非常缓慢。
其次,一个不可忽略的点,是在于这个技术能够解决的问题的边界上,大家思考得并没有那么清楚。它到底能解决什么问题?因为一统天下的算法是不存在的,自动化机器学习理论上来说就像是一个一统天下的算法,然而我们都知道,一套能够解决所有问题的算法本身就是悖论。
再者,AutoML 长期存在比较严重的问题,一是效率,二是效果。如何比现在的效果更好?如何让 AutoML 更高效?
最后,涂威威还提到了目前完全黑盒的 AutoML 方案有很多弊端,主要体现在三个方面,第一个方面是优化的目标是固定的,往往现实的问题是多种目标综合的,比如一个场景里面,线性模型的 AUC 值是 0.80,深度神经网络模型的 AUC 值是 0.81,按照效果优先,应该选择深度神经网络模型,但是线性模型上线所需要的计算资源是 1 0台普通服务器,而深度神经网络模型可能需要 1000台高配 GPU 服务器,对于一些关键业务,可能还是会选择深度学习模型,但是对于一些成本敏感或者业务规模不大的业务,可能更加适合的是线性模型,因为成本更低,效果却差不多。这样的多目标的探索,往往人在获得结果之前也没有办法有效评判,需要在精度和成本之间做微妙的选择。这种情况目前的AutoML 就很难支持。
第二个方面就是数据科学家可能有很多自己拥有的业务背景知识,有很多有用的信息没有办法输入给黑盒的 AutoML 工具,比如有些有价值的特征,或者有一些根本不需要尝试的参数组合,一定程度上会影响 AutoML 得到的效果和效率。
第三个方面就是实际业务可能会对实际的机器学习流程有一些定制化的需求,比如只能使用某一类的数据处理工具,这样的一些需求在目前黑盒的 AutoML 方案上无法得到满足。第四范式认为,更好的方式应该是人机结合的交互式自动机器学习。
总之,虽然现在大家可以拿出一些很好的解决方案,有些地方甚至比人做得更好,但是更多时候是会发现,即使是做得很好的地方,机器与最优秀的人类专家相比还是有一定的差距。
因此,无论是效果还是效率,AutoML都有很大的进步空间。
未来研究方向
当前,AutoML 技术生态与落地是否已经处于成熟阶段,相信是很多人关心的问题。虽然热度不减,但涂威威认为 AutoML 技术上依然需要不断完善,其实用户需要的就是“物美价廉”的技术,从算法效果和效率上,交互式自动机器学习方案的探索上,都还有很大的进步空间。
他说到,在全球研究者和众多厂商的推进下,目前 AutoML 技术现在已经在很多场景落地,得到了应用,但现在更大的问题是如何实现规模化地落地,“不是在某一些团队内部,也不是在某一两个场景上应用,而是在更多行业、更多场景中落地。”
涂威威表示,AutoML 未来的技术突破需要在理论和算法层面有更深层次的研究。
理论上,我们需要探索 AutoML 算法的边界,因为根据没有免费的午餐定理,没有可以解决所有问题的通用算法,AutoML 算法泛化性如何等问题是需要深入探索的;算法上,就是在 AutoML 的三要素上联合探索:(1)如何设计更好的 AutoML 配置空间;(2)如何更好地更高效地对机器学习的配置进行评估;(3)如何更好更快地搜索更有效的配置;期望获得更好的自动机器学习效果,或者提升自动机器学习的效率,亦或提供对机器学习关键问题的一些新的 insight。在 AutoML 技术的落地层面上,还需要解决 AutoML 上下游的问题,上游更多是数据治理的问题,需要探索为机器学习设计的数据治理方式,下游更多的是模型应用的问题,需要探索如何更有效地利用机器学习模型来提升业务。
另外,未来 AutoML 研究的新范式——交互式自动机器学习,通过人机结合的方式完成机器学习流程的搭建,也是非常重要的值得探索的研究方向。
今日福利!
同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。
门票限量大放送!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码AIP211,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得! 快来动动手指,免费获取入会资格吧!
点击阅读原文,直达大会官网。