摘要: 背景介绍 如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。
背景介绍
如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。
然而在搭建机器学习链路的过程中,往往不止调参这一步耗时耗力。好不容易生成了算法模型,怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的一大难题。有的时候,为了打通这样的链路,要耗费整晚的时间调试不同格式的模型和服务端的关联。
人工智能服务在便捷了人类生活的同时,能不能也为广大算法工程师提供人性化的开发环境呢?减少黑眼圈是算法工程师共同的心愿。对于这个问题,PAI给出了答案,今日PAI重磅发布全套自动化机器学习引擎,用机器学习的方式解决机器学习流程的问题。
AutoML整体介绍
下面看看什么是PAI-AutoML, AutoML顾名思义,就是将机器学习整个流程做到自动化。机器学习数据上传之后的流程大致可以分为3个步骤:模型训练、模型评估、模型部署。
PAI自动调参
PAI自动调参功能对于资深算法使用者以及算法小白都有很大价值:
- 针对小白用户:小白用户不清楚每种算法参数在算法计算过程中的数学原理,往往对调参一头雾水,所以自动调参可以快速帮助这部分用户解决问题
- 针对资深用户:资深用户对于调参往往有一定经验,但是这种经验往往只能在大方向上指导调参工作,对于一些细节参数仍需要不断重复去尝试。比如一个参数范围0~100,资深用户可以通过经验确定参数设置为90或者80的结果,但是在更小粒度上,比如81和82哪个对结果更好,资深用户也需要手动去实验。而自定调参功能可以代替这部分的重复性劳动。
目前行业中主流的调参思想主要是基于Parallel Search,以grid search和random search为代表,系统通过随机原理,不断采样可能的参数组合,通过不停迭代去尝试找到最优的参数组,每次探索的过程彼此独立。优势是不容易陷入局部最优解,可以在更广阔的参数空间探索。劣势是每次探索都是随机性的,缺乏信息的积累过程,耗费计算资源。
PAI提供了原创的Evolutionary Optimizer进化式的调参方法,让模型的每一次迭代都自动在上一轮较优的参数集区间中进行开发,内置的高效算法可以快速的帮你找到最合适的参数组合,大大减少计算资源消耗以及参数探索的次数。你要做的只是泡上一壶茶,静静等待奇迹的降临。
PAI进化式调参迭代效果图,可以清楚地看到每一轮迭代对于效果的提升:
PAI模型自动评估
PAI AutoML提供多维度的算法评估方法,只要在F1Score、Precision、Recall、AUC中选择自己所需要的评估指标,系统会自动完成模型评估工作并将服务下发到下游的训练环境,所有评估流程完全不需人工参与。
模型排序表:
模型下发配置:
PAI模型一键发布
生成了模型,可以在PAI平台一键将模型发布成API服务。只要点击部署按钮,就会列出当前实验可部署的模型,选择需要的模型就可以一键完成部署,是不是很简单。
部署完成后会自动跳转到在线服务管控平台,在这里可以进行全部的模型管理相关工作。
客户案例
PAI-AutoML看上去很厉害,是不是真正能帮助到用户的业务呢,下面看下PAI在阿里云平台上用户使用之后的反馈。先介绍下客户:椰子传媒是一家专注在移动原生交互视频广告的公司,在奖励视频行业深耕了2年多,随着业务规模的增长,多平台、多渠道,多模式下的智能投放效率问题越来越突出。
椰子科技技术负责人说:阿里PAI平台提供了一个低门槛、快速上手的服务能力,使得业务可以快速的对接到基于大数据的机器学习平台上,有力的推动公司业务的快速发展。基于PAI AutoML引擎,可以让我们更快速的在不同平台和模式下定位目标用户。
椰子传媒通过使用PAI AutoML引擎,调参服务帮助模型提升精度40%,自动化部署预计全部业务上线后可达千万次,节省人力20%-30%,最重要的是将业务构建在机器学习服务平台的时间缩短了至少半年时间。
架构图:
总结
PAI AutoML引擎拟在最大限度上减少机器学习业务搭建成本,目前上线的模型训练参数调优和模型一键自动部署服务已经在节约人力开销方面提供帮助。未来PAI平台还会在这个方向继续投入,真正做到让机器学习不再是个高门槛技术,让人工智能触手可及。
本文为云栖社区原创内容,未经允许不得转载。