图:pixabay
原文来源:O'Reilly
作者:Ben Lorica
「雷克世界」编译:嗯~阿童木呀
如今,机器学习的发展如火如荼,而想要成为一家机器学习公司,你就需要相应的工具和流程以克服来自数据、工程和模型方面的挑战。
在过去几年中,数据社区专注于采集和收集数据,并为此而构建基础设施,同时还使用数据提高决策。现在我们可以看到,在许多行业的的垂直领域中,对于高级分析和机器学习的兴趣处于一个急速增长的状态。
在这篇文章中,我分享了Strata Data会议中发表的演讲幻灯片和笔记,主要是为那些对增加机器学习能力感兴趣的公司提供了一些看法和建议。这些信息主要来源于实践者、研究学者和企业家之间的对话,他们这些人都是走在该领域发展前沿的人,在将机器学习运用到各种问题领域中有着独到的见解和经验。
与任何技术或方法一样,一个成功的机器学习项目应该是从确定正确的用例开始的。毋庸置疑的一点是,有关机器学习的应用程序非常的多,比如推荐系统、减少客户流失等,但对应用程序进行合理的分类是很有必要的,可参照如下:
•提高决策的应用程序
•提升业务运营的应用程序
•创造收入的应用程序
•可以帮助预测、预防欺诈或风险的应用程序
为了成为一家“机器学习公司”,在你开始部署模型时,掌握你将要面对的关键障碍是非常有用的。如果你咨询的是行业领导者的话,通常会有下面这三个关键点值得注意:
•数据:现如今大多数应用程序都是依赖于监督学习的,所以一切都是源于高质量的已标记(训练)数据集开始的。
•工程:你该如何运用一个模型以及它是如何产生的?从部署到投入生产后,你该如何多模型实施监督?
•模型:虽然现代机器学习库使你更容易地将模型与数据进行匹配、拟合,但仍然存在哪些挑战呢?
在接下来的文章中,我将就这些问题一一给出答案。
在构建用于训练机器学习模型的标注数据集时,使用已经可以访问的数据是非常重要的。随着网络上不断地有数据源涌现,对于大多数公司来说,数据集成都是一项重要工作——你目前在数据基础设施上的投入,可以让你获得足够的数据,用于启动项目。当然,你还可以使用公开的(开源)数据或从第三方提供商购买的数据,丰富现有的数据集。
好消息是,机器学习社区已经意识到训练数据是一个主要的问题瓶颈,因此,研究学者一直在钻研相关技术,使你能够使用较少的训练数据(弱监督)来启动项目,或者使得你能够将从一个问题中学到的知识、经验成功地运用到另一个环境中(迁移学习)。
随着数据变得越来越重要,一些初创企业和公司正在开始探索数据交换。数据交换使组织可以在保护隐私和机密的同时共享一些数据。与此同时,还有一些类似的研究也在不断推进,致力于开发安全的机器学习算法。在消费者金融领域存在应用欺诈检测,例如,如果隐私和安全能够得到保证的话,那么在机密数据上共享学习就可能是有价值的。
今年早些时候,我们观察到,企业开始在生产机器学习模型和监控它们的行为方面挖掘新角色。但是机器学习工程师的这个新角色真的有必要吗?
对于越来越多的公司来说,答案是:是的,需要这样的专家。如果你创建了一个有关生产和监控模型的需要注意事项的清单,那么你就会得到一组应用广泛的工具和技术。有关更多详细信息,请参考上一篇关于《应用数据科学的现状》的文章。
在机器学习领域的研究正在飞速发展。可以这样说,大多数公司都无法跟上那些研究人员发布的所有新技术和工具的步伐。想象一下,在未来而五年里,发展停滞不前(极不可能,仅为一个猜测)我认为在相当长的一段时间里,会有足够的工具可以让公司保持正常运营。
深度学习,一种已经成功运用于计算机视觉和语言问题的技术。而大多数公司仍然处于将深度学习应用到他们熟悉的数据类型(文本、时间序列、结构化数据),或者使用它来替换现有模型(包括其当前的推荐系统)的早期阶段。在接下来的几年里,我希望能够看到许多涉及深度神经网络的有趣案例研究。
随着深度学习的广泛应用,我们有时都会忘记,其实有很多有趣的新数据应用程序是不依赖于神经网络的。而在公司发展中,很重要的一点是要始终选择适合你的技术和业务要求的技术。
随着模型被推向边缘设备,我很对最近在联盟学习(federated Learning)和协作学习(collaborative learning)方面的研究很感兴趣。展望人工智能的未来,在线学习(online learning)和持续学习(continuous learning)的工具将是必不可少的。
数据社区开始意识到,除了优化数量或业务指标之外,更重要的是关注模型。模型是否强大到能够抵御对抗性攻击?在某些应用程序中,模型需要具有可解释性和理解性。
•公平:你了解你的训练数据的分布情况吗?如果你真的不了解的话,要注意现在的一知半解将会导致未来的无知。
•透明度:随着机器学习变得越来越流行,用户也对指标组织正在优化的事物表示出越来越大的兴趣,想要知道它们是什么,并想在其中占有话语权。
“我们正处于人工智能和机器学习发展的经验主义时代,比我职业生涯中的任一时刻都要显著,而在理论和认知上,我们还处于远远落后的状态。”
——michael jordan,加州大学伯克利分校教授
近年来,尽管在这一领域取得了很大的进展,但仍然有很多是研究人员和理论家都不甚了解的知识。我们依旧处于一个“试错”的时代。深度学习可能减少了对人工特征工程的需求,但要建立一个DNN,仍然需要很多的决策(包括网络架构和许多超参数的选择)。
我们可以将模型构建视为探索机器学习算法的空间。企业需要能够以一种具有原则性和高效性的方式进行探索。这意味着维护可再生流水线、从实验中保存元数据、为协作提供工具,并合理利用最近的研究成果。
那么,企业应该做些什么,让这种探索成为可能呢?大多数机器学习需要标注的(训练)数据,因此任何平台都要以鲁棒的数据流水线为基础,这些数据流水线可以输入到数据存储系统,数据科学家和机器学习工程师便可以访问这些数据存储系统。对于所有公司来说,数据集成都是一项重要的、需要持续进行的练习。
企业还允许数据科学家共享特征,以及产生这些特征的数据流水线。为了让你了解特征的相对重要性,可以这样说:“让公司告诉你他们使用的是什么算法通常会容易得多,而要让他们描述一下对于他们的模型来说最重要的特征是什么,这就要困难的多了”。
在行业中占据领先地位的企业会让他们的数据科学家使用多个机器学习库,而迫使你的数据科学家只使用一两个“无忧”的库是很疯狂的。因为他们需要能够运行实验,而这可能意味着要让他们能够使用各种库。
有些公司为生产机器学习模型提供工具,并在部署后对其进行监控。与此同时,公司还在使用开源技术构建自己的部署和监控工具。如果你正在寻找一个用于部署和监控的开源工具,则Clipper是一个不错的选择。Clipper是加州大学伯克利分校的RISE实验室的新项目。它现在可以让你轻松地部署一个使用几个流行的机器学习库编写的模型。更重要的是,Clipper团队很快就能够添加模型监控。(在2018年3月于圣何塞举办的Strata Data大会上,几家公司将展示他们是如何进行模型部署和检测的)。
要成为机器学习公司,你需要工具和流程来克服数据、工程和模型方面的挑战。企业正在开始在其产品中使用并部署机器学习。工具在不断完善,而最佳实践还仅仅是一个开始。
回复「转载」获得授权,微信搜索「ROBO_AI」关注公众号
中国人工智能产业创新联盟于2017年6月21日成立,超200家成员共推AI发展,相关动态:
中新网:中国人工智能产业创新联盟成立
ChinaDaily:China forms 1st AI alliance
证券时报:中国人工智能产业创新联盟成立 启动四大工程搭建产业生态“梁柱”
工信部网站:中国人工智能产业创新联盟与贵阳市*、英特尔签署战略合作备忘录
点击下图加入联盟
关注“雷克世界”后不要忘记置顶哟
我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……
↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册