机器学习是万能的吗?AI落地有哪些先决条件?
https://mp.weixin.qq.com/s/9rNY2YA3BMpoY8NQ_rVIjQ
1.引言
入门机器学习或从事其相关工作前,不知道你思考过如下2个问题吗:
- 1) 机器学习是万能的吗?
- 2) 工业界要想尽可能落地机器学习,需要满足哪些先决条件?
这段时间,有幸聆听了几场大牛报告,一位是第四范式,目前工业界应用AI经验最丰富的之一,曾经在百度与吴恩达共同推进AI在工业界的落地;另一位来自学术界,新加坡国立大学的,最近刚拿到两个项目,合计一共1.5亿人民币。听智者说,强于读万卷书!今天结合他们的报告,在这里总结与大家一起分享,他们的报告实际上完美地解决了以上两个问题。
2.机器学习是万能的吗?
机器学习包括深度学习吗?当然。机器学习是当前最火的人工智能领域的主要子领域之一,它真的是一项革命性的技术创造,记得曾有人说,AI的兴起可以把之前所有的问题再重新研究一遍,足以可见它巨大的创造力,有可能颠覆某项领域的现有技术 ……
那么,人们不禁会问机器学习可以解决一切问题吗,如果是这样,所有国家的科学家去深入研究AI理论,工业界的大牛去将这些理论落地,一场革命诞生。
真的是这样吗?下面引用新加坡国立的这位教授举的例子来说明这个问题。
电商行业仓库选址是一个很重要的问题,设计良好的选址方案,可以为公司节省亿级的物流成本。为了使用机器学习的技术,先从全国各地选取建仓的数据,模型考虑了几百个特征(包括时间刻画等多个维度),是一个有监督学习任务,训练好模型后,再输入要预测的建仓地区的相关数据到模型中,最后决策一个得分最高的建仓位置。
就在建仓1个月后,当地*决定重新优化当地的路网系统,施工开始不久,建仓的物流成本每日剧增,公司不得不决定重新再在当地其他位置选址建仓。等再拿原来的模型预测选址方案时,发现缺少大量的最新路网下的交通数据,模型变为无米之炊,机器学习模型此时无能为力。
后来,新加坡*找到了国立大学的这位教授,他们团队擅长做仿真优化,模型不是基于历史数据去做预测,所以,很快他们拿仿真系统预测出选址的方案,然后建仓地址根据仿真结果投入建设,很快物流成本降低。
由此可见,机器学习模型是基于已发生的数据做出的预测模型,一旦出现某些异常情况,导致数据不再遵循原来的规律时,预测就会变得不准确,并且因为缺失最新状况下的数据,最后只能辅助于仿真优化方法解决问题。
机器学习是基于过去的预测,仿真是基于未来的预测。
机器学习和仿真优化结合才是解决问题的最全面方法论。
3. 机器学习落地,先决条件有哪些?
第四范式工业界应用AI落地的大牛,总结了以下几个主要因素:
1)问题的定义、边界要明确清晰。AlphaGo做的是围棋游戏,游戏是在 19×19 的棋盘上,黑、白两方轮流下子。这个问题可以说是定义得非常封闭清晰了,但是,如果变成一个开放的问题,变成 29×29 的棋盘,变成黑、白、灰三方下棋,都会导致AlphaGo模型的立即失效。
同样,以上选址模型是在基于已有路网不变情况下预测才会准确,一旦突发环境改变导致模型预测失效。
第二,计算资源。近些年算法虽然有很大的进步,但计算资源也是产生智能的关键。最近业界在分布式计算上的成功,让我们相对于几十年前有了飞跃的基础。Google Adwords的模型仅仅特征数就达到万亿级,如果所有列的类型定义为float,光存储这些特征列就得1T,再连上海量的数据,想想就头大,没有大量的分布式集群的强大计算能力,算法就是个空壳。
计算资源和分布式技术,才是AI真正落地的有一个关键。
第三,顶尖的科学家。这些科学家分两类:数据科学家和人工智能科学家。正是这些科学家帮助推进AI,创造新的理论和算法。
数据科学家关乎数据和特征工程,人工智能科学家关乎AI算法。
第四,大数据。AlphaGo 的成功考得是 KGS 上有数十万盘高手对战的棋谱数据,没有这些数据 AlphaGo 绝对不可能这么短的时间内打败人类。
机器学习 = 数据 + 特征 + 模型
第五,外部反馈。算法要不断的有外部输入,知道我们在什么样的情况、算法做出什么样的行为下,外部给出的反馈是什么,这样才能促进提高,比方说需要 AlphaGo 不断地进行对弈,并且告诉它对弈的输赢。
这些要素总结起来只有三点
1) 技术,计算资源,大数据,算法支持;
2) 业务,边界要清晰,业务有反馈;
3) 人,科学家,相关熟悉业务的人。
所以如果一个 AI 要成功的话总结起来三点,要关注技术、要关注业务、要关注人。
4. 总结
机器学习基于历史数据且未来符合过去的假定下才可能准确的技术,要落地靠技术,业务,和人。
END