读后感系列4:《人工智能》-李开复-第二章《AI复兴:深度学习+大数据=人工智能》

时间:2024-03-14 13:29:24

  这一次人工智能复兴最大的特点是,AI在语音识别、机器视觉、数据挖掘等多个领域走进了业界的真是应用场景,与商业模式紧密结合,开始在产业界发挥出真正的价值。

第三次AI热潮:有何不同?

1.场景&背景

       从学术界走到工业界和人们的生活应用场景中,AlphaGo、AI创投等走入人们视野。学术界、投资界、商业界和普通大众都直接和直观的感受到来自AI热潮和AI概念的冲击;

2.三盘棋

    AI研究人员为什么喜欢用人机对弈作为算法的突破口,一方面是因为棋类游戏代表着一大类典型的、有清晰定义和规则、容易评估效果的智能问题;另一方面也是因为具备一定复杂性的棋类游戏通常都会被公众视为人类智慧的代表,一旦突破人机对弈算法,也就意味着突破了公众对人工智能这项新技术的接受门槛。
    所以三次热潮,基本上可以用三个具有典型事例回顾一下。
  •     1962年,IBM的阿瑟-萨缪尔开发的西洋跳棋战胜了一位盲人跳棋高手,代表着第一次AI热潮。
  •     1997年,IBM深蓝二号战胜了国际象棋大师卡斯帕罗夫,掀起了第二次AI热潮。
  •     2016年,Google的DeepMind团队研发AlphaGo战胜围棋世界冠军李世石九段,2017年战胜排名第一的柯洁九段。

3.人工智能成熟度发展曲线

    网上流传的漫画:人工智能发展成熟度曲线
读后感系列4:《人工智能》-李开复-第二章《AI复兴:深度学习+大数据=人工智能》
读后感系列4:《人工智能》-李开复-第二章《AI复兴:深度学习+大数据=人工智能》

4.高德纳技术成熟度曲线

    和前面那张高效的“人工智能发展成熟度曲线”不同,学术界、产业界和投资界在谈到技术高潮与低谷时,经常会引用高德纳咨询公司(Gartner)推荐的技术成熟度曲线。
读后感系列4:《人工智能》-李开复-第二章《AI复兴:深度学习+大数据=人工智能》

    曲线显示,几乎每一项新兴且成功的技术,在真正成熟之前,都要经历先扬后抑的过程,并在波折起伏中通过积累和迭代,最终走向真正的繁荣、稳定和有序发展。
    每年高德纳公司都会根据当前度所有流行技术的发展、成熟状况,制作出一场当前各流行技术在高德纳曲线上的发展位置图示,标示出每种前言技术是处于萌芽期、泡沫期、低谷期还成熟期,以及每种未达成熟期技术还需要几年才会真正成熟起来。技术人员、投资者经常根据高德纳曲线来判断时代潮流,选择投资方向。
读后感系列4:《人工智能》-李开复-第二章《AI复兴:深度学习+大数据=人工智能》

5.今天的人工智能是有用的人工智能

有用体现在以下两个方面:
  • 在多个领域表现出可以被普通人认可的性能和效率;
  • 机器视觉、语言识别、数据挖掘、自动驾驶等等领域,AI接连突破人们人们可以接受的“心理阈值”,并第一次在产业层面“落地”,发挥真正的价值
李开复博士对这第三次AI热潮与前两次的对比:
  • 前两次人工智能热潮是学术研究导向的,二这次人工智能热潮是现实商业需求主导的
  • 前两次人工智能热潮多是市场宣传层面的,而这次人工智能热潮是商业模式层面
  • 前两次人工智能热潮多是学术界在劝说、游说*和投资人投钱,而这次人工智能热潮多事投资人主动向热点领域的学术项目和创业项目投钱
  • 前两次人工智能热潮更多是提出问题,而这次人工智能热潮更多是解决问题
“至于本次热潮属于哪个时期,相信大家会有自己的判断”,李博士用这种聪明的说法,不明确表述,其实有些“鸡贼”。从话语间能读出,当前的AI热潮是属于成熟期的,会有很好的进步和发展。

图灵测试和第一次AI热潮

    1950年10月,图灵发表了一篇名为《计算机械智能》(Computing Machinery and Intelligence)的论文,试图探讨到底什么是人工智能。在文章中描述了一个有趣的实验“加入有一台宣称自己会’思考’的计算器,人们该如何辨别计算机是否真的会思考呢?一个好方法就是让测试者和计算机通过键盘和屏幕对话,测试者并不知道与之对话的到底是一台计算机还是一个人。如果测试者分不清幕后的对话者是人还是机器,即,如果计算机能在测试中表现出等价,或至少无法区分的智能,那么,我们就说这台计算机通过了测试并具备人工智能。”
    这种“模仿游戏”后来被人们称为“图灵测试”。而后发明的ELIZA聊天机器人更是让人们看到了通过图灵测试的曙光,虽然后来证实逻辑非常简单,就是在有限的话题库里用关键词映射的方式问答,然后用“为什么”,“请详细解释一下”这类的语句引导用户,并不是真的懂对方在说什么。当然,ELIZA实际上成为微软小冰、苹果Siri、谷歌Allo乃至亚马逊Alexa的真正鼻祖。

语音识别与第二次AI热潮

    20实际80年代到90年代的第二次AI热潮中,语音识别是当时最具代表性的迹象突破性进展之一。这个时代是统计学习替代符号主义的时代。
    李博士感叹到“今天回想起来,我真的有些感慨自己生不逢时。如果我晚生30年,在2010年前后度博士并从事人工智能研究,那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构,就像今天谷歌、微软乃至国内的科大讯飞在育婴师别领域所作的那样。如果我生在今天这个时代,我所开发的技术和铲平一定会被亿万人使用,并深刻改变人们的生活方式。”
    查了下,李博士1961年生,晚生30年,1991年,差不多是我出生的时间,想来也很庆幸和幸福,能生在这个变革的时代。如今,恰好踏上了ML和DL的大船,站在巨人的肩膀上,那就要承担起我们的使命,应用和发展AI,去影响和改变人们的生活,在AI发展史上留下自己的一笔。
    同时,李博士在文中提到,由于统计学习的发展,在微软“解雇”了很多语言学家,很多专家系统被无情抛弃。从中可以看出,新技术的发展必定会导致旧技术的衰落,不及时的转型或者转型困难很容易落入下风,特别在当今技术更新发展飞快的年代,不与时俱进只有别淘汰这一个结局。

深度学习携手大数据引领第三次AI热潮

    当前语音识别、机器视觉、机器翻译、自动驾驶获得的长足进展都是基于一个核心技术——深度学习。它不是AI领域唯一解决方案,但说它是当今乃至未来很长一段时间内引领AI发展的核心技术,则一点也不为过。
    “没有可与深度学习竞争的人工智能技术”,人工智能大事、深度学习太逗约书亚-本吉奥说。它不是简单增加人类的机械力,而是增加人类的认知能力和智力。2006年开始的人工智能热潮,巨大部分功劳要归于深度学习。
    2000年后,计算性能、处理能力大幅提高,尤其是分布式计算的长足发展。另一方面由于数据交换、数据存储、数据处理带来了的大数据积累。万事俱备,只欠东风。2006年,深度学习泰斗杰弗里-辛顿及其合作者发表了一篇名为《一种深度置信网络的快速学习算法》的论文宣告了深度学习时代的到来。

1. 深度学习的发展历程。

  • 20世纪40年代,唐纳德-赫布尝试将人工神经网络用于机器学习,创建出早期的“赫布型学习”
  • 1954年,卫斯理-A-克拉克在MIT尝试实现“赫布型学习”
  • 1958年,弗兰克-罗森布拉特提出“感知机”的概念,这是一个基于人工神经网络的两层计算结构,用于简单模式识别
  • 1965年,A.G.伊瓦赫年科提出建立多层人工神经网络的设想,后别人们称为“深度学习”,他有时也被称为“深度学习”之父
  • 1969年,是人工神经网络遭遇滑铁卢的一年,MIT的图灵机得主、人工智能大师、人工神经网络早起奠基人之一马文-闵斯基出版《感知机》一书提到人工神经网络难以解决“异或难题”造成了多年的研究停滞。直到1975年才被解决。
  • 20世纪80年代和90年代步入正轨发展,但是不过是作为机器学习的一种算法来应用。
  • 2006年,辛顿的论文开启了人工智能新时代,是第三次AI热潮的分水岭。
     随着杰夫-迪恩和吴恩达创建的谷歌大脑以后,国外巨头以及国内的百度、腾讯、阿里、华为、小米、搜狗、滴滴、今日头条等也建立起自己的大规模深度学习集群,而这些集群已经在诸多产品中发挥着深度学习的神奇功能。

2.什么是深度学习呢?

  • 深度学习就是一种在表达能力上灵活多变,同时又允许计算机不断尝试,直至组中逼近目标的机器学习方法。
  • 李博士打了个比方,好比一个有管道和阀门组成的巨大水管网络,通过调节各种阀门控制水流尽可能从某一出口出来,得到想要的分类等效果。
  • 神经网络是一个和黑子,无法去解释内部的“阀门”为什么这样设置,阈值是多少。
  • 同时训练过程中的数据流向和可视化也是个问题,对此谷歌的TensorFlow提供了DFG的数据流向页面展示
  • 另外DeepLearning中几个关键技术需要关注:代价函数、梯度下降、反向传播

3.大数据:人工智能的基石

今天的大数据是2000年后,因信息交换、信息存储和信息处理三个方面能力的大幅增长而产生的数据。主要体现在下面几个方面。
  • 1986~2007这20年间,全球存储能力增长了120倍;
  • 1986~2007这20年间,地球上每天既有信息通过信息交换对的信息增长达到了217倍;
  • 海量数据存储必须要对齐进行处理、加工和分析。这方面,谷歌并行计算平台三大利器(GFS、MR、BigTable)后推广为hadoop的几大核心技术(HDFS、MR、Yarn、Common)进而影响了整个工业界和大数据解决方案。
从应用角度来说,大数据的几大特性:
  • 大数据越来越多源于生产或服务过程中的副产品,但在价值上却是往往超过了为特定目的专门采集的数据(例如谷歌搜索的搜索关键词数据,Google可以通过它预测流感发生地区)
  • 大数据往往而已取代传统意义上的抽样调查(微博对电视节目效果进行调查等)
  • 许多大数据都可以实时获取(如淘宝天猫“双十一”数据)
  • 大数据往往混合了来自多个数据源的多维度信息,用户ID可以关联到购买、地域、天气等。聚合更多数据源,增加数据维度这是提高大数据价值的好办法。
  • 大户数据价值在于数据分析以及分析基础上的数据挖掘和智能决策
有了大数据就有了人工智能的机会
  • AI时代,深度学习于大数据密不可分
  • 任何拥有大数据的领域,我们都可以找到深度学习一展身手的空间,都可以找出高质量的人工智能应用。在任何有大数据的领域,都有创业的机会。
  • 金融:风控、精准营销;电子商务:销量预测与智能备货;城市交通:智能调度、智能疏导;售后:语言和文字识别,减轻客服投入和工作量;教育改进等。
  • 人工智能公司Cambridge Analytica甚至操控了2016年美国大选,自动引导舆论和选情。

4.大数据的使用规范

    有效、合法、合理的手机、利用保护大数据,是AI时代的基本要求,需要*、企业、个人三方共同协作,既保证大规模信息的正常流动、存储和处理,又要避免个人隐私被滥用或泄露

五.总结体会

1.AI的第三次热潮主要是两方面:大数据和深度学习的发展;
2.第三次热潮与前几次热潮的主要区别在于:这次热潮更多是应用领域的热潮,是处于成熟期的热潮和发展;
3.深度学习是人工智能时代的核心技术,其发展不是一蹴而就的,是建立在辛顿等众多研究者的辛勤贡献的基础上,我们要珍惜和好好应用;
4.我们要合理、合法利用大数据发展人工智能;
5.迎接这个浪潮吧,劈波斩浪,愈战愈勇,勇往直前。