人工智能综述:AI的发展
概括:人工智能学科自从诞生之后, 技术理论不断发展, 应用领域不断延伸。应用领域主要包括智能机器人、图像处理、自然语言处理及语音识别等。人工智能的基础理论科学包括计算机科学、逻辑学、生物学、心理学及哲学等众多学科。从人工智能的发展历史、人工智能的技术核心以及人工智能的应用前景3个方面阐述人工智能的发展与应用。
0 引言
人工智能是集合了计算机科学、逻辑学、生物学、心理学和哲学等众多学科,在语音识别、图像处理、自然语言处理、自动定理证明及智能机器人等应用领域取得了显著成果。人工智能在社会发展中扮演着不可或缺的角色。人工智能在提升劳动效率、减低劳动成本、优化人力资源结构及创造新的工作岗位需求方面带来了革命性的成果。人工智能的出现为疲软的全球经济提供了新的动力,提升了全球GDP的增长速度。
人工智能规模发展迅速,截至2018年,中国人工智能市场规模已达238.2亿元。人工智能的产生已经为人类创造出很大的经济效益,正在惠及生活的方方面面,无人驾驶、人工智能医疗及语音识别等,为人类的生活提供了便利。同时人工智能的出现,取代了很多传统岗位,同时也创造了很多新的岗位来消化社会劳动力。人工智能的出现极大地推动了社会发展,让社会发展步入新的时期。
1 人工智能发展历史
人工智能雏形的出现是在1955年,在一次“学习机器讨论会”上,著名的科学家艾伦·纽厄尔和奥利弗·塞弗里奇分别提出了下棋与计算机模式识别的研究。在次年的达特茅斯会议上,提出了“人工智能”一词,并讨论确定了人工智能最初的发展路线与发展目标。之后由阿瑟·塞缪尔提出了机器学习理论,根据这一理论编写完成了能够与人类进行对弈的西洋跳棋程序,并于1962年战胜了美国的西洋跳棋大师。20世纪70年代中叶符号学派走向低谷,以仿生学为基础的研究学派逐渐火热。神经网络由于BP算法的广泛应用获得了高速发展。在大环境下,专家系统的大量使用使工业界节约了大量成本,提升了产业效益。例如价值上亿的矿藏由PROSPECTOR专家系统成功地分析得出。在此之后,人们开始尝试研究具有通用性的人工智能程序,却遇到了严重的阻碍,陷入停滞。人工智能又一次步入低谷。1997年,“深蓝”的成功让人工智能的发展又提上日程。随着算力的增加,人工智能的瓶颈被打破,为基于大数据的深度学习与增强学习提供了发展的可能。GPU不断发展,与此同时定制化处理器的研制成功使算力不断提升,为人工智能的爆发提供了基础。在无人驾驶领域北京地平线信息技术有限公司,发布了一款嵌入式视觉芯片,主要针对无人驾驶汽车领域。阿里投资千亿成立“达摩院”,在机器学习等方面开展研究和进行产品开发。人工智能步入了快速发展期。
如图 1 所示,人工智能自出现以来,经历了两次低谷三次浪潮,现在正处于人工智能的第三次浪潮,人工智能正在快速发展,为生产力的提升提供变革的动力。
图1 人工智能发展历程
2 人工智能技术核心
2.1 计算机视觉
人们认识世界 91% 是通过视觉来实现。同样,计算机视觉的最终目标就是让计算机能够像人一样通过视觉来认识和了解世界,它主要是通过算法对图像进行识别分析,目前计算机视觉最广泛的应用是人脸识别和图像识别。
2.1.1 图像分类
传统图像分类的方法主要经过2个步骤: 特征提取和训练分类器。
特征提取通用的方法主要包括2种,使用通用特征提取和使用自己设计的特征提取。例如在人脸识别中,使用HOG,LBP等通用特征进行检测。选定特征之后,使用传统的机器学习方法,例如adaboost等建模方法训练分类模型,然后选择效果最好的模型进行调参,最终生成人脸检测模型。
自2015年之后,图像处理使用深度学习进行分类的方法得到了广泛应用。神经网络通过神经元构建成网络,通过激活函数使模型具有非线性拟合能力。只需要给模型设计好输入和输出,模型就能自动学习特征提取和训练分类器的过程。深度学习的使用让图像分类过程中最为费时费力的过程得以简化,提升了图像分类的效果和效率。VGG,ResNet(残差神经网络),inception 这几种结构是工程中最常用的。工程上使用的模型必须要兼顾效率和效果,即在保证精度的同时也要保证速度。所以,在训练好模型之后会对模型进行微调和缩减。FRCNN,Mask-RCNN,YOLO是现在常用的网络模型,这几个模型拥有的共同点就是精度高、速度快。例如应用在人脸识别领域,这几个模型都可以实时检测并得出结果。
2.1.2 目标追踪
目标跟踪主要有 3 类算法,相关滤波算法、检测与跟踪相结合的算法和基于深度学习的算法。
相关滤波( Correlation Filter,CF) 是当前研究的一个重点,最初它应用在信号领域,之后引入目标跟踪领域。它引入了快速傅里叶变换从而使得算法效率得到有效提升。MOSSE是目标检测算法中应用最早的算法。在研究过程中在实时性应用方面做出突破的算法是CSK。在CSK的基础上进行改进,产生了KCF算法。之后还提出了CN,DSST,SRDCF等算法。检测与跟踪相结合的算法,简单来说就是目标跟踪的判别式算法。算法的实现理念是先找出目标的位置,然后再对目标进行跟踪。
深度学习的推广也影响到目标跟踪研究。基于深度学习的算法有分类和回归两类。R-CNN,Fast R-CNN,Faster R-CNN是基于分类的算法。3 种算法最大的不同在于检测窗口的选择,R-CNN 采用滑动窗口,Fast R-CNN 采用 Selective Search,Faster R-CNN采用RPN。
2.1.3 语义分割
计算机视觉就是将图片分割成像素,然后对像素进行处理。语义分割的意义是理解分割后像素的含义,例如图片中识别人、摩托、汽车及路灯等,它需要对密集的像素进行判别。卷积神经网络推动了语义分割算法的发展。语义分割中最基础的方法是通过滑动的窗口进行分类预测。
2014 年,全卷积神经网络(Fully Convolutional Networks,FCN)的出现替代了网络全连接层。基于FCN 研究出 Encoder-Decoder 架构。Encoder是降低空间维度的操作,Decoder是恢复空间维度和细节信息的操作。之后空洞卷积( Dialated/Atrous) 取代了Pooling操作。空洞卷积的优点是它可以保持空间分辨率。除了之前的几种方法,还有一种叫条件随机场(Conditional Random Fields,CRFs)的方法来提升分割效果。
2.2 机器学习
机器学习的基本思想是通过计算机对数据的学习来提升自身性能的算法。机器学习中需要解决的最重要的4类问题是预测、聚类、分类和降维。
机器学习按照学习方法分类可分为: 监督学习、无监督学习、半监督学习和强化学习。
2.2.1 监督学习
监督学习指的是用打好标签的数据训练预测新数据的类型或值。根据预测结果的不同可以分为2类: 分类和回归。监督学习的典型方法有SVM和线性判别。
回归问题指预测出一个连续值的输出,例如可以通过房价数据的分析,根据样本的数据输入进行拟合,进而得到一条连续的曲线用来预测房价。
分类问题指预测一个离散值的输出,例如根据一系列的特征判断当前照片是狗还是猫,输出值就是1或者0。
2.2.2 无监督学习
无监督学习是在数据没有标签的情况下做数据挖掘,无监督学习主要体现在聚类。简单来说是将数据根据不同的特征在没有标签的情况下进行分类。无监督学习的典型方法有k-聚类及主成分分析等
k-聚类的一个重要前提是数据之间的区别可以用欧氏距离度量,如果不能度量的话需要先转换为可用欧式距离度量。
主成分分析是一种统计方法。通过使用正交变换将存在相关性的变量,变为不存在相关性的变量,转换之后的变量叫做主成分。其基本思想就是将最初具有一定相关性的指标,替换为一组相互独立的综合指标。
2.2.3 半监督学习
半监督学习根据字面意思可以理解为监督学习和无监督学习的混合使用。事实上是学习过程中有标签数据和无标签数据相互混合使用。一般情况下无标签数据比有标签数据量要多得多。半监督学习的思想很理想化,但是在实际应用中不多。一般常见的半监督学习算法有自训练算法( Self-training) 、基于图的半监督算法( Graph-based Semi-supervisedLearning) 和半监督支持向量机(S3VM)。
2.2.4 强化学习
随着Alpha Go的火热,强化学习成为了当前最火热的研究领域之一,强化学习词热点居高不下。强化学习是通过与环境的交互获得奖励,并通过奖励的高低来判断动作的好坏进而训练模型的方法。强化学习中探索和开发的权重高低是一个难题: 为获得更好的奖励必须尽量选择能获得高奖励的动作,但是为了获得更好的奖励,也必须要挖掘未知的动作。
强化学习的基础来源于行为心理学。在1991年Thorndike提出了效用法则,即在环境中让人或者动物感到舒服的动作,人或者动物会不断强化这一动作。反之,如果人或者动物感觉到不舒服的行为,人或者动物会减少这种动作。强化学习换言之是强化得到奖励的行为,弱化受到惩罚的行为。通过试错的机制训练模型,找到最佳的动作和行为获得最大的回报。它模仿了人或者动物学习的模式,并且不需要引导智能体向某个方向学习。智能体可以自主学习,不需要专业知识的引导和人力的帮助。
基础的强化学习算法有使用表格学习的q_learning,sarsa以及使用神经网络学习的DQN,直接输出行为的 Policy Gradients及Actor Critic等。强化学习算法应用到游戏领域取得了不错的成果,在星际(图 2)和潮人篮球(图 3)的AI训练方面都取得了不错的成果。
图2 星际争霸
图3 潮人篮球
2.3 自然语义处理
自然语言处理(NLP)是指计算机拥有识理解人类文本语言的能力,是计算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别,人类的思维建立在语言之上,所以自然语言处理也就代表了人工智能的最终目标。机器若想实现真正的智能自然语言处理是必不可少的一环。自然语言处理分为语法语义分析、信息抽取、文本挖掘、信息检索、机器翻译、问答系统和对话系统7个方向。
句法语义分析,是对于给定的语言提取词进行词性和词义分析,然后分析句子的句法、语义角色和多词义选取。信息抽取,是指从给定的一段文字中抽取时间、地点和人物等主要信息,以及因果关系等句子关系。文本挖掘,对大量的文档提供自动索引,通过关键词或其他有用信息的输入自动检索出需要的文档信息。机器翻译,输入源文字并自动将源文字翻译为另一种语言,根据媒介的不同可以分为很多的细类,如文本翻译、图形翻译及手语翻译等。问答系统,是提出一个文字表达的问题,计算机可以给出准确的答案,过程中需要对问题进行语义分析,然后在资料库中寻出对应答案。对话系统,指计算机可以联系上下文和用户进行聊天及交流等任务,针对不同的用户采用不同的回复方式等功能。
自然语言处理主要有 5 类技术,分别是分类、匹配、翻译、结构预测及序列决策过程。
2.4 语音识别
现在人类对机器的运用已经到了一个极高的状态,所以人们对于机器运用的便捷化也有了依赖。采用语言支配机器的方式是一种十分便捷的形式。语音识别技术是将人类的语音输入转换为一种机器可以理解的语言,或者转换为自然语言的一种过程。
人类的声音信号经过话筒接收以后,转变成为电信号并作为语音识别系统的输入,然后系统对传入信号进行处理,再进行特征抽取,提取特征参数,从而提取出特征。将特征与原有数据库进行对比,最终输出识别出的语言结果。
语音识别的难点主要集中在噪声处理、鲁棒性和语音模型上。在输入语音时总是可能出现各种各样的噪声,提高对噪声的处理是提高识别准确率的重要一环。鲁棒性,现有的语音识别系统对环境的依懒性偏高,不同的环境中识别的准确性可能会有较大差别。语音模型的优化也是面临的一个重大问题,语言的复杂性毋庸置疑,语言的语义、情绪及语速等都会影响到语音的真实意义,所以优化语音模型,优化语音模型的基础就是需要大量的数据。
3 人工智能应用前景
人工智能市场发展迅速,不断将科研成果应用到实践中。除了现在的基础科研,还将科研成果不断付诸实践,各种人工智能计算机不断产出。以上人工智能四大核心技术的应用前景十分广阔。
3.1 计算机视觉应用
在计算机视觉领域,中国融资过亿的企业就有 11 家。商汤科技是一家以计算机视觉技术为核心的企业,专注于人工智能视觉引擎,拥有自主研发的深度学习平台,不断产出计算机视觉技术,它涉及的行业有无人驾驶、平安城市及金融等高技术产业,不断将产业技术付诸实践,吸收融资后致力于商汤的自主技术商业化。国内眼擎科技公司发布的AI视觉成像芯片全球首发,它的出现提升了现有的视觉识别能力,即使在极其复杂的环境中依然可以拥有十分优秀的视觉能力。
计算机视觉技术在安防领域的应用也十分广泛。通过视频内容自动识别车辆、人还有其他信息,为安防提供技术支持,并在追逃阶段可以自动汇报追踪相应的可疑车辆和人的运动轨迹,为*机关抓捕提供可靠的信息。
计算机视觉领域不断有企业涌现出旺盛的生命力,体现了人工智能这一技术方向的巨大潜力。
3.2 机器学习应用
机器学习与自动驾驶、金融及零售等行业紧密结合,不断提升行业的发展潜力。在自动驾驶领域运用机器学习的技术,不断提升自动驾驶的路测能力,通过强化学习的手段让无人汽车在环境中不断提升自己的能力,训练出的模型在基本路测环境中保持稳定。通过不断引入新的机器学习技术,让无人驾驶的商业化成为可展望的未来。零售行业运用机器学习的技术分析用户的喜好,进行定点推送,提供顾客更偏向购买的物品,提升零售的成功率。
在金融领域人工智能的市场规模已经变得越来越大,通过机器学习的技术手段,预测风险和股市的走向。运用机器学习的手段进行金融风险管控,整合多源的资料,实时向人提供风险预警信息。利用大数据对相应的金融风险进行分析,实时提供相应金融资产的风险预警,节省投资理财的人力物力消耗,构建科学合理的风险管控体系,为金融业的发展添砖加瓦。
3.3 自然语言处理应用
自然语言处理应用领域也很广阔。在邮件领域,它被用来分析处理垃圾邮件,为用户提供良好的应用环境。通过语言识别对文档进行自动分类,节省了人力并为企业的自动化运转提供了技术支持; 在书籍分类中,可以根据书籍内容进行自动分类,为用户查找相应书籍提供便捷的寻找手段; 自动翻译的便捷功能,让语言不再成为知识交流的障碍,在线翻译软件可以即时翻译出绝大部分文本; 人工智能客服的出现也改变了用户体验,基本问题可以直接找机器客服解决。
在金融领域的智能客服和智能投资顾问也运用了自然语言处理技术。智能投资顾问和智能客服采用语义识别技术,对咨询者的语义进行分析,并在资源库中找出最合适的回答方式和内容。智能投资顾问管理的资产在 2012 年还基本不存在,在2014年时技能已经达了140亿美元,到2019年初处于其管理下的资产已经到达了一个十分惊人的数字。
3.4 语音识别应用
语音识别应用的领域更加广泛,语音识别技术的普及让即时翻译不再困难。在微信中,通过语音识别技术可以不听取他人语音直接翻译为相应的文本,使微信交流功能在不方便听取语音的环境中不受影响。智能家居是一种以居住环境为平台的先进理念,通过人工智能的方式让与生活相关的家居统筹管理,使人的生活环境更加智能、舒适。智能家居中也应用了语音识别技术,通过解析人的语言命令,让家居进入相应的开关程序,并对人的命令作出回应,提升人的居住体验。
4 结束语
人工智能技术综合了多个学科领域,对人类的发展具有不可替代的作用。可以预见的是,人工智能必将成为下一次工业革命的核心。由此带来的变革不仅体现在技术上,对人类的心理、人文及伦理等方面都会造成冲击。当前90%的人力工作将来都有可能被人工智能取代,但是当人工智能取代传统岗位之后依然会衍生出新的岗位,不会引起大面积失业。人工智能时代已经降临,在教育层面应当响应时代号召,积极学习人工智能各项新技术; 在社会层面应当积极接受新的事物,不断前进并开拓出更多新的生活方式,不断与时俱进、更新思想大跨步迈进人工智能新时代。
摘自:人工智能综述:AI的发展