人机交互是一门计算机科学,主要研究关于设计、评价和实现供人们使用的交互计算系统以及相关现象的科学。人机交互的发展经历了以下几个阶段:手工作业阶段、作业控制语言与交互命令语言阶段、图形用户界面(GUI)阶段、网络用户界面,目前已经发展到多通道、多媒体的智能人机交互阶段。其中,语音人机交互是当前多通道、多媒体智能人机交互的主要方式。特别是苹果Siri、科大讯飞语点的出现,让智能语音人机交互技术实现了新的跨越,得到了社会各界的广泛关注。
一、智能语音人机交互产业发展现状
什么是智能语音人机交互技术?简单说,就是一种以语音为主要信息载体,让机器具有像人一样“能听会说、自然交互、有问必答”能力的综合技术,它涉及自然语言处理、语义分析和理解、知识构建和自学习能力、大数据处理和挖掘等前沿技术领域。这种技术既可以作为独立的软件系统运行在用户的计算机和智能手机上,也可以嵌入到具有联网能力的设备中。
近几年,随着语音技术的不断发展,人机交互逐渐走入语音时代,特别是Siri的出现推动了智能语音人机交互产业发展迎来了新的高峰。主要体现在:一是技术水平不断提高,特别是语音合成和基础语音识别技术发展较快;二是产业规模持续扩大,带动了家电、汽车、移动互联网等一批相关产业的发展;三是优秀企业大幅涌现,出现了如Nuance、谷歌、科大讯飞、捷通华声等一批优秀的企业。
同时,产业发展也存在一些问题:一方面,语音识别技术主要还是用于识别一些命令词汇和固定的语法格式,大规模的语音数据识别技术仍有待提高;另一方面缺乏成熟的商业模式极大地制约着产业的可持续发展。
二、智能语音人机交互产业链分析
经过多年的发展,智能语音人机交互产业形成了从核心技术研发到知识库提供再到应用、服务的完善的产业链。
图1 智能语音人机交互产业链
(一)核心技术研发
包括人工智能机器人厂商、人机交互技术和渠道提供商,以及基础平台支撑和关联技术提供商。
1、人工智能机器人厂商
主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所。
2、人机交互技术或渠道提供商
包括Nuance、科大讯飞、捷通华声、车音网等语音技术提供商,以及短信(移动、电信、联通)、QQ、MSN等服务提供商。
3、基础平台支撑和关联技术提供商
包括IDC、云计算平台、数据挖掘等技术提供商。
(二)知识库提供
主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、*、行业知识库等。
(三)应用、服务
1、智能电视提供商
包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等,也可以包括费通、盛付通等支付渠道商。
2、智能车载设备提供商
包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。
3、电话呼叫中心
包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。
4、智能移动终端厂商
包括以华为、联想、盛大、中兴等为代表的智能移动终端厂商。
5、智能家居厂商
包括以海尔、典众智能为代表的智能家居厂商。
三、智能语音人机交互产业竞争格局
随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。
(一)智能机器人厂商
智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告指出,截止2011年初,全球大约有36家智能客服系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、*、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。瑞典的Artificial Solutions定位于为企业和*机构开发客服机器人,他们已经成功的为欧洲近几十个*部门提供客服机器人,从而减轻人工工作压力。
智能客服机器人在国内的发展应用于近几年呈现出了快速增长的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。
(二)语音技术提供商
语音技术提供商纷纷借助这次智能语音人机交互产业发展高潮,不断推出相关产品,提升自己提供智能机器人解决方案的能力。Nuance除了在北美市场拥有自己类似的解决方案Dragon go!,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。
(三)搜索厂商
虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这种方式的易用性和效率以及用户体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布Google Now,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。
(四)移动客户端开发者
Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。
四、智能语音人机交互关键技术分析
基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。
图2 智能语音人机交互过程
结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:
(一)自然语言处理
包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。
(二)语义分析和理解
包括知识表示、本体理论、分领域的语义网络、机器推理等。
(三)知识构建和学习体系
包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。
(四)语音技术
包括语音识别、语音合成和声纹识别等。
(五)整合通信技术
包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
(六)云计算基础技术
包括海量数据分布式存储、统计和分析技术。
五、智能语音人机交互技术在典型行业的应用
语音交互方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到智能客服、智能终端等领域,切实深入到人们的生活。
(一)智能客服
智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,能够实现智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。
传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。在大幅缩减客服成本的同时,能够有效减少人工成本,增强用户体验,从而提升服务的质量和企业创新的品牌形象。
图3 客服系统技术和产业化路径
国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。
而在国内,由于企业的信息系统发展相对滞后,人力成本相对较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对比较积极的电信运营商、金融领域已有多家采用了智能客服系统。
随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会进一步显现。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服可以节约20%的开销,仅移动行业一年就可以节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。
(二)智能终端
以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个快速增长市场。
在智能手机领域,随着苹果Siri的推出,三星、LG等一些国际手机厂商,也借助Nuance的Dragon Dictation接入了不错的语音识别能力。
表1 国内外主要语音产品一览
产品 |
公司名称 |
应用终端 |
语音技术提供商 |
应用平台 |
首次发布时间 |
Siri |
苹果 |
智能手机、平板电脑、车载 |
纽昂斯 |
iOS |
2011年4月 |
Voice Action |
谷歌 |
智能手机、平板电脑、智能电视 |
谷歌 |
Android、iOS、win |
2010年8月 |
Dragon |
纽昂斯 |
智能手机、平板电脑、智能电视、车载 |
纽昂斯 |
iOS |
2012年3月 |
Vlingo |
Vlingo |
智能手机、平板电脑、智能电视、车载 |
Vlingo |
Android、iOS |
2011年11月 |
讯飞语点 |
科大讯飞 |
智能手机、平板电脑 |
科大讯飞 |
Android、iOS |
2012年3月 |
智能360 |
上海聚熵 |
智能手机、平板电脑 |
谷歌、捷通华声 科大讯飞 |
Android |
2012年1月 |
百度语音助手 |
百度 |
智能手机 |
捷通华声、 百度 |
Android、iOS |
2012年12月 |
搜狗语音助手 |
搜狗 |
智能手机 |
捷通华声、 云知声、 科大讯飞 |
Android、iOS |
2012年10月 |
快说语音助手 |
快说网络 |
智能手机 |
捷通华声、 云知声、 科大讯飞 |
Android |
2012年6月 |
小智 |
TCL |
智能电视 |
科大讯飞 |
Android、win |
2011年7月 |
AppLink |
福特 |
车载 |
纽昂斯 |
Android |
2012年3月 |
iVoka |
上汽 |
车载 |
科大讯飞 |
Andriod |
2012年10月 |
Ciri |
长虹 |
智能电视 |
科大讯飞 |
Android |
2012年2月 |
数据来源:工业和信息化部电子科学技术情报研究所
在智能电视领域,创维、长虹、康佳、TCL、联想、海信等等纷纷推出具有语音功能的智能电视。全新的语音技术也让电视屏幕菜单变得互动(如菜单、频道/音量调节、节目表)、智能操控变得更加有趣、生动和富有情感,真正意义上拉近了电视机与用户之间的距离。
语音技术的发展,为人机交互产业发展带来了新的跨越,极大的增加了人机交互的便捷性,为移动互联网、家电等行业发展带来新的契机。展望未来,随着语音技术和人机交互技术的逐渐成熟,以及高速无线网络(3G/4G/Wifi)、云计算、物联网以及移动互联网等基础技术的发展,以语音为主的人机交互技术的应用将会越来越广泛,并逐渐渗入到人们生活的方方面面。