科大讯飞副总裁刘鹏:人机交互的未来是人人交互?

时间:2024-10-08 19:21:58

嘉宾介绍

刘鹏(微博&知乎:北冥乘海生/公众号:计算广告),现任科大讯飞副总裁,大数据研究院院长。刘鹏在清华大学获得博士学位后,加入微软亚洲研究院,从事人工智能研究。后参与创建雅虎北京研究院,出任高级科学家。刘鹏还曾担任MediaV首席科学家、360商业化首席架构师等职。在多年从业经历中,刘鹏一直致力于将人工智能方法与海量数据相结合的工业界问题,负责过多个大型互联网商业产品体系。

Q1. 怎样才能在大公司里得到晋升?

大公司里,项目成果被截和的概率,正比于项目的成功程度。

如果你不明不白地撸起袖子就干,就算是项目大火,最多也就落得庆功宴上领导致词里轻描淡写的点赞:在CEO的英明领导下,COO的大力支持下,CAO的全力配合下,我带领团队,与某某和某某的兄弟部门密切配合,取得了阶段性的成果。在此,我们要对某某、...、某某(你)等骨干员工提出表彰,并给他们每人加发半个月的奖金! 

因此,要想获得credit,做事前起范儿至关重要。在事情八字还没一撇的时候,没几个人会跟你来抢功,趁着这个机会,一定要充分请示、频繁汇报,planning、brain storming、kick off搞个不停,一直到码皇们耳朵都磨出茧子,册封你为这个项目的负责人,全公司上下也都知道你有御赐的尚方宝剑。事情传开了,别人再来抢功,就师出无名了。

在大公司里,当一个*管理的团队充分大时,他只有升职和离开两种可能的后续状态。

项目成败在天,*晋升在人。把仕途寄托在虚无飘渺的项目成败上,是对自己不负责任的表现。趁着项目开工,迅速扩大团队的话,则可以立于不败之地——老板绝不可能承认一个高调成立的队伍啥也没干出来,因为那也是他的失职,最后只好找个机会给你升职加薪,这样的事情,在大公司呆过的应该都见过不少。

所以,这一步是*往上升最核心的步骤:巧立一个名目,招到十来个人,经理的职位就算是稳了;如法炮制搞个大事情,招到大几十个人,再抓住各种机会多要点headcount,基本上就可以进入中层了。

我还听说某公司一位真正的高手,连名目也跳过了:在移动应用大火的那两年,这位经理主动跳出来说,我要为公司招100名iOS和安卓工程师!干什么先别管,这是公司的战略储备!老板激动得涕泗横流,当即批复:马上干!后来,这位就成了移动开发事业部的总经理。

怎么把小公司20人搞定的事儿编制出200个headcount,还显得倍儿有道理呢?这方面需要专门的技巧和经验了,回头有机会我们专门撰文说明。

Q2. 从事互联网行业的人员如何避免出现中年危机这种状况?

PPT路线:这条路线,是从写代码的岗位转入写PPT的岗位,比如产品、运营、领导秘书,或者仍在技术团队中的项目管理、架构等角色。

分析此路线的好处,首先在于PPT技能随变化很慢。我翻了翻十几年前看过的一些讲稿,放到今天也基本能糊弄过去。因此,PPT岗位不太容易因为技术的骤然升级而被淘汰。另外,虽然PPT能力非常容易习得,可是相配合的演讲能力却需要一番磨炼,总体来说比码农的上手速度也要慢。

Politics路线:这条路线,是从生产力岗位转入生产关系岗位,一般来说就是各种管理岗。这条路性价比高,竞争也激烈,要有意识地构建好自己的能力,才有机会进入。

这条路线的两个速度都很慢:搞生产关系这事儿,需要长时间与人斗的历练,核心能力的习得过程相当漫长,除了天赋异禀的白头山天降伟人,一般都是老而弥坚。另一方面,与人斗的技能树,中国在奴隶社会以降,就没有太大变化,以至有“半部论语治天下”的说法。所以,向这个方向努力,对码农来说,是逃离职场中年危机的通途。

Paper路线:这条路线适应者相对较少,不过却非常有效。简单来说,能够跟学术界搭上点儿关系,在此序列里标名挂号,比只会coding,长期职业生涯会顺利得多。

Q3. 目前人机交互有哪些难点?

今天所有实用的人工智能产品,都是用的“弱智”方法。简单来说,就是凑答案:准备一大坨标注好的数据,然后用大量机器堆上去狂撩,直到把答案凑个八九不离十。至于问题的内在逻辑和简约规律,今天的AI既无心顾及,也无力解读。

“弱智”方法在数据充沛的领域,可谓所向披靡:无论是语音识别、人脸识别,还是机器翻译、各种棋类,机器都已经接近乃至碾压真人了。且慢!机器翻译都快解决了么?翻译可比聊天要难吧?不然,机器翻译这个问题,答案是比较好凑的:找到足够多的语言对数据,把词译过去跟麻将牌一样码好了,再调整一下顺序即可。人机对话则不然,我们要找到对方语言里的关键信息,把它转化为动作,再把动作的结果反馈回去。这些关键信息处理的过程,是要经过统计意义上的推理过程的。

说到推理,当然离不开句子表达内容以外的背景知识。比如你问机器:“直径为10的球体积是多少?”机器就得会球的体积公式才算得出来。当然,微积分、背古诗、查法典这样的知识,对机器来说总是可以解决,因为有大量书本上的语料可供学习,按照弱智大法凑答案即可。难就难在,这世界上还有大量的知识,根本没地方学去。

Q4. 人机交互的未来是要做到人人交互吗?

从开始探索人机交互,我们就想当然地认为,把人人交互的那一端由人变成机器,就是人机交互的理想模式了。于是,我们设计出来的机器人,也都是俩肩膀扛个脑袋,四肢五官齐备,用语言的方式跟对面的人类交流,再加上对常识一窍不通,怎么看怎么像个二*。

问题出在哪儿了呢?人类的信息交互,最高效的输出方式是“说”,也就是音频通道;最高效的输入方式是“看”,也就是视频通道。如果你对面是个真人,那没办法,双方都只能靠说输出信息,这就形成了语音为主的交互方式。而靠语音的人机对话,是这样的画风:

我想订一张明天去上海的机票

为您查到:6:35海南航空HU7611,票价480元;6:50吉祥航空HO252,438元;6:50厦门航空MF8178,票价...

我去你大爷的吧!

别乐,就算对面不是机器是个真人客服,这种交互也同样令人抓狂,有过电话订票经历的朋友都有体会,只不过对着活人您不好意思骂街罢了。

既然对面是个机器人,就没必要如此拘泥了。实际上,机器的交互方式,应该跟我们“相反"而不是“相同”:你输出信息靠说,机器人接受信息就得靠听,这没错;你输入信息靠看,那机器人输出就别靠说了,何不在一块屏上展示出来呢?这样,不但信息输出效率提高了很多,而且用户只要在展示的信息底板上做选择题,就算用语音输入也大为便捷。

所以,真正适合人机交互的机器人,最好有个视频输出的设备,近了靠手机就可以,远了怎么办还值得探讨。这个概念,就是讯飞的胡郁老师讲的“强视觉呈现的语音交互”吧。这种模式下的交互方式,已经跟人人交互有了质的区别,未知之处很多,需要我们深入探索。当然,可以确定的是,机器人绝对应该抛弃人形,以避免用户用人的眼光和标准来评价它。

人机交互这件事,看起来简单,却是人工智能王冠上最耀眼的一颗明珠。目前看来,严格意义上的图灵测试离我们还相当遥远,不过通过交互方式和产品上的创新,一个在特定领域内可用的合格助手,或许已经在向我们招手了。

另外,由于计算机对海量信息的检索和处理能力远胜人类,或许可以让机器助手辅助人人交互,这样既能大大提高内容沟通效率,又能发挥人的情感沟通优势,这没准是目前更加可行的产品路线。

Q5. 人工智能的发展前景如何?

我进入这个行业已经有十多年了:博士期间,我做的是语音是别的研究,毕业开始又到MSRA接着干这个。虽然我们的两任院长——李开复老师和洪小文老师都是语音研究出身,却丝毫不能改变当年这一项目在全院最鸡肋的地位。因为在当年,各种各样的人工智能应用能真刀真枪上阵的并不多。更别提要是向互联网界提起自己是做“人工智能”的,那简直就像在两会会场上上偷看了毛片那样无地自容。实际上,那个时期,正是人工智能发展的第二落。

以史为鉴,可以知兴衰。为了探讨人工智能的发展前景,我们简单回顾一下人工智能前面发展的三起两落。

一、六十多年前的达特茅斯会议,提出了“Artifitial Intelligence”的课题,目的是让逐渐成熟的计算机能够代替人类解决一些感知、认知乃至决策的问题。这样一个课题是如此令人神往,也迅速吸引了大量学者的眼球,相关的研究也如火如荼地开展了起来。是为第一起。

二、初,学者们解决人工智能问题的思路,是以人为师,通过专家编制规则的方法,教机器下棋、认字乃至语音识别。在今天看来,这样的方法是完全南辕北辙的——人类的视听器官虽然很发达,却并没有能力总结提炼其中的规律。于是,人工智能的美好憧憬中迎来了残酷的现实,学者们发现解决问题是如此遥远,围观群众也一度认为人工智能的学者都是骗子。是为第一落。

三、既然靠人指导不行,那就要祭出“实事求是”的法宝,从数据里统计规律。在这样数据+统计的方法论下,诸如人脸识别、手写识别等一些较为简单的问题取得了重大进展,而在当时最困难的问题——大词表连续语音识别上,统计方法也是史无前例地造就了实验室中“基本可用”的系统。到此时,我们感觉找到了解决人工智能问题的基本思路。是为第二起。

四、数据+统计模型的方法盛行以后,也很快遇到了瓶颈:数据量的提升并不总能带来识别率的提高。当然,我们很早就知道“深度模型”比“浅层模型”学习数据的能力强,无奈这种模型的计算代价极高,只能望洋兴叹。拿语音识别为例,在“基本可用”到“实用”之间的鸿沟,十几年都没有跨过去,于是大家又转向悲观,觉得人工智能还只是个梦。是为第二落。

五、第二落以来,继续坚持在“深度神经网络”这条战线上的学者很少,因为做这个是拿不到funding的。其中有一位老前辈Jeffrey Hinton,和他的学生Alex一起,发现用GPU算神经网络,能大幅提高速度,于是这种模型居然可能实用了。一旦实用,深度模型可以疯狂吸收数据的优势就发挥出来了,于是在语音识别、图像识别等领域带来了飞跃式的进展。是为第三起。

当然,工业界的看到的这第三起,比我们上面轻描淡写提到的内容要波澜壮阔得多。不过,不要太在意,因为各路大佬不论过去是做黑产、卖假货还搞劫持的,都摇身一变成了人工智能的忠实拥趸和业界先驱——虽然他们的数学也就是初中肄业水平。去年,当我听到某此类上市公司老板歇斯底里地在财报中喊出要投入数千万美元搞人工智能时,不由心生感慨:修脚的可以挂妙手回春的锦旗,但千万别说自己是做精准医疗的!

虽然人工智能的第三起确实有了质的发展,但考虑到这些沉渣泛起的为人工智能从业者,我觉得第三落还是会来到,只不过并非对行业本身的怀疑,而是自我净化罢了。

而人工智能的行业发展趋势,由于大规模数据+大规模算力的基本方法论已经成熟,今后的发展路径是十分清楚的:在那些数据储备充分、商业价值清晰的场景,人工智能会迅猛发展,投身于这样的行业中期发展会非常好;而医疗、教育这类领域,由于电子化数据的整理与积累尚需时日,可以需要一个较为漫长的发展过程。

PMCAFF问答专场是一场与PMCAFF用户互动的问答活动,我们每期都会邀请知名互联网公司的一线产品从业者和咖友们共同交流,目前已成功举办过60+期,先后有来自腾讯、百度、阿里、360、小米、京东、去哪儿等大厂嘉宾入驻。

这个世界问题太多,我们需要一个能够解决问题的人。

如果你有足够的能力解决来自PMCAFF用户在你的专业领域中,以不同的角度提出各类刁钻问题,那么欢迎你参加PMCAFF问答专场

活动申请可以添加工作人员微信沟通咨询,加好友请备注:问答专场