前言
通过听声音可以辨别声源的位置,这是我们习以为常的生活认知。从技术的角度来说,听声辩位其实真的一点都不简单。我们人类应该感谢上天的造化,赋予我们一双巧夺天工的耳朵,让我们可以毫不费力地做到听声辩位。在语音视频实时通信的世界里,要实现听声辩位,需要实现立体声,要耗费一番心思的事情。
双耳效应
关于人耳听声辩位的原理,这里不再赘述。有需要了解的同学请自行搜索“双耳效应”问度娘。简单地来说,听声辨位的基础是左右耳朵从同一声源获得的声音信息有细微的差别:
1)到达左右耳朵的时间不一样
2)在左右耳朵空间上的相位不一样
3)音色(频率)不一样
4)音级(波幅)不一样
人脑和双耳就是根据这两组声音信息的细微区别,判断出声源的位置的。
人类的双耳在自然环境进行听声辩位,已经有过数百万年的实战经验,以至于我们认为这是理所当然的事情。然而,随着科技的发展,我们习以为常的认知遇到了突而其来的挑战。
二十世纪初遇到的第一个有代表性的挑战是留声机。立体声技术较好地为模拟声音解决了立体音效的问题。基础的立体声技术是采用两个麦克风进行拾音,获得两组波形独立的声音信号,然后进行独立的处理,在播放的时候采用两个扬声器独立地播放这两组声音信号。这样,从播放端的角度来说,用户听到的是声音本身的立体音效和用户周遭空间的立体音效的叠加,能够达到听声辨位的效果。
二十一世纪的前二十年,语音视频实时通信遇到了移动互联网,立体声技术也遇到技术限制。这些技术限制其实和应用场景有关系。
听声辩位的应用场景
第一个要提的是游戏场景,如果不是最重要,也是最重要之一。游戏可以分为竞技类的和休闲类的。两类游戏对听声辩位的要求也不尽相同。
竞技类的游戏,包括众多玩家耳熟能详的MMORPG、MOBA和FPS。玩过CS的同学都知道,在虚拟场景中是能听到周遭其它玩家的脚步声的,听声辩位很多时候比视野更加有效地帮助玩家判断其它玩家在哪里,这往往是杀敌制胜和脱险保命的关键手段。现在实时游戏语音技术可以让玩家在CS中和队友一边并肩作战一边对话沟通。如果玩家通过游戏语音通话判断出队友的位置和通过游戏系统声音判断出队友的位置不一致,以至于造成判断错误,在分秒必争的虚拟枪战中,这可是致命的误导。要让游戏系统声音反映的虚拟位置和游戏语音通话反映的虚拟位置一致,其实是蛮难的。游戏系统和游戏语音SDK是完全独立和解耦的,游戏系统的声音产生涉及到游戏服务器和客户端的协同,游戏语音SDK的语音是从远端用户传输过来,考虑到两个独立系统和网络传输,两个者之间的步调要保持一致是十分有挑战的任务。
反恐精英CS中的听声辩位适宜和游戏语音的听声辩位结合
休闲类的游戏包括棋牌等人数较少节奏较慢的游戏,通过游戏语音边玩边聊天是一个刚性的社交需求。请各位闭眼想象,你和其它三个好友在线上打麻将,同时通过语音唠叨家常。如果你能够通过听左、右和前方三个人的声音,分辨出他们就像是坐在你左、右和前方三个位置,音效体验一下子就爆表了。狼人杀游戏更加不在话下,这种完全依托语音会话建立起来的社交游戏,如果能够通过听声音就能辨别出讲话的人的方位,闭着眼睛去感觉,就像是一伙朋友围着圆桌面对面的玩狼人杀游戏呢。
第二个对听声辩位有需求的场景是在线教育的小班课堂。举一个比较具体的例子,在线少儿英语小班课,应该是对线上互动要求最高的一种在线课堂形态,没有之一。小朋友的注意力不容易集中,对课堂趣味性和互动性的要求特别高。如果小朋友能够通过听声感觉到老师就坐在正前方讲台的位置,其它小朋友坐在前后座位各个方位,由远而近多个距离层次都有小朋友,就像是在真实的摆满书桌的教室里面的声音效果一样,这样无疑是大大增强了小朋友的注意力集中程度。
其它的一些应用场景,比如说语音社交、视频社交和互动直播,听声辩位的效果也会让用户感到惊艳。如果你加入houseparty的视频聊天房间,能听到参加趴踢的朋友分布在你前后左右的各个位置,那种沉浸式的听音感觉会让你像是整个人一下子投入到趴踢的人群中去。
这些应用场景即构ZEGO都有丰富的客户案例,即构ZEGO的听声辩位技术能让用户在这些应用场景里获得360度空间感的听声体验。然而,客户越来越苛刻的需求,驱使着即构ZEGO不断的去打磨和升级其听声辩位技术,来给予用户最优的体验。
移动终端的处理能力分秒不停地飞速发展,5G的推出如果不出意外也会在2019年到来,加上VR/AR技术的日渐成熟,沉浸式的语音视频实时互动通信将会成为一种生活方式。当你带着VR头显,环顾360度都看到远端的朋友的视频影像的时候,你是不是也期待他们的声音听起来也像是从他们看起来的那个位置传过来一样?到那时候,听声辩位技术也会成为这种生活方式的必备支柱。
<本篇完>
请期待《实时语音视频通话SDK如何实现听声辩位(二)》