Voip中的音频Codec技术

时间:2021-09-09 17:37:23

TU G.729(CS-ACELP共扼结构-代数码激励线性预测)语音算法
ITU规定的G.729标准语音处理算法(标准见附),编码速率是8kbps,采样率8KHz,编码延时一帧10ms。其编码语音质量与传统电话接近,是VoIP系统中常用的基础算法。附录A和附录B称作G.729AG.729B

 

G.729 现在经进一步的研究和实践将其工作范围扩展至 6.4~11.8kb/s,话音质量也在此范围内有一定的变化,但即使是6.4kb/s,话音质量也还不错,因而很适合在VoIP系统中使用。

ITU G.723.1(ACELP代数码激励线性预测)语音算法
ITU规定的G.723.1标准语音处理算法(标准见附),编码速率有是5.36.3kbps两种,采样率8KHz,编码延时一帧30ms。其编码语音质量与G.729接近,是VoIP和数字录音系统中常用的基础算法。附录A称作G.723.1A

 

AMR(Adaptive Multi Rate)自适应多速率语音算法
AMR ETSI3GPP等组织规定的GSM,3G,W-CDMA等无线通信系统必须支持的一种标准语音处理算法(标准见附),它的编码速率范围是从4.75 -12.2kbps,采样率8KHz,编码延时一帧20ms。可以根据网络条件在不同的速率之间切换。手机彩铃,彩信,录音,3GP格式等一般都是使用这 种算法,与MP3格式可以互相转换。

 

AMR Wideband(Adaptive Multi Rate)宽带自适应多速率语音算法
AMR Wideband3GPP规定的宽带AMR算法(标准见附),在ITU标准中规定为G.722.2,其采样率为16KHz,编码速率范围为6.6-23.85kbps,编码延时一帧20ms主要应用在3G通信系统。

 

 

G.722 (SB-ADPCM)

ITU G.722 1988 年标准化,是第一个用于 16 KHZ 采样率的标准化宽带语音编码算法。该编解码器将 16 KHZ 的频带分为两个子频带,并用 ADPCM 算法在子频带中进行编码。其总延迟约 3 ms,这已经很小,不致造成电信网络中的回声问题。此外,该编解码器传输位误差率仅为 10-3,其性能可以接受。即使遇到最差的网络传输条件,上述要求也可确保性能只是稍稍下降。

G.722 编解码器在 16 kHz 频率上接收 16 位数据(带宽从 50 Hz 7 kHz),并将其压缩为 6456 48 Kbit/s

G.722.1(转换 (Transform) 编码器)

ITU G.722.1 于 20 世纪 90 年代末开发,可实现比 G.722 编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现与 G.722 大致相当的质量。该编解码器由 Picturetel 开发,使用了转换编码的方法。其在 16 KHZ 频率上接收 16 位数据(带宽从 50 Hz 至 7 kHz),并将其压缩为 32 与 24 Kbits/s。目前大多用于电视会议系统。

G.722.2 (AMR-WB)

AMR-WB 是一种最初为 GSM 无线网络定义的宽带编解码器,但最近扩展为包括有线系统。由于其计算强度很大,因此要充分利用多年来显著提高的 DSP 处理能力。AMR-WB 建立在 CELP 语音编码器基础上,音频带宽为 507000 HZ,在 6.6 23.85 Kbit/s 间提供 9 种语音编码。

AMR-WB 2001 年标准化,用于 GSM WCDMA 网络。2002 年底,ITU 决定它还将作为有线应用的宽带标准。它是第一个具有双重应用范围的编解码器。

 


1 几种话音编解码方法的性能对比

              编码方法     G.723.1    G.729    G.729A

              比特率    5.3/6.3kb/s   8kb/s    8kb/s

              帧长度    30ms      10ms     10ms

              处理时延   30ms      10ms     10ms

              观看时延   7.5ms      5ms     5ms

              帧字节数   20/24      10      10

              DSP MIP   16       20      10.5

              RAM     2200      3000     2000

相关的话音技术还包括静音检测技术和回声消除技术。有研究结果表明,人们在打电话时约有50%为聆听对方讲话的静默时间,10%为讲话时短暂停顿的静 默时间。静音检测技术可以有效剔除静默信号,从而使话音信号占用的带宽要求进一步降低到3.5kb/s左右;回声消除技术利用数字滤波器技术来消除对通话 质量影响很大回声干扰,保证通话质量。这点在时延相对较大的分组网络环境中尤为重要

 

表2 多媒体会议中常使用的音频编码模式  

标准

比特率

音频带宽

复杂性(定点)

帧大小

延迟

G.711(1977)

48,56,64kbps

3kbps

接近0

125μs

1ms

G.728(1992)

16kbps

3kbps

35~40MIPS

625μs

<2ms

G.723.1(1995)

5.3,6.4kbps

3kbps

18~20MIPS

30ms

97.5ms

G.729(1995)

8kbps

3kbps

18MIPS

10ms

35ms

G.729A(1996)

8kbps

3kbps

11MIPS

10ms

35ms

G.722(1988)

48,56,64kbps

7kbps

10MIPS

125μs

<2ms

G.16K

16,24,32kbps

7kbps

<15MIPS

≤20ms

≤60ms

 

 

技术规范
标准编解码软件符合ITU3GPP有关标准,通过所有标准测试数据,与标准算法完全兼容。相关标准如下。
(1) ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP).
(2) G729 Annex A, Reduced complexity 8 kbit/s CS-ACELP speech codec
(3) G729 Annex B, A silence compression scheme for G.729 terminals
(4) ITU-T Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s.
(5) G.723.1 AnnexA, silence compression scheme.
(6) GSM 06.90, Digital cellular telecommunication system (Phase 2+); Adaptive Multi-Rate (AMR) speech transcoding.
(7) GSM 06.91, Substitution and muting of lost frame for AMR speech traffic channels.
(8) GSM 06.92, Comfort noise aspects for AMR speech traffic channels.
(9) GSM 06.93, Discontinuous transmission (DTX) for AMR speech traffic channels.
(10) GSM 06.94, Voice Activity Detector (VAD) for AMR.
(11) GSM 06.74, Test sequences for the AMR speech codec.
(12) 3GPP TS26.190, AMR Wideband speech codec; Transcoding functions(Release 5).
(13) 3GPP TS 26.194, Voice Activity Detection (VAD).
(14) 3GPP TS 26.174, AMR wideband speech codec; Test sequences.
(15) 3GPP TS 26.194, Frame Structure.