TU G.729(CS-ACELP共扼结构-代数码激励线性预测)语音算法
ITU规定的G.729标准语音处理算法(标准见附),编码速率是8kbps,采样率8KHz,编码延时一帧10ms。其编码语音质量与传统电话接近,是VoIP系统中常用的基础算法。附录A和附录B称作G.729A和G.729B。
G.729 现在经进一步的研究和实践将其工作范围扩展至 6.4~11.8kb/s,话音质量也在此范围内有一定的变化,但即使是6.4kb/s,话音质量也还不错,因而很适合在VoIP系统中使用。
ITU G.723.1(ACELP代数码激励线性预测)语音算法
ITU规定的G.723.1标准语音处理算法(标准见附),编码速率有是5.3和6.3kbps两种,采样率8KHz,编码延时一帧30ms。其编码语音质量与G.729接近,是VoIP和数字录音系统中常用的基础算法。附录A称作G.723.1A。
AMR(Adaptive Multi Rate)自适应多速率语音算法
AMR 是ETSI和3GPP等组织规定的GSM,3G,W-CDMA等无线通信系统必须支持的一种标准语音处理算法(标准见附),它的编码速率范围是从4.75 -12.2kbps,采样率8KHz,编码延时一帧20ms。可以根据网络条件在不同的速率之间切换。手机彩铃,彩信,录音,3GP格式等一般都是使用这 种算法,与MP3格式可以互相转换。
AMR Wideband(Adaptive Multi Rate)宽带自适应多速率语音算法
AMR Wideband是3GPP规定的宽带AMR算法(标准见附),在ITU标准中规定为G.722.2,其采样率为16KHz,编码速率范围为6.6-23.85kbps,编码延时一帧20ms,主要应用在3G通信系统。
G.722 (SB-ADPCM)
ITU G.722 于 1988 年标准化,是第一个用于 16 KHZ 采样率的标准化宽带语音编码算法。该编解码器将 16 KHZ 的频带分为两个子频带,并用 ADPCM 算法在子频带中进行编码。其总延迟约 3 ms,这已经很小,不致造成电信网络中的回声问题。此外,该编解码器传输位误差率仅为 10-3,其性能可以接受。即使遇到最差的网络传输条件,上述要求也可确保性能只是稍稍下降。
G.722 编解码器在 16 kHz 频率上接收 16 位数据(带宽从 50 Hz 至 7 kHz),并将其压缩为 64、56 与 48 Kbit/s。
G.722.1(转换 (Transform) 编码器)
ITU G.722.1 于 20 世纪 90 年代末开发,可实现比 G.722 编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现与 G.722 大致相当的质量。该编解码器由 Picturetel 开发,使用了转换编码的方法。其在 16 KHZ 频率上接收 16 位数据(带宽从 50 Hz 至 7 kHz),并将其压缩为 32 与 24 Kbits/s。目前大多用于电视会议系统。
G.722.2 (AMR-WB)
AMR-WB 是一种最初为 GSM 无线网络定义的宽带编解码器,但最近扩展为包括有线系统。由于其计算强度很大,因此要充分利用多年来显著提高的 DSP 处理能力。AMR-WB 建立在 CELP 语音编码器基础上,音频带宽为 50-7000 HZ,在 6.6 至 23.85 Kbit/s 间提供 9 种语音编码。
AMR-WB 于 2001 年标准化,用于 GSM 与 WCDMA 网络。2002 年底,ITU 决定它还将作为有线应用的宽带标准。它是第一个具有双重应用范围的编解码器。
表1 几种话音编解码方法的性能对比
编码方法 G.723.1 G.729 G.729A
比特率 5.3/6.3kb/s 8kb/s 8kb/s
帧长度 30ms 10ms 10ms
处理时延 30ms 10ms 10ms
观看时延 7.5ms 5ms 5ms
帧字节数 20/24 10 10
DSP MIP 16 20 10.5
RAM 2200 3000 2000
相关的话音技术还包括静音检测技术和回声消除技术。有研究结果表明,人们在打电话时约有50%为聆听对方讲话的静默时间,10%为讲话时短暂停顿的静 默时间。静音检测技术可以有效剔除静默信号,从而使话音信号占用的带宽要求进一步降低到3.5kb/s左右;回声消除技术利用数字滤波器技术来消除对通话 质量影响很大回声干扰,保证通话质量。这点在时延相对较大的分组网络环境中尤为重要。
表2 多媒体会议中常使用的音频编码模式
标准 |
比特率 |
音频带宽 |
复杂性(定点) |
帧大小 |
延迟 |
G.711(1977) |
48,56,64kbps |
3kbps |
接近0 |
125μs |
《1ms |
G.728(1992) |
16kbps |
3kbps |
约35~40MIPS |
625μs |
<2ms |
G.723.1(1995) |
5.3,6.4kbps |
3kbps |
约18~20MIPS |
30ms |
97.5ms |
G.729(1995) |
8kbps |
3kbps |
约18MIPS |
10ms |
35ms |
G.729A(1996) |
8kbps |
3kbps |
约11MIPS |
10ms |
35ms |
G.722(1988) |
48,56,64kbps |
7kbps |
约10MIPS |
125μs |
<2ms |
G.16K |
16,24,32kbps |
7kbps |
约<15MIPS |
≤20ms |
≤60ms |
技术规范
标准编解码软件符合ITU和3GPP有关标准,通过所有标准测试数据,与标准算法完全兼容。相关标准如下。
(1) ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP).
(2) G729 Annex A, Reduced complexity 8 kbit/s CS-ACELP speech codec
(3) G729 Annex B, A silence compression scheme for G.729 terminals
(4) ITU-T Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s.
(5) G.723.1 AnnexA, silence compression scheme.
(6) GSM 06.90, Digital cellular telecommunication system (Phase 2+); Adaptive Multi-Rate (AMR) speech transcoding.
(7) GSM 06.91, Substitution and muting of lost frame for AMR speech traffic channels.
(8) GSM 06.92, Comfort noise aspects for AMR speech traffic channels.
(9) GSM 06.93, Discontinuous transmission (DTX) for AMR speech traffic channels.
(10) GSM 06.94, Voice Activity Detector (VAD) for AMR.
(11) GSM 06.74, Test sequences for the AMR speech codec.
(12) 3GPP TS26.190, AMR Wideband speech codec; Transcoding functions(Release 5).
(13) 3GPP TS 26.194, Voice Activity Detection (VAD).
(14) 3GPP TS 26.174, AMR wideband speech codec; Test sequences.
(15) 3GPP TS 26.194, Frame Structure.