浅谈广播音频S48格式(转)

一关于音频压缩格式
     1．MPEG-1音频压缩与专业广播领域内的数字音频文件格式
众所周知，音频数字化是通过声卡对模拟音频信号进行每秒上千次的采样，然后把每个采样值按一定的比特数量化。对CD音质的信号来讲，每秒要44100次的采样，每个采样值是16比特的量化，最后得到标准的数字音频的码流。记录数字音频码流的文件格式很多，Microsoft定义的用于Windows PC的数字化音频的文件格式扩展名为WAV，是一种应用较广的线性的、非压缩的数字化声音文件格式。立体声CD 音质信号每秒的码流是44.1k×16×2≈1.4Mb/s，或者存储容量每分钟为10M。这样高的码流和容量，虽然具有很好的音质，但占用较多的磁盘空间，对于数字音频的存储、处理和网络传输提出了很高的要求。因此对数字音频进行压缩具有非常重要的意义，只有这样系统才具有更好的可用性。
     对于专业广播领域内的数字音频文件格式，除了音质方面的要求，对编辑性能也有一定的要求，在广播数字化浪潮席卷全国的今天，统一的格式还给广播电台、电视台、唱片社及其它节目录制单位基于不同计算机平台的音频工作站之间的数字音频文件录制和无缝交换提供方便。
    在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。MPEG音频压缩的原理很简单，首先是利用编码技术，将源文件(Wave格式)重新进行编码压缩，其次是利用数据缩减，将人类听觉中的不敏感部分删除，从而达到缩小文件尺寸的目的。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ（MP1）、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。
     Wave没有经过压缩，文件的尺寸非常大，而MP1和MP2分别有1:4和1:6～1:8的压缩比例。MP2由于其适当的复杂程度和优秀的声音质量，以及高质量的压缩和高效率的编辑性能正在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用，成为数字音频工作站和自动播出领域内事实上的标准。
2．具体的压缩原理
       MPEG-1的压缩技术方案是子带压缩，子带分割的实现是通过时频映射，采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带；同时，信号通过FFT运算，对信号进行频谱分析；子带信号与频谱同步计算，得出对各子带的掩蔽特性，由于掩蔽特性的存在，减少了对量化比特率的要求，不同子带分配不同的量化比特数，但对于各子带而言，是线性量化。加上CRC校验码，得到标准的MPEG码流。在解码端，只要解帧，子带样值解码，最后进行频时映射还原，最后输出标准PCM码流。

下面详细介绍MP2具体方案
时频映射：数字的多相正交滤波器组把信号分成32个子带信号，每个子带的频带宽不是均匀划分的（MP1是均匀划分），因为人耳低频时的灵敏度在700Hz以后急剧降低。与之相关的一个概念叫关键带宽，因为在同样的掩蔽值时，低频有窄的带宽，而高频端则有较宽的带宽。这样，在按关键带宽分割时，低频取的带宽窄，即意味着对低频有较高频率分辨率，在高频端时则相对有较低一点的分辨率。这样的分配，更符合人耳的灵敏度特性，可以改善对低频端压缩编码的失真。但这样做需要较复杂一些的滤波器组。

心理声学模型：使用1024点的FFT变换得到信号的短时频谱功率信息，输出的电平和时频映射的子带样值同步计算，得到每个子带的掩蔽阈值。最后将该子带的最大信号/掩蔽阈值率输入给量化器。MP2使用的FFT精度比MP1（512点）高一些，提高了频率的分辨率，得到原信号的更准确瞬间频谱特性。

量化/编码：首先检测每个子带的样值，找到最大相对值，并且将它6比特量化，对该子带来讲叫比例因子，MP2的帧长度码流是MP1的3倍，允许每个子带有三个连续的比例因子，但编码时用一、二个或者三个，由它们之间的差别来定。通过最小化噪音/掩蔽值，由比例因子决定动态量化比特数，将该子带样值线性量化。量化比特数用一个4位码来描述，4位码可以用来描述24=16bit，最大16bit的量化。比例因子用6位码来描述，最大26=64的子带样值的系数。这样每个子带用的量化比特数和每个子带的最大样值都在MPEG的码流里，在接收端再按照这些信息还原原信号的幅值。MP2子带内有三个比例因子，这就意味着带内再进行动态比特分配，更增加了MPEG-1的压缩率。

帧形成：每一帧的开始都有一个同步的信息，还有CRC的循环冗余纠错码。帧是MPEG-1处理的最小单元，一帧信号处理1152个PCM的样值，因为要检测每个样值的大小后，才能开始处理，所以延时时间为1152/48k=24ms。一帧相当于24ms 的声音样本。这样Mp2的精确度为24ms，而MP1的精确度为8ms，如果用于编辑的话，MP1更精确。MP2描述比特分配的比特位数不是固定的，在低端子带用4位码来描述，相对低端子带量化比特数最大为24=16bit，在中间子带用3位码描述，相对中间子带比特最大为23=8bit，高端子带用2位码来描述，相对最大比特为22=4bit，这种分频率不同而比特率不一样的做法，也是关键带宽的应用之一。

MP2具有多种多样的比特率，对于 2×128 kb/s或以上比特率的音频数据是无损质量的压缩，比特率的大小显示了编码的质量和压缩比。例如：对于比特率为256kb/s,采样率48kHz，其压缩比为256/48=5.3，声音质量高于CD质量。而对于比特率32kb/s,采样率32kHz，其压缩比为32/32=10,但声音质量远低于CD质量。

3．S48音频格式
根据英夫美迪公司的定义，S48音频格式是指比特率为256kb/s,采样频率为48kHz的MP2格式。由于MP2压缩方法的复杂程度大大高于普通的压缩算法，它需要进行频谱变换，而由计算机进行频谱变换意味着大量的矩阵运算，所以实时录制S48需要内置处理器的声卡，Digigram公司的PCX系列声卡采用先进的DSP（数字信号处理器）芯片配合强大的DSP程序实现了实时的MP2高质量编码，同时提供大量专业数字音频处理功能，因此英夫美迪公司采用了该公司内置66 MHz 56002音频处理器的pcx924声卡，配合英夫美迪独立开发的四轨音频编辑器软件（daw2）来录制编辑标准的S48格式音频文件，10分钟的S48格式声音文件大小为18775KB，10分钟的WAV格式的声音文件大小为112649kB，压缩比为112649kB/18775KB，约6倍。

二 WAV格式和S48格式之间的转换
在电台的日常工作中常常需要在WAV格式和S48格式之间来回的转换。例如，自动化播出音频文件格式为S48，但是节目制作经常采用CD抓轨软件来引用CD音乐，这样可以节省许多时间，而抓轨软件的格式通常都是WAV格式的；S48格式的编辑精度只有24ms，编辑软件也不支持降噪、EQ等常用的软件效果器，所以有些高标准的精品节目有必要先用cooledit、sam2496等音频制作软件录制成WAV格式，再经过软件效果器仔细处理再转换回S48格式播出；至于把S48格式转换为WAV格式最典型的应用就是把制作完成的播出节目刻录成CD以便与外界交流。

下面简单介绍一下WAV格式和S48格式之间的转换。
1．WAV—→S48
     把WAV格式转换为S48格式可以采用英夫美迪自带的音频工作站软件（daw2）来完成，在点击“调入音频文件”打开的对话框中选择WAV格式文件保存的路径，在“文件格式”中选择“.WAV”即可看见WAV格式的文件列表，选择文件单击打开，在 “文件格式不匹配，要转换为标准格式吗”的对话框中选择“是”，即自动转换为标准的S48格式。
2．S48—→WAV
     把S48格式转换为WAV格式的方法很多，如果只是把S48格式转换为WAV格式以便做进一步的编辑处理，可以使用sam2496软件的“导入音频数据”功能直接调入即可。
因为S48其实是MP2的一种，所以许多能够播放MPEG音频的软件都可以完成WAV的转换工作。比如常用的WINAMP就可以通过它的Output Plugin 中的 Disk Writer Plugin 把S48文件输出为WAV文件。
如果要把S48格式批量转换为WAV格式在网络上有许多专用的音频转换软件，比如123 MP3 Wav Converter、Audio Converter……转换速度也很快，10分钟的S48格式文件16秒就可以完成转换（P4/128M/win2000）。这里有一个小技巧，因为该类软件不能自动识别S48格式，需要把S48格式音频文件的扩展名由“.S48”改为“.mp2”。
如果要刻录CD ，那么Visual MP3 CD Burner是最好的选择，它可以把S48格式转换为44.1kHz标准的CD WAV音频格式并直接刻录成CD。
      在英夫美迪公司的大力推广下，S48格式已经成为广播音频工作站和自动化播出工作站的标准格式，它具有优秀的声音质量又满足了广播音频编辑的精度要求，合成速度一流，为编辑主持人制作节目节省了大量时间。S48格式比WAV格式节省了近6倍的存储空间，增加了音频文件的存储容量，提高了在网络中的拷贝（传播）速度，也就降低了网络流量，为播出网络的安全和维护提供了方便。
国家广电总局正式颁布的标准GY/T 168—2001中制定的BWF格式标准以MUSICAM格式为基础，完全支持当前使用的S48格式，BWF还提供接口兼容各种未来可能发展的编码方式，所以现在可以放心地用S48格式来建设音频资料库，今后这几万、几十万小时的音频数据仍然可以正常使用！

（作者单位：张家港人民广播电台）