音频特征（2）：绘制波形图

有时候，为了直观地表达跟分析音频的特征，画几个图是必不可少的。当然，你可以把音频文件拉到Adobe Audition或其它音频分析软件中，再使用它绘制出来的特征图。那有没有办法自己写代码来绘制，并做一些灵活的控制呢？

本文介绍通过python的matplotlib.pyplot来绘制波形图。

pyplot是一个强大的绘图库，小程这里用来绘制波形，也只是牛刀小试。

小程先用自己的话，解释一些本文会提到的基础概念。

声道数，也叫通道数，这在采集声音（录制）时就引入的概念，可以理解为用几个通道去录制声音。比如一个人唱歌时，可以在他的左前方跟右前方（与声源同距离同方位），分别放一个通道去录制，这时两个通道录到的数据很可能是接近或相同的，如果距离或方位不同，则录制到的音频就会有差别。为了真实地还原现场，可以考虑多个通道进行录制，但也需要考虑录制后播放时是否支持多通道（否则还是达不到效果）。一般来说，单声道或双声道的音频文件还是比较常见的。

采样率，针对一个通道而言，也就是1秒钟一个通道采集的样本个数，各个通道各自采集。一般来说，常见的音频文件的采样率都比较高，比如44100Hz、32000Hz之类。你在看波形图时，看到“一团一团”的波形，这跟采样率很大有关，比如一秒内采集到4万多个样本，然后要在一秒的刻度上反映出这4万个点的振动情况，都聚集在一起了。

位深，也叫量化精度、位宽，即对一个样本的值用多少bit去表示它，用的bit越多，能表示的值就越多，也就越能接近样本的原值。比如极端一点，用2个bit去表示，那能表示的值就只能是0、1、2、3，那不管样本的值是多少，最终都会就近地选择这4个值中的一个，这样的话，所有样本在量化后的层次就很少（就4个值，对应电平）。如果用16bit、24bit或更多的bit去量化样本的值，层次就多得多，最终听起来会更细腻，当然存储的体积也更大。

帧数，也叫样本个数。对于“总帧数”要根据上下文来判断，有可能是一个通道（声道）的总帧数，也有可能是所有通道的总帧数。对于样本个数，是可以通过文件的大小与位深计算出来的。比如，对于一个pcm文件，已经知道文件大小是fs，采样精度为w个字节（比如2个字节），那所有通道的样本个数是(fs / w)，如果是n个通道，则一个通道的样本个数是(fs / w / n)。

波形图，也叫振幅图，是音频的振幅（或能量）这个维度的图形表达。对于波形图，横坐标是时间，纵坐标一般有两种表示方式，一种方式是用dB来表示（就是分贝，你可以留意后面的截图），audition就用dB来表示；另一种方式是用[-1, 1]这个范围来表示，这种方式并不关心具体的能量值，只关心振幅的趋势，所以用归一化的思路固定一个变化的范围就可以了。

介绍完这些枯燥的概念后，我先摆一个绘制波形的代码，再在后面做一些解释。

import wave
import matplotlib
matplotlib.use('TkAgg')  
import matplotlib.pyplot as plt
import os, sys
import audioread
import numpy as np

def decode2wav(srcname, outname):
    f = audioread.audio_open(filename)
    nsample = 0
    for buf in f:
        nsample += 1
    f.close()

    with audioread.audio_open(filename) as f:
        print("input file: channels=%d, samplerate=%d, duration=%d" % (f.channels, f.samplerate, f.duration))
        channels = f.channels
        samplewidth = 2
        samplerate = f.samplerate
        compresstype = "NONE"
        compressname = "not compressed"
        outwav = wave.open(outname, 'wb')
        outwav.setparams((channels, samplewidth, samplerate, nsample, compresstype, compressname))
        for buf in f:
            outwav.writeframes(buf)
        outwav.close()

def pcm2wav(srcname, outname, channels, samplewidth, samplerate):
    fs = os.path.getsize(srcname)
    nsample = fs / samplewidth
    outwav = wave.open(outname, 'wb')
    outwav.setparams((channels, samplewidth, samplerate, nsample, "NONE", "not cmopressed"))
    fsrc = open(srcname, 'rb')
    outwav.writeframes(fsrc.read())
    fsrc.close()
    outwav.close()

if __name__ == '__main__':
    filename = sys.argv[1]
    filename = os.path.abspath(os.path.expanduser(filename))
    if not os.path.exists(filename):
        print("input file not found, then exit")
        exit(1)
    
    path, ext = os.path.splitext(filename)
    wavpath = path + ".wav"
    if ext != '.wav':
        if ext == ".pcm":
            if len(sys.argv) < 5:
                print("when input pcm, parameters should be [pcmfilename, channelcount, samplewidth_byte, samplerate]")
                exit(1)
            chcout = int(sys.argv[2])
            bitwidth = int(sys.argv[3])
            samplerate = int(sys.argv[4])
            pcm2wav(filename, wavpath, chcout, bitwidth, samplerate)
        else:
            decode2wav(filename, wavpath)
    wav = wave.open(wavpath, 'rb')
    channels, samplewidth, samplerate, nframe = wav.getparams()[:4]
    print("in wav file params: (%d:%d:%d:%d)" % (channels, samplewidth, samplerate, nframe))
    audiobyte = wav.readframes(nframe)
    wav.close()
    time = np.arange(0, nframe) * (1.0 / samplerate)
    numdata = np.fromstring(audiobyte, dtype=np.int16)
    numdata = numdata * 1.0 / max(abs(numdata))
    numdata = np.reshape(numdata, (nframe, channels))
    # plt.figure()
    for i in range(channels):
        plt.subplot(channels*2-1, 1, i*2+1)
        plt.plot(time, numdata[:, i])
        plt.xlabel("times(s)")
        plt.ylabel("amplitude")
        plt.title("wave - channel %d" % (i+1))
    plt.show()

大体的思路是先把音频文件解码出pcm数据并写成wav文件，再使用pyplot对wav文件进行绘制（实际只需要绘制样本归一化后的值）。

小程先展示下执行的效果。

可以这样执行这个脚本，分别输入wav、mp3、pcm与flac文件：
绘制wav的波形
绘制mp3的波形
绘制pcm的波形
绘制flac的波形