音频特征(2):绘制波形图

时间:2024-01-24 21:31:54

音频特征(2):绘制波形图

有时候,为了直观地表达跟分析音频的特征,画几个图是必不可少的。当然,你可以把音频文件拉到Adobe Audition或其它音频分析软件中,再使用它绘制出来的特征图。那有没有办法自己写代码来绘制,并做一些灵活的控制呢?

本文介绍通过python的matplotlib.pyplot来绘制波形图。

pyplot是一个强大的绘图库,小程这里用来绘制波形,也只是牛刀小试。

小程先用自己的话,解释一些本文会提到的基础概念。

声道数,也叫通道数,这在采集声音(录制)时就引入的概念,可以理解为用几个通道去录制声音。比如一个人唱歌时,可以在他的左前方跟右前方(与声源同距离同方位),分别放一个通道去录制,这时两个通道录到的数据很可能是接近或相同的,如果距离或方位不同,则录制到的音频就会有差别。为了真实地还原现场,可以考虑多个通道进行录制,但也需要考虑录制后播放时是否支持多通道(否则还是达不到效果)。一般来说,单声道或双声道的音频文件还是比较常见的。

采样率,针对一个通道而言,也就是1秒钟一个通道采集的样本个数,各个通道各自采集。一般来说,常见的音频文件的采样率都比较高,比如44100Hz、32000Hz之类。你在看波形图时,看到“一团一团”的波形,这跟采样率很大有关,比如一秒内采集到4万多个样本,然后要在一秒的刻度上反映出这4万个点的振动情况,都聚集在一起了。

位深,也叫量化精度、位宽,即对一个样本的值用多少bit去表示它,用的bit越多,能表示的值就越多,也就越能接近样本的原值。比如极端一点,用2个bit去表示,那能表示的值就只能是0、1、2、3,那不管样本的值是多少,最终都会就近地选择这4个值中的一个,这样的话,所有样本在量化后的层次就很少(就4个值,对应电平)。如果用16bit、24bit或更多的bit去量化样本的值,层次就多得多,最终听起来会更细腻,当然存储的体积也更大。

帧数,也叫样本个数。对于“总帧数”要根据上下文来判断,有可能是一个通道(声道)的总帧数,也有可能是所有通道的总帧数。对于样本个数,是可以通过文件的大小与位深计算出来的。比如,对于一个pcm文件,已经知道文件大小是fs,采样精度为w个字节(比如2个字节),那所有通道的样本个数是(fs / w),如果是n个通道,则一个通道的样本个数是(fs / w / n)。

波形图,也叫振幅图,是音频的振幅(或能量)这个维度的图形表达。对于波形图,横坐标是时间,纵坐标一般有两种表示方式,一种方式是用dB来表示(就是分贝,你可以留意后面的截图),audition就用dB来表示;另一种方式是用[-1, 1]这个范围来表示,这种方式并不关心具体的能量值,只关心振幅的趋势,所以用归一化的思路固定一个变化的范围就可以了。

介绍完这些枯燥的概念后,我先摆一个绘制波形的代码,再在后面做一些解释。

import wave
import matplotlib
matplotlib.use('TkAgg')  
import matplotlib.pyplot as plt
import os, sys
import audioread
import numpy as np

def decode2wav(srcname, outname):
    f = audioread.audio_open(filename)
    nsample = 0
    for buf in f:
        nsample += 1
    f.close()

    with audioread.audio_open(filename) as f:
        print("input file: channels=%d, samplerate=%d, duration=%d" % (f.channels, f.samplerate, f.duration))
        channels = f.channels
        samplewidth = 2
        samplerate = f.samplerate
        compresstype = "NONE"
        compressname = "not compressed"
        outwav = wave.open(outname, 'wb')
        outwav.setparams((channels, samplewidth, samplerate, nsample, compresstype, compressname))
        for buf in f:
            outwav.writeframes(buf)
        outwav.close()

def pcm2wav(srcname, outname, channels, samplewidth, samplerate):
    fs = os.path.getsize(srcname)
    nsample = fs / samplewidth
    outwav = wave.open(outname, 'wb')
    outwav.setparams((channels, samplewidth, samplerate, nsample, "NONE", "not cmopressed"))
    fsrc = open(srcname, 'rb')
    outwav.writeframes(fsrc.read())
    fsrc.close()
    outwav.close()

if __name__ == '__main__':
    filename = sys.argv[1]
    filename = os.path.abspath(os.path.expanduser(filename))
    if not os.path.exists(filename):
        print("input file not found, then exit")
        exit(1)
    
    path, ext = os.path.splitext(filename)
    wavpath = path + ".wav"
    if ext != '.wav':
        if ext == ".pcm":
            if len(sys.argv) < 5:
                print("when input pcm, parameters should be [pcmfilename, channelcount, samplewidth_byte, samplerate]")
                exit(1)
            chcout = int(sys.argv[2])
            bitwidth = int(sys.argv[3])
            samplerate = int(sys.argv[4])
            pcm2wav(filename, wavpath, chcout, bitwidth, samplerate)
        else:
            decode2wav(filename, wavpath)
    wav = wave.open(wavpath, 'rb')
    channels, samplewidth, samplerate, nframe = wav.getparams()[:4]
    print("in wav file params: (%d:%d:%d:%d)" % (channels, samplewidth, samplerate, nframe))
    audiobyte = wav.readframes(nframe)
    wav.close()
    time = np.arange(0, nframe) * (1.0 / samplerate)
    numdata = np.fromstring(audiobyte, dtype=np.int16)
    numdata = numdata * 1.0 / max(abs(numdata))
    numdata = np.reshape(numdata, (nframe, channels))
    # plt.figure()
    for i in range(channels):
        plt.subplot(channels*2-1, 1, i*2+1)
        plt.plot(time, numdata[:, i])
        plt.xlabel("times(s)")
        plt.ylabel("amplitude")
        plt.title("wave - channel %d" % (i+1))
    plt.show()

大体的思路是先把音频文件解码出pcm数据并写成wav文件,再使用pyplot对wav文件进行绘制(实际只需要绘制样本归一化后的值)。

小程先展示下执行的效果。

可以这样执行这个脚本,分别输入wav、mp3、pcm与flac文件:
绘制wav的波形
绘制mp3的波形
绘制pcm的波形
绘制flac的波形

运行后可以得到相应的波形图,这里提供几个截图。

*. 单声道的波形:
单声道的波形图

对应,audition分析到的波形是这样的:
单声道的波形图-audition

*. 双声道的波形:
双声道的波形图

对应,audition分析到的波形是这样的:
双声道的波形图-audition

然后,对关键的代码做一些解释,请参考下面的截图。
代码解释1
代码解释2
代码解释3
代码解释4

其中,pyplot的函数subplot(),作用是画子图。subplot(rownum, clonum, curnum),前两个参数指定画多少行多少列,最后一个参数是当前子图的编号,按从左往右,从上往下的顺序进行编号。比如:

plt.subplot(2, 1, 1) -- 画两行一列(两个子图),在第一个子图绘制。

numpy的函数reshape(),作用是给原数组一个新的形状,也就是重新定义行列数,但不改变数组的值。比如:

numdata = np.reshape(numdata, (nframe, channels)) -- 把numdata改为nframe行,channels列。

至此,通过pyplot绘制波形图的实现介绍完毕。

总结一下,本文介绍了如何通过pyplot来绘制音频波形图的办法,讲解了一些概念,也解释了代码上的实现。


simple

posted on 2019-06-25 11:45 广州小程 阅读(...) 评论(...) 编辑 收藏