音频特征(2):绘制波形图
有时候,为了直观地表达跟分析音频的特征,画几个图是必不可少的。当然,你可以把音频文件拉到Adobe Audition或其它音频分析软件中,再使用它绘制出来的特征图。那有没有办法自己写代码来绘制,并做一些灵活的控制呢?
本文介绍通过python的matplotlib.pyplot来绘制波形图。
pyplot是一个强大的绘图库,小程这里用来绘制波形,也只是牛刀小试。
小程先用自己的话,解释一些本文会提到的基础概念。
声道数,也叫通道数,这在采集声音(录制)时就引入的概念,可以理解为用几个通道去录制声音。比如一个人唱歌时,可以在他的左前方跟右前方(与声源同距离同方位),分别放一个通道去录制,这时两个通道录到的数据很可能是接近或相同的,如果距离或方位不同,则录制到的音频就会有差别。为了真实地还原现场,可以考虑多个通道进行录制,但也需要考虑录制后播放时是否支持多通道(否则还是达不到效果)。一般来说,单声道或双声道的音频文件还是比较常见的。
采样率,针对一个通道而言,也就是1秒钟一个通道采集的样本个数,各个通道各自采集。一般来说,常见的音频文件的采样率都比较高,比如44100Hz、32000Hz之类。你在看波形图时,看到“一团一团”的波形,这跟采样率很大有关,比如一秒内采集到4万多个样本,然后要在一秒的刻度上反映出这4万个点的振动情况,都聚集在一起了。
位深,也叫量化精度、位宽,即对一个样本的值用多少bit去表示它,用的bit越多,能表示的值就越多,也就越能接近样本的原值。比如极端一点,用2个bit去表示,那能表示的值就只能是0、1、2、3,那不管样本的值是多少,最终都会就近地选择这4个值中的一个,这样的话,所有样本在量化后的层次就很少(就4个值,对应电平)。如果用16bit、24bit或更多的bit去量化样本的值,层次就多得多,最终听起来会更细腻,当然存储的体积也更大。
帧数,也叫样本个数。对于“总帧数”要根据上下文来判断,有可能是一个通道(声道)的总帧数,也有可能是所有通道的总帧数。对于样本个数,是可以通过文件的大小与位深计算出来的。比如,对于一个pcm文件,已经知道文件大小是fs,采样精度为w个字节(比如2个字节),那所有通道的样本个数是(fs / w),如果是n个通道,则一个通道的样本个数是(fs / w / n)。
波形图,也叫振幅图,是音频的振幅(或能量)这个维度的图形表达。对于波形图,横坐标是时间,纵坐标一般有两种表示方式,一种方式是用dB来表示(就是分贝,你可以留意后面的截图),audition就用dB来表示;另一种方式是用[-1, 1]这个范围来表示,这种方式并不关心具体的能量值,只关心振幅的趋势,所以用归一化的思路固定一个变化的范围就可以了。
介绍完这些枯燥的概念后,我先摆一个绘制波形的代码,再在后面做一些解释。
import wave
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
import os, sys
import audioread
import numpy as np
def decode2wav(srcname, outname):
f = audioread.audio_open(filename)
nsample = 0
for buf in f:
nsample += 1
f.close()
with audioread.audio_open(filename) as f:
print("input file: channels=%d, samplerate=%d, duration=%d" % (f.channels, f.samplerate, f.duration))
channels = f.channels
samplewidth = 2
samplerate = f.samplerate
compresstype = "NONE"
compressname = "not compressed"
outwav = wave.open(outname, 'wb')
outwav.setparams((channels, samplewidth, samplerate, nsample, compresstype, compressname))
for buf in f:
outwav.writeframes(buf)
outwav.close()
def pcm2wav(srcname, outname, channels, samplewidth, samplerate):
fs = os.path.getsize(srcname)
nsample = fs / samplewidth
outwav = wave.open(outname, 'wb')
outwav.setparams((channels, samplewidth, samplerate, nsample, "NONE", "not cmopressed"))
fsrc = open(srcname, 'rb')
outwav.writeframes(fsrc.read())
fsrc.close()
outwav.close()
if __name__ == '__main__':
filename = sys.argv[1]
filename = os.path.abspath(os.path.expanduser(filename))
if not os.path.exists(filename):
print("input file not found, then exit")
exit(1)
path, ext = os.path.splitext(filename)
wavpath = path + ".wav"
if ext != '.wav':
if ext == ".pcm":
if len(sys.argv) < 5:
print("when input pcm, parameters should be [pcmfilename, channelcount, samplewidth_byte, samplerate]")
exit(1)
chcout = int(sys.argv[2])
bitwidth = int(sys.argv[3])
samplerate = int(sys.argv[4])
pcm2wav(filename, wavpath, chcout, bitwidth, samplerate)
else:
decode2wav(filename, wavpath)
wav = wave.open(wavpath, 'rb')
channels, samplewidth, samplerate, nframe = wav.getparams()[:4]
print("in wav file params: (%d:%d:%d:%d)" % (channels, samplewidth, samplerate, nframe))
audiobyte = wav.readframes(nframe)
wav.close()
time = np.arange(0, nframe) * (1.0 / samplerate)
numdata = np.fromstring(audiobyte, dtype=np.int16)
numdata = numdata * 1.0 / max(abs(numdata))
numdata = np.reshape(numdata, (nframe, channels))
# plt.figure()
for i in range(channels):
plt.subplot(channels*2-1, 1, i*2+1)
plt.plot(time, numdata[:, i])
plt.xlabel("times(s)")
plt.ylabel("amplitude")
plt.title("wave - channel %d" % (i+1))
plt.show()
大体的思路是先把音频文件解码出pcm数据并写成wav文件,再使用pyplot对wav文件进行绘制(实际只需要绘制样本归一化后的值)。
小程先展示下执行的效果。
可以这样执行这个脚本,分别输入wav、mp3、pcm与flac文件:
运行后可以得到相应的波形图,这里提供几个截图。
*. 单声道的波形:
对应,audition分析到的波形是这样的:
*. 双声道的波形:
对应,audition分析到的波形是这样的:
然后,对关键的代码做一些解释,请参考下面的截图。
其中,pyplot的函数subplot(),作用是画子图。subplot(rownum, clonum, curnum),前两个参数指定画多少行多少列,最后一个参数是当前子图的编号,按从左往右,从上往下的顺序进行编号。比如:
plt.subplot(2, 1, 1) -- 画两行一列(两个子图),在第一个子图绘制。
numpy的函数reshape(),作用是给原数组一个新的形状,也就是重新定义行列数,但不改变数组的值。比如:
numdata = np.reshape(numdata, (nframe, channels)) -- 把numdata改为nframe行,channels列。
至此,通过pyplot绘制波形图的实现介绍完毕。
总结一下,本文介绍了如何通过pyplot来绘制音频波形图的办法,讲解了一些概念,也解释了代码上的实现。