音频预处理
这一讲主要介绍些音频基本处理方式,为接下来的语音识别打基础。
三种播放音频的方式
使用 python 播放音频有以下几种方式:
os.system()
os.system(file) 调用系统应用来打开文件,file 可为图片或者音频文件。
缺点:要打开具体的应用,不能在后台播放音频。
pyaudio
安装:pip install pyaudio
官方提供了播放音频与录音的 api ,使用十分方便,只要把filename更改为你的音频文件的文字,就可以播放音频了。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
"""pyaudio example: play a wave file."""
import pyaudio
import wave
chunk = 1024
filename = '你的音频文件'
def play(filename = filename):
wf = wave. open (filename, 'rb' )
p = pyaudio.pyaudio()
stream = p. open ( format = p.get_format_from_width(wf.getsampwidth()),
channels = wf.getnchannels(),
rate = wf.getframerate(),
output = true)
data = wf.readframes(chunk)
while data ! = b'':
stream.write(data)
data = wf.readframes(chunk)
stream.stop_stream()
stream.close()
p.terminate()
|
jupyter notebook
在 jupyer notebook 中播放音频可以使用以下函数:
1
2
|
import ipython.display as ipd
ipd.audio(文件名)
|
几种读取音频的方式
python 有很多读取音频文件的方法,内置的库 wave ,科学计算库 scipy, 和方便易用的语音处理库 librosa。
下面将介绍分别使用这几种库读取音频文件:
安装:
- wave 是内置库直接导入即可。
- scipy: pip install scipy
- librosa: pip install librosa
使用:
wave.open:
参数 path 为文件名,mode 为打开方式
以'rb'方式打开文件返回一个 wave_read 对象,而以'wb'方式打开文件返回一个 wave_write 对象。
scipy.io.wavfile:
参数 path 为文件名
返回 rate : 采样率(每秒采样点的个数),data : 音频数据
librosa.load:
参数 path 为文件名
返回 y 为音频数据,sr 为采样率
1
2
3
4
5
6
7
8
9
10
11
|
# read wav file from path
from scipy.io import wavfile
import librosa
import pyaudio
# wave
file = wave. open (path, 'rb' )
# wavfile
rate, data = wavfile.read(path)
# librosa
y, sr = librosa.load(path)
|
下面演示一个使用 wavfile 读取音频文件并且画出波形的例子:
首先要计算音频到底持续了多长时间,wave 的 shape 就是总的采样点个数,除以采样频率可以得到持续的总时间(秒),乘1000得到总持续时间(毫秒)。接着通过 np.linsapce 产生时间的序列,最后使用 matplotlib 画出图像。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
from scipy.io import wavfile
import matplotlib.pyplot as plt
import numpy as np
% matplotlib inline
# 一秒采样数
sr, wave = wavfile.read( 'd://qqpcmgr/desktop/python3/skip.wav' )
sample_number = wave.shape[ 0 ]
total_time = int (sample_number / sr * 1000 )
time_series = np.linspace( 0 ,total_time,sample_number)
fig, ax = plt.subplots( 1 , 1 )
ax.plot(time_series, wave)
ax.set_title( 'time*amplitude' )
ax.set_xlabel( 'time/ms' )
ax.set_ylabel( 'amplitude/db' )
|
最后再借用 pyaudio 的 api 我们可以实现连续录音功能:
python 实现录音功能
其中,函数 multi_record每结束一次录音会询问 “是否进行下一次录音?”,按回车就可以进行下一次录音了。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
import wave
import pyaudio
import matplotlib.pyplot as plt
import time
chunk = 1024
format = pyaudio.paint16
channels = 2
rate = 44100
record_seconds = 5
def record(filename = 'output.wav' ):
"""官方录音教程
"""
p = pyaudio.pyaudio()
stream = p. open ( format = format ,
channels = channels,
rate = rate,
input = true,
frames_per_buffer = chunk)
print ( "* recording" )
frames = []
for i in range ( 0 , int (rate / chunk * record_seconds)):
data = stream.read(chunk)
frames.append(data)
print ( "* done recording" )
stream.stop_stream()
stream.close()
p.terminate()
wf = wave. open (filename, 'wb' )
wf.setnchannels(channels)
wf.setsampwidth(p.get_sample_size( format ))
wf.setframerate(rate)
wf.writeframes(b''.join(frames))
wf.close()
def multi_record(num = 3 ):
"""implement 多次录音"""
for i in range ( 1 ,num + 1 ):
print ( '第{}次录音准备' . format (i))
filename = 'record_{}.wav' . format (i)
record(filename)
time.sleep(second)
_ = input ( '进行下一次录音?' )
def main():
multi_record()
if __name__ = = '__main__' :
main()
|
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对服务器之家的支持。
原文链接:https://www.jianshu.com/p/9a60ac6c033a