如何将 wav 文件填充到特定长度？

Question

我正在使用波形文件制作深度学习模型它们的长度不同，所以我想全部填充使用 python

至 16 秒长度

Answer 1

使用pydub：

from pydub import AudioSegment

pad_ms = 1000  # milliseconds of silence needed
silence = AudioSegment.silent(duration=pad_ms)
audio = AudioSegment.from_wav('you-wav-file.wav')

padded = audio + silence  # Adding silence after the audio
padded.export('padded-file.wav', format='wav')

AudioSegment 对象是不可变的

Answer 2

如果我没理解错的话，题目是想把所有的长度固定到给定的长度。因此，解决方案会略有不同：

from pydub import AudioSegment

pad_ms = 1000  # Add here the fix length you want (in milliseconds)
audio = AudioSegment.from_wav('you-wav-file.wav')
assert pad_ms > len(audio), "Audio was longer that 1 second. Path: " + str(full_path)
silence = AudioSegment.silent(duration=pad_ms-len(audio)+1)


padded = audio + silence  # Adding silence after the audio
padded.export('padded-file.wav', format='wav')

这个答案与的不同之处在于，这个答案从相同的长度创建所有音频，而另一个在最后添加相同大小的静音。

Answer 3

您可以使用 Librosa. The Librosa.util.fix_length 函数通过将 zeros 附加到 end 包含的 numpy 数组来为音频文件添加静音补丁音频数据：

from librosa import load
from librosa.util import fix_length


file_path = 'dir/audio.wav'

sf = 44100 # sampling frequency of wav file
required_audio_size = 5 # audio of size 2 second needs to be padded to 5 seconds
audio, sf = load(file_path, sr=sf, mono=True) # mono=True converts stereo audio to mono
padded_audio = fix_length(audio, size=5*sf) # array size is required_audio_size*sampling frequency


print('Array length before padding', np.shape(audio))
print('Audio length before padding in seconds', (np.shape(audio)[0]/fs))
print('Array length after padding', np.shape(padded_audio))
print('Audio length after padding in seconds', (np.shape(padded_audio)[0]/fs))

输出：

Array length before padding (88200,)
Audio length before padding in seconds 2.0
Array length after padding (220500,)
Audio length after padding in seconds 5.0

尽管在浏览了一些类似的问题之后，pydub.AudioSegment 似乎是解决方案。

如何将 wav 文件填充到特定长度？

How can i pad wav file to specific length?

python

wav

python-3.x