Audio/Sound 增强的神经网络
Neural Networks for Audio/Sound Augmentation
人们会使用哪种类型的神经网络架构将声音映射到其他声音?神经网络非常善于学习从一个序列到另一个序列,所以听起来 augmentation/generation 似乎是它们的一个非常流行的应用(但不幸的是,它不是 - 我只能找到一个(相当旧的)洋红色处理它的项目,以及其他 2 篇博文)。
假设我有足够大的相同长度的输入声音/输出声音数据集,我将如何格式化数据?也许在频谱图上训练 CNN(类似于 cycleGAN 或 pix2pix),也许使用 WAV 文件中的实际数据并使用 LSTM?有没有其他类型的奇怪架构没有人听说过它对声音有好处?请帮帮我!
对于任何其他做类似事情的人 - 答案是使用快速傅立叶变换将数据置于可管理的状态,然后人们通常使用 RNN 或 LSTM 来处理数据 - 而不是 CNN。
人们会使用哪种类型的神经网络架构将声音映射到其他声音?神经网络非常善于学习从一个序列到另一个序列,所以听起来 augmentation/generation 似乎是它们的一个非常流行的应用(但不幸的是,它不是 - 我只能找到一个(相当旧的)洋红色处理它的项目,以及其他 2 篇博文)。
假设我有足够大的相同长度的输入声音/输出声音数据集,我将如何格式化数据?也许在频谱图上训练 CNN(类似于 cycleGAN 或 pix2pix),也许使用 WAV 文件中的实际数据并使用 LSTM?有没有其他类型的奇怪架构没有人听说过它对声音有好处?请帮帮我!
对于任何其他做类似事情的人 - 答案是使用快速傅立叶变换将数据置于可管理的状态,然后人们通常使用 RNN 或 LSTM 来处理数据 - 而不是 CNN。