Audio/Sound 增强的神经网络

Neural Networks for Audio/Sound Augmentation

人们会使用哪种类型的神经网络架构将声音映射到其他声音？神经网络非常善于学习从一个序列到另一个序列，所以听起来 augmentation/generation 似乎是它们的一个非常流行的应用（但不幸的是，它不是 - 我只能找到一个（相当旧的）洋红色处理它的项目，以及其他 2 篇博文）。

假设我有足够大的相同长度的输入声音/输出声音数据集，我将如何格式化数据？也许在频谱图上训练 CNN（类似于 cycleGAN 或 pix2pix），也许使用 WAV 文件中的实际数据并使用 LSTM？有没有其他类型的奇怪架构没有人听说过它对声音有好处？请帮帮我！

对于任何其他做类似事情的人 - 答案是使用快速傅立叶变换将数据置于可管理的状态，然后人们通常使用 RNN 或 LSTM 来处理数据 - 而不是 CNN。