使用卷积神经网络制作音频

Produce Audio with Convolutional neural networks

是否有使用卷积神经网络制作音频的方法？

有很多方法可以通过卷积网络生成图像。但是我没有看到关于制作音频的文章或 post。

根据 Whosebug 上的这个主题，post 作者说：

"I have found out the audio can be represented as spectrograms."

那为什么做不到呢？

要用 Convnets 做这个，我应该:

a) 将 LSTM 与转换层一起使用？

B)输出应该是什么？考虑频谱图...

是的，当然有，Deepmind 的 WaveNet 产生的音频质量与 "human-like" 非常相似。它还可以生成音乐。