使用卷积神经网络制作音频

Produce Audio with Convolutional neural networks

是否有使用卷积神经网络制作音频的方法?

有很多方法可以通过卷积网络生成图像。但是我没有看到关于制作音频的文章或 post。

根据 Whosebug 上的这个主题,post 作者说:

"I have found out the audio can be represented as spectrograms."

那为什么做不到呢?

要用 Convnets 做这个,我应该:

a) 将 LSTM 与转换层一起使用?

B)输出应该是什么?考虑频谱图...

是的,当然有,Deepmind 的 WaveNet 产生的音频质量与 "human-like" 非常相似。它还可以生成音乐。

https://deepmind.com/blog/wavenet-generative-model-raw-audio/