什么是 vggish_model.ckpt 和 vggish_pca_params.npz
What is vggish_model.ckpt and vggish_pca_params.npz
我试图了解音频分类的某些方面,"vggish_model.ckpt" 和 "vggish_pca_params.npz" 来了。我试图对这两者有一个很好的理解。它们是 tensorflow 还是 google 音频集的一部分?为什么在构建音频功能时需要使用它们?我看不到关于它们的任何文档!
与 AudioSet 一起发布的预先计算的特征是 "embeddings" 来自深度网络的,该深度网络经过训练可以预测音轨中的视频级标签(参见 https://arxiv.org/abs/1609.09430). The embedding layer is further processed via PCA to reduce dimensionality; this processing is included to make the features compatible with the ones release in https://research.google.com/youtube8m/ 。因此,vggish_model.ckpt 给出了权重用于计算梅尔频谱图块嵌入的类似 VGG 的深度 CNN,vggish_pca_params.npz 给出了 PCA 变换的基础。
作为 AudioSet 的一部分发布的唯一内容是这些预先计算的嵌入功能。如果你基于这些特征训练一个模型,然后想用它来对新输入进行分类,你必须将新输入转换到相同的域,因此你必须使用 vggish_model 和 vggish_pca_params。
如果 AudioSet 包含波形,则需要 none。但 YouTube 服务条款不允许下载和重新分发其用户的内容。
我试图了解音频分类的某些方面,"vggish_model.ckpt" 和 "vggish_pca_params.npz" 来了。我试图对这两者有一个很好的理解。它们是 tensorflow 还是 google 音频集的一部分?为什么在构建音频功能时需要使用它们?我看不到关于它们的任何文档!
与 AudioSet 一起发布的预先计算的特征是 "embeddings" 来自深度网络的,该深度网络经过训练可以预测音轨中的视频级标签(参见 https://arxiv.org/abs/1609.09430). The embedding layer is further processed via PCA to reduce dimensionality; this processing is included to make the features compatible with the ones release in https://research.google.com/youtube8m/ 。因此,vggish_model.ckpt 给出了权重用于计算梅尔频谱图块嵌入的类似 VGG 的深度 CNN,vggish_pca_params.npz 给出了 PCA 变换的基础。
作为 AudioSet 的一部分发布的唯一内容是这些预先计算的嵌入功能。如果你基于这些特征训练一个模型,然后想用它来对新输入进行分类,你必须将新输入转换到相同的域,因此你必须使用 vggish_model 和 vggish_pca_params。
如果 AudioSet 包含波形,则需要 none。但 YouTube 服务条款不允许下载和重新分发其用户的内容。