测量 NVIDIA Tensor 核心加速

Measure NVIDIA Tensor Cores speedup

我在 Volta 架构 (V100 GPU) 上使用 NVIDIA Tensor Cores。我想衡量 Tensor Cores 对我的代码的影响,(Tensorflow/Python 中的卷积神经网络用于测试目的)。

如何测量 Tensor Cores 加速?是否可以禁用张量核心和 运行 相同的代码 with/without 它们?

我尝试过的:

在此先感谢help/advice。

我选择了一个 hack 来估算 Tensor Cores 的性能增益:

  • 我 运行 Pascal 和 Volta 架构上 float32 中的代码(以估计架构的性能增益)。
  • 我 运行 float16 中的代码也在两者上,并假设架构的性能增益与 float32float16 相同,我可以估计性能增益的另一部分(在 float16 中)可归因于 Tensor Cores。