是否可以使用纹理内存加速矩阵乘法?
Is it possible to speed up matrix multiplication with texture memory?
我正在学习cuda
是否可以使用纹理内存来加速像矩阵乘法这样简单的事情?空间局部性很好 属性 作为我的平铺的补充,但使用纹理内存的开销是否超过它?
我似乎找不到任何使用纹理内存的矩阵乘法实现。
矩阵乘法可以通过多种方式实现。
与仅使用全局内存的简单矩阵乘法实现相比,是的,使用纹理内存可以加快速度。
与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能提供太多或任何好处。
如果您想从 CUDA 矩阵乘法中获得最佳性能,您应该使用 CUBLAS。不要编写自己的矩阵乘法代码。
我正在学习cuda
是否可以使用纹理内存来加速像矩阵乘法这样简单的事情?空间局部性很好 属性 作为我的平铺的补充,但使用纹理内存的开销是否超过它?
我似乎找不到任何使用纹理内存的矩阵乘法实现。
矩阵乘法可以通过多种方式实现。
与仅使用全局内存的简单矩阵乘法实现相比,是的,使用纹理内存可以加快速度。
与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能提供太多或任何好处。
如果您想从 CUDA 矩阵乘法中获得最佳性能,您应该使用 CUBLAS。不要编写自己的矩阵乘法代码。