如何使用 python 和 numba 在 RTX GPU 中对 NVIDIA 的张量核心进行编程?
How to program NVIDIA's tensor cores in RTX GPU with python and numba?
我有兴趣在 python 中使用 NVIDIA RTX GPU 的张量核心,以便在某些科学计算中受益于它的加速。 Numba 是一个很棒的库,它允许为 cuda 内核编程,但我还没有找到如何使用张量内核。可以用 Numba 完成吗?如果没有,我应该使用什么?
.... I have not found how to use the tensor cores. Can it be done with Numba?
没有。 Numba 目前在设备代码中没有半精度支持或张量核心内在函数。
If not, what should I use?
我认为您将被困在使用本机 C++ 方言编写内核代码,然后使用 PyCUDA 之类的东西来 运行 从该 C++ 方言编译的设备代码。
我有兴趣在 python 中使用 NVIDIA RTX GPU 的张量核心,以便在某些科学计算中受益于它的加速。 Numba 是一个很棒的库,它允许为 cuda 内核编程,但我还没有找到如何使用张量内核。可以用 Numba 完成吗?如果没有,我应该使用什么?
.... I have not found how to use the tensor cores. Can it be done with Numba?
没有。 Numba 目前在设备代码中没有半精度支持或张量核心内在函数。
If not, what should I use?
我认为您将被困在使用本机 C++ 方言编写内核代码,然后使用 PyCUDA 之类的东西来 运行 从该 C++ 方言编译的设备代码。