从 Cython 结构创建一个 numpy 数据类型
Creating a numpy datatype from Cython struct
以下是目前在 scikit-learn 二叉树中使用的 Cython 代码片段,
# Some compound datatypes used below:
cdef struct NodeHeapData_t:
DTYPE_t val
ITYPE_t i1
ITYPE_t i2
# build the corresponding numpy dtype for NodeHeapData
cdef NodeHeapData_t nhd_tmp
NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype
(完整来源 here)
最后一行从这个 Cython 结构创建了一个 numpy dtype。我找不到很多关于它的文档,尤其是我不明白为什么需要切片 [:1]
或它的作用。更多讨论可以在 scikit-learn#17228 中找到。有人对此有想法吗?
这是一个聪明但令人困惑的把戏!
以下代码创建了一个长度为 1 的 cython-array,因为它使用(但不拥有!)的内存只有一个元素。
cdef NodeHeapData_t nhd_tmp
<NodeHeapData_t[:1]>(&nhd_tmp)
现在,cython-array 实现了缓冲区协议,因此 Cython 可以创建一个 format
-string 来描述它所持有的元素的类型。
np.asarray
也使用缓冲区协议,并且能够从 format
-string 构造一个 dtype
-object,它由 cython 的数组提供。
您可以通过以下方式查看格式字符串:
%%cython
import numpy as np
# Some compound datatypes used below:
cdef struct NodeHeapData_t:
double val
int i1
int i2
# build the corresponding numpy dtype for NodeHeapData
cdef NodeHeapData_t nhd_tmp
NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype
print("format string:",memoryview(<NodeHeapData_t[:1]>(&nhd_tmp)).format)
print(NodeHeapData )
这导致
format string: T{d:val:i:i1:i:i2:}
[('val', '<f8'), ('i1', '<i4'), ('i2', '<i4')]
除了手动创建 dtype
-object - 对于不同平台上的某些数据类型来说,这可能会变得丑陋*,但我想不出一个更容易混淆的解决方案,但应该在大多数情况下要直截了当。
*) np.int
就是这样一个有问题的案例。很容易忽略 np.int
映射到 long
而不是 int
(令人困惑,不是吗?)。
例如
memoryview(np.zeros(1, dtype=np.int)).itemsize
计算为
- 在 Windows 上:4(在 Windows 上
long
的字节大小)。
- 在 Linux 上:8(在 Linux 上
long
的字节数)。
以下是目前在 scikit-learn 二叉树中使用的 Cython 代码片段,
# Some compound datatypes used below:
cdef struct NodeHeapData_t:
DTYPE_t val
ITYPE_t i1
ITYPE_t i2
# build the corresponding numpy dtype for NodeHeapData
cdef NodeHeapData_t nhd_tmp
NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype
(完整来源 here)
最后一行从这个 Cython 结构创建了一个 numpy dtype。我找不到很多关于它的文档,尤其是我不明白为什么需要切片 [:1]
或它的作用。更多讨论可以在 scikit-learn#17228 中找到。有人对此有想法吗?
这是一个聪明但令人困惑的把戏!
以下代码创建了一个长度为 1 的 cython-array,因为它使用(但不拥有!)的内存只有一个元素。
cdef NodeHeapData_t nhd_tmp
<NodeHeapData_t[:1]>(&nhd_tmp)
现在,cython-array 实现了缓冲区协议,因此 Cython 可以创建一个 format
-string 来描述它所持有的元素的类型。
np.asarray
也使用缓冲区协议,并且能够从 format
-string 构造一个 dtype
-object,它由 cython 的数组提供。
您可以通过以下方式查看格式字符串:
%%cython
import numpy as np
# Some compound datatypes used below:
cdef struct NodeHeapData_t:
double val
int i1
int i2
# build the corresponding numpy dtype for NodeHeapData
cdef NodeHeapData_t nhd_tmp
NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype
print("format string:",memoryview(<NodeHeapData_t[:1]>(&nhd_tmp)).format)
print(NodeHeapData )
这导致
format string: T{d:val:i:i1:i:i2:}
[('val', '<f8'), ('i1', '<i4'), ('i2', '<i4')]
除了手动创建 dtype
-object - 对于不同平台上的某些数据类型来说,这可能会变得丑陋*,但我想不出一个更容易混淆的解决方案,但应该在大多数情况下要直截了当。
*) np.int
就是这样一个有问题的案例。很容易忽略 np.int
映射到 long
而不是 int
(令人困惑,不是吗?)。
例如
memoryview(np.zeros(1, dtype=np.int)).itemsize
计算为
- 在 Windows 上:4(在 Windows 上
long
的字节大小)。 - 在 Linux 上:8(在 Linux 上
long
的字节数)。