从 Cython 结构创建一个 numpy 数据类型

Question

以下是目前在 scikit-learn 二叉树中使用的 Cython 代码片段，

  # Some compound datatypes used below:
  cdef struct NodeHeapData_t:
      DTYPE_t val
      ITYPE_t i1
      ITYPE_t i2

  # build the corresponding numpy dtype for NodeHeapData
  cdef NodeHeapData_t nhd_tmp
  NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype

（完整来源 here）

最后一行从这个 Cython 结构创建了一个 numpy dtype。我找不到很多关于它的文档，尤其是我不明白为什么需要切片 [:1] 或它的作用。更多讨论可以在 scikit-learn#17228 中找到。有人对此有想法吗？

Answer 1

这是一个聪明但令人困惑的把戏！

以下代码创建了一个长度为 1 的 cython-array，因为它使用（但不拥有！）的内存只有一个元素。

cdef NodeHeapData_t nhd_tmp
<NodeHeapData_t[:1]>(&nhd_tmp)

现在，cython-array 实现了缓冲区协议，因此 Cython 可以创建一个 format-string 来描述它所持有的元素的类型。

np.asarray 也使用缓冲区协议，并且能够从 format-string 构造一个 dtype-object，它由 cython 的数组提供。

您可以通过以下方式查看格式字符串：

%%cython
import numpy as np

# Some compound datatypes used below:
cdef struct NodeHeapData_t:
  double val
  int i1
  int i2

# build the corresponding numpy dtype for NodeHeapData
cdef NodeHeapData_t nhd_tmp
NodeHeapData = np.asarray(<NodeHeapData_t[:1]>(&nhd_tmp)).dtype

print("format string:",memoryview(<NodeHeapData_t[:1]>(&nhd_tmp)).format)
print(NodeHeapData )

这导致

format string: T{d:val:i:i1:i:i2:}
[('val', '<f8'), ('i1', '<i4'), ('i2', '<i4')]

除了手动创建 dtype-object - 对于不同平台上的某些数据类型来说，这可能会变得丑陋*，但我想不出一个更容易混淆的解决方案，但应该在大多数情况下要直截了当。

*) np.int 就是这样一个有问题的案例。很容易忽略 np.int 映射到 long 而不是 int（令人困惑，不是吗？）。

例如

memoryview(np.zeros(1, dtype=np.int)).itemsize

计算为

在 Windows 上：4（在 Windows 上 long 的字节大小）。
在 Linux 上：8（在 Linux 上 long 的字节数）。

从 Cython 结构创建一个 numpy 数据类型

Creating a numpy datatype from Cython struct

python

numpy

cython