python 字符串在硬件级别实际上是不可变的吗?

Are python strings actually immutable on the hardware level?

好的,听我说完;这个问题并不像你想象的那么愚蠢。

首先,一些背景:我最近开始使用 ctypes 模块,作为一项技术测试,我想使用 pygame 和 ctypes 编写一个 Mandelbrot 资源管理器,分别用于事件处理和访问 Mandelbrot 计算 dll .我最初的计划是通过让 Mandelbrot 函数计算和存储字符数组中整行像素的值和指向该数组的指针 return 来最小化 ctypes 包装器开销:

Mandelbrot.restype = c_char_p
#...
str_location = Mandelbrot(x)
row = str_location.value

事实证明这并没有真正奏效。 value 方法有两个缺陷:它降低了性能,因为它将 C 字符串逐字节复制到 python 字符串中,并且它不知道字符串的预期长度,因此数据中的任何零都将被处理作为空终止符,导致丢失任何进一步的数据。

我的第一个行动方案是拼凑一个快速 DLL,允许我反汇编一些 Python 对象。它有以下两个功能:

#define DLLINFO extern "C" __declspec(dllexport)
DLLINFO char show_char(char *p)
{
    return *p;
}
DLLINFO void mov(char *p, char payload)
{
    *p = payload;
}

我还把show_char函数封装在一个Python函数里,show_object,用sys.getsizeof打印了一个Python对象的内存内容. 拆开绳子发现了一个非常简单的设计:

>>> from hack import *; import sys
>>>
>>> #string experiment
>>> a = '01234567'
>>> hex(sys.getrefcount(a))
'0x3'
>>> hex(id(type(a)))
'0x1e1d81f8'
>>> hex(len(a))
'0x8'
>>> show_object(a)
  3  2  1  0 byte

  0  0  0  4   0    #reference count (+1 temporary reference)
 1e 1d 81 f8   4    #pointer to type
  0  0  0  8   8    #length
 94  b b6 98  12    #???
  0  0  0  1  16    #???
 33 32 31 30  20    #Data '0123' (little endian)
 37 36 35 34  24    #Data '4567'
           0  28    #Null terminator
>>> #sys.getsizeof reported 29 bytes for 9 bytes of data.

(后面添加数据注释)

我尝试用可变字节数组替换字符串,然后反汇编字节数组以查看应该将 Mandelbrot 数据写入的位置:

>>> #bytearray experiment
>>> b = bytearray('01234567')
>>> hex(sys.getrefcount(b))
'0x2'
>>> hex(id(type(b)))
'0x1e1e5e20'
>>> hex(len(b))
'0x8'
>>> show_object(b)
  3  2  1  0 byte

  0  0  0  3   0    #reference count (+1 temporary reference)
 1e 1e 5e 20   4    #pointer to type
  0  0  0  8   8    #length
  0  0  0  0  12    #???
  0  0  0  9  16    #???
  2 3a 63 a0  20    #???
  2 92 93 38  24    #???
  2 91 e4 90  28    #???
           1  32    #???
>>> #sys.getsizeof reported 33 bytes for 8 bytes of data

好吧,我不知道数据在字节数组中的位置,所以没有骰子。

我的下一个计划是用 ctypes 内置的可变字符串替换字符串,create_string_buffer。

>>> #buffer experiment
>>> from ctypes import *
>>> c = create_string_buffer('01234567')
>>> hex(id(type(c)))
'0x1ceb778'
>>> show_object(c)
  3  2  1  0 byte

  0  0  0  3   0    #reference count
  1 ce b7 78   4    #pointer to type
  2 38 f7 38   8    #???
  0  0  0  1  12    #Here be dragons
  0  0  0  0  16    #etc.
  0  0  0  9  20
  0  0  0  9  24
  0  0  0  0  28
  0  0  0  0  32
  0  0  0  0  36
 33 32 31 30  40    #data '0123'
 37 36 35 34  44    #data '4567'
  0  0  0  0  48
  0  0  0  0  52
  0  0  0  0  56
  0  0  0  0  60
  2 38 f8 40  64
  2 38 f7 a0  68
 ff ff ff fe  72
  0 2e  0 65  76
>>> #sys.getsizeof reported 80 bytes for 9 bytes of data.

嗯。至少数据在某处。不幸的是,这个对象过于冗长而不实用。此外,它不是内置类型,所以我很难让它与其他函数一起使用。 这是我决定切换回字符串和 运行 修改字符串的一些谨慎测试的时候:

>>> from hack import *
>>> s = "Hello, world!"
>>> show_object(s)
  3  2  1  0 byte

  0  0  0  3   0
 1e 1d 81 f8   4
  0  0  0  d   8
 8f 8d ce 9c  12
  0  0  0  0  16
 6c 6c 65 48  20
 77 20 2c 6f  24
 64 6c 72 6f  28
        0 21  32
>>> mov(id(s)+32, 63)
>>> print s
Hello, world?
>>> mov(id(s)+8,5)
>>> print s
Hello

到目前为止一切顺利。至少我这样做的几次都没有崩溃。事实上,即使将长度修改为较低的值也不会立即导致任何问题。 (虽然我不打算这样做) 那么,为什么我在布置显示字符串可变的数据后问这个问题?

首先,我知道硬件有可能将字符串标记为不可变,并且尝试修改它们可能会导致段错误或类似问题:

char good_string[80];
good_string[8] = '!'; //Everything's okay so far.
char* bad_string = "This string's made out of const chars, beware!";
bad_string[8] = '!'; //And now you've got segfault!

其次,更重要的是,我对 Python 的内部工作原理了解不够,无法自信地绕过 Python 对字符串的锁定并玩弄未定义的行为。现在,我很容易让自己相信 Python 常见问题解答中关于字符串不可变的原因是错误的(我没有改变字符串的大小,而且字符串不像整数那样是基本的。),但我不知道如果有一些隐藏的原因不应该修改字符串,并且如果我尝试做我计划做的事情,我的脸上就会爆炸。这是我提交这个问题的主要原因;希望有知识的大侠多多指教

谢谢,您阅读了整个问题。对不起,简洁不是我的强项。 :)

有些计算机系统可以在硬件级别将任意范围的内存标记为只读,但这不是 python 中发生的情况。发生的事情是,根据定义,python 防止字符串在创建的位置被更改。

是的 - 通过更改 python 代码或提供新的内置函数,完全有可能编写允许字符串在某些情况下可变的代码,但是如果例如,您尝试将可变字符串用作字典键,并且清楚地给出了字符串的存储方式,更改长度会很困难(如果在大多数情况下不是不可能的话 - 您需要在当前字符串之后立即释放内存才能扩展例如)。

请记住,即使使用可能称为直接内存访问的语言(例如 C),它的字符串也仅在某些情况下可变:您可以更改特定字符,但不能任意扩展C 字符串的长度,既没有为它预留内存,也没有在每次更改时更改它的标识(如果你有多个引用,你就会遇到问题)。