为什么 Swift String.Index 保持其索引值比真实值大 4 倍?
Why does Swift String.Index keeps its index value 4 times bigger than real?
我试图在 Swift Playground 中实现 Boyer-Moore 算法并且我使用了很多 Swift String.Index 并且开始困扰我的是为什么索引保留 4 次比看起来应该的更大。
例如:
let why = "is s on 4th position not 1st".index(of: "s")
Swift Playground 中的这段代码将生成 _compoundOffset 4
而不是 1。我确定这样做是有原因的,但我在任何地方都找不到解释。
这不是任何解释如何在 Swift 中获取 char 索引的问题的重复,我知道,我使用 index(of:) 函数只是为了说明问题。我想知道为什么使用 String.Index.
时第二个字符的值是 4 而不是 1
所以我猜它保持索引的方式是私有的,我不需要知道内部实现,它可能与 UTF16 和 UTF32 编码有关。
首先,永远不要假设 _compoundOffset
只是一个实现细节。 _compoundOffset
是 String.Index
的内部 属性,它使用位掩码在这个数字中存储两个值:
encodedOffset
,也就是索引在UTF-16编码单元方面的字节偏移量。这个是public,可以信赖。在您的情况下 encodedOffset
是 1
因为这是该字符的偏移量,以 UTF-16 代码单元衡量。请注意,字符串在内存中的编码无关紧要! encodedOffset
始终为 UTF-16。
transcodedOffset
,它存储索引的偏移在当前的UTF-16编码单元。这也是您无法访问的内部 属性。对于大多数索引,该值通常是 0
,除非您在字符串的 UTF-8 视图中有一个索引,该索引引用了一个不属于 UTF-16 边界的代码单元。在这种情况下,transcodedOffset
将存储 encodedOffset
.
的字节偏移量
现在为什么是_compoundOffset == 4
?因为它将 transcodedOffset
存储在两个最低有效位中,而 encodedOffset
存储在 62 个最高有效位中。所以 encodedOffset == 1, transcodedOffset == 0
的位模式是 0b100
,也就是 4
.
你可以验证这一切in the source code for String.Index
。
我试图在 Swift Playground 中实现 Boyer-Moore 算法并且我使用了很多 Swift String.Index 并且开始困扰我的是为什么索引保留 4 次比看起来应该的更大。
例如:
let why = "is s on 4th position not 1st".index(of: "s")
Swift Playground 中的这段代码将生成 _compoundOffset 4
而不是 1。我确定这样做是有原因的,但我在任何地方都找不到解释。
这不是任何解释如何在 Swift 中获取 char 索引的问题的重复,我知道,我使用 index(of:) 函数只是为了说明问题。我想知道为什么使用 String.Index.
时第二个字符的值是 4 而不是 1所以我猜它保持索引的方式是私有的,我不需要知道内部实现,它可能与 UTF16 和 UTF32 编码有关。
首先,永远不要假设 _compoundOffset
只是一个实现细节。 _compoundOffset
是 String.Index
的内部 属性,它使用位掩码在这个数字中存储两个值:
encodedOffset
,也就是索引在UTF-16编码单元方面的字节偏移量。这个是public,可以信赖。在您的情况下encodedOffset
是1
因为这是该字符的偏移量,以 UTF-16 代码单元衡量。请注意,字符串在内存中的编码无关紧要!encodedOffset
始终为 UTF-16。transcodedOffset
,它存储索引的偏移在当前的UTF-16编码单元。这也是您无法访问的内部 属性。对于大多数索引,该值通常是0
,除非您在字符串的 UTF-8 视图中有一个索引,该索引引用了一个不属于 UTF-16 边界的代码单元。在这种情况下,transcodedOffset
将存储encodedOffset
. 的字节偏移量
现在为什么是_compoundOffset == 4
?因为它将 transcodedOffset
存储在两个最低有效位中,而 encodedOffset
存储在 62 个最高有效位中。所以 encodedOffset == 1, transcodedOffset == 0
的位模式是 0b100
,也就是 4
.
你可以验证这一切in the source code for String.Index
。