为什么在 `comb` 中多次使用 `<( )>` 标记的行为不符合预期？

Question

我想提取行键（这里是28_2820201112122420516_000000）、列名（这里是bcp_startSoc）和值（这里是64.0）在$str，其中 $str 是来自 HBase 的一行：

# `match` is OK
my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
my $match = $str.match(/^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/);
my @match-result = $match».Str.Slip;
say @match-result;   # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]

# `smartmatch` is OK
# $str ~~ /^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/
# say $/».Str.Array; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]

# `comb` is NOT OK
# A <( token indicates the start of the match's overall capture, while the corresponding )> token indicates its endpoint. 
# The <( is similar to other languages \K to discard any matches found before the \K.
my @comb-result = $str.comb(/<( [\d+]+ % '_' )> \s 'column=d:' <(\w+)> ',' \s timestamp '=' \d+ ',' \s 'value=' <(<-[=]>+)>/);
say @comb-result;    # Expect: [28_2820201112122420516_000000 bcp_startSoc 64.0], but got [64.0]

我想comb跳过一些匹配，只匹配我想要的，所以我在这里使用多个<(和)>，但只得到最后一个匹配作为结果。

是否可以使用 comb 获得与 match 方法相同的结果？

Answer 1

$str.comb( /  ^ [\d+]+ % '_' | <?after d\:> \w+  | <?after value\=> .*/ )

Answer 2

由于您正在检查的信息以逗号分隔 'row'，您可以尝试使用 split() 来分解匹配项，然后分配给一个数组。在 Raku REPL 下方：

> my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0
> my @array = $str.split(", ")
[28_2820201112122420516_000000 column=d:bcp_startSoc timestamp=1605155065124 value=64.0]
> dd @array
Array @array = ["28_2820201112122420516_000000 column=d:bcp_startSoc", "timestamp=1605155065124", "value=64.0"]
Nil
> say @array.elems
3

匹配数组的单个元素：

> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' (\w+) /;
｢28_2820201112122420516_000000 column=d:bcp_startSoc｣
 0 => ｢28_2820201112122420516_000000｣
 1 => ｢bcp_startSoc｣
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' <(\w+)> /;
｢bcp_startSoc｣
 0 => ｢28_2820201112122420516_000000｣
> say @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /;
｢bcp_startSoc｣

匹配一个或多个数组元素的布尔测试：

> say True if ( @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /)
True
> say True if ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
> say True if ( @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /) & ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True

HTH.

Answer 3

TL;DR 多次 <(...)> 并不意味着多次捕获。即使他们这样做了，.comb 也会将每个匹配项减少为字符串列表中的单个字符串 returns。如果您真的想使用 .comb，一种方法是返回到原始正则表达式，但也使用附加代码 在正则表达式 中存储所需数据。

多次`<(...)>`不代表多次捕获

正则表达式整体匹配的默认起点是正则表达式的开头。默认终点为终点

写入 <( 会将整个匹配的起点重置为您插入它的位置。每次插入一个并在处理正则表达式期间应用它时，它都会重置起点。同样 )> 重置终点。在处理正则表达式结束时，开始和结束的最终设置将应用于构建最终的整体匹配。

鉴于您的代码只是无条件地将每个点重置 3 次，最后的开始和结束重置“win”。

`.comb` 将每个匹配减少为单个字符串

foo.comb(/.../) 等同于 foo.match(:g, /.../)>>.Str;.

这意味着每次与正则表达式的匹配你只会得到 一个字符串。

一种可能的解决方案是使用@ohmycloudy 在他们的回答中显示的方法。

但这伴随着我自己和@jubilatious1 在评论他们的回答时提出的警告。

将 `{ @comb-result .push: |$/».Str }` 添加到正则表达式

您可以解决 .comb 的正常运行问题。我并不是说这是一件好事。我也不是说不是。你问，我回答，仅此而已。 :)

从适用于您的其他解决方案的原始正则表达式开始。

然后在正则表达式的末尾添加{ @comb-result .push: |$/».Str }来存储每次匹配的结果。现在你会得到你想要的结果。

为什么在 `comb` 中多次使用 `<( )>` 标记的行为不符合预期？

Why does multiple use of `<( )>` token within `comb` not behave as expected?

match

smartmatch

raku

comb

多次`<(...)>`不代表多次捕获

`.comb` 将每个匹配减少为单个字符串

将 `{ @comb-result .push: |$/».Str }` 添加到正则表达式

为什么在 `comb` 中多次使用 `<( )>` 标记的行为不符合预期？

Why does multiple use of `<( )>` token within `comb` not behave as expected?

match

smartmatch

raku

comb

多次<(...)>不代表多次捕获

.comb 将每个匹配减少为单个字符串

将 { @comb-result .push: |$/».Str } 添加到正则表达式

多次`<(...)>`不代表多次捕获

`.comb` 将每个匹配减少为单个字符串

将 `{ @comb-result .push: |$/».Str }` 添加到正则表达式