为什么在 `comb` 中多次使用 `<( )>` 标记的行为不符合预期?

Why does multiple use of `<( )>` token within `comb` not behave as expected?

我想提取行键(这里是28_2820201112122420516_000000)、列名(这里是bcp_startSoc)和值(这里是64.0)在$str,其中 $str 是来自 HBase 的一行:

# `match` is OK
my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
my $match = $str.match(/^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/);
my @match-result = $match».Str.Slip;
say @match-result;   # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]

# `smartmatch` is OK
# $str ~~ /^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/
# say $/».Str.Array; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]

# `comb` is NOT OK
# A <( token indicates the start of the match's overall capture, while the corresponding )> token indicates its endpoint. 
# The <( is similar to other languages \K to discard any matches found before the \K.
my @comb-result = $str.comb(/<( [\d+]+ % '_' )> \s 'column=d:' <(\w+)> ',' \s timestamp '=' \d+ ',' \s 'value=' <(<-[=]>+)>/);
say @comb-result;    # Expect: [28_2820201112122420516_000000 bcp_startSoc 64.0], but got [64.0]

我想comb跳过一些匹配,只匹配我想要的,所以我在这里使用多个<()>,但只得到最后一个匹配作为结果。

是否可以使用 comb 获得与 match 方法相同的结果?

$str.comb( /  ^ [\d+]+ % '_' | <?after d\:> \w+  | <?after value\=> .*/ )

由于您正在检查的信息以逗号分隔 'row',您可以尝试使用 split() 来分解匹配项,然后分配给一个数组。在 Raku REPL 下方:

> my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0
> my @array = $str.split(", ")
[28_2820201112122420516_000000 column=d:bcp_startSoc timestamp=1605155065124 value=64.0]
> dd @array
Array @array = ["28_2820201112122420516_000000 column=d:bcp_startSoc", "timestamp=1605155065124", "value=64.0"]
Nil
> say @array.elems
3

匹配数组的单个元素:

> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' (\w+) /;
「28_2820201112122420516_000000 column=d:bcp_startSoc」
 0 => 「28_2820201112122420516_000000」
 1 => 「bcp_startSoc」
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' <(\w+)> /;
「bcp_startSoc」
 0 => 「28_2820201112122420516_000000」
> say @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /;
「bcp_startSoc」

匹配一个或多个数组元素的布尔测试:

> say True if ( @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /)
True
> say True if ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
> say True if ( @array[0] ~~ m/ [\d+]+ % '_'  \s 'column=d:' <(\w+)> /) & ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True

HTH.

TL;DR 多次 <(...)> 并不意味着多次捕获。即使他们这样做了,.comb 也会将每个匹配项减少为字符串列表中的单个字符串 returns。如果您真的想使用 .comb,一种方法是返回到原始正则表达式,但也使用附加代码 在正则表达式 中存储所需数据。

多次<(...)>不代表多次捕获

正则表达式整体匹配的默认起点是正则表达式的开头。默认终点为终点

写入 <( 会将整个匹配的起点重置为您插入它的位置。每次插入一个并在处理正则表达式期间应用它时,它都会重置起点。同样 )> 重置终点。在处理正则表达式结束时,开始和结束的最终设置将应用于构建最终的整体匹配。

鉴于您的代码只是无条件地将每个点重置 3 次,最后的开始和结束重置“win”。

.comb 将每个匹配减少为单个字符串

foo.comb(/.../) 等同于 foo.match(:g, /.../)>>.Str;.

这意味着每次与正则表达式的匹配你只会得到 一个字符串

一种可能的解决方案是使用@ohmycloudy 在他们的回答中显示的方法。

但这伴随着我自己和@jubilatious1 在评论他们的回答时提出的警告。

{ @comb-result .push: |$/».Str } 添加到正则表达式

您可以解决 .comb 的正常运行问题。我并不是说这是一件好事。我也不是说不是。你问,我回答,仅此而已。 :)

从适用于您的其他解决方案的原始正则表达式开始。

然后在正则表达式的末尾添加{ @comb-result .push: |$/».Str }来存储每次匹配的结果。现在你会得到你想要的结果。