为什么在 `comb` 中多次使用 `<( )>` 标记的行为不符合预期?
Why does multiple use of `<( )>` token within `comb` not behave as expected?
我想提取行键(这里是28_2820201112122420516_000000
)、列名(这里是bcp_startSoc
)和值(这里是64.0
)在$str
,其中 $str
是来自 HBase 的一行:
# `match` is OK
my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
my $match = $str.match(/^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/);
my @match-result = $match».Str.Slip;
say @match-result; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]
# `smartmatch` is OK
# $str ~~ /^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/
# say $/».Str.Array; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]
# `comb` is NOT OK
# A <( token indicates the start of the match's overall capture, while the corresponding )> token indicates its endpoint.
# The <( is similar to other languages \K to discard any matches found before the \K.
my @comb-result = $str.comb(/<( [\d+]+ % '_' )> \s 'column=d:' <(\w+)> ',' \s timestamp '=' \d+ ',' \s 'value=' <(<-[=]>+)>/);
say @comb-result; # Expect: [28_2820201112122420516_000000 bcp_startSoc 64.0], but got [64.0]
我想comb
跳过一些匹配,只匹配我想要的,所以我在这里使用多个<(
和)>
,但只得到最后一个匹配作为结果。
是否可以使用 comb
获得与 match
方法相同的结果?
$str.comb( / ^ [\d+]+ % '_' | <?after d\:> \w+ | <?after value\=> .*/ )
由于您正在检查的信息以逗号分隔 'row',您可以尝试使用 split()
来分解匹配项,然后分配给一个数组。在 Raku REPL 下方:
> my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0
> my @array = $str.split(", ")
[28_2820201112122420516_000000 column=d:bcp_startSoc timestamp=1605155065124 value=64.0]
> dd @array
Array @array = ["28_2820201112122420516_000000 column=d:bcp_startSoc", "timestamp=1605155065124", "value=64.0"]
Nil
> say @array.elems
3
匹配数组的单个元素:
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' (\w+) /;
「28_2820201112122420516_000000 column=d:bcp_startSoc」
0 => 「28_2820201112122420516_000000」
1 => 「bcp_startSoc」
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' <(\w+)> /;
「bcp_startSoc」
0 => 「28_2820201112122420516_000000」
> say @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /;
「bcp_startSoc」
匹配一个或多个数组元素的布尔测试:
> say True if ( @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /)
True
> say True if ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
> say True if ( @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /) & ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
HTH.
TL;DR 多次 <(...)>
并不意味着多次捕获。即使他们这样做了,.comb
也会将每个匹配项减少为字符串列表中的单个字符串 returns。如果您真的想使用 .comb
,一种方法是返回到原始正则表达式,但也使用附加代码 在正则表达式 中存储所需数据。
多次<(...)>
不代表多次捕获
正则表达式整体匹配的默认起点是正则表达式的开头。默认终点为终点
写入 <(
会将整个匹配的起点重置为您插入它的位置。每次插入一个并在处理正则表达式期间应用它时,它都会重置起点。同样 )>
重置终点。在处理正则表达式结束时,开始和结束的最终设置将应用于构建最终的整体匹配。
鉴于您的代码只是无条件地将每个点重置 3 次,最后的开始和结束重置“win”。
.comb
将每个匹配减少为单个字符串
foo.comb(/.../)
等同于 foo.match(:g, /.../)>>.Str;
.
这意味着每次与正则表达式的匹配你只会得到 一个字符串。
一种可能的解决方案是使用@ohmycloudy 在他们的回答中显示的方法。
但这伴随着我自己和@jubilatious1 在评论他们的回答时提出的警告。
将 { @comb-result .push: |$/».Str }
添加到正则表达式
您可以解决 .comb
的正常运行问题。我并不是说这是一件好事。我也不是说不是。你问,我回答,仅此而已。 :)
从适用于您的其他解决方案的原始正则表达式开始。
然后在正则表达式的末尾添加{ @comb-result .push: |$/».Str }
来存储每次匹配的结果。现在你会得到你想要的结果。
我想提取行键(这里是28_2820201112122420516_000000
)、列名(这里是bcp_startSoc
)和值(这里是64.0
)在$str
,其中 $str
是来自 HBase 的一行:
# `match` is OK
my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
my $match = $str.match(/^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/);
my @match-result = $match».Str.Slip;
say @match-result; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]
# `smartmatch` is OK
# $str ~~ /^ ([\d+]+ % '_') \s 'column=d:' (\w+) ',' \s timestamp '=' \d+ ',' \s 'value=' (<-[=]>+) $/
# say $/».Str.Array; # Output: [28_2820201112122420516_000000 bcp_startSoc 64.0]
# `comb` is NOT OK
# A <( token indicates the start of the match's overall capture, while the corresponding )> token indicates its endpoint.
# The <( is similar to other languages \K to discard any matches found before the \K.
my @comb-result = $str.comb(/<( [\d+]+ % '_' )> \s 'column=d:' <(\w+)> ',' \s timestamp '=' \d+ ',' \s 'value=' <(<-[=]>+)>/);
say @comb-result; # Expect: [28_2820201112122420516_000000 bcp_startSoc 64.0], but got [64.0]
我想comb
跳过一些匹配,只匹配我想要的,所以我在这里使用多个<(
和)>
,但只得到最后一个匹配作为结果。
是否可以使用 comb
获得与 match
方法相同的结果?
$str.comb( / ^ [\d+]+ % '_' | <?after d\:> \w+ | <?after value\=> .*/ )
由于您正在检查的信息以逗号分隔 'row',您可以尝试使用 split()
来分解匹配项,然后分配给一个数组。在 Raku REPL 下方:
> my $str = '28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0';
28_2820201112122420516_000000 column=d:bcp_startSoc, timestamp=1605155065124, value=64.0
> my @array = $str.split(", ")
[28_2820201112122420516_000000 column=d:bcp_startSoc timestamp=1605155065124 value=64.0]
> dd @array
Array @array = ["28_2820201112122420516_000000 column=d:bcp_startSoc", "timestamp=1605155065124", "value=64.0"]
Nil
> say @array.elems
3
匹配数组的单个元素:
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' (\w+) /;
「28_2820201112122420516_000000 column=d:bcp_startSoc」
0 => 「28_2820201112122420516_000000」
1 => 「bcp_startSoc」
> say @array[0] ~~ m/ ([\d+]+ % '_') \s 'column=d:' <(\w+)> /;
「bcp_startSoc」
0 => 「28_2820201112122420516_000000」
> say @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /;
「bcp_startSoc」
匹配一个或多个数组元素的布尔测试:
> say True if ( @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /)
True
> say True if ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
> say True if ( @array[0] ~~ m/ [\d+]+ % '_' \s 'column=d:' <(\w+)> /) & ( @array[2] ~~ m/ 'value=' <(<-[=]>+)> / )
True
HTH.
TL;DR 多次 <(...)>
并不意味着多次捕获。即使他们这样做了,.comb
也会将每个匹配项减少为字符串列表中的单个字符串 returns。如果您真的想使用 .comb
,一种方法是返回到原始正则表达式,但也使用附加代码 在正则表达式 中存储所需数据。
多次<(...)>
不代表多次捕获
正则表达式整体匹配的默认起点是正则表达式的开头。默认终点为终点
写入 <(
会将整个匹配的起点重置为您插入它的位置。每次插入一个并在处理正则表达式期间应用它时,它都会重置起点。同样 )>
重置终点。在处理正则表达式结束时,开始和结束的最终设置将应用于构建最终的整体匹配。
鉴于您的代码只是无条件地将每个点重置 3 次,最后的开始和结束重置“win”。
.comb
将每个匹配减少为单个字符串
foo.comb(/.../)
等同于 foo.match(:g, /.../)>>.Str;
.
这意味着每次与正则表达式的匹配你只会得到 一个字符串。
一种可能的解决方案是使用@ohmycloudy 在他们的回答中显示的方法。
但这伴随着我自己和@jubilatious1 在评论他们的回答时提出的警告。
将 { @comb-result .push: |$/».Str }
添加到正则表达式
您可以解决 .comb
的正常运行问题。我并不是说这是一件好事。我也不是说不是。你问,我回答,仅此而已。 :)
从适用于您的其他解决方案的原始正则表达式开始。
然后在正则表达式的末尾添加{ @comb-result .push: |$/».Str }
来存储每次匹配的结果。现在你会得到你想要的结果。