raku:最长的比赛不做最长的比赛,但在第一场比赛后退出

raku: Longest match not doing longest match but quits after first match

我正在使用 Raku 2020.10。

根据此页面,https://docs.raku.org/language/regexes#Longest_alternation:_|,“|”或引用列表是最长的匹配项。

> say "youtube" ~~ / < you tube > /
「you」                                   # expected "tube" to win the match
> say "youtube" ~~ /  you | tube  /
「you」                                   # expected "tube" to win the match
> say "youtube" ~~ / tube | you /
「you」                                   # expected "tube" to win the match

正在尝试“||”而不是“|”:

> say "tubeyou" ~~ / you || tube /
「tube」                                # longest match or first match?
> say "youtube" ~~ / you || tube /
「you」                                 # first match?

正在尝试网页示例:

> say 'food' ~~ / f | fo | foo | food /
「food」                                                 # works as expected
> say 'foodtubes' ~~ / f | fo | foo | food | tubes /
「food」                                                 # expected "tubes" (5 chars) to win
> say 'foodtubes' ~~ / tubes | f | fo | foo | food /
「food」
> say 'foodtubes' ~~ / dt /
「dt」
> say 'foodtubes' ~~ / dt | food /
「food」
> say 'foodtubes' ~~ / dt | food | tubes /
「food」

好像是带“|”的匹配引擎在第一次有点长的成功比赛后退出。或者我哪里做错了?

谢谢!!!

(此答案基于@donaldh 在评论中已经说过的内容)。

这是一个非常好的问题,因为它提出了一些经常让人们困惑的关于正则表达式如何搜索字符串的问题:正则表达式基本上 一次搜索一个字符 return这是它找到的第一个匹配项。您可以修改此行为(例如,环视考虑其他字符;多个标志使正则表达式 return 不止一个结果)。但是如果你从对正则表达式默认行为的基本理解开始,很多这些问题就会变得更加清晰。

因此,让我们将其应用到您的示例的微小变体中:

> `youtube' ~~ / you | ..| tube /
「you」

以下是正则表达式引擎如何看待它(在 high-level/simplified 术语中),逐个字符:

pos:0    youtube
         ^
branch 1 wants 'y'.                Match!
branch 2 wants . (aka, anything).  Match!
branch 3 wants 't'                 No match :(

pos:1    youtube
          ^
branch 1 wants 'o'.                Match!
branch 2 wants .                   Match!
branch 2 completed with a length of 2

pos:2    youtube
           ^
branch 1 wants 'u'.                Match!
branch 1 completed with a length of 3

...all branches completed, and 2 matches found.  Return the longest match found.

「you」

此逻辑的结果是,与往常一样,正则表达式 return 是字符串中的 第一个 匹配项(或者,更具体地说,匹配从字符串中最早的位置开始)。 | 的行为在有多个匹配项从同一位置开始时开始。当发生这种情况时,| 意味着我们得到了最长的匹配。

相反,对于 'youtube' ~~ / you | tube /,我们永远不会有从同一个地方开始的多个匹配项,因此我们永远不需要依赖 | 的行为。 (我们确实在 字符串 中有多个匹配项,您可以通过全局搜索看到:'youtube' ~~ m:g/ you | tube /

如果您想要字符串中所有匹配项中最长的(而不是第一个匹配项的最长选项),那么您可以使用类似以下的方法来实现:

('youtube' ~~ m:g/ you | tube /).sort(*.chars).tail

这不是最长匹配的问题。

这是一道最早匹配的题。

'abcd' ~~ / bcd | . /; # 「a」

想象一下,上面的正则表达式实际上是这样包围的:

/^ .*? <([      …      ])> .* $/

那么我们有:

/^ .*? <([   bcd | .   ])> .* $/

注意第一个 .*? 是非贪婪的。它宁愿不捕获任何东西。

'abcd' ~~ /^ .*? <([  bcd | .  ])> .* $/; # 「a」

如果必须的话,它会的

'abcd' ~~ /^ .*? <([  bcd | b  ])> .* $/; # 「bcd」