匹配单词序列的正则表达式

Regular expression matching a sequence of words

假设我们有这样一个段落:

Lorem ipsum, sit amet consectetur adipiscing elit. Lorem - ipsum, sit amet. Morbi a suscipit sem, quis finibus turpis. Lorem ipsum: sit amet. Proin suscipit ac arcu pharetra tincidunt. Lorem ipsum. sit amet. Pellentesque eu lacinia metus. sit amet: Lorem ipsum. Lorem turpis ipsum, sit amet.

我需要一个不区分大小写的正则表达式 pcre 模式,它只选择单词

1 lorem
2 ipsum
3 sit
4 amet 

按照特定的顺序忽略标点符号和

Sit amet lorem ipsum
Lorem turpis ipsum, sit amet

带有特定标点符号的简单直接。您可以在 []:

内附加任何标点符号
([Ll]orem)[\s,.!:\-()?]+(ipsum)[\s,.!:\-()?]+(sit)[\s,.!:\-()?]+(amet)

或所有空格而不是 [A-Za-z0-9]

([Ll]orem)[\s\W]+(ipsum)[\s\W]+(sit)[\s\W]+(amet)

区分大小写可以是一个选项,可以根据编程语言进行切换。或者您必须手动添加每个相关变体,例如 ([L|l]orem)

Regex101 Example