修改正则表达式以包含带连字符的单词

Modify regex to include hyphenated words

我在另一个堆栈问题上找到了这个分词器,但是,我需要修改它并且正在努力。它目前将带连字符的单词拆分为单独的标记,但我希望它们是单个标记。

分词器:

[(m.start(0), m.end(0),m.group()) for m in re.finditer("\w+|$[\d\.]+|\S+",target_sentence)]

给定以下句子:"half-life is a single token" 它应该给出以下标记(加上字符偏移信息):

['half-life', 'is', 'a', 'single', 'token']

相反,它给出:

[(0, 4, 'half'),
(4, 9, '-life'),
(10, 12, 'is'),
(13, 14, 'a'),
(15, 21, 'single'),
(22, 27, 'token')]

编辑:我想要字符信息而不仅仅是单词标记,所以 string.split 不会削减它

您的正则表达式正在使用 \w+ 匹配 half 并使用最后一个备用 \S+.

匹配剩余的 -life

您可以使用此正则表达式来捕获可选的连字符:

\w+(?:-\w+)*|$[\d.]+|\S+

RegEx Demo

\w(?:-\w+)* 将匹配 1 个或多个由连字符分隔的单词。

试试这个-

[m.group() for m in re.finditer("[\w-]+|$[\d\.-]+|\S+",target_sentence)]
>> ['half-life', 'is', 'a', 'single', 'token']
  • 只有代码 return m.group() 而不是匹配的索引
  • 字符中包含-个字符类