使用 Spacy 正则表达式的意外结果
Unexpected result using Spacy regex
我发现使用 Spacy(版本 3.1.3)匹配正则表达式的意外结果。
我定义了一个简单的正则表达式来识别数字。然后我创建由一个数字和一个字母组成的字符串,然后尝试识别。一切都按预期工作,但字母 g、m 和 t:
这是一个最小的实现
import string
from spacy.matcher import Matcher
from spacy.lang.en import English
nlp = English()
pattern = [{"TEXT": {"REGEX": "\d"}}]
matcher = Matcher(nlp.vocab)
matcher.add("usage",[pattern])
for l in string.ascii_lowercase:
doc = nlp(f"2{l}")
matches = matcher(doc)
for match_id, start, end in matches:
string_id = nlp.vocab.strings[match_id]
span = doc[start:end]
print(l, span.text)
结果
a 2a
b 2b
c 2c
d 2d
e 2e
f 2f
g 2 # EXPECTED 2g
h 2h
i 2i
j 2j
k 2k
l 2l
m 2 # EXPECTED 2m
n 2n
o 2o
p 2p
q 2q
r 2r
s 2s
t 2 # EXPECTED 2t
u 2u
v 2v
w 2w
x 2x
y 2y
z 2z
有问题的字符串被分成两个标记:
2g => ['2', 'g']
2m => ['2', 'm']
2t => ['2', 't']
为了匹配模式,您需要考虑到 g
、m
或 t
字母可能是下一个标记这一事实。
在这种情况下,您可以使用
import spacy
from spacy.matcher import Matcher
from spacy.lang.en import English
nlp = English()
pattern = [{"TEXT": {"REGEX": "\d"}}, {"TEXT": {"REGEX": "^[gmt]$"}, "OP": "?"}]
matcher = Matcher(nlp.vocab)
matcher.add("usage",[pattern])
text = "some 1.2t other stuff 1.2a"
doc = nlp(text)
matches = matcher(doc)
spans = [doc[start:end] for _, start, end in matches]
for span in spacy.util.filter_spans(spans):
print(span.text)
此处,pattern = [{"TEXT": {"REGEX": "\d"}}, {"TEXT": {"REGEX": "^[gmt]$"}, "OP": "?"}]
模式首先将令牌与数字匹配,然后 - 可选(由于 "OP": "?"
) - 等于 m
、g
或 t
。 spacy.util.filter_spans
只保留最长的匹配项。
如果您只匹配一个数字作为第一个标记,您可能会使模式更精确一些。在这种情况下,将 "REGEX": "\d"
更改为 "REGEX": "^\d+(?:\.\d+)?[a-z]?$"
(匹配 5
/5a
或 55.555
/55.555a
等数字)或 "REGEX": "^\d*\.?\d+[a-z]?$"
(这个也匹配 .5
/.5a
之类的字符串),然后是第二个。或者,最好使用两种模式:
pattern = [
[{"TEXT": {"REGEX": "^\d+(?:\.\d+)?[a-z]$"}}],
[{"TEXT": {"REGEX": "^\d+(?:\.\d+)?$"}}, {"TEXT": {"REGEX": "^[gmt]$"}}]
]
matcher = Matcher(nlp.vocab)
matcher.add("usage", pattern)
我发现使用 Spacy(版本 3.1.3)匹配正则表达式的意外结果。 我定义了一个简单的正则表达式来识别数字。然后我创建由一个数字和一个字母组成的字符串,然后尝试识别。一切都按预期工作,但字母 g、m 和 t:
这是一个最小的实现
import string
from spacy.matcher import Matcher
from spacy.lang.en import English
nlp = English()
pattern = [{"TEXT": {"REGEX": "\d"}}]
matcher = Matcher(nlp.vocab)
matcher.add("usage",[pattern])
for l in string.ascii_lowercase:
doc = nlp(f"2{l}")
matches = matcher(doc)
for match_id, start, end in matches:
string_id = nlp.vocab.strings[match_id]
span = doc[start:end]
print(l, span.text)
结果
a 2a
b 2b
c 2c
d 2d
e 2e
f 2f
g 2 # EXPECTED 2g
h 2h
i 2i
j 2j
k 2k
l 2l
m 2 # EXPECTED 2m
n 2n
o 2o
p 2p
q 2q
r 2r
s 2s
t 2 # EXPECTED 2t
u 2u
v 2v
w 2w
x 2x
y 2y
z 2z
有问题的字符串被分成两个标记:
2g => ['2', 'g']
2m => ['2', 'm']
2t => ['2', 't']
为了匹配模式,您需要考虑到 g
、m
或 t
字母可能是下一个标记这一事实。
在这种情况下,您可以使用
import spacy
from spacy.matcher import Matcher
from spacy.lang.en import English
nlp = English()
pattern = [{"TEXT": {"REGEX": "\d"}}, {"TEXT": {"REGEX": "^[gmt]$"}, "OP": "?"}]
matcher = Matcher(nlp.vocab)
matcher.add("usage",[pattern])
text = "some 1.2t other stuff 1.2a"
doc = nlp(text)
matches = matcher(doc)
spans = [doc[start:end] for _, start, end in matches]
for span in spacy.util.filter_spans(spans):
print(span.text)
此处,pattern = [{"TEXT": {"REGEX": "\d"}}, {"TEXT": {"REGEX": "^[gmt]$"}, "OP": "?"}]
模式首先将令牌与数字匹配,然后 - 可选(由于 "OP": "?"
) - 等于 m
、g
或 t
。 spacy.util.filter_spans
只保留最长的匹配项。
如果您只匹配一个数字作为第一个标记,您可能会使模式更精确一些。在这种情况下,将 "REGEX": "\d"
更改为 "REGEX": "^\d+(?:\.\d+)?[a-z]?$"
(匹配 5
/5a
或 55.555
/55.555a
等数字)或 "REGEX": "^\d*\.?\d+[a-z]?$"
(这个也匹配 .5
/.5a
之类的字符串),然后是第二个。或者,最好使用两种模式:
pattern = [
[{"TEXT": {"REGEX": "^\d+(?:\.\d+)?[a-z]$"}}],
[{"TEXT": {"REGEX": "^\d+(?:\.\d+)?$"}}, {"TEXT": {"REGEX": "^[gmt]$"}}]
]
matcher = Matcher(nlp.vocab)
matcher.add("usage", pattern)