spacy 如何拆分“'s”？

Question

Spacy 给出 name's as 2 tokens -> name, 's.我怎样才能将这两个令牌结合起来？哪个规则定义了“'s”、中缀或其他的拆分？

Answer 1

对于 spacy v2.2.3+，您可以使用 nlp.tokenizer.explain() 查看哪些标记器设置导致特定标记：

import spacy
nlp = spacy.blank("en")

nlp.tokenizer.explain("name's")
# [('TOKEN', 'name'), ('SUFFIX', "'s")]

对于英语，'s 的变体与 suffix_search 设置匹配。您可以修改后缀正则表达式以便为分词器修改它：https://spacy.io/usage/linguistic-features#native-tokenizer-additions

How does spacy split "'s"?