spacy 如何拆分“'s”?

How does spacy split "'s"?

Spacy 给出 name's as 2 tokens -> name, 's.我怎样才能将这两个令牌结合起来?哪个规则定义了“'s”、中缀或其他的拆分?

对于 spacy v2.2.3+,您可以使用 nlp.tokenizer.explain() 查看哪些标记器设置导致特定标记:

import spacy
nlp = spacy.blank("en")

nlp.tokenizer.explain("name's")
# [('TOKEN', 'name'), ('SUFFIX', "'s")]

对于英语,'s 的变体与 suffix_search 设置匹配。您可以修改后缀正则表达式以便为分词器修改它:https://spacy.io/usage/linguistic-features#native-tokenizer-additions