spacy 如何拆分“'s”?
How does spacy split "'s"?
Spacy 给出 name's as 2 tokens -> name, 's.我怎样才能将这两个令牌结合起来?哪个规则定义了“'s”、中缀或其他的拆分?
对于 spacy v2.2.3+,您可以使用 nlp.tokenizer.explain()
查看哪些标记器设置导致特定标记:
import spacy
nlp = spacy.blank("en")
nlp.tokenizer.explain("name's")
# [('TOKEN', 'name'), ('SUFFIX', "'s")]
对于英语,'s
的变体与 suffix_search
设置匹配。您可以修改后缀正则表达式以便为分词器修改它:https://spacy.io/usage/linguistic-features#native-tokenizer-additions
Spacy 给出 name's as 2 tokens -> name, 's.我怎样才能将这两个令牌结合起来?哪个规则定义了“'s”、中缀或其他的拆分?
对于 spacy v2.2.3+,您可以使用 nlp.tokenizer.explain()
查看哪些标记器设置导致特定标记:
import spacy
nlp = spacy.blank("en")
nlp.tokenizer.explain("name's")
# [('TOKEN', 'name'), ('SUFFIX', "'s")]
对于英语,'s
的变体与 suffix_search
设置匹配。您可以修改后缀正则表达式以便为分词器修改它:https://spacy.io/usage/linguistic-features#native-tokenizer-additions