如何将 StanfordNLP 工具（POSTagger 和 Parser）用于已标记化的文件？

Question

我有一个标记化文件，我想使用 StanfordNLP 用 POS 和依赖项解析标签对其进行注释。我正在使用具有以下配置的 Python 脚本：

config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)

doc = nlp(text)

但是，我收到以下消息：

缺少：{'tokenize'} 为此管道提供的处理器列表无效。请确保满足每个处理器的所有先决条件。

是否可以使用 Python 脚本跳过标记化步骤？

提前致谢！

Answer 1

您需要包含 tokenize 处理器并将属性 tokenize_pretokenized 设置为 True。这将假设文本在空格上被标记化，句子被换行符分割。您还可以传递字符串列表的列表，每个列表代表一个句子，条目是标记。

这里有解释：

https://stanfordnlp.github.io/stanza/tokenize.html

如何将 StanfordNLP 工具（POSTagger 和 Parser）用于已标记化的文件？

How can I use StanfordNLP tools (POSTagger and Parser) with an already Tokenized file?

python

pipeline

stanford-nlp