如何将 StanfordNLP 工具(POSTagger 和 Parser)用于已标记化的文件?

How can I use StanfordNLP tools (POSTagger and Parser) with an already Tokenized file?

我有一个标记化文件,我想使用 StanfordNLP 用 POS 和依赖项解析标签对其进行注释。 我正在使用具有以下配置的 Python 脚本:

config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)

doc = nlp(text)

但是,我收到以下消息:

是否可以使用 Python 脚本跳过标记化步骤?

提前致谢!

您需要包含 tokenize 处理器并将 属性 tokenize_pretokenized 设置为 True。这将假设文本在空格上被标记化,句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。

这里有解释:

https://stanfordnlp.github.io/stanza/tokenize.html