如何将 StanfordNLP 工具(POSTagger 和 Parser)用于已标记化的文件?
How can I use StanfordNLP tools (POSTagger and Parser) with an already Tokenized file?
我有一个标记化文件,我想使用 StanfordNLP 用 POS 和依赖项解析标签对其进行注释。
我正在使用具有以下配置的 Python 脚本:
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'
nlp = stanfordnlp.Pipeline(**config)
doc = nlp(text)
但是,我收到以下消息:
- 缺少:{'tokenize'}
为此管道提供的处理器列表无效。请确保满足每个处理器的所有先决条件。
是否可以使用 Python 脚本跳过标记化步骤?
提前致谢!
您需要包含 tokenize
处理器并将 属性 tokenize_pretokenized
设置为 True
。这将假设文本在空格上被标记化,句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。
这里有解释:
我有一个标记化文件,我想使用 StanfordNLP 用 POS 和依赖项解析标签对其进行注释。 我正在使用具有以下配置的 Python 脚本:
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'
nlp = stanfordnlp.Pipeline(**config)
doc = nlp(text)
但是,我收到以下消息:
- 缺少:{'tokenize'} 为此管道提供的处理器列表无效。请确保满足每个处理器的所有先决条件。
是否可以使用 Python 脚本跳过标记化步骤?
提前致谢!
您需要包含 tokenize
处理器并将 属性 tokenize_pretokenized
设置为 True
。这将假设文本在空格上被标记化,句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。
这里有解释: