如何将荷兰语标记器用于列表中包含句子的列表?
How to use a Dutch tagger for a list with sentences in a list?
我设法找到了一个很好的荷兰语 NLTK 标记器来标记我必须注释的文本中的 POS。
我的嵌套列表如下所示:
['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'],
['hij',
'had',
'spijt',
'van',
'de',
'betoveringen',
'die',
'hij',
'ooit',
'gedaan',
'had'],
['hij',
'had',
'ooit',
'getracht',
'een',
'vredig',
'rijk',
'te',
'stichten',
'zonder',
'oorlog',
'en',
'honger'],
总共有1096个词和105个句子。
我使用的标注器:
from nltk.tag.perceptron import PerceptronTagger
tagger = PerceptronTagger(load=False)
tagger.load('model.perc.dutch_tagger_small.pickle')
tagger.tag(wordlist[0])
获取第一个元素的输出。
[('hoofdstuk', 'nounsg'),
('ergens', 'adv'),
('in', 'prep'),
('een', 'det__art'),
('ver', 'adj'),
('koninkrijk', 'nounsg')]
也许是因为时间还早,但我无法理解如何将这个标记器用于所有句子。
感谢任何提示、技巧和指导。谢谢!
您已将标记器应用于第一个元素 wordlist[0]
。
在 for
循环中迭代所有元素并对每个元素应用标记器。
for element in wordlist:
tagger.tag(element)
我设法找到了一个很好的荷兰语 NLTK 标记器来标记我必须注释的文本中的 POS。 我的嵌套列表如下所示:
['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'],
['hij',
'had',
'spijt',
'van',
'de',
'betoveringen',
'die',
'hij',
'ooit',
'gedaan',
'had'],
['hij',
'had',
'ooit',
'getracht',
'een',
'vredig',
'rijk',
'te',
'stichten',
'zonder',
'oorlog',
'en',
'honger'],
总共有1096个词和105个句子。
我使用的标注器:
from nltk.tag.perceptron import PerceptronTagger
tagger = PerceptronTagger(load=False)
tagger.load('model.perc.dutch_tagger_small.pickle')
tagger.tag(wordlist[0])
获取第一个元素的输出。
[('hoofdstuk', 'nounsg'),
('ergens', 'adv'),
('in', 'prep'),
('een', 'det__art'),
('ver', 'adj'),
('koninkrijk', 'nounsg')]
也许是因为时间还早,但我无法理解如何将这个标记器用于所有句子。
感谢任何提示、技巧和指导。谢谢!
您已将标记器应用于第一个元素 wordlist[0]
。
在 for
循环中迭代所有元素并对每个元素应用标记器。
for element in wordlist:
tagger.tag(element)