根据列表标记单词
Tokenize the words based on a list
我有一个需求,需要根据特定的词表对句子中的词进行分词。
wordlist = ["nlp - nltk", "CIFA R12 - INV"]
示例输入:这是 nlp - nltk CIFA R12 - INV
.
的示例文本
在使用 word_tokenize(Exapmle-input) 时,这里我需要 nlp - nltk
作为一个标记,CIFA R12 - INV
作为另一个标记。这可能而不是将 nlp
-
CIFA
作为不同的标记吗?
对于以后来这里的人:-
阅读之后,我发现 nltk.tokenize.mwe 模块是实现上述要求的选项。
我有一个需求,需要根据特定的词表对句子中的词进行分词。
wordlist = ["nlp - nltk", "CIFA R12 - INV"]
示例输入:这是 nlp - nltk CIFA R12 - INV
.
在使用 word_tokenize(Exapmle-input) 时,这里我需要 nlp - nltk
作为一个标记,CIFA R12 - INV
作为另一个标记。这可能而不是将 nlp
-
CIFA
作为不同的标记吗?
对于以后来这里的人:-
阅读之后,我发现 nltk.tokenize.mwe 模块是实现上述要求的选项。