根据列表标记单词

Tokenize the words based on a list

我有一个需求,需要根据特定的词表对句子中的词进行分词。

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

示例输入:这是 nlp - nltk CIFA R12 - INV.

的示例文本

在使用 word_tokenize(Exapmle-input) 时,这里我需要 nlp - nltk 作为一个标记,CIFA R12 - INV 作为另一个标记。这可能而不是将 nlp - CIFA 作为不同的标记吗?

对于以后来这里的人:-
阅读之后,我发现 nltk.tokenize.mwe 模块是实现上述要求的选项。

参考:http://www.nltk.org/api/nltk.tokenize.mwe.html