根据列表标记单词

Question

我有一个需求，需要根据特定的词表对句子中的词进行分词。

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

示例输入：这是 nlp - nltk CIFA R12 - INV.

的示例文本

在使用 word_tokenize(Exapmle-input) 时，这里我需要 nlp - nltk 作为一个标记，CIFA R12 - INV 作为另一个标记。这可能而不是将 nlp - CIFA 作为不同的标记吗？

Answer 1

对于以后来这里的人：-
阅读之后，我发现 nltk.tokenize.mwe 模块是实现上述要求的选项。

Tokenize the words based on a list