python tokenizer 2 词短语到 word2vec 模型

Question

我正在为 word2vec 使用 python gensim 包。

我想运行对单词和 2 词短语进行标记化的模型。我有 10,000~ 个文档，我使用 nltk Regextoknizer 从所有文档中获取单个单词标记。我怎样才能对文档进行分词以得到 2 个单词的短语。

例如：

文件："I have a green apple"

和 2 个单词的短语：{I_have}、{green_apple}、...等

Answer 1

一个选项是使用 nltk 中的 ngrams 并像这样设置 n=2 以获得元组列表：

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))

python tokenizer 2 words phrases to word2vec model