python tokenizer 2 词短语到 word2vec 模型

python tokenizer 2 words phrases to word2vec model

我正在为 word2vec 使用 python gensim 包。

我想 运行 对单词和 2 词短语进行标记化的模型。我有 10,000~ 个文档,我使用 nltk Regextoknizer 从所有文档中获取单个单词标记。 我怎样才能对文档进行分词以得到 2 个单词的短语。

例如:

文件:"I have a green apple"

和 2 个单词的短语:{I_have}、{green_apple}、...等

一个选项是使用 nltk 中的 ngrams 并像这样设置 n=2 以获得元组列表:

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))