python tokenizer 2 词短语到 word2vec 模型
python tokenizer 2 words phrases to word2vec model
我正在为 word2vec 使用 python gensim 包。
我想 运行 对单词和 2 词短语进行标记化的模型。我有 10,000~ 个文档,我使用 nltk Regextoknizer 从所有文档中获取单个单词标记。
我怎样才能对文档进行分词以得到 2 个单词的短语。
例如:
文件:"I have a green apple"
和 2 个单词的短语:{I_have}、{green_apple}、...等
一个选项是使用 nltk
中的 ngrams
并像这样设置 n=2 以获得元组列表:
from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))
我正在为 word2vec 使用 python gensim 包。
我想 运行 对单词和 2 词短语进行标记化的模型。我有 10,000~ 个文档,我使用 nltk Regextoknizer 从所有文档中获取单个单词标记。 我怎样才能对文档进行分词以得到 2 个单词的短语。
例如:
文件:"I have a green apple"
和 2 个单词的短语:{I_have}、{green_apple}、...等
一个选项是使用 nltk
中的 ngrams
并像这样设置 n=2 以获得元组列表:
from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))