Gensim Word2Vec 词汇表的长度错误

Wrong length for Gensim Word2Vec's vocabulary

我正在尝试通过以下方式训练 Gensim Word2Vec 模型:

X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)

训练后,我得到了一个长度为 74 的小词汇表 (model_word2vec.wv.vocab),仅包含字母表中的字母。

我怎样才能获得正确的词汇?

更新

我之前试过这个:

tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

但我得到了同样错误的词汇量。

为模型提供它需要的语料库:一系列文本,其中每个文本都是一个字符串标记列表。如果您改为为其提供非标记化字符串,它会认为每个字符都是一个标记,从而给出您所看到的结果。