Gensim Word2Vec 词汇表的长度错误

Question

我正在尝试通过以下方式训练 Gensim Word2Vec 模型：

X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)

训练后，我得到了一个长度为 74 的小词汇表 (model_word2vec.wv.vocab)，仅包含字母表中的字母。

我怎样才能获得正确的词汇？

更新

我之前试过这个：

tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

但我得到了同样错误的词汇量。

Answer 1

为模型提供它需要的语料库：一系列文本，其中每个文本都是一个字符串标记列表。如果您改为为其提供非标记化字符串，它会认为每个字符都是一个标记，从而给出您所看到的结果。

Gensim Word2Vec 词汇表的长度错误

Wrong length for Gensim Word2Vec's vocabulary

nlp

gensim

word2vec