Gensim Word2Vec 词汇表的长度错误
Wrong length for Gensim Word2Vec's vocabulary
我正在尝试通过以下方式训练 Gensim Word2Vec
模型:
X = train['text']
model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)
训练后,我得到了一个长度为 74
的小词汇表 (model_word2vec.wv.vocab
),仅包含字母表中的字母。
我怎样才能获得正确的词汇?
更新
我之前试过这个:
tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)
model_word2vec.train(sequence, total_examples=len(X.values), epochs=10
但我得到了同样错误的词汇量。
为模型提供它需要的语料库:一系列文本,其中每个文本都是一个字符串标记列表。如果您改为为其提供非标记化字符串,它会认为每个字符都是一个标记,从而给出您所看到的结果。
我正在尝试通过以下方式训练 Gensim Word2Vec
模型:
X = train['text']
model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)
训练后,我得到了一个长度为 74
的小词汇表 (model_word2vec.wv.vocab
),仅包含字母表中的字母。
我怎样才能获得正确的词汇?
更新
我之前试过这个:
tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)
model_word2vec.train(sequence, total_examples=len(X.values), epochs=10
但我得到了同样错误的词汇量。
为模型提供它需要的语料库:一系列文本,其中每个文本都是一个字符串标记列表。如果您改为为其提供非标记化字符串,它会认为每个字符都是一个标记,从而给出您所看到的结果。