word2vec 词汇与字符

word2vec vocab vs char

我正在使用 word2vec 将我的单词表示为向量。

text = np.loadtxt("file.txt", dtype=str, delimiter=" ")
word2vec = w2v.Word2Vec(text, size=100, window=5, min_count=5, workers=4)
print(len(word2vec.wv.vocab))

文本是一个单词(字符串)列表。此代码不打印单词数,而是打印 26, # 英文字母。为了将 word2vec 训练到我的模型中,我需要处理单词,而不是字母。我试过将文本转换为字符串,但没有成功。我做错了什么?

我相信你需要传递一个单词列表列表:

word2vec = w2v.Word2Vec(text.reshape(-1, 1), size=100, window=5, min_count=5, workers=4)