Gensim Doc2Vec 培训

Gensim Doc2Vec Training

我正在使用 gensim 在分配给特定人员的文档上训练 Doc2Vec 模型。有1000万份文件和8000人。我不关心所有 8,000 人。我关心特定的人群(比如 1 到 500 人)。

我感兴趣的人可能每天都在变化,但我永远不需要查看全部人口。最终目标是得到我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。

我应该在所有 1000 万份文档上训练模型吗?或者我应该只在分配给我感兴趣的人的文档上训练模型?如果在所有 1000 万份文档上对其进行训练很重要,那么我将如何仅为我感兴趣的人获取向量?

对所有 1000 万份文档进行训练是个好主意,这将帮助您捕捉单词的一般本质,而不仅仅是在您感兴趣的作者的上下文中。此外,这将有助于如果您感兴趣的作者组明天会改变。

如果您认为 Doc2Vec 需要很多时间,您还可以使用 Fasttext 来学习 WordEmbeddings 并对词向量使用简单平均或 TF-IDF 加权平均来构建您的 DocumentVector。您可以利用 Fasttext 中分层 softmax(损失函数)的强大功能,将训练时间减少 1000 倍以上。