如何保留word2vec中的记录数?
how to preserve number of records in word2vec?
我的数据框中有 45000 条文本记录。我想将这 45000 条记录转换为词向量,以便我可以在词向量上训练分类器。我没有标记句子。我只是将每个条目拆分为单词列表。
用 300 个特征训练 word2vec 模型后,模型的形状结果只有 26000 个。如何保留我的 45000 个记录?
在分类器模型中,我需要所有这 45000 条记录,以便它可以匹配 45000 个输出标签。
如果您将每个条目拆分成一个单词列表,那基本上就是 'tokenization'。
Word2Vec 只是为每个单词学习向量,而不是为每个文本示例学习向量 ('record') – 因此 'preserve' 没有任何内容,没有为 45,000 条记录创建向量。但是如果记录中有 26,000 个不同的词(应用 min_count
之后),那么最后将有 26,000 个向量。
Gensim 的 Doc2Vec('
段落向量算法)可以为每个文本示例创建一个向量,因此您可能想尝试一下。
如果您只有词向量,为较大的文本创建向量的一种简单方法是将所有单独的词向量加在一起。进一步的选择包括在使用单位规范词向量或许多大小的原始词向量之间进行选择;是否对总和进行单位规范;以及是否通过任何其他重要性因素(例如 TF/IDF)对单词进行加权。
请注意,除非您的文档很长,否则这是一个非常小的 Word2Vec 或 Doc2Vec 训练集。
我的数据框中有 45000 条文本记录。我想将这 45000 条记录转换为词向量,以便我可以在词向量上训练分类器。我没有标记句子。我只是将每个条目拆分为单词列表。
用 300 个特征训练 word2vec 模型后,模型的形状结果只有 26000 个。如何保留我的 45000 个记录?
在分类器模型中,我需要所有这 45000 条记录,以便它可以匹配 45000 个输出标签。
如果您将每个条目拆分成一个单词列表,那基本上就是 'tokenization'。
Word2Vec 只是为每个单词学习向量,而不是为每个文本示例学习向量 ('record') – 因此 'preserve' 没有任何内容,没有为 45,000 条记录创建向量。但是如果记录中有 26,000 个不同的词(应用 min_count
之后),那么最后将有 26,000 个向量。
Gensim 的 Doc2Vec(' 段落向量算法)可以为每个文本示例创建一个向量,因此您可能想尝试一下。
如果您只有词向量,为较大的文本创建向量的一种简单方法是将所有单独的词向量加在一起。进一步的选择包括在使用单位规范词向量或许多大小的原始词向量之间进行选择;是否对总和进行单位规范;以及是否通过任何其他重要性因素(例如 TF/IDF)对单词进行加权。
请注意,除非您的文档很长,否则这是一个非常小的 Word2Vec 或 Doc2Vec 训练集。