tsne 和 word2vec 有什么关系?
What is relation between tsne and word2vec?
据我所知,tsne
是词向量的降维。
Word2vec
生成海量数据的word embedding模型
两者有什么关系?
里面Word2vec
用的是tsne
吗?
(我使用 Gensim
中的 Word2vec
)
在内部,它们都使用 梯度下降 来达到最终的优化状态。两者都可以被认为是降维操作。但是,word2vec 并不在内部使用 t-SNE(反之亦然)。
t-SNE ("t-distributed stochastic neighbor embedding") 通常将多维数据减少到 2 维或 3 维,以便绘制可视化。它涉及学习从原始维度到较少维度的映射,这仍然使相似点彼此靠近。
word2vec 采用许多文本示例并学习一个浅层神经网络,该网络擅长从附近的单词中预测单词。该神经网络权重的特定层(代表单个单词)然后成为学习的 N 维单词向量,N 的值通常为 100 到 600。
(有另一种创建词向量的方法称为 GLoVE,它的工作方式有点像 t-SNE,因为它直接从高维共现训练词矩阵,而不是来自许多上下文共现示例。但它仍然不是 t-SNE 本身。)
您可能 运行 目标维度为 100-400 的 t-SNE。但由于该最终结果还不会产生漂亮的图,因此对 t-SNE 至关重要的 'nearness' 的维护将无法实现其通常的预期收益。
您可能会学习仅 2 维或 3 维的 word2vec(或 GLoVE)向量,但人们从词向量中寻找的大部分有用 similarities/arrangements 都会在拥挤中丢失。在图中,您可能看不到相关词类别的强烈视觉效果 'clumping',因为未应用 t-SNE 特定的高到低维度接近度保持目标。
据我所知,tsne
是词向量的降维。
Word2vec
生成海量数据的word embedding模型
两者有什么关系?
里面Word2vec
用的是tsne
吗?
(我使用 Gensim
中的 Word2vec
)
在内部,它们都使用 梯度下降 来达到最终的优化状态。两者都可以被认为是降维操作。但是,word2vec 并不在内部使用 t-SNE(反之亦然)。
t-SNE ("t-distributed stochastic neighbor embedding") 通常将多维数据减少到 2 维或 3 维,以便绘制可视化。它涉及学习从原始维度到较少维度的映射,这仍然使相似点彼此靠近。
word2vec 采用许多文本示例并学习一个浅层神经网络,该网络擅长从附近的单词中预测单词。该神经网络权重的特定层(代表单个单词)然后成为学习的 N 维单词向量,N 的值通常为 100 到 600。
(有另一种创建词向量的方法称为 GLoVE,它的工作方式有点像 t-SNE,因为它直接从高维共现训练词矩阵,而不是来自许多上下文共现示例。但它仍然不是 t-SNE 本身。)
您可能 运行 目标维度为 100-400 的 t-SNE。但由于该最终结果还不会产生漂亮的图,因此对 t-SNE 至关重要的 'nearness' 的维护将无法实现其通常的预期收益。
您可能会学习仅 2 维或 3 维的 word2vec(或 GLoVE)向量,但人们从词向量中寻找的大部分有用 similarities/arrangements 都会在拥挤中丢失。在图中,您可能看不到相关词类别的强烈视觉效果 'clumping',因为未应用 t-SNE 特定的高到低维度接近度保持目标。