理解嵌入向量维度
Understanding embedding vectors dimension
在深度学习中,尤其是在 NLP 中,单词被转换为向量表示形式,以输入到神经网络(例如 RNN)中。通过参考link:
http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/#Word%20Embeddings
在词嵌入部分,据说:
A word embedding W:words→Rn is a paramaterized function mapping words
in
some language to high-dimensional vectors (perhaps 200 to 500 dimensions)
我不明白向量维度的目的。 200 维向量 与 20 维向量 相比意味着什么?
它是否提高了模型的整体准确性?谁能给我一个关于向量维数选择的简单例子。
这些词嵌入也称为分布式词嵌入是基于
you know a word by the company it keeps
所以我们可以通过上下文了解单词的含义。你可以认为(一个词的)向量中的每个标量代表它对一个概念的强度。来自 Prof. Pawan Goyal 的这张幻灯片解释了一切。
因此,您需要良好的向量大小来捕获相当数量的概念,但您不想要太大的向量,因为它会成为使用这些嵌入的模型训练的瓶颈。
此外,向量大小大部分是固定的,因为大多数人不训练自己的嵌入,而是使用公开可用的嵌入,因为他们在大量数据上训练了很多小时。所以使用它们将迫使我们使用一个嵌入层,其尺寸由您正在使用的公开可用嵌入(word2vec、手套等)
分布式词嵌入是 NLP 深度学习领域的一个重要里程碑。与基于 tfidf 的嵌入相比,它们具有更高的准确性。
在深度学习中,尤其是在 NLP 中,单词被转换为向量表示形式,以输入到神经网络(例如 RNN)中。通过参考link:
http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/#Word%20Embeddings
在词嵌入部分,据说:
A word embedding W:words→Rn is a paramaterized function mapping words in some language to high-dimensional vectors (perhaps 200 to 500 dimensions)
我不明白向量维度的目的。 200 维向量 与 20 维向量 相比意味着什么?
它是否提高了模型的整体准确性?谁能给我一个关于向量维数选择的简单例子。
这些词嵌入也称为分布式词嵌入是基于
you know a word by the company it keeps
所以我们可以通过上下文了解单词的含义。你可以认为(一个词的)向量中的每个标量代表它对一个概念的强度。来自 Prof. Pawan Goyal 的这张幻灯片解释了一切。
因此,您需要良好的向量大小来捕获相当数量的概念,但您不想要太大的向量,因为它会成为使用这些嵌入的模型训练的瓶颈。
此外,向量大小大部分是固定的,因为大多数人不训练自己的嵌入,而是使用公开可用的嵌入,因为他们在大量数据上训练了很多小时。所以使用它们将迫使我们使用一个嵌入层,其尺寸由您正在使用的公开可用嵌入(word2vec、手套等)
分布式词嵌入是 NLP 深度学习领域的一个重要里程碑。与基于 tfidf 的嵌入相比,它们具有更高的准确性。