fasttext skipgram 和 word2vec skipgram 有什么区别?
What's the different between fasttext skipgram and word2vec skipgram?
给定一个句子'hello world',词汇量是
{hello, world} + {, },
为方便起见,只列出所有 4 克。
在我的理解中,word2vec skipgram 将最大化
&space;+&space;P(world%5Cvert&space;hello))
fasttext skipgram 会做什么?
tl;博士
优化准则是一样的,不同的是模型如何获取词向量。
使用公式
Fasttext 优化与标准 skipgram 模型相同的标准(使用 FastText paper 中的公式):
具有使优化计算效率高的所有近似技巧。最后,他们得到了这个:
对所有单词求和wc并使用一些负样本逼近分母n。关键区别在于函数 s。在原始的skip-gram模型中,它是两个word embeddings的点积。
但是,在FastText的情况下,函数s被重新定义:
Word wt表示为所有n-grams的总和zg 这个词由加上一个词本身的向量组成。你基本上不仅要使这个词,而且要使它的所有子串在给定的上下文中都是可能的 window.
给定一个句子'hello world',词汇量是
{hello, world} + {
为方便起见,只列出所有 4 克。
在我的理解中,word2vec skipgram 将最大化
fasttext skipgram 会做什么?
tl;博士
优化准则是一样的,不同的是模型如何获取词向量。
使用公式
Fasttext 优化与标准 skipgram 模型相同的标准(使用 FastText paper 中的公式):
具有使优化计算效率高的所有近似技巧。最后,他们得到了这个:
对所有单词求和wc并使用一些负样本逼近分母n。关键区别在于函数 s。在原始的skip-gram模型中,它是两个word embeddings的点积。
但是,在FastText的情况下,函数s被重新定义:
Word wt表示为所有n-grams的总和zg 这个词由加上一个词本身的向量组成。你基本上不仅要使这个词,而且要使它的所有子串在给定的上下文中都是可能的 window.