fasttext skipgram 和 word2vec skipgram 有什么区别?

What's the different between fasttext skipgram and word2vec skipgram?

给定一个句子'hello world',词汇量是

{hello, world} + {, },

为方便起见,只列出所有 4 克。

在我的理解中,word2vec skipgram 将最大化

fasttext skipgram 会做什么?

tl;博士

优化准则是一样的,不同的是模型如何获取词向量。

使用公式

Fasttext 优化与标准 skipgram 模型相同的标准(使用 FastText paper 中的公式):

具有使优化计算效率高的所有近似技巧。最后,他们得到了这个:

对所有单词求和wc并使用一些负样本逼近分母n。关键区别在于函数 s。在原始的skip-gram模型中,它是两个word embeddings的点积。

但是,在FastText的情况下,函数s被重新定义:

Word wt表示为所有n-grams的总和zg 这个词由加上一个词本身的向量组成。你基本上不仅要使这个词,而且要使它的所有子串在给定的上下文中都是可能的 window.