fasttext skipgram 和 word2vec skipgram 有什么区别？

What's the different between fasttext skipgram and word2vec skipgram?

给定一个句子'hello world'，词汇量是

{hello, world} + {, },

为方便起见，只列出所有 4 克。

在我的理解中，word2vec skipgram 将最大化

$P(hello\vert world) + P(world\vert hello)$

fasttext skipgram 会做什么？

优化准则是一样的，不同的是模型如何获取词向量。

Fasttext 优化与标准 skipgram 模型相同的标准（使用 FastText paper 中的公式）：

具有使优化计算效率高的所有近似技巧。最后，他们得到了这个：

对所有单词求和w_c并使用一些负样本逼近分母n。关键区别在于函数 s。在原始的skip-gram模型中，它是两个word embeddings的点积。

但是，在FastText的情况下，函数s被重新定义：

Word w_t表示为所有n-grams的总和z_g 这个词由加上一个词本身的向量组成。你基本上不仅要使这个词，而且要使它的所有子串在给定的上下文中都是可能的 window.