我可以使用具有非线性的堆叠自动编码器训练 Word2vec 吗？

Can I train Word2vec using a Stacked Autoencoder with non-linearities?

每次我阅读 Word2vec 时，嵌入都是通过一个非常简单的自动编码器获得的：只有一个隐藏层，初始层为线性激活，输出层为 softmax。

我的问题是：为什么我不能使用堆叠式自动编码器训练一些 Word2vec 模型，其中有几个隐藏层和更高级的激活函数？（当然，输出端的 softmax 会被保留。）

我从未找到任何解释，因此欢迎任何提示。

词向量注意到神经网络试图擅长某事的隐藏状态。

回答你的问题当然可以。

如果你打算这样做，为什么不使用更高级的 networks/encoders 以及 BiLSTM 或 Transformers。

这就是创造 ElMo 和 BERT 之类的东西的人所做的（尽管他们的网络要高级得多）。