我可以使用具有非线性的堆叠自动编码器训练 Word2vec 吗?

Can I train Word2vec using a Stacked Autoencoder with non-linearities?

每次我阅读 Word2vec 时,嵌入都是通过一个非常简单的自动编码器获得的:只有一个隐藏层,初始层为线性激活,输出层为 softmax。

我的问题是:为什么我不能使用堆叠式自动编码器训练一些 Word2vec 模型,其中有几个隐藏层和更高级的激活函数? (当然,输出端的 softmax 会被保留。)

我从未找到任何解释,因此欢迎任何提示。

词向量注意到神经网络试图擅长某事的隐藏状态。

回答你的问题 当然可以。

如果你打算这样做,为什么不使用更高级的 networks/encoders 以及 BiLSTMTransformers

这就是创造 ElMoBERT 之类的东西的人所做的(尽管他们的网络要高级得多)。