我可以使用具有非线性的堆叠自动编码器训练 Word2vec 吗?
Can I train Word2vec using a Stacked Autoencoder with non-linearities?
每次我阅读 Word2vec 时,嵌入都是通过一个非常简单的自动编码器获得的:只有一个隐藏层,初始层为线性激活,输出层为 softmax。
我的问题是:为什么我不能使用堆叠式自动编码器训练一些 Word2vec 模型,其中有几个隐藏层和更高级的激活函数? (当然,输出端的 softmax 会被保留。)
我从未找到任何解释,因此欢迎任何提示。
词向量注意到神经网络试图擅长某事的隐藏状态。
回答你的问题
当然可以。
如果你打算这样做,为什么不使用更高级的 networks/encoders 以及 BiLSTM
或 Transformers
。
这就是创造 ElMo
和 BERT
之类的东西的人所做的(尽管他们的网络要高级得多)。
每次我阅读 Word2vec 时,嵌入都是通过一个非常简单的自动编码器获得的:只有一个隐藏层,初始层为线性激活,输出层为 softmax。
我的问题是:为什么我不能使用堆叠式自动编码器训练一些 Word2vec 模型,其中有几个隐藏层和更高级的激活函数? (当然,输出端的 softmax 会被保留。)
我从未找到任何解释,因此欢迎任何提示。
词向量注意到神经网络试图擅长某事的隐藏状态。
回答你的问题 当然可以。
如果你打算这样做,为什么不使用更高级的 networks/encoders 以及 BiLSTM
或 Transformers
。
这就是创造 ElMo
和 BERT
之类的东西的人所做的(尽管他们的网络要高级得多)。