将新词向量嵌入添加到现有嵌入 space 对神经网络有什么影响

What is the effect of adding new word vector embeddings onto an existing embedding space for Neural networks

在 Word2Vector 中,词嵌入是使用共现和更新向量的维度来学习的,这样在彼此的上下文中出现的词就会靠得更近。

我的问题如下:

1) 如果你已经有一组预训练的嵌入,假设一个 100 维 space 有 40k 个词,你可以在这个嵌入 space 上添加 10 个额外的词而不改变现有的词嵌入。所以你只会使用现有的词嵌入来更新新词的维度。我正在考虑关于 "word 2 vector" 算法的这个问题,但如果人们对 GLoVe 嵌入在这种情况下的工作方式有见解,我仍然非常感兴趣。

2) 问题的第二部分是;然后,您能否在使用先前嵌入集训练的 NN 中使用新词嵌入并期望得到合理的结果。例如,如果我训练了一个用于情感分析的神经网络,并且单词 "nervous" 之前不在词汇表中,那么 "nervous" 是否会被正确分类为 "negative".

这是一个关于神经网络对嵌入有多敏感(或鲁棒)的问题。我会很感激 thoughts/insight/guidance.

初始训练使用关于已知单词的信息将它们绘制成有用的 N 维 space。

当然理论上可以使用关于新词的新信息,也给它们在同一个 space 中的坐标。你会想要很多新词与旧词一起使用的不同例子。

是要冻结旧​​词的位置,还是让它们根据新的例子也漂移到新的位置,可能是一个重要的选择。如果您已经使用旧词训练了一个预先存在的分类器(如情感分类器),并且不想重新训练该分类器,您可能希望将旧词锁定到位,并强制将新词放入兼容的位置(即使较新的组合文本示例会以其他方式改变旧词的相对位置)。

由于在对新词进行有效训练之后,它们通常应该接近意义相似的旧词,因此可以合理地期望对旧词起作用的分类器仍然对新词做一些有用的事情.但这是否有效取决于很多因素,包括原始词集涵盖所有可概括 'neighborhoods' 含义的程度。 (如果新词带来了旧词中没有例子的意义的阴影,那么坐标-space 的那个区域可能会变得贫乏,分类器可能从来没有一组好的区分例子,所以性能可能会滞后。)