Masked 语言模型处理,更深入的解释

Masked language model processing, deeper explanation

我正在详细研究 BERT 模型 (you can found the description here),但我很难清楚地理解需要在 20% 的时间内保留或替换随机词,或者只使用 [MASK]标记始终用于掩码语言模型。

我们尝试训练双向技术,文章解释说“[MASK] 标记在微调期间从未见过”,但对我来说这是两个不同的步骤,我们先训练双向,然后训练下游任务。

如果有人可以向我解释我的理解错误的地方。

如果您在训练期间不使用随机替换,您的网络将无法学习从非掩码标记中提取有用的特征。

换句话说,如果你只使用掩蔽并尝试预测它们,那么你的网络为非掩蔽标记提取好的特征将是一种资源浪费(记住你的网络和你的网络一样好任务,它会尝试找到最简单的方法来解决你的任务)