来自概率分布的 argmax 比来自 softmax 的随机抽样更好的策略?
argmax from probability distribution better policy than random sampling from softmax?
我正在尝试训练 Echo State Network 以按照强化学习的方式使用随机优化来生成文本,其中优化取决于奖励信号。
我观察到在评估过程中,当我从概率分布中抽样时,bleu 分数比我从分布中抽取 argmax 时大。差异几乎超过 0.10 分(BLEU Score 一般在 0 和 1 之间)。
我不确定为什么会这样。
需要帮助。
您不要使用 argmax 函数,因为它是一种确定性方法。这样做的主要问题是它很容易让你陷入循环。这意味着,如果文本生成出现错误,您可能会继续沿着这条路走下去,而没有任何出路的可能。随机性允许 "jump out" 循环。
一个很好的例子来说明这种跳出的需要,例如 Page Rank 算法。它使用随机游走参数,让想象中的冲浪者走出死胡同。
TensorFlow 团队在他们的教程中这样说(没有任何理由)
:
Note: It is important to sample from this distribution as taking the argmax of the distribution can easily get the model stuck in a loop.
我正在尝试训练 Echo State Network 以按照强化学习的方式使用随机优化来生成文本,其中优化取决于奖励信号。
我观察到在评估过程中,当我从概率分布中抽样时,bleu 分数比我从分布中抽取 argmax 时大。差异几乎超过 0.10 分(BLEU Score 一般在 0 和 1 之间)。 我不确定为什么会这样。 需要帮助。
您不要使用 argmax 函数,因为它是一种确定性方法。这样做的主要问题是它很容易让你陷入循环。这意味着,如果文本生成出现错误,您可能会继续沿着这条路走下去,而没有任何出路的可能。随机性允许 "jump out" 循环。
一个很好的例子来说明这种跳出的需要,例如 Page Rank 算法。它使用随机游走参数,让想象中的冲浪者走出死胡同。
TensorFlow 团队在他们的教程中这样说(没有任何理由) :
Note: It is important to sample from this distribution as taking the argmax of the distribution can easily get the model stuck in a loop.