来自概率分布的 argmax 比来自 softmax 的随机抽样更好的策略？

argmax from probability distribution better policy than random sampling from softmax?

我正在尝试训练 Echo State Network 以按照强化学习的方式使用随机优化来生成文本，其中优化取决于奖励信号。

我观察到在评估过程中，当我从概率分布中抽样时，bleu 分数比我从分布中抽取 argmax 时大。差异几乎超过 0.10 分（BLEU Score 一般在 0 和 1 之间）。我不确定为什么会这样。需要帮助。

您不要使用 argmax 函数，因为它是一种确定性方法。这样做的主要问题是它很容易让你陷入循环。这意味着，如果文本生成出现错误，您可能会继续沿着这条路走下去，而没有任何出路的可能。随机性允许 "jump out" 循环。

一个很好的例子来说明这种跳出的需要，例如 Page Rank 算法。它使用随机游走参数，让想象中的冲浪者走出死胡同。

TensorFlow 团队在他们的教程中这样说（没有任何理由） :

Note: It is important to sample from this distribution as taking the argmax of the distribution can easily get the model stuck in a loop.