全局步骤是什么意思?
What does global step mean?
我最近完成了 Cloud ML Criteo tutorial,"small" 数据集(约 4000 万个示例)上的分布式训练作业的最终日志消息之一是:
Saving dict for global step 7520: accuracy = 0.78864, ...
这里的"global step"指的是什么?我原本以为是:
global step = (number of training examples * number of epochs) / batch size
然而训练集大小为 40.8M,批量大小为 30K,epoch 数为 5,所以这不会导致正确答案:
(40.8M x 5) / 30K = 6800
我想我现在明白了。尽管训练集大小是 40.8M 个示例,但代码中有一个 line 说它是 45M 个示例(我不知道为什么)。并且
(45M x 5) / 30K = 7500
与日志消息基本匹配。
我最近完成了 Cloud ML Criteo tutorial,"small" 数据集(约 4000 万个示例)上的分布式训练作业的最终日志消息之一是:
Saving dict for global step 7520: accuracy = 0.78864, ...
这里的"global step"指的是什么?我原本以为是:
global step = (number of training examples * number of epochs) / batch size
然而训练集大小为 40.8M,批量大小为 30K,epoch 数为 5,所以这不会导致正确答案:
(40.8M x 5) / 30K = 6800
我想我现在明白了。尽管训练集大小是 40.8M 个示例,但代码中有一个 line 说它是 45M 个示例(我不知道为什么)。并且
(45M x 5) / 30K = 7500
与日志消息基本匹配。