reinforcement-learning
-
使用大量图像训练强化学习模型
-
actor-critic 模型中的共享参数如何工作?
-
如何使用强化学习模型MDP Q-learning?
-
分数函数如何帮助策略梯度?
-
tf.losses.mean_squared_error 负目标
-
DQN中,当experience buffer中的每条记录只对应一个action时,如何进行梯度下降?
-
为什么在DQN中,y_i只是计算而不是存储?
-
q-learning计算中的海量状态
-
当某个动作不可执行时如何减少神经网络输出
-
并发训练DDQN
-
为什么设置 "export OPENBLAS_NUM_THREADS=1" 会影响性能?
-
产品识别的字符串匹配算法
-
当我在状态之间的转换同时依赖于多个动作时,我该如何采取动作和状态?
-
机器如何知道哪一步可以获得最大奖励?
-
来自概率分布的 argmax 比来自 softmax 的随机抽样更好的策略?
-
OpenAI Gym:如何从自定义 OPenvironment 中访问环境注册数据(例如 max_episode_steps)?
-
如何针对经典控制问题实施近端策略优化 (PPO) 算法?
-
DQN - 如何将游戏中的 4 个静止帧输入作为一个单一状态输入
-
如何将 UNO 建模为 POMDP
-
如何select Q值最高的动作