难以进入真实环境的情况下,如何应用无模型深度强化学习?

How to apply model free deep reinforcement learning when the access to the real environment is hard?

深度强化学习在将其应用于具有高度动态特性的现实世界问题时非常有用。很少有例子可以列举,如金融、医疗保健等。但是当涉及到这类问题时,很难有一个模拟环境。那么有哪些可能的事情要做?

首先让我评论几个概念,试图根据您的评论为您提供未来的研究方向:

  • 可能术语"forecast"不适合描述强化学习解决的问题。从某种意义上说,RL 需要做一个内部预测过程来选择长期的最佳动作。但解决的问题是代理在环境中选择动作。所以,如果你的问题是预测问题,也许其他技术比 RL 更合适。
  • 在表格方法和深度 Q 学习之间,还有许多其他方法可能更适合您的问题。它们可能不那么强大但易于使用(更稳定,参数调整更少等)。您可以将 Q-learning 与其他函数逼近器结合使用(比深度神经网络更简单)。一般来说,最好的选择是能够解决问题的最简单的选择。
  • 不知道如何用第一人称视觉来模拟人类活动的问题。其实我也不是很明白问题的设置。

关于在不访问模拟环境的情况下应用 RL 的原始问题,正如我之前在评论中所说,如果你有 足够 数据,你可能会应用 RL算法。我假设您可以存储来自您环境的数据,但您不能轻易地与之交互。这是典型的,例如,在存在许多关于 [患者状态、治疗、下一个患者状态] 的数据的医疗领域,但您不能通过应用随机治疗来与患者互动。在这种情况下,有一些事实需要考虑:

  • RL 方法通常会消耗大量数据。与深度网络结合时尤其如此。需要多少数据完全取决于问题,但如果您的环境很复杂,请准备好存储数百万个元组 [state, action, next state]。
  • 应该使用包含一些探索性操作的策略来收集存储的元组。 RL 算法将尝试在数据中包含的动作中找到最佳动作。如果智能体可以与环境交互,它应该选择探索性的行动来找到最好的。同样,如果代理无法交互,而是提前收集数据,则该数据也应包含探索性操作。论文 Neural Fitted Q Iteration - First Experiences 具有数据高效的神经强化 学习方法Tree-Based Batch Mode Reinforcement Learning可能有助于理解这些概念。