如何使用强化学习模型MDP Q-learning?

How to use reinforcement learning models MDP Q-learning?

我有兴趣研究强化学习,尤其是如何使用 RL 进行动态定价。我试图阅读一些关于它的论文,大多数时候我看到的例子是作者试图模拟环境以查看最佳选择。

  1. https://arxiv.org/pdf/1803.09967.pdf 公平动态定价的 RL
  2. https://ieeexplore.ieee.org/document/1210269 - 强化学习在零售市场动态定价中的应用

我试图理解,在这种情况下,每次我们遇到某种不确定性时,都可以模拟环境来获得答案。每次我们有新的输入(环境和状态不同)我们 运行 程序去得到结果?是否可以部署 RL 模型?

我非常感谢任何 information/links 动态定价中与 RL 相关的信息以及如何 use/reuse RL 模型。

RL 假定您有一些方法来模拟环境。这个想法是 RL 代理 "plays the game" 在模拟环境中多次,并在这样做的过程中学习如何玩得好。我不确定你的意思 "every time we have new input (environment and state is different)" - 如果状态发生变化,你不会重新运行(即重新训练模型)。如果环境发生变化——例如,定价结构或需求分布发生变化——那么你需要重新培训。但是,如果环境发生变化意味着您在同一环境中进入新状态,则无需重新训练。

对于动态定价,强化学习可以这样工作:你有一个真实世界的模拟器。对于您采取的任何行动(例如,对于您设定的任何价格),模拟器都会在 multi-time-period 范围内模拟需求、竞争对手的行动等。 RL 智能体反复玩游戏,学习如何根据每个时期的环境状态在每个时期选择好的动作。

Multiple-period 环境是 RL 的典型设置。如果它只是一个周期,那么你不需要 RL,在这种情况下有更简单的收入优化模型。