如何使用强化学习模型MDP Q-learning？

How to use reinforcement learning models MDP Q-learning?

我有兴趣研究强化学习，尤其是如何使用 RL 进行动态定价。我试图阅读一些关于它的论文，大多数时候我看到的例子是作者试图模拟环境以查看最佳选择。

https://arxiv.org/pdf/1803.09967.pdf 公平动态定价的 RL
https://ieeexplore.ieee.org/document/1210269 - 强化学习在零售市场动态定价中的应用

我试图理解，在这种情况下，每次我们遇到某种不确定性时，都可以模拟环境来获得答案。每次我们有新的输入（环境和状态不同）我们运行程序去得到结果？是否可以部署 RL 模型？

我非常感谢任何 information/links 动态定价中与 RL 相关的信息以及如何 use/reuse RL 模型。

RL 假定您有一些方法来模拟环境。这个想法是 RL 代理 "plays the game" 在模拟环境中多次，并在这样做的过程中学习如何玩得好。我不确定你的意思 "every time we have new input (environment and state is different)" - 如果状态发生变化，你不会重新运行（即重新训练模型）。如果环境发生变化——例如，定价结构或需求分布发生变化——那么你需要重新培训。但是，如果环境发生变化意味着您在同一环境中进入新状态，则无需重新训练。

对于动态定价，强化学习可以这样工作：你有一个真实世界的模拟器。对于您采取的任何行动（例如，对于您设定的任何价格），模拟器都会在 multi-time-period 范围内模拟需求、竞争对手的行动等。 RL 智能体反复玩游戏，学习如何根据每个时期的环境状态在每个时期选择好的动作。

Multiple-period 环境是 RL 的典型设置。如果它只是一个周期，那么你不需要 RL，在这种情况下有更简单的收入优化模型。

如何使用强化学习模型MDP Q-learning？

How to use reinforcement learning models MDP Q-learning?

model

reinforcement-learning