使用 MDP 进行强化学习以优化收入
Reinforcement Learning with MDP for revenues optimization
我想将在飞机上出售座位的服务建模为 MDP(马尔可夫决策过程),以使用强化学习来优化航空公司的收入,为此我需要定义什么:状态、行动、政策、价值和回报。我想了一下,但我觉得还是少了点什么。
我这样建模我的系统:
States = (r,c)
其中 r 是乘客人数,c 是购买的座位数,所以 r>=c
.
Actions = (p1,p2,p3)
就是3个价格。 objective 是决定哪一个能带来更多的收入。
- 奖励:收入。
你能告诉我你的想法并帮助我吗?
模型化之后,我必须通过强化学习来实现所有这些。是否有一个包可以完成这项工作?
我认为您的表述中最缺少的是顺序部分。强化学习在顺序使用时很有用,其中下一个状态必须依赖于当前状态(因此 "Markovian")。在此公式中,您根本没有指定任何马尔可夫行为。此外,奖励是一个标量,它取决于当前状态或当前状态与动作的组合。在您的情况下,收入取决于价格(行动),但与州(席位)无关。这是我在您的表述中看到的两个大问题,还有其他问题。我会建议您先了解 RL 理论(在线课程等)并编写一些示例问题,然后再尝试制定您自己的问题。
我想将在飞机上出售座位的服务建模为 MDP(马尔可夫决策过程),以使用强化学习来优化航空公司的收入,为此我需要定义什么:状态、行动、政策、价值和回报。我想了一下,但我觉得还是少了点什么。
我这样建模我的系统:
States = (r,c)
其中 r 是乘客人数,c 是购买的座位数,所以r>=c
.Actions = (p1,p2,p3)
就是3个价格。 objective 是决定哪一个能带来更多的收入。- 奖励:收入。
你能告诉我你的想法并帮助我吗?
模型化之后,我必须通过强化学习来实现所有这些。是否有一个包可以完成这项工作?
我认为您的表述中最缺少的是顺序部分。强化学习在顺序使用时很有用,其中下一个状态必须依赖于当前状态(因此 "Markovian")。在此公式中,您根本没有指定任何马尔可夫行为。此外,奖励是一个标量,它取决于当前状态或当前状态与动作的组合。在您的情况下,收入取决于价格(行动),但与州(席位)无关。这是我在您的表述中看到的两个大问题,还有其他问题。我会建议您先了解 RL 理论(在线课程等)并编写一些示例问题,然后再尝试制定您自己的问题。