文件名称:具有固定订购成本和不完整需求信息的动态定价和库存控制-研究论文
文件大小:729KB
文件格式:PDF
更新时间:2024-06-29 12:46:40
dynamic pricing inventory
我们考虑具有固定订购成本的定期审查动态定价和库存控制问题。 需求是随机的且取决于价格,未满足的需求被积压。 有了完整的需求信息,著名的 (s,S,p) 策略被证明是最优的,其中 s 和 S 是订购策略的再订购点和订购水平,而 p 是现有库存的函数水平,表征定价策略。 在本文中,我们考虑了不完整的需求信息,并开发了在线学习算法,其平均利润接近最优 (s,S,p) 且具有严格的 O ̃(√T) 后悔率。 许多显着特征将我们的工作与 OM 文献中现有的在线学习研究区分开来。 首先,计算最优 (s,S,p) 策略需要在涉及未知量的多个周期内求解动态规划 (DP),这与运营管理中的大多数学习问题只需要解决单周期优化问题不同。 因此,通过 DP 递归建立稳定性结果具有挑战性,我们通过证明利润率函数的一致收敛来实现这一点。 分析多个时期依赖于动作的状态转换的必要性类似于强化学习问题,比现有的*学习算法困难得多。 其次,定价函数 p 是无限维的,接近它比接近现有研究中看到的有限数量的参数更具挑战性。 需求价格关系是基于置信上限估计的,但由于 DP 递归的复杂性,无法明确计算置信区间。 最后,由于 (s,S,p) 政策的多周期性质,需求随机性的实际分布在确定最优定价策略 p 方面起着重要作用,这是学习者先验未知的。 在本文中,需求随机性通过使用相关样本构建的经验分布来近似,并采用一种新的基于 Wasserstein 度量的论证来证明经验分布的收敛性。