文件名称:在线学习的库存平衡-研究论文
文件大小:448KB
文件格式:PDF
更新时间:2024-06-30 02:05:17
论文研究
我们研究了在模型不确定性下随时间向异构客户分配有限资源的一般问题。 每种类型的客户都可以使用不同的动作来服务,每个动作随机消耗一些资源组合,并为消耗的资源返回不同的奖励。 我们考虑一个通用模型框架,其中与每个(客户类型、操作)组合相关的资源消耗分布是未知的,但是是一致的并且可以随着时间的推移而学习。 此外,随着时间的推移到达的客户类型的顺序是任意的并且完全未知。 通过明智地协同文献中的两个算法框架,我们在模型不确定性和客户异质性下都实现了接近最优:库存平衡,为稍后可能到达的高回报客户类型“保留”每种资源的一部分; 和在线学习,展示了如何“探索”每个客户类型在不同行为下的资源消耗分布。我们定义了一个辅助问题,允许现有的竞争比率和后悔边界无缝集成。此外,我们表明我们的框架生成的性能保证是严格的,使用具有未知匹配概率的在线二分匹配问题的特殊情况。最后,我们使用公开可用的酒店数据集证明了我们的框架生成的算法的实用性和有效性。