文件名称:未知信息到达过程的自适应序列实验-研究论文
文件大小:5.38MB
文件格式:PDF
更新时间:2024-06-29 14:29:42
sequential decisions data-driven
顺序实验的特征通常是由多臂* (MAB) 框架捕获的探索-利用权衡。 该框架已被研究和应用,通常是在每个时间段仅收到有关在该时间段选择的操作的反馈。 但是,在许多实际设置中,可能会在决策时期之间提供额外的数据。 我们引入了一个广义的 MAB 公式,它考虑了一类广泛的分布,这些分布提供了关于平均奖励的信息,并允许来自这些分布的观察结果根据任意和先验未知的到达过程到达。 当知道如何将辅助数据映射到奖励估计时,通过获得匹配的下限和上限,我们将此类问题的极小极大复杂度谱表征为信息到达过程的函数,它捕捉了该过程的显着特征如何影响可达到的性能。 在实现最佳性能方面,我们确定上置信界和后验采样策略在没有任何调整的情况下对信息到达过程具有自然的鲁棒性,这揭示了这些流行策略的新特性,并进一步证明了它们的吸引力。 当连接辅助数据和奖励的映射是先验未知时,我们描述了辅助信息允许性能改进的充分必要条件。 我们设计了一种基于两个不同置信上限的新策略(一个考虑辅助观察,一个不考虑)并建立该策略的近乎最优性。 我们使用来自大型媒体网站的数据,通过利用辅助数据设计内容推荐来分析在实践中可能捕获的价值。