文件名称:模糊部分可观察马尔可夫决策过程:结构结果和应用-研究论文
文件大小:1.46MB
文件格式:PDF
更新时间:2024-06-29 13:46:42
论文研究
马尔可夫决策过程 (MDP) 已被广泛用作动态决策中的宝贵工具,这是在微观和宏观层面上运作的经济主体的核心关注点。 决策者关于国家的信息常常是不完整的; 因此,泛化到部分可观察的 MDP(POMDP)。 不幸的是,POMDP 可能需要很大的状态和/或动作空间,从而造成众所周知的“维度诅咒”。 然而,最近的计算贡献和超快的计算机帮助消除了这种诅咒。 本文介绍并解决了称为“歧义诅咒”的第二个诅咒,它指的是这样一个事实,即准确的转移概率通常难以量化,而且相当模糊。 例如,对于一个关注动态设定通货膨胀率以控制失业率的货币当局来说,在任何给定的通货膨胀率下失业率的动态往往是不明确的。 同样,在工人-工作匹配中,工人-工作匹配/熟练程度的动态通常是不明确的。 本文通过开发称为模糊 POMDP (APOMDP) 的 POMDP 的泛化来解决“歧义诅咒”,它不仅允许决策者考虑不完美的状态信息,而且还解决了正确概率模型方面不可避免的歧义的过渡。 重要的是,本文将各种结构结果从 POMDPs 扩展到 APOMDPs。 这些结果使决策者能够做出稳健的决策。 鲁棒性是通过使用 a-maximin 期望效用 (a-MEU) 实现的,它 (a) 区分歧义和歧义态度,(b) 避免了传统 maximin 方法的过度保守,以及 (c) 被发现适用于实验室各种选择行为的实验,包括投资组合选择。 提供的结构结果也有助于处理“维度灾难”,因为它们显着简化了对最佳策略的搜索。 该分析通过开发由于模型歧义导致的最大奖励损失的界限,为所提出的方法确定了性能保证。