人工智能2:智能Agent

时间:2023-01-26 23:22:02

一、Agent基本定义

  基于理性行为的Agent是本书人工智能方法的核心。Agent由传感器、执行器两个重要元件组成,具有与环境交互的能力,其能力是通过分析感知序列,经过Agent函数映射到相应的行动。

二、评价Agent行为

  理性Agent:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。

  要素:①性能度量②先验知识③行动④已有的感知序列

  收集信息->学习->行动

三、任务环境

1. 定义

  理性Agent面对的问题可用PEAS描述:

  (1)Performance性能

  (2)Environment环境

  (3)Actuators执行器

  (4)Sensors传感器

2. 性质

  (1)完全可观察与部分可观察

  (2)单Agent与多Agent

  (3)确定的与随机的

  (4)片段式的与延续式的

  (5)静态的与动态的

  (6)离散的与连续的

  (7)已知的与未知的

四、Agent的结构

  Agent = 体系结构(物理传感器和执行器) + 程序(感知信息映射到行动的Agent函数)

  仅仅用表产生Agent函数映射是不可行的,因为表中的数据非常多,使得表庞大到在这个世界中不可能实现。

1. 简单反射Agent

  基于当前的感知选择行动,不关注感知历史。

  条件-行为规则

  只考虑当前状态,和此状态对应的行动。

  简洁,但智能有限。要求环境完全可观察。

2. 基于模型的反射Agent

  处理部分可观测环境:跟踪记录现在看不到的那部分世界。

  世界模型:①世界如何独立于Agent而发展的信息;②Agent自身的行动如何影响世界的信息。

  需要记住历史感知信息。

3. 基于目标的Agent

  需要目标信息来描述想要达到的状况。

  虽然显得效率较低,但更灵活。因为支持它决策的知识被显示表现出来,且可以修改。

4. 基于效用的Agent

  Agent的效用函数是性能度量的内在化。实际实现时因为计算复杂性而不可能完美达成。

  以上4种应该是不断递进、改进的方式。

五、学习Agent

  4个组件:

1. 学习元件

  负责改进提高,利用来自评判元件的反馈评价Agent做得如何,并确定应该如何修改性能元件以便将来做得更好。

2. 性能元件

  接受感知信息并决策。

3. 评判元件

  根据固定的性能标准告诉学习元件Agent的运转情况。

4. 问题产生器

  建议探索性行动,负责可以得到新的和有信息的经验的行动建议。

六、Agent的工作逻辑

1. 原子表示

  没有内部结构的表示。

  相关内容:搜索、博弈论、隐马尔可夫模型、马尔可夫决策过程。

2. 要素化表示

  一个状态中包含多个要素(原子),即多个变量和特征的集合。

  相关内容:约束满足算法、命题逻辑、规划、Bayesian网、机器学习算法。

3. 结构化表示

  一个状态包含对象、每个对象可能有自身的特征值,以及与其他对象的关系。

  相关内容:关系数据库、一阶逻辑、一阶概率模型、基于知识的学习、自然语言理解。

  从1到3的表达能力是增长的。