一、Agent基本定义
基于理性行为的Agent是本书人工智能方法的核心。Agent由传感器、执行器两个重要元件组成,具有与环境交互的能力,其能力是通过分析感知序列,经过Agent函数映射到相应的行动。
二、评价Agent行为
理性Agent:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。
要素:①性能度量②先验知识③行动④已有的感知序列
收集信息->学习->行动
三、任务环境
1. 定义
理性Agent面对的问题可用PEAS描述:
(1)Performance性能
(2)Environment环境
(3)Actuators执行器
(4)Sensors传感器
2. 性质
(1)完全可观察与部分可观察
(2)单Agent与多Agent
(3)确定的与随机的
(4)片段式的与延续式的
(5)静态的与动态的
(6)离散的与连续的
(7)已知的与未知的
四、Agent的结构
Agent = 体系结构(物理传感器和执行器) + 程序(感知信息映射到行动的Agent函数)
仅仅用表产生Agent函数映射是不可行的,因为表中的数据非常多,使得表庞大到在这个世界中不可能实现。
1. 简单反射Agent
基于当前的感知选择行动,不关注感知历史。
条件-行为规则
只考虑当前状态,和此状态对应的行动。
简洁,但智能有限。要求环境完全可观察。
2. 基于模型的反射Agent
处理部分可观测环境:跟踪记录现在看不到的那部分世界。
世界模型:①世界如何独立于Agent而发展的信息;②Agent自身的行动如何影响世界的信息。
需要记住历史感知信息。
3. 基于目标的Agent
需要目标信息来描述想要达到的状况。
虽然显得效率较低,但更灵活。因为支持它决策的知识被显示表现出来,且可以修改。
4. 基于效用的Agent
Agent的效用函数是性能度量的内在化。实际实现时因为计算复杂性而不可能完美达成。
以上4种应该是不断递进、改进的方式。
五、学习Agent
4个组件:
1. 学习元件
负责改进提高,利用来自评判元件的反馈评价Agent做得如何,并确定应该如何修改性能元件以便将来做得更好。
2. 性能元件
接受感知信息并决策。
3. 评判元件
根据固定的性能标准告诉学习元件Agent的运转情况。
4. 问题产生器
建议探索性行动,负责可以得到新的和有信息的经验的行动建议。
六、Agent的工作逻辑
1. 原子表示
没有内部结构的表示。
相关内容:搜索、博弈论、隐马尔可夫模型、马尔可夫决策过程。
2. 要素化表示
一个状态中包含多个要素(原子),即多个变量和特征的集合。
相关内容:约束满足算法、命题逻辑、规划、Bayesian网、机器学习算法。
3. 结构化表示
一个状态包含对象、每个对象可能有自身的特征值,以及与其他对象的关系。
相关内容:关系数据库、一阶逻辑、一阶概率模型、基于知识的学习、自然语言理解。
从1到3的表达能力是增长的。