第四章计算智能(1)
教学内容:本章讨论计算智能所涉及的领域和范围,计算智能的含义及它与传统的人工智能的区别。介绍人工神经网络的由来、特性、结构、模型和算法;神经网络的表示和推理。简要地介绍模糊数学的基本概念、运算法则、模糊逻辑推理和模糊判决等。
教学重点:计算智能;人工神经网络的结构、模型和算法,以及表示和推理。
教学难点:人工神经网络的结构、算法和推理;模糊数学的运算法则和模糊逻辑推理。
教学方法:课堂教学为主。适当提问,加深学生对概念的理解。
教学要求:通过对本章的学习,使学生掌握人工神经网络的结构、模型和算法,了解计算智能所涉及的领域和范围,了解人工神经网络的特性、表示和推理,了解模糊数学的基本概念、运算法则、模糊逻辑推理和模糊判决等。
4.1概述
教学内容:本节介绍计算智能所涉及的领域和范围,计算智能的含义及其与传统人工智能的区别。贝兹德克提出的“ABC”,及它与神经网络(NN)、模式识别(PR)和智能(I)之间的关系。
教学重点:计算智能的含义及其与传统的人工智能的区别。
教学难点:“ABC”及其与神经网络(NN)、模式识别(PR)和智能(I)之间的关系。
教学方法:课堂教学。
教学要求:掌握计算智能的含义,了解计算智能与传统的人工智能有何区别。了解贝兹德克提出的“ABC”及其与神经网络(NN)、模式识别(PR)和智能(I)之间的关系。
信息科学与生命科学的相互交叉、相互渗透和相互促进是现代科学技术发展的一个显著特点。
计算智能涉及神经网络、模糊逻辑、进化计算和人工生命等领域,它的研究和发展正是反映了当代科学技术多学科交叉与集成的重要发展趋势。
把神经网络(NN)归类于人工智能(AI)可能不大合适,而归类于计算智能(CI)更能说明问题实质。进化计算、人工生命和模糊逻辑系统的某些课题,也都归类于计算智能。
计算智能取决于制造者(manufacturers)提供的数值数据,不依赖于知识;另一方面,人工智能应用知识精品(knowledge tidbits)。人工神经网络应当称为计算神经网络。
第一个对计算智能的定义是由贝兹德克(Bezdek)于1992年提出的。
尽管计算智能与人工智能的界限并非十分明显,然而讨论它们的区别和关系是有益的。马克斯(Marks)在1993年提到计算智能与人工智能的区别,而贝兹德克则关心模式识别(PR与生物神经网络(BNN)、人工神经网络(ANN)和计算神经网络(CNN)的关系,以及模式识别与其它智能的关系。忽视ANN与CNN的差别可能导致对模式识别中神经网络模型的混淆、误解、误表示和误用。
提问:计算智能与人工智能的区别和关系如何。
贝兹德克对这些相关术语给予一定的符号和简要说明或定义。
他给出有趣的ABC:
A-Artificial,表示人工的(非生物的),即人造的
B-Biological,表示物理的+化学的+(??)=生物的
C-Computational,表示数学+计算机
图4.1表示ABC及其与神经网络(NN)、模式识别(PR)和智能(I)之间的关系。
图4.1 ABC的交通关系图
计算智能是一种智力方式的低层认知,它与人工智能的区别只是认知层次从中层下降至低层而已。中层系统含有知识(精品),低层系统则没有。
当一个系统只涉及数值(低层)数据,含有模式识别部分,不应用人工智能意义上的知识,而且能够呈现出:
(1)计算适应性;
(2)计算容错性;
(3)接近人的速度;
(4)误差率与人相近,
则该系统就是计算智能系统。
当一个智能计算系统以非数值方式加上知识(精品)值,即成为人工智能系统。
提问:计算智能的主要特征是什么?
4.2神经计算
教学内容:本节将介绍人工神经网络的由来、特性、结构、模型和算法;然后讨论神经网络的表示和推理。这些内容是神经网络的基础知识。神经计算是以神经网络为基础的计算。
教学重点:人工神经网络的结构、模型和算法;神经网络的表示和推理。
教学难点:人工神经网络的结构和算法及其表示和推理。
教学方法:课堂教学为主,并适当提问、收集学生学习情况。
教学要求:掌握人工神经网络的结构、模型和算法,了解人工神经网络的由来和特性,一般了解神经网络的表示和推理方法。
4.2.1 人工神经网络研究的进展
1960年威德罗和霍夫率先把神经网络用于自动控制研究。
60年代末期至80年代中期,神经网络控制与整个神经网络研究一样,处于低潮。
80年代后期以来,随着人工神经网络研究的复苏和发展,对神经网络控制的研究也十分活跃。这方面的研究进展主要在神经网络自适应控制和模糊神经网络控制及其在机器人控制中的应用上。
人工神经网络的特性:
(1)并行分布处理神经网络具有高度的并行结构和并行实现能力,因而能够有较好的耐故障能力和较快的总体处理能力。
(2)非线性映射神经网络具有固有的非线性特性,这源于其近似任意非线性映射(变换)能力。
(3)通过训练进行学习神经网络是通过所研究系统过去的数据记录进行训练的。一个经过适当训练的神经网络具有归纳全部数据的能力。
(4)适应与集成神经网络能够适应在线运行,并能同时进行定量和定性操作。神经网络的强适应和信息熔合能力使得网络过程可以同时输入大量不同的控制信号,解决输入信息间的互补和冗余问题,并实现信息集成和熔合处理。
(5)硬件实现神经网络不仅能够通过软件而且可借助软件实现并行处理。近年来,一些超大规模集成电路实现硬件已经问世,而且可从市场上购到。
4.2.2 人工神经网络的结构
神经网络的结构是由基本处理单元及其互连方法决定的。
图4.2所示神经元单元由多个输入,i=1,2,...,n和一个输出y组成。中间状态由输入信号的权和表示,而输出为:
图4.2神经元模型
式中,为神经元单元的偏置(阈值),为连接权系数(对于激发状态,取正值,对于抑制状态,取负值),n为输入信号数目,为神经元输出,t为时间,f(_)为输出变换函数,有时叫做激励函数,往往采用0和1二值函数或S形函数,见图4.3,这三种函数都是连续和非线性的。一种二值函数可由下式表示:
如图4.3(a)所示。一种常规的S形函数见图4.3(b),可由下式表示:
常用双曲正切函数(见图4.3(c))来取代常规S形函数,因为S形函数的输出均为正值,而双曲正切函数的输出值可为正或负。双曲正切函数如下式所示:
图4.3神经元中的某些变换(激励)函数
提问:神经网络有哪几种激励函数?
1、人工神经网络的基本特性和结构
人工神经网络由神经元模型构成;这种由许多神经元组成的信息处理网络具有并行分布结构。每个神经元具有单一输出,并且能够与其它神经元连接;存在许多(多重)输出连接方法,每种连接方法对应一个连接权系数。严格地说,人工神经网络是一种具有下列特性的有向图:
(1)对于每个节点i存在一个状态变量;
(2)从节点j至节点i,存在一个连接权系统数;
(3)对于每个节点i,存在一个阈值;
(4)对于每个节点i,定义一个变换函数;对于最一般的情况,此函数取形式。
人工神经网络的结构基本上分为两类:递归(反馈)网络和前馈网络。
(1)递归网络
在递归网络中,多个神经元互连以组织一个互连神经网络,如图4.4所示。有些神经元的输出被反馈至同层或前层神经元。因此,信号能够从正向和反向流通。Hopfield网络,Elmman网络和Jordan网络是递归网络有代表性的例子。递归网络又叫做反馈网络。
图4.4递归(反馈)网络 图4.5 前馈(多层)网络
图4.4中,表示节点的状态,为节点的输入(初始)值,为收敛后的输出值,i=1,2,...,n。
(2)前馈网络
前馈网络具有递阶分层结构,由一些同层神经元间不存在互连的层级组成。从输入层至输出层的信号通过单向连接流通;神经元从一层连接至下一层,不存在同层神经元间的连接,如图4.5所示。图中,实线指明实际信号流通而虚线表示反向传播。前馈网络的例子有多层感知器(MLP)、学习矢量量化(LVQ)网络、小脑模型联接控制(CMAC)网络和数据处理方法(GMDH)网络等。
2、人工神经网络的主要学习算法
神经网络主要通过指导式(有师)学习算法和非指导式(无师)学习算法。此外,还存在第三种学习算法,即强化学习算法;可把它看做有师学习的一种特例。
(1)有师学习
有师学习算法能够根据期望的和实际的网络输出(对应于给定输入)间的差来调整神经元间连接的强度或权。因此,有师学习需要有个老师或导师来提供期望或目标输出信号。有师学习算法的例子包括Delta规则、广义Delta规则或反向传播算法以及LVQ算法等。
(2)无师学习
无师学习算法不需要知道期望输出。在训练过程中,只要向神经网络提供输入模式,神经网络就能够自动地适应连接权,以便按相似特征把输入模式分组聚集。无师学习算法的例子包括Kohonen算法和Carpenter-Grossberg自适应谐振理论(ART)等。
(3)强化学习
如前所述,强化(增强)学习是有师学习的特例。它不需要老师给出目标输出。强化学习算法采用一个“评论员”来评价与给定输入相对应的神经网络输出的优度(质量因数)。强化学习算法的一个例子是遗传算法(GA)。
提问:神经网络主要有哪二类学习算法?
4.2.3 人工神经网络的典型模型
根据伊林沃思(W.T.Illingworth)提供的综合资料,最典型的ANN模型(算法)及其学习规则和应用领域如表4.2所列(见表4.2)。
4.2.4 基于神经网络的知识表示与推理
1、基于神经网络的知识表示
基于神经网络系统中知识的表示方法与传统人工智能系统中所用的方法(如产生式、框架、语义网络等)完全不同,传统人工智能系统中所用的方法是知识的显式表示,而神经网络中的知识表示是一种隐式的表示方法。在这里,知识并不像在产生式系统中那样独立地表示为每一条规则,而是将某一问题的若干知识在同一网络中表示。
例:对图4.6所示的异或逻辑的神经网络来说,其邻接矩阵为:
图4.6异或逻辑的神经网络表示
如果用产生式规则描述,则该网络代表下述四条规则:
IF x1=0 AND x2=0 THEN y=0
IF x1=0 AND x2=1 THEN y=1
IF x1=1 AND x2=0 THEN y=1
IF x1=1 AND x2=1 THEN y=0
提问:神经网络中的知识表示采用了什么样的表示方法?结合这个例子回答。
2、基于神经网络的推理
基于神经网络的推理是通过网络计算实现的。把用户提供的初始证据用作网络的输入,通过网络计算最终得到输出结果。
一般来说网络推理有正向网络推理,其步骤如下:
(1)把已知数据输入网络输入层的各个节点。
(2)利用特性函数分别计算网络中各层的输出。计算中,前一层的输出作为后一层有关节点的输入,逐层进行计算,直至计算出输出层的输出值。
(3)用阈值函数对输出层的输出进行判定,从而得到输出结果。
4.3 模糊计算
教学内容:本节简要地介绍模糊数学的基本概念、运算法则、模糊逻辑推理和模糊判决等。这些内容构成模糊逻辑的基础知识。模糊计算就是以模糊逻辑为基础的计算。
教学重点:模糊数学的模糊逻辑推理和模糊判决。
教学难点:模糊数学的运算法则和模糊逻辑推理。
教学方法:课堂教学为主,注意结合例子进行讲解。
教学要求:掌握模糊数学的基本概念、运算法则、模糊逻辑推理方法。
4.3.1 模糊集合、模糊逻辑及其运算
首先,让我们介绍模糊集合与模糊逻辑的若干定义。
设U为某些对象的集合,称为论域,可以是连续的或离散的;u表示U的元素,记作U={u}。
定义4.1模糊集合(fuzzy sets)论域U到[0,1]区间的任一映射,即,都确定U的一个模糊子集F;称为F的隶属函数(membership function)或隶属度(grade of membership)。在论域U中,可把模糊子集表示为元素u与其隶属函数的序偶集合,记为:
(4.7)
定义4.2模糊支集、交叉点及模糊单点如果模糊集是论域U中所有满足的元素u构成的集合,则称该集合为模糊集F的支集。当u满足,则称此模糊集为模糊单点。
定义4.3模糊集的运算 设A和B为论域U中的两个模糊集,其隶属函数分别为和,则对于所有,存在下列运算:
(1) A与B的并(逻辑或)记为,其隶属函数定义为:
(2)A与B的交(逻辑与)记为,其隶属函数定义为:
(3)A的补(逻辑非)记为,其传递函数定义为:
定义4.4直积(笛卡儿乘积,代数积)若分别为论域中的模糊集合,则这些集合的直积是乘积空间中一个模糊集合,其隶属函数为:
定义4.5模糊关系 若U,V是两个非空模糊集合,则其直积U×V中的一个模糊子集R称为从U到V的模糊关系,可表示为:
定义4.6复合关系 若R和S分别为U×V和V×W中的模糊关系,则R和S的复合是一个从U到W的模糊关系,记为:
其隶属函数为:
式(4.15)中的 *号可为三角范式内的任意一种算子,包括模糊交、代数积、有界积和直积等。
定义4.7正态模糊集、凸模糊集和模糊数
以实数R为论域的模糊集F,若其隶属函数满足
则F为正态模糊集;若对于任意实数x,a<x<b,有
则F为凸模糊集;若F既是正态的又是凸的,则称F为一模糊数。
定义4.8语言变量 一个语言变量可定义为多元组。其中,x为变量名;为x的词集,即语言值名称的集合;U为论域;G是产生语言值名称的语法规则;M是与各语言值含义有关的语法规则。
讨论:隶属函数也是函数,它与通常的实函数有什么区别?
4.3.2 模糊逻辑推理
模糊逻辑推理是建立在模糊逻辑基础上的,它是一种不确定性推理方法,已经提出了Zadeh法,Baldwin法、Tsukamoto法、Yager法和Mizumoto法等方法,在此仅介绍Zadeh的推理方法。
在模糊逻辑和近似推理中,有两种重要的模糊推理规则,即广义取式(肯定前提)假言推理法(GMP, Generalized Modus Ponens)和广义拒式(否定结论)假言推理法(GMT, Generalized Modus Tollens),分别简称为广义前向推理法和广义后向推理法。
GMP推理规则可表示为:
前提1:x为A’
前提2:若x为A,则y为B
结 论:y为B’
GMT推理规则可表示为:
前提1:y为B
前提2:若x为A,则y为B
结 论:x为A’
上述两式中的A、A’、B和B’为模糊集合,x和y为语言变量。
4.3.3 模糊判决方法
在推理得到的模糊集合中取一个相对最能代表这个模糊集合的单值的过程就称作解模糊或模糊判决(Defuzzification)。模糊判决可以采用不同的方法:重心法、最大隶属度方法、加权平均法、隶属度限幅元素平均法。
下面介绍各种模糊判决方法,并以“水温适中”为例,说明不同方法的计算过程。
1、重心法
所谓重心法就是取模糊隶属函数曲线与横坐标轴围成面积的重心作为代表点。理论上应该计算输出范围内一系列连续点的重心,即
但实际上是计算输出范围内整个采样点(即若干离散值)的重心。这样,在不花太多时间的情况下,用足够小的取样间隔来提供所需要的精度,这是一种最好的折衷方案。
(举例说明)
2、最大隶属度法
这种方法最简单,只要在推理结论的模糊集合中取隶属度最大的那个元素作为输出量即可。不过,要求这种情况下其隶属函数曲线一定是正规凸模糊集合(即其曲线只能是单峰曲线)。如果该曲线是梯形平顶的,那么具有最大隶属度的元素就可能不止一个,这时就要对所有取最大隶属度的元素求其平均值。
举例:对于“水温适中”,按最大隶属度原则,有两个元素40和50具有最大隶属度1.0,那就要对所有取最大隶属度的元素40和50求平均值,执行量应取:
3、系数加权平均法
系数加权平均法的输出执行量由下式决定:
式中,系数的选择要根据实际情况而定,不同的系统就决定系统有不同的响应特性。当该系数选择时,即取其隶属函数时,这就是重心法。在模糊逻辑控制中,可以通过选择和调整该系数来改善系统的响应特性。
提问:系数加权平均法优点是什么?
4、隶属度限幅元素平均法
用所确定的隶属度值α对隶属度函数曲线进行切割,再对切割后等于该隶属度的所有元素进行平均,用这个平均值作为输出执行量,这种方法就称为隶属度限幅元素平均法。
4.4 小结
from: http://netclass.csu.edu.cn/jpkc2003/rengongzhineng/rengongzhineng/jiaoan/chapter4.htm