在写这本经典书籍第3版的时候,我遵循了本书第1版的基本原则:写一本关于神经网络的全面的、彻底的、可读性很强的、最新的论述。
新版本更名为《神经网络与机器学习》,主要是为了反映以下两个事实:
1.感知器、多层感知器、自组织映射及神经动力学,以及其他一些通常被看成是神经网络一部分的主题,这些内容源自人类大脑所激发的灵感。
2.核方法,例如支持向量机和核主分量分析,这些内容源自统计学习理论。
虽然这两者之间的确有一些共同的基本概念和应用,但是在神经网络和机器学习的具体操作上存在一些微妙的差别。因而,如果将这两者放在同一个体系下共同研究,一些潜在的主题会变得更丰富,特别体现在以下方面:
将神经网络和机器学习的思想综合起来以完成更难的学习任务。这些学习任务往往是神经网络或者机器学习自身所无法解决的。
源自人类大脑的灵感往往会引起新的特别重要的新发现。
除此之外,本书的范围也有所扩大,提供了详细的动态规划和逐次状态估计,这两者各自都能够在一些重要方面影响强化学习和监督学习。
本书的组织
本书从导言部分开始,导言主要讲述了编写本书的动机,可作为后续章节的阅读基础。本书包括以下6个部分:
1.第1~4章构成了本书的第一部分,主要介绍监督学习的一些经典方法。具体介绍如下:
第1章描述Rosenblatt感知器,重点介绍感知器收敛定理,以及在高斯环境下感知器和贝叶斯分类器的关系。
第2章讲述作为模型建立基础的最小二乘法,建立了在特定的高斯环境下这一方法和贝叶斯推理之间的关系。这一章还讨论了用于模式选择的最小描述长度(MDL)算法。
第3章讲述最小均方(LMS)算法及其收敛分析。其理论框架的分析揭示出两个原理:Kushner直接法和朗之万(Langevin)方程(在非平衡态热力学中很著名)。
这三章通过对不同概念的介绍揭示了其共同特点:它们都是基于一个计算单元。更为重要的是,它们从各自的角度深入、细致地讨论了学习过程的深层知识——这一特征将在后续章节中进一步探讨。
第4章是关于多层感知器的,是Rosenblatt感知器的广义版本。这一相对比较长的章节包含如下主题:
反向传播算法、其优点和局限性,以及将其作为一个最优化方法来计算偏导数。
学习率的最优退火和自适应控制。
交叉验证。
卷积网络,来自于Hubel和Wiesel在视觉系统方面的开拓性研究。
. 将监督学习视为最优化问题,集中讨论共轭梯度法、拟牛顿法以及Marquardt-Levenberg算法。
非线性滤波。
VIVII最后,对于小规模和大规模学习问题作了对比。
2.第二部分包括第5章和第6章,讨论了基于径向基函数(RBF)网络的核方法。
从某种意义上来说,第5章可以看做是对核方法的深入介绍。具体来说,这一章包括如下几个方面。
介绍Cover定理来作为对RBF网络的构造结构的理论证明。
描述相对简单的用于监督学习的两阶段混合过程,第一阶段基于聚类思想(即K-均值算法)来计算隐藏层,第二阶段利用LMS或者最小二乘法来计算网络的线性输出层。
介绍核回归及其与RBF网络的关系。
第6章介绍支持向量机(SVM),通常这一方法被认为是一种监督学习方法。本质上SVM是一个两类分类器,本章中将包括如下几个主题:
定义在一对线性可分的两类之间最大分离边缘的条件。
当两个类是线性可分或者不可分时用来寻找最优超平面的二次最优化。
将SVM视为核机器,包含关于核欺骗和Mercer定理的讨论。
SVM的设计原理。
ε-不敏感损失函数及其在回归问题最优化中的作用。
表示定理及希尔伯特空间构想和再生核希尔伯特空间构想(RKHS)的作用。
根据以上描述,很明显支持向量机的基本理论是建立在很强的数学背景之上的,因而SVM可以作为监督学习的一个具有强大计算能力的、一流的工具。
3.本书第三部分只有一章——第7章。这一章介绍作为机器学习核心的正则化理论。本章将详细探讨如下几个主题:
建立在第6章讨论过的RKHS基础之上的Tikhonov经典正则化理论。这一理论隐含了一些深奥的数学概念:Tikhonov泛函的Fréchet微分、Riesz表示定理、Euler-Lagrange方程、Green函数,以及多变量高斯函数。
广义RBF网络及其计算精确性的修正。
正则最小二乘估计,根据表示定理的再讨论。
正则化参数估计,利用Wahba的广义交叉验证概念。
半监督学习,利用有标签和无标签样本。
可微流形及其在流形正则化中的作用——设计半监督学习机的基础。
寻找用于半监督学习的RBF网络中高斯核函数的光谱图理论。
处理半监督核机器的广义表示定理。
用于计算RBF网络线性输出层的拉普拉斯正则最小二乘(LapRLS)算法。这里需要说明的是,当内在正则化参数(对应于无标签数据)衰减为0的时候,算法相应地衰减为通常的最小二乘法。
这一高度理论化的章节具有非常实际的重要意义。首先,它提供了关于监督学习机的正则化基础。其次,它打下了设计正则化半监督学习机的基础。
4.第8~11章构成本书的第四部分,讨论非监督学习。从第8章开始介绍由神经生物学研究直接激发的自组织的四个原则。
1)自增强学习的Hebb假定。
2)单个神经元或者一组神经元的突触连接为了有限的资源而进行的竞争。
3)在胜利神经元及其邻居间的合作。
4)包含于输入数据中的结构信息(如冗余)。
这一章的主要主题包括三个方面:
原则1)、2)和4)应用于单个神经元,最大特征滤波的Oja规则来源于这些原则;通过自组织获得的结果是值得注意的,它包含了自底向上和自顶向下学习。其次,最大特征滤波思想被推广到主分量分析(PCA)中,用来对输入数据进行维数削减,其所得算法称为广义Hebb算法(GHA)。
本质上PCA是线性方法,因而其计算能力局限于二阶统计量。为了处理高阶统计量,核方法以类似于第6章支持向量机的相似方式应用于PCA,但是和SVM的根本上的不同在于,核PCA是非监督方式。
遗憾的是,在处理自然图像的时候,核PCA从计算的角度变得很难操控。为了克服这一计算局限性,把GHA和核PCA结合起来组成一个新的在线非监督学习算法,称为核Hebb算法(KHA),这一方法可以用于图像去噪。
KHA的产生是一个将机器学习的想法和来源于神经网络的补充想法结合起来的杰出例子,结合所产生的新算法克服了它们各自的实际局限性。
第9章介绍自组织映射(SOM),对自组织映射的开发遵从第8章介绍的自组织原则。从计算角度来说,自组织映射是一个简单的算法,而且具有内在的构造拓扑映射的强大能力,它包括如下一些有用的特性:
从空间上离散逼近输入空间,负责数据生成。
拓扑次序,在某种意义上神经元的空间位置在拓扑图上对应于输入空间中的特定特征。
输入输出密度匹配。
输入数据特征选择。
SOM在实际中被广泛应用,构造上下文映射和分层次矢量量化被作为SOM运算能力的两个有说服力的例子。事实上,令人惊异的是,尽管SOM展示了多个有趣的特性并且能够解决很难的计算任务,但它依然缺少一个能用来最优化的目标函数。为了填补这一缺口,以提供改进拓扑映射的可能性,自组织映射采用了核方法。这一改进是通过引入一个熵函数作为目标函数并且最大化这个函数来实现的。我们再次看到了将来自于神经网络的思想和补充的核理论思想结合所带来的实际好处。
第10章探讨如何将来自于香农(Shannon)信息论的原则作为工具来实现非监督学习。这一个相对较长的章节从回顾香农信息论开始,重点讨论了熵、互信息、相对熵(KLD)等概念。这一回顾也包括系词(copula)的概念,遗憾的是这一概念几十年来没有被注意到。更重要的是,系词提供了对一对相关随机变量之间统计相关性的测量。在任何事件中,集中于将互信息作为目标函数,这一章建立了如下原则:
最大互信息原则,最大化神经系统的输入和输出之间的互信息;最大互信息和冗余减少之间有着很紧密的关系。
Imax原则,最大化由相关输入驱动的神经系统对的单一输出之间的互信息。
Imin原则,以一种和Imax原则相似的方式操作,但这里是最小化输出随机变量对之间的互信息。
独立分量分析(ICA)原则,提供一种很强的工具用于盲分离来自统计独立源信号的隐藏集合。当满足一定的操作条件时,ICA原则将提供对源信号进行恢复的起源程序基础,用于恢复的信号来自于对源信号的线性混合变形的相应的观察集合。这里将介绍两个特别的ICA算法。
1)自然梯度学习算法,除了拉伸和排列之外,通过最小化参数概率密度函数和相应的阶乘分布之间的KLD来解决ICA问题。
2)最大熵学习算法,最大化反混合输出的非线性变换版本的熵;这一算法通常被认为是ICA的最大化信息算法,也表现出拉伸和排列性质。
第10章还描述了另一个称为快速ICA(FastICA)的重要的ICA算法,这一算法正如其名字那样,计算速度快。这一算法基于负熵的概念最大化对比函数,对比函数提供了对于随机变量的非高斯分布程度的测量。作为ICA的延续,本章继续描述了一种称为相关ICA的新算法,其开发是根据最大化信息和ImAx原则的融合并经由连接函数的运用来完成的;相关ICA在采集调幅信号的混合物的包迹时非常有用。最后,第10章介绍了另一个来自于香农信息论的称为速率失真理论的概念,这一理论被用来开发这一章的最后一个概念:信息瓶颈。给定关于输入向量和(有关的)输出向量的连接分布,这一方法通过如下方式被构造为约束最优化问题:在两个信息量之间做一个权衡,一个信息量是关于输入的瓶颈向量中包含的信息,另一个信息量是关于输出的瓶颈向量中所包含的信息。这一章将利用信息瓶颈法来寻找数据表达的最优流形。
第11章讲述非监督学习的最后途径,利用源自统计力学的随机方法来实现。统计力学的研究和信息论密切相关。这一章从回顾HelmHOltz自由能和熵概念(从统计力学意义上)开始,紧接着介绍马尔可夫链。然后介绍用于产生马尔可夫链的MetrOPOlIS算法,其转移概率将收敛到唯一的、稳定的分布。接下来以两个方面作为随机方法讨论的结束:一是用于全局最优化的模拟退火,二是Gibbs抽样,它可以作为MetrOPOlIS算法的特殊形式。有了手头这些统计力学的背景知识,就可以讲述Boltzmann机了,BOltzmann机从历史上来说是文献中讨论的第一个多层学习机器。遗憾的是,Boltzmann机的学习过程非常慢,特别是当隐藏神经元的数目很大的时候,因而其实用性是最主要的缺陷。人们提出了很多变种方法来克服Boltzmann机的缺点。其中到目前为止最成功的创新方法是深度信度网络,它明智地把下面的两个功能组合起来形成了一个高效的机器:
生成模型,无监督地一层一层自底向上学习所得结果。
推论,自顶向下学习所得结果。
最后,第11章讲述确定性退火来克服模拟退火极端的计算需求问题;确定性退火的问题在于其可能陷入局部极小点。
5.到目前为止,本书集中精力讲述了构造用于监督学习、半监督学习和非监督学习的算法。第12章,作为本书下一个部分,是关于强化学习的。强化学习以一种在线方式发生,作为智能体(如机器人)与其周围的环境相互作用的结果。实际上,动态规划是强化学习的核心。相应地,第15章的前面部分用来介绍Boltzmann动态规划方法,然后用来证明两个广泛使用的强化学习方法:时序差分学习(TD)和Q学习,这两种方法能通过作为动态规划的特例推导得出。TD学习和Q学习都是相对比较简单的在线强化学习算法,无需转移概率知识。然而,其实际应用局限于状态空间的维数处于中等程度的情况。在大规模动态系统中,维数灾难变得非常严重,使得不仅仅是动态规划,也包括其近似形式的TD学习和Q学习变得难以计算。为了克服这一严重的局限性,这一章描述了两个逼近动态规划的非直接方法:
线性方法,称为最小二乘策略评估(LSPV)算法。
非线性方法,利用神经网络(如多层感知器)作为通用逼近器。
6.本书最后一部分包括第13、14和15章,讨论非线性反馈系统,特别强调递归神经网络:
1)第13章研究神经动力学,对稳定性问题给予了特别的关注。这一章介绍了Lyapunov直接法,这个方法包含两个定理,一个用来处理系统稳定性,另一个用来处理渐近稳定性。这一方法的核心是Lyapunov函数,通常来说能量函数就能满足这一函数的要求。有了这样的背景知识,就可以引出两种联想记忆模型:
HOPFIEKD模型,这一模型的操作说明一个复杂的系统是能够产生简单的突现行为的。
盒中脑状态模型,它是聚类的基础。
第13章还讨论了混沌过程的特性及其动态重构的正则化过程。
2)第14章是关于贝叶斯滤波器的,贝叶斯滤波器至少从概念意义上提供了逐次状态估计算法的统一基础。这一章的发现总结为以下几点:
经典的线性高斯环境下的卡尔曼滤波器可以通过利用最小均方差准则来推导;在这一章最后的一个习题中,证明这样推导的卡尔曼滤波器是贝叶斯滤波器的特例。
平方根滤波用来克服卡尔曼滤波在实际应用中遇到的发散现象。
扩展卡尔曼滤波(EKF)用来解决动力系统中非线性属于软排序的情况;保持高斯假设。
以一个新的称为数值积分卡尔曼滤波器(CKF)的滤波器为例来证明贝叶斯滤波器的直接逼近形式。这里再次强调了保持高斯假设。
以粒子滤波器为例来证明贝叶斯滤波器的非直接逼近形式,粒子滤波器的实现能够调节非线性程度和非高斯程度。
卡尔曼滤波本质上是预测改正机制,第14章接着描述“类卡尔曼滤波”在人类大脑的一定区域的可能作用。
本书第15章研究动态驱动的递归神经网络。这一章的开始部分讨论不同的递归网络结构(模型)及其计算能力,紧接着介绍训练递归网络的两个算法:通过时间的反向传播和实时递归学习。
遗憾的是,这两个方法都是基于梯度的,容易遭遇所谓的消失梯度(vanishing-gradient)问题。为减轻这一问题,本书较详细地讨论了利用非线性逐次状态估计,采用全新的方式来对递归网络进行监督训练。这里,对于扩展卡尔曼滤波器(简单,但是导数依赖)以及数值积分卡尔曼滤波器(导数自由,但是数学上更加复杂)作为监督学习的逐次状态估计器的优缺点进行了讨论。此外,还讨论了对递归网络来说唯一的自适应行为的出现以及利用自适应技巧来增强递归网络性能的潜在好处。
在本书不同部分出现的一个重要的主题是,将监督学习和半监督学习应用于大规模问题。这包括本书评论中所指出的这一主题还处于发展的初期阶段;更重要的是,本书还为这一问题的未来发展描述了四阶段过程。
本书特色
本书完整、详尽地讨论了各个主题,除此之外,本书还有以下几个截然不同的特色:
1.第1~7章以及第10章包含计算机实验,涉及双月形态,为两类分类问题产生数据。实验涵盖了从简单的线性可分模式例子到困难的不可分模式例子。作为运行例子的双月形态,被用于第1~7章以及第10章,因而提供了一个用于研究和比较这8章中描述的算法的实验途径。
2.针对第8章的主分量分析、第9章的SOM和核SOM,以及第15章的利用EKF和CKF算法对Mackay-Glass吸引子进行动态重构等,也进行了计算机实验。
3.给出了几个利用现实数据进行研究的例子:
第7章讨论了利用拉普拉斯RLS算法对美国邮政服务(USPS)数据进行半监督学习。
第8章讨论了如何将PCA应用于手写数字数据,并描述了如何对图像进行编码和去噪。
X第10章利用稀疏传感编码和ICA对自然图像进行分析。
第13章利用正则RBF网络将动态重构应用于Lorenz吸引子。
第15章也包含了一节关于模型参照自适应控制系统的案例研究。
4.每一章的最后都有注释和参考文献用于进一步学习,每章末尾还提供了习题,用来练习并丰富读者的专业知识。
本书的“术语”表也进行了扩充,包含了用于处理矩阵分析和概率论问题的方法学解释。
5.本书所有图和表格的PowerPoint文件都可以提供给教师,可到华章网站(www.hzbook.com)下载。
我们尽了最大努力来使本书不犯错误,更重要的是,我们也尽力提高它的可读性。
Simon Haykin
于Ancaster,Ontario