基本信息
- 原书名:Reinforcement Learning: State-of-the-Art

编辑推荐
适读人群 :人工智能领域的研究者、高端技术人员、研究生、学者
1.本书由17位不同领域的专家对强化学习进行了深入而完整的描述,涉及基础理论到高效解决方案框架的各个方面,反映了强化学习主要子领域的研究进展。 2.本书涵盖经典强化学习的完整内容,甚至包括作为深度强化学习萌芽的重要成果DFQ。对于想在强化学习领域进行创新研究的学者而言,本书有助于了解强化学习的发展历史和重要成果,进而找到更有价值的研究课题。 3.本书组织精巧,内容安排呈递增性,同时又保持各部分的相对独立,方便读者根据自己的兴趣研读相关章节。 4.本书坚持围绕前沿性和开放性问题,作者在大胆发表自己的真知灼见的同时,不忘客观地反思当前的不足,便于读者辩证地了解领域的发展,跟上领域发展的脚步。
内容简介
作译者
目录
序言
前言
作者清单
第一部分 绪论
第1章 强化学习和马尔可夫决策过程 2
1.1 简介 2
1.2 时序决策 3
1.2.1 接近时序决策 4
1.2.2 在线学习与离线学习 4
1.2.3 贡献分配 5
1.2.4 探索–运用的平衡 5
1.2.5 反馈、目标和性能 5
1.2.6 表达 6
1.3 正式的框架 6
1.3.1 马尔可夫决策过程 7
1.3.2 策略 9
1.3.3 最优准则和减量 9
1.4 价值函数和贝尔曼方程 10
1.5 求解马尔可夫决策过程 12
译者序
强化学习是机器学习中与监督学习以及无监督学习平行的一种类型,它是(自主)智能体完成与外界环境交互任务的重要手段,通过最大化奖励函数的学习方法获取从环境状态到行为的映射函数。强化学习成为一个独立研究分支已有超过50年的历史,而20世纪80年代提出的马尔可夫决策过程(Markov Decision Process,MDP)构成了现代强化学习的基本描述框架。之后强化学习在理论、算法、应用上取得了长足的发展。对于真正想要在强化学习领域进行创新研究的学者而言,需要扎扎实实地研读强化学习方面的经典书籍和
文献。
本书的编著者开篇就提出了目标:写一本值得向同学、同事及领域研究者推荐的讨论强化学习最新技术的好书。本书的特色鲜明,值得一读。第一是主题新颖。本书主要聚焦于发生在2000年到2012年间的最新发展。我们可以从第二~四部分看到发生在强化学习领域的最新动向和最新技术。撰写本书的作者以年轻学者为主,这也从一个侧面印证了本书的新颖度。第二是体例完整、涵盖的研究领域广泛。本书包含19章,其中第1章对强化学习的基本算法和框架做了全面的介绍,之后的17章对常规解决框架、构建性问题表示、概率建模手段以及经典应用领域进行详细评述,而最后一章则纵览全书进行讨论和发散。第三是组织精巧。内容从前到后具有一定的递增性,但又保持了各部分的相对独立性,方便读者根据兴趣选读相应篇章。最后,本书时刻围绕前沿性和开放性问题。作者在大胆发表自己的真知烁见的同时,不忘客观地审视当前的不足。这是本书不同于市面上很多书籍的重要特质。所以本书可以让你迅速跟上强化学习的发展现状。
本书的翻译工作由中国科学院计算机网络信息中心的赵地研究员发起并组建翻译团队。其中赵地研究员负责第1、2和8章的翻译工作,中国科学院大学的刘莹教授负责前言、第3~7章和第12章的翻译任务,清华大学的邓仰东教授承担第9~11章的翻译工作,湘潭大学的欧阳建权教授主持第13~16章的翻译,最后第17~19章的翻译由哈尔滨工业大学的苏统华教授完成。除了每章的负责人,还有很多研究生参与了部分翻译工作,特此向他们表示感谢。
本书几乎涵盖了经典强化学习的全部内容,甚至包括作为深度强化学习萌芽的重要成果DFQ。但毕竟因时间问题未能及时顾及最近几年才发展出来的更多深度强化学习技术。我们的翻译团队也期待能在未来再次合作,推出围绕深度强化学习的专著。
由于本书涉及的广度和深度较大,加上译者水平有限,译文中难免存在一些问题,真诚地希望读者朋友们批评指正。
最后要向机械工业出版社的朱劼编辑和唐晓琳编辑表示深深的谢意,她们在流程管理和文字编辑上提供的帮助对于本书的顺利出版至关重要。
2018年4月
前言
我们编写这本书的目的就是给这个问题提供一个答案。
一本关于强化学习的书
10年前上面的问题是很容易回答的,在那个时候,有两本时兴的权威书籍。一本是由Rich Sutton和Andy Barto在1998年编写的优秀的强化学习导论书籍。这本书从人工智能的角度出发,采用教科书式的写作风格,一直被广泛使用(截至目前引用了一万次)。另一本是1996年由Dimitri Bertsekas和John Tsitsiklis撰写的《神经动力学编程》(neuro-dynamic programming)。这本书从运筹学的角度出发,以精确的数学方法讲述了动态规划和强化学习,特别强调了求近似解的体系结构。其中Sutton和Barto总是最大化回报,谈及价值函数、回报,并偏向于使用π增加的字母表中的{V, Q, S, A, T, R}部分;而Bertsekas和 Tsitsiklis谈及代价函数(cost-to-go-functions),总是最小化成本,并且使用希腊符号μ增加的字母表中的{J, G, I, U}部分。尽管它们有着表面(符号)差异、不同的写作风格和背景,可能这些书的读者也不同,但这两本书都试图对这个令人兴奋的新研究领域进行全面介绍,并成功地做到了这一点。当时运筹学和人工智能方法在行为优化方面的深入合并仍然在进行,这种交叉产生了丰硕的成果。最近,虽然已引入了Q学习和TD学习等强大的思想和算法,但仍有很多未知有待探索。
例如,算法和函数逼近器的组合的收敛问题出现了。包括算法收敛性、保证性能所需的样本数量以及强化学习技术在更大的智能体系结构中的适用性等许多理论和实验问题都没有得到解答。事实上,出现了许多新的问题并导致了越来越多的研究问题,这些都有待聪明的、年轻的博士生们来回答。尽管Sutton和Barto、Bertsekas和Tsitsiklis都很擅长介绍这个领域,并充分地描述了它的基本方法论和问题,但是,这个领域变得如此之大,需要新的教科书来记录所有新的研究进展。所以,这本书就是尝试填补这个空白的。
这是第一本介绍强化学习各主要子领域研究进展的书。但是,我们也提到其他一些有趣的介绍或描述各种强化学习主题的书籍。这些书包括Leslie Kaelbling于1996年编辑的合集和Puterman编著的马尔可夫决策过程手册的新版本。其他几本书涉及近似动态规划的相关概念。最近,又出现了一些关于马尔可夫决策过程、强化学习、函数逼近和强化学习的关系型知识表示的书籍。针对那些对强化学习课程感兴趣的人员,上述书只是强化学习相关著作的一部分。
强化学习:一个逐渐成熟的领域
在过去的15年中,强化学习领域发展迅猛。然而最近的书中并没有反映出这段时间的最新研究,而是更多地关注丰富的、坚实的理论研究,提升算法的适用性、向上扩展性、与(概率)人工智能的结合,以及大脑理论和一般的适应性系统的联系。现代强化学习的创始人之一Richard Sutton,在1999年提出了强化学习发展的三个不同部分:过去、现在和未来。
过去的强化学习指的是1985年以前,在这个阶段,试错学习(trial-and-error learning)的思想得到了发展。这个时期强调使用积极探索的学习器(agent,也称智能体),并开发了利用标量回报信号来指定学习器目标的关键思想,称为回报假说。这些方法通常只学习策略,一般不能有效地处理延迟回报。
现在的强化学习指的是价值函数形成的时期。价值函数是强化学习的核心,几乎所有的方法都集中在价值函数的逼近上,以便计算(最优)策略。价值函数假说认为价值函数的逼近是智能化的主要目的。
目前,我们正处于强化学习的未来阶段。Sutton对这个时期的方向做出了预测,并写道:“正如现在强化学习离开回报的最终目标向价值函数迈了一步,未来的强化学习可能会进一步把重点放在研究能够对价值函数进行估计的结构上……在心理学中,积极创造世界的表征的开发思维的方法称为建构主义。我预计在未来几十年中,强化学习将集中在建构主义上。”事实上,正如我们在本书中所看到的那样,这一领域的许多新进展都与能够实现价值函数逼近的新结构有关。此外,许多进展都是关于这些新结构的性能及收敛的性质、能力和保证的。贝叶斯框架、高效线性逼近、关系型知识表示以及分层和多学习器性质的分解都构成了当今强化学习方法中所采用的新结构。
目前强化学习是一个已经确立的研究领域,通常归于机器学习。然而,由于其专注于行为学习,它与心理学、运筹学、数学优化等其他领域有着许多联系。在人工智能领域,它与概率论和决策论规划有很大的重叠,因为它与规划社区(例如国际自动规划系统会议(ICAPS))有许多共同的目标。在最新的国际规划竞赛(IPC)中,源于强化学习文献的方法已经参赛,并且在概率规划问题和最近的“学习规划”(learning for planning)方面都有着非常好的表现。
强化学习的研究在人工智能的广泛领域中几乎随处可见,因为它既是行为优化的一般方法,也是一套计算工具。现在所有主要的人工智能期刊都发表关于强化学习的文章,并且已经持续很长时间了。强化学习的应用领域从机器人、电脑游戏到网络路由和自然语言对话系统,强化学习论文也出现在跟这些主题相关的论坛上。大量的论文每年(或每两年)出现在人工智能领域的顶级会议上(如IJCAI、ECAI和AAAI),还有许多统计机器学习领域的顶级会议上(如UAI、ICML、ECML和NIPS)。此外,关于人工生命(Alife)、自适应行为(SAB)、机器人(ICRA、IROS、RSS)、神经网络和进化计算(如IJCNN和ICANN)的会议也有强化学习的研究工作。最后但同样重要的一点是,在过去的10年中,所有主要的人工智能会议都出现了许多专业化的强化学习研讨会和教程。
尽管强化学习已经为其他许多领域做出了巨大贡献,并且强化学习的论文无处不在,但强化学习领域的现状使得它很自然地在强化学习方法的某个特定焦点上形成论坛。欧洲强化学习研讨会(EWRL)已经逐渐成为这样一个论坛,每隔一年就会有一次相当大的发展,2008年在南锡举办并在2011年与ECML一起举办。此外,IEEE自适应动态规划与强化学习(ADPRL)研讨会也成为研究人员展示和讨论其最新研究成果的一个会议。EWRL和ADPRL一起表明,这一领域已经有了很大的进展,需要有自己的社区和事件。
在强化学习的实践方面以及更重要的是在基准、评估和比较方面也有了很多进展。除了规划比赛(例如IPC)之外,一些强化学习比赛也已成功举办。参赛者不仅在几个经典领域进行竞赛(例如平衡杆),而且在电脑游戏“俄罗斯方块”和“超级马里奥”等新兴领域进行竞赛。这些比赛可以促进代码共享和重用,建立该领域的基准,并用于评估和比较具有挑战性的领域中的算法。另一个代码和解决方案重用的倡导者是RL-Glue框架,它提供了一个抽象的强化学习框架,用于在研究人员之间共享方法。RL-Glue适用于大多数常用的编程语言,从而为实验提供了系统和语言独立的软件框架。比赛和RL-Glue促进了强化学习领域的成熟,使得可以应用更好的科学方法来测试、比较和重用强化学习方法。
本书的目的和目标读者
如前所述,我们试图让本书回答这个问题:“你会推荐什么样的书来学习目前的强化学习?”每个可能提出这个问题的人都是本书的潜在读者,这包括博士和硕士生、强化学习的研究人员,以及其他任何想了解强化学习领域的研究人员。书中关于当前强化学习主要研究领域的文献为研究人员提供了一个很好的起点去继续拓展该领域,把强化学习应用到新问题,并将主要的行为学习技术引入到他们自己的智能系统和机器人中。
当我们开始编著本书时,我们首先创建了一个长长的主题列表,并对它们进行了分组,最后选出了近20个比较大的强化学习子领域,这些子领域在过去10年里发布了许多新成果。这些子领域不仅包括比较成熟的子领域(如演进强化学习),还包括更新的主题(如关系型知识表示方法、贝叶斯学习和规划框架)。此外,我们还专门用了一章来介绍分层方法,形成了第一个子领域——它是在前面提到的两本书之后出现的,因此当时没有讨论。
本书的理念是让所有的作者反映这个领域青春和活跃的本质。为此,我们主要选择并邀请了刚开始工作的年轻研究人员。他们中的许多人最近刚获得博士学位,这就确保了他们在自己的强化学习子领域是活跃的专家,并对这个子领域充满了想法和热情。而且,这也给了他们一个在更大的研究领域内推广其子领域研究成果的好机会。此外,我们还邀请了几位经验丰富的研究人员,他们在强化学习的几个子领域取得了先进的研究成果。这一切使得关于这个主题的不同观点得到了很好的结合。正如我们所希望的那样,提交的内容初稿质量非常高。为了有一套确保高质量内容的完整程序,编辑组成员连同一批专家作为审稿人,对每章进行了至少三次审核。成书内容得到了进一步的改进,而且使书中包含了每个子领域的大量的参考文献。
本书的最终版本包含19章,其中第1章包含强化学习的基础知识、动态规划、马尔可夫决策过程和基础的算法(如Q学习和值迭代)。最后一章回顾了书中的内容,讨论了遗漏的东西,并指出了进一步研究的方向。另外,这一章还包含个人对这个领域的思考和预测。构成本书核心的17章中,每一章都是自成一体的,包含对强化学习子领域的介绍和概述。下面我们将会给出本书结构及各章的概要。本书共有30位作者,他们分别来自于不同的机构和不同的国家。
序言
本人在这个领域已经工作了很长时间,这些文章的作者有两个突出的特点。第一,他们都很年轻。其中16篇文章的第一作者都是在过去7年内获得博士学位的(有些仍然是学生)。这无疑是一个非常好的信号,说明这个领域正在重生并十分具有活力。第二,三分之二的作者来自欧洲。部分原因是由于本书的编辑来自欧洲,这似乎也反映出强化学习研究的重心正在东移,从北美洲移到了欧洲。
Richard S. Sutton
2011年10月