深度强化学习:学术前沿与实战应用
基本信息
- 原书名:Deep Reinforcement Learning: Research Frontiers and Practical Applications

内容简介
作译者
目录
致谢
数学符号
第一篇 深度强化学习
第1章 深度强化学习基础 2
1.1 强化学习 2
1.1.1 强化学习的发展历史 2
1.1.2 强化学习简介 4
1.1.3 深度强化学习简介 6
1.2 马尔可夫属性和决策过程 9
1.2.1 马尔可夫属性 9
1.2.2 马尔可夫决策过程 11
1.3 强化学习核心概念 12
1.3.1 值函数 12
1.3.2 动态规划 14
1.3.3 时间(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning简介 18
前言
强化学习(Reinforcement Learning),又称再励学习、评价学习,是机器学习的一个重要分支,传统上主要用于解决与环境交互过程中的自主决策和自动控制问题,通过不断改善智能体自身的行为,学得最优的行动策略。广义上说,任何有“决策”的任务都可以使用强化学习方法,比如无人驾驶、机器人控制、游戏竞技等,但也不限于此,比如个性化推荐算法、网络传输等非控制领域也可以使用强化学习方法。近年来,最著名的强化学习应用当属AlphaGo围棋,其学得的策略所表现出的控制/决策能力已经达到甚至超过了人类顶级水平,其中使用了深度强化学习(Deep Reinforcement Learning)。深度强化学习是强化学习的重要发展,是指采用深度神经网络作为模型的强化学习方法。它的起源很早,但著名的案例是Google DeepMind在2013年NIPS研讨会上发表的DQN(Deep Q Network)方法,该方法在多款Atari游戏中取得了不俗的表现。之后,深度强化学习的发展便一发不可收拾,学术界和工业界均大力推动其发展。本书重点讲解深度强化学习近年来的重要进展及其典型应用场景。
本书共分为四篇,即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用,内容由浅入深、通俗易懂,涵盖近几年最经典、最前沿的技术进展。特别是书中详细介绍了每一种算法的代码原型实现,做到了理论与实践相结合,让读者学有所得、学有所用。
第一篇主要讲解深度强化学习基础,侧重于单智能体强化学习算法,相对简单,有助于初级读者理解。本篇包含第1~3章,从基础到算法,分类清晰。
第1章主要讲解强化学习的发展历史、基本概念及一些相关的基础知识,以帮助读者对强化学习有一个全面的了解和认知,也为本书后面的重点章节提供基础性的知识铺垫。
第2章侧重于讲解基于单智能体的深度强化学习算法,涵盖了DQN、DDPG、Rainbow等典型算法,以及最新的研究成果,如基于模型、基于分层的深度强化学习算法等。
第3章提供了一些分布式深度强化学习方法,以适应分布式计算的情况,有助于缩短模型的训练时间和进行大规模任务的计算。
第二篇主要侧重于对多智能体深度强化学习的讲解,承接上一篇的单智能体环境,本篇将问题复杂化,扩大到多智能体的情况。本篇包含第4章和第5章,从多智能体强化学习基本概念到相关算法的讲解、分析,以多个极具代表性的算法为例带领读者逐步学习多智能体训练和控制的理论与方法。此外,还为读者提供了当下多智能体强化学习领域最前沿的一些学术成果,紧跟发展潮流。
第4章主要讲解多智能体的基本概念及相关的背景知识,以帮助读者更好地进入多智能体世界。
第5章按类别讲解大量多智能体强化学习算法,从基于值函数的算法到基于策略的算法,再到基于AC框架的算法,应有尽有。本章囊括了当下大部分经典和前沿研究,让读者在掌握经典知识的同时也能够把握最新的发展方向。
第三篇再一次将问题复杂化,扩大到多任务的情况,也称为多任务深度强化学习。与多智能体强化学习明显不同,多任务强化学习既可以是单智能体多任务的情况,也可以是多智能体多任务的情况,因此情况变得更为复杂了。结构如同第二篇,本篇依然是首先介绍多任务强化学习的基本概念和相关基础知识(第6章),随后讲解部分经典的多任务强化学习算法(第7章)。由于多任务强化学习依然是较为前沿的研究方向,所以本篇的算法相对少一些。
第6章主要介绍多任务强化学习的基本概念和相关知识,让读者对其有一个详细的了解和认知,以帮助读者顺利地步入多任务深度强化学习场景。
第7章主要讲解4个多任务强化学习算法、框架,这些方法大都源自DeepMind团队,代表着多任务强化学习领域最为经典和前沿的工作。
第四篇包括第8~11章,主要讲解强化学习特别是深度强化学习的一些实际应用,涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。本篇侧重于讲解深度强化学习方法在其他领域应用的思想和方法,培养读者跨领域解决问题的能力,以帮助读者熟练掌握和使用深度强化学习这个强大的方法去解决、优化其他领域中的一些实际问题。
第8章给出深度强化学习方法在游戏领域的应用,这也是一个极有意思的领域,例如,DQN的代表作就是玩Atari游戏,并且超越了人类顶级玩家。本章重点讲解如何把游戏场景建模为强化学习问题,以及训练模型自动玩Atari游戏的核心过程和相关代码。
第9章主要给出深度强化学习算法在机器人控制领域的应用实例,包括无地图导航、视觉导航、机器人足球等,侧重于讲解仿真环境中机器人控制问题的分析、建模和实践性解决方案。
第10章给出强化学习与计算机视觉领域相结合的例子,分析了将深度强化学习技术应用于图像、视频的详细过程,例如,图像字幕、图像恢复、视频快进和视觉跟踪等。
第11章则讲解深度强化学习应用于自然语言处理方面的实例,如对话机器人、情感–情感翻译和远程监督关系提取等。深度强化学习与自然语言的结合目前还是较为前沿的研究方向,还有许多领域相关问题读者也可以亲自尝试着去解决。
本书的编撰人员包括:刘驰、王占健、戴子彭、马晓鑫、朴成哲、林秋霞、赵一诺、赵映、李世林、刘文鼎。
深度强化学习技术发展迅速,属于当下最热门的前沿技术之一。因作者能力、水平有限,书中难免出现不足与谬误之处,还请读者多多包涵,同时也恳请读者给予批评指正,不胜感激。
媒体评论
本书特色:
前沿经典综述:深度强化学习近年来发展迅速,本书详细讲述了近五年来深度强化学习领域的重要学术成果,涵盖了新的算法和理论、工程实现和应用描述,是具有较强的学术性和领域实践性的佳作。
理论结合实践:提供大量关键工程代码供读者参考,书中对代码进行了逐行深入分析与解读,以帮助读者在学习理论的同时掌握实践的方法。
领域应用分析:给出深度强化学习在游戏、机器人控制、计算机视觉和自然语言处理四大领域的实践应用,包含Atari游戏、足球机器人、机器人视觉导航、图像字幕、视觉跟踪、智能对话等多领域的新探索。