(特价书)统计强化学习:现代机器学习方法
基本信息
- 作者: [日]杉山将(Masashi Sugiyama)
- 丛书名: 智能科学与技术丛书
- 出版社:机械工业出版社
- ISBN:9787111622451
- 上架时间:2019-10-31
- 出版日期:2019 年5月
- 开本:16开
- 页码:199
- 版次:1-1
- 所属分类:计算机 > 计算机科学理论与基础知识 > 计算理论 > 算法

作译者
目录
序
前言
作者简介
第一部分 简介
第1章 强化学习介绍3
1.1 强化学习3
1.2 数学形式化8
1.3 本书结构11
1.3.1 模型无关策略迭代11
1.3.2 模型无关策略搜索12
1.3.3 基于模型的强化学习13
第二部分 模型无关策略迭代
第2章 基于值函数近似的策略迭代17
2.1 值函数17
2.1.1 状态值函数17
2.1.2 状态-动作值函数18
2.2 最小二乘策略迭代19
2.2.1 瞬时奖赏回归20
2.2.2 算法21
前言
●监督学习:给定输入和输出的数据,监督学习的目标是分析输入、输出数据之间的关系。监督学习典型的任务包括回归(预测真实取值)、分类(预测类别)以及排序(预测顺序)。监督学习是最常用的数据分析工具,并且已经在统计学领域被研究了很长时间。监督学习在机器学习中近期的趋势是利用输入、输出数据的辅助信息来进一步改善预测的精度。例如,半监督学习利用额外的输入数据,迁移学习借用来自其他相似学习任务的数据,多任务学习同时解决多个相关学习任务。
●无监督学习:仅给定输入数据,无监督学习的目标是在数据中找到有用的东西。由于这种模糊的定义,无监督学习研究往往比监督学习更具特色。然而,由于其自动化以及廉价的特性,无监督学习被认为是数据挖掘中最重要的工具之一。无监督学习典型的任务包括聚类(根据数据的相似性进行数据分组)、密度估计(估计数据背后的概率分布)、异常检测(从数据中删除异常值)、数据可视化(将数据的维度降到1~3维)和盲源分离(从混合数据中提取原始源信号)。此外,无监督学习方法有时被用作监督学习中数据预处理的工具。
●强化学习:监督学习是一种合理的方法,但收集输入、输出数据通常过于昂贵。无监督学习的执行成本低廉,但往往是临时性的。强化学习介于监督学习和无监督学习之间——没有提供明确的监督(输出数据),但我们仍然想学习数据背后的输入、输出关系。强化学习不是输出数据,而是利用奖赏来评估所预测的输出的有效性。提供诸如奖赏之类的隐性监督通常比提供明确监督更容易,成本更低,因此强化学习可以成为现代数据分析的重要方法。在强化学习的框架中也使用各种监督和无监督学习技术。
本书致力于从现代机器学习的角度介绍统计强化学习的基本概念和实用算法。还提供了各种图解说明示例——这些示例主要来自机器人领域,帮助读者理解强化学习技术的直观性和实用性。目标读者是计算机科学和应用统计学的研究生以及相关领域的研究人员和工程师。假设读者具备概率和统计学、线性代数以及初等微积分的基础知识。
机器学习是一个快速发展的科学领域,希望本书能够帮助读者了解强化学习中的各种激动人心的话题,激发读者对机器学习的兴趣。请浏览我们的网站:http://www.ms.k.u-tokyo.ac.jp。
致谢
感谢合作者Hirotaka Hachiya、Sethu Vijayakumar、Jan Peters、Jun Morimoto、Zhao Tingting、Ning Xie、Voot Tangkaratt、Tetsuro Morimura和Norikazu Sugimoto激动人心的创意讨论。感谢MEXT KAKENHI (17700142、18300057、20680007、23120004、23300069、25700022和26280054)、大川基金会、欧盟Erasmus Mundus奖学金、AOARD、SCAT、JST PRESTO计划以及FIRST计划的支持。
Masashi Sugiyama
日本东京大学
媒体评论
本书是学习和研究强化学习技术的重要参考书籍,作者是日本人工智能领域知名学者、东京大学杉山将教授,译者为南京大学计算机科学与技术系高阳教授。
全书将统计学习和强化学习结合,从模型无关策略迭代、模型无关策略搜索、模型相关强化学习三个技术路线角度,对强化学习函数估计中的基函数设计、样本重用以及策略搜索、模型估计等做了深入浅出的介绍。本书适合于从事人工智能和机器学习研究和应用的专家学者、技术人员、研究生阅读。
本书特色:
从现代机器学习的角度介绍了统计强化学习的基本概念和实用算法,为该领域提供了最新介绍。
涵盖了各种类型的强化学习方法,包括基于模型和无模型的方法、策略迭代和策略搜索方法。
涵盖了最近在数据挖掘和机器学习领域引入的方法,以便在强化学习和数据挖掘/机器学习研究人员之间提供系统桥梁。
呈现了最新的结果,包括强化学习的维数降低和风险敏感强化学习;介绍了许多示例来帮助读者理解强化学习技术的直观性和实用性。