深入理解机器学习:从原理到算法
基本信息
- 原书名:Understanding Machine Learning:From Theory to Algorithms
- 作者: (以) 沙伊·沙莱夫-施瓦茨(Shai Shalev-Shwartz) (加)沙伊·本戴维(Shai Ben-David)
- 译者: 张文生
- 丛书名: 计算机科学丛书
- 出版社:机械工业出版社
- ISBN:9787111543022
- 上架时间:2016-7-15
- 出版日期:2016 年7月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 人工智能 > 综合
教材

编辑推荐
内容简介
作译者
近几年,机器学习是人工智能研究领域中最活跃的分支之一,已成为信息科学领域解决实际问题的重要方法,它的应用已遍及人工智能的各个应用领域。机器学习又是一个多学科的交叉领域,涉及数学、自动化、计算机科学、应用心理学、生物学和神经生理学等。这种学科交叉融合带来的良性互动,无疑促进了包括机器学习在内的诸学科的发展与繁荣。
本书内容十分丰富,作者以前所未有的广度和深度,介绍了目前机器学习中重要的理论和关键的算法。本书没有陷入“科普”式的堆砌材料的写作方式,由于作者是该领域的权威专家,因此在介绍各种理论和算法时,时刻不忘将不同理论、算法的对比与作者自身的研究成果传授给读者,使读者不至于对如此丰富的理论和算法无所适从。另外,特别值得指出的是,本书第一部分非常有特色,也是非常重要的一部分。这部分内容从更高的观点和更深的层次探讨机器学习的许多理论基础,引入对指导理论研究和实际应用都至关重要的概率近似正确(Probably Approximately Correct,PAC)学习理论。该理论旨在回答由机器学习得到的结果到底有多高的可信度与推广能力,从某种意义上来说,只有懂得了该部分,才可能透彻地理解和更好地运用其他章节的内容。国内关于PAC学习的资料非常少,在翻译过程中团队成员碰到了极大的困难,我们人工智能与机器学习研究团队为此进行了多方论证并多次召开专题讨论会。
本书主要面向人工智能、机器学习、模式识别、数据挖掘、计算机应用、生物信息学、数学和统计学等领域的研究生和相关领域的科技人员。翻译出版中译本的目的,是希望能为国内广大从事相关研究的学者和研究生提供一本全面、系统、权威的教科书和参考书。如果能做到这一点,译者将感到十分欣慰。
必须说明的是,本书的翻译是中国科学院自动化研究所人工智能与机器学习研究团队集体努力的结果,团队的成员杨雪冰、匡秋明、蒋晓娟、薛伟、魏波、李思园、张似衡、曾凡霞、于廷照、王鑫、李涛、杨叶辉、胡文锐、张志忠、唐永强、陈东杰、何泽文、张英华、李悟、李硕等参与了本书的翻译工作,李思园老师参与了全书的审校与修正。感谢机械工业出版社华章分社的大力协助,倘若没有他们的热情支持,本书的中译版难以如此迅速地与大家见面。另外,本书的翻译得到了国家自然科学基金委重点项目和面上项目(61472423、U1135005、61432008、61532006、61305018、61402481等)的资助,特此感谢。
在翻译过程中,我们力求准确地反映原著内容,同时保留原著的风格。但由于译者水平有限,书中难免有不妥之处,恳请读者批评指正。
最后,谨把本书的中译版献给我的博士生导师王珏研究员!王珏老师生前对机器学习理论、算法和应用非常关注,对于PAC可学习理论也有着独到而深刻的理解,他启发并引领了我们研究团队对机器学习理论和算法的研究工作,使我们终身受益。
中国科学院自动化研究所
张文生
2016年4月于北京
目录
译者序
前言
致谢
第1章引论1
1.1什么是学习1
1.2什么时候需要机器学习2
1.3学习的种类3
1.4与其他领域的关系4
1.5如何阅读本书4
1.6符号6
第一部分理论基础
第2章简易入门10
2.1一般模型——统计学习理论框架10
2.2经验风险最小化11
2.3考虑归纳偏置的经验风险最小化12
2.4练习15
第3章一般学习模型17
3.1PAC学习理论17
3.2更常见的学习模型18
前言
这些应用领域的一个共同特点在于,与相对传统的计算机应用相比,所需识别的模式更复杂。在这些情景中,对于任务应该如何执行,人类程序员无法提供明确的、细节优化的具体指令。以智能生物为例,我们人类的许多技能都是通过从经验中学习而取得并逐步提高的(而非遵从别人给我们的具体指令)。机器学习工具关注的正是赋予程序“学习”和适应不同情况的能力。
本书的第一个目标是,提供一个准确而简明易懂的导论,介绍机器学习的基本概念:什么是学习?机器怎样学习?学习某概念时,如何量化所需资源?学习始终都是可能的吗?我们如何知道学习过程是成功或失败?
本书的第二个目标是,为机器学习提供几个关键的算法。我们提供的算法,一方面已经成功投入实际应用,另一方面广泛地考虑到不同的学习技术。此外,我们特别将注意力放到了大规模学习(即俗称的“大数据”)上,因为近几年来,世界越来越“数字化”,需要学习的数据总量也在急剧增加。所以在许多应用中,数据量是充足的,而计算时间是主要瓶颈。因此,学习某一概念时,我们会明确量化数据量和计算时间这两个数值。
本书分为四部分。第一部分对于“学习”的基础性问题给出初步而准确的定义。我们会介绍Valiant提出的“概率近似正确(PAC)”可学习模型的通用形式,它将是对“何为学习”这一问题的第一个有力回答。我们还会介绍“经验风险最小化(ERM)”“结构风险最小化(SRM)”和“最小描述长度(MDL)”这几个学习规则,展现“机器是如何学习的”。我们量化使用ERM、SRM和MDL规则学习时所需的数据总量,并用“没有免费的午餐”定理说明,什么情况下学习可能会失败。此外,我们还探讨了学习需要多少计算时间。本书第二部分介绍多种算法。对于一些算法,我们先说明其主要学习原则,再介绍该算法是如何依据其原则运作的。前两部分将重点放在PAC模型上,第三部分将范围扩展到更广、更丰富的学习模型。最后,第四部分讨论最前沿的理论。
我们尽量让本书能够自成一体,不过我们假设读者熟悉概率论、线性代数、数学分析和算法设计的基本概念。前三部分为计算机科学、工程学、数学和统计学研究生一年级学生设计,具有相关背景的本科生也可以使用。高级章节适用于想要对理论有更深入理解的研究者。