基本信息

编辑推荐
本书全面介绍了机器学习的相关内容,涵盖了监督学习、贝叶斯决策理论、参数方法、多元方法、归约、聚类、非参数方法、决策树、线性判别式、多层感知器、局部模型、核机器、图方法、隐马尔可夫模型、贝叶斯估计、组合多学习器、增强学习以及机器学习实验的设计与分析等,反映了快速发展的机器学习领域的最新进展。
本书可以用作高年级本科生和硕士研究生的教材,也可供研究机器学习方法的技术人员参考。
内容简介
作译者
桑联邦理工学院获博士学位,先后在美国麻省理工学院和伯克利大学工作和进行博士后研究。Ethem博士主要从事
机器学习方面的研究,是剑桥大学《The Computer Journal》杂志编委和Elsevier《Pattern Recognition》杂志的副
主编。2001年和2002年,Ethem博士先后获得土耳其科学院青年科学家奖和土耳其科学与技术研究委员会科学奖。
目录
译者序
前言
符号说明
第1章 引言
1.1 什么是机器学习
1.2 机器学习的应用实例
1.2.1 学习关联性
1.2.2 分类
1.2.3 回归
1.2.4 非监督学习
1.2.5 增强学习
1.3 注释
1.4 相关资源
1.5 习题
1.6 参考文献
第2章 监督学习
2.1 由实例学习类
2.2 VC维
2.3 概率近似正确学习
译者序
对于许多问题,我们的前人和先行者已经知道如何求解。例如,欧几里得告诉我们可以用辗转相除法求两个整数的最大公约数, Dijkstra告诉我们如何有效地求两点之间的最短路径,Hoare向我们展示了怎样将杂乱无章的对象快速排序……对于这些问题,我们清楚地知道求解步骤。因此,让计算机求解这些问题只需要按照已知的求解步骤设计算法和数据结构、进行编程,而不需要让计算机学习。
还有一些问题,人们可以轻而易举地解决,但是却无法解释清楚我们是如何做的。例如,尽管桌子千差万别、用途各异,但是我们一眼就能看出某个物体是否是桌子;尽管不同的人的手写阿拉伯数字风格迥异、笔画粗细不同,但是我们可以轻易识别一个手写符号是不是8;尽管声音时大时小、有时可能还有点沙哑,但是我们可以不费力气地听出熟人的声音。诸如此类的问题不胜枚举。对于这些问题,我们不知道求解步骤。因此,让计算机来做这些事就需要让计算机学习。
我们知道桌子不是木材和各种材料的随机堆砌,手写数字不是像素的随机分布,声音也不是各种声波的随机混合。现实世界总是有规律的。机器学习正是从已知实例中自动发现规律,建立对未知实例的预测模型;根据经验不断提高,不断改进预测性能。
本书是全面论述机器学习这一主题的教科书,英文版自2004年问世以来,已于2010年和2014年两次扩充、修订,以涵盖机器学习这个迅速发展领域的新进展。书中介绍了监督、非监督和半监督学习,参数、非参数和半参数方法,涉及维归约、回归、分类、聚类和增强学习,包括线性判别式、决策树、多层感知器、核机器、图方法、贝叶斯估计和组合多学习器。作者对来自统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域的机器学习问题和学习方法进行了统一论述。此外,本书还较为系统地介绍了机器学习实验的设计与分析,这在同类书籍中是独具特色的。
本书适合作为高等院校计算机相关专业高年级本科生和研究生的机器学习入门课程的教材,也可供对机器学习感兴趣的工程技术人员参考。
现在,学习的本质还不十分清楚。然而,关于学习的理论认识已开始逐步形成,业已建立起来的一些机器学习方法已经成功地解决了许多实际问题。我们能够从本书中了解机器学习,发现机器学习的新方法,不断提高对学习本质的认识。
第1版由范明、昝红英和牛常勇共同翻译,第2版和第3版由范明翻译。译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzu.edu.cn,译者不胜感激。
范明
2015年12月于郑州大学
前言
自从本书第2版2010年面世以来,数据进化一直在持续,甚至更快。每年,数据集都在变大。不仅观测的数量在增长,而且观测属性的数量也在显著增加。数据有了更多的结构:不再仅仅是数和字符串,而且还有图像、视频、音频、文档、网页、点击日志、图等。数据与我们以前常做的参数假设(例如正态性)渐行渐远。数据常常是动态的,因而存在一个时间维度。有时,我们的观测是多视图的——对于相同的对象或事件,我们有来自不同传感器和不同模式的多个信息源。
我们相信,在这看似复杂和庞大的数据背后存在简单的解释。虽然数据很大,但是它可以使用具有少量隐藏因子及其相互作用的相对简单的模型来解释。想想数百万客户,他们每天在线或从当地超市购买数千种产品。这意味着一个非常大的交易数据库,但是该数据存在模式。没有人随机购物。举办酒会的人购买产品的某个子集,家有婴儿的人购买产品的不同子集;存在解释客户行为的隐藏因子。
从观测数据推断这种隐藏模型是近年来已经做了大量研究的领域之一。新版中的修改大部分都与这些进展有关。第6章新增了关于特征嵌入、奇异值分解和矩阵分解、典范相关分析、拉普拉斯特征映射的内容。
第8章和关于核机器的第13章新增了关于距离估计的内容。维度归约、特征提取和距离估计是同一个东西的三个名称——理想的距离度量定义在理想的隐藏特征的空间中,而从数量上看,它们少于我们观测的值。
重写并显著扩充了第16章,以便涵盖生成模型。我们对所有主要的机器学习模型,即对分类、回归、混合模型和维度归约,讨论贝叶斯方法。非参数贝叶斯建模在过去的几年中日益流行,尤其令人感兴趣,因为它允许调整模型的复杂度,以适应数据的复杂度。
新版各处新增了一些章节,主要是突出相同或非常类似方法的新的不同应用。第8章新增了一节离群点检测。第10和13章新增两节,分别讨论用于排名的线性模型和核机器。拉普拉斯特征映射添加到第6章,还在第7章新增一节讨论谱聚类。鉴于深度神经网络的最近复苏,有必要在第11章新增一节讨论深度学习。第19章新增一节讨论方法比较的多元检验。
自第1版面世以来,许多使用本书自学的读者提出索取习题答案的请求。在这个新的版本中,已经包括了部分习题的答案。它们有时是完整的答案,有时只是一个提示,或只提供多种可能答案中的一种。
我要感谢使用前两版的所有老师和学生,以及它们的德文、中文和土耳其文翻译和在印度的重印。我永远感激那些发给我评价、批评、勘误,或以任何其他方式提供反馈的人。请继续这样做。我的电子邮件地址是alpaydin@boun.edu.tr。本书的网站是
http://www.cmpe.boun.edu.tr/them/i2ml3e
再次与MIT出版社共事出版第3版是一件令人愉快的事。感谢Marie Lufkin Lee、Marc Lowenthal和Kathleen Caruso,感谢他们的帮助和支持。
媒体评论
——John W.Sheppard 蒙大拿州立大学计算机科学教授
我已经在机器学习的研究生课程中使用本书多年。这本书很好地平衡了理论和实践,并且在第3版中扩充了许多新的先进算法。我期待在我的下一次机器学习课程中使用它。
——Larry Holder 华盛顿州立大学电子工程和计算机科学教授
对于机器学习而言,这是一本完整、易读的机器学习导论,是这个快速演变学科的“瑞士军刀”。尽管本书旨在作为导论,但是它不仅对于学生,而且对于寻求这一领域综合教程的专家也是有用的。新人会从中找到清晰解释的概念,专家会从中发现新的参考和灵感。
——Hilario Gomez-Moreno IEEE高级会员