基本信息
编辑推荐
本书是迄今市面上内容全面的机器学习教材之一,书中汇集了所有用于理解、挖掘和分析数据的先进方法,并且通过数百个精选实例和解说性插图,直观而准确地阐释了这些方法背后的原理,内容涵盖了机器学习的构成要素和机器学习任务、逻辑模型、几何模型、统计模型,以及矩阵分解、ROC分析等时下热点话题。
本书不仅内容丰富,而且图文并茂,无论是新手还是有经验的读者都能从中获益。
内容简介
作译者
目录
第1章 机器学习的构成要素 9
1.1 任务:可通过机器学习解决的问题 9
1.1.1 探寻结构 11
1.1.2 性能评价 13
1.2 模型:机器学习的输出 14
1.2.1 几何模型 14
1.2.2 概率模型 17
1.2.3 逻辑模型 22
1.2.4 分组模型与评分模型 26
1.3 特征:机器学习的马达 26
1.3.1 特征的两种用法 28
1.3.2 特征的构造与变换 29
1.3.3 特征之间的交互 32
1.4 总结与展望 33
第2章 两类分类及相关任务 37
2.1 分类 39
2.1.1 分类性能的评价 40
2.1.2 分类性能的可视化 43
2.2 评分与排序 46
序言
本书的写作始于2008 年夏,当时我就职的布里斯托大学授予我为期一年的研究经费。出于两点考虑,我决定着手编写一部著作,对机器学习进行一般性介绍:一是这样一部著作所涵盖的知识点会对市面上的许多专业书籍起到补充作用;二是通过编写这部著作,我能够获取一些新知识,所谓教学相长嘛。
任何试图编写一部机器学习导论性著作的人都会面临这样一个挑战:如何在公平对待机器学习领域无与伦比的丰富内容时,还能保证其内在原理的统一性。如果过于强调这门学科的多样性,则可能使该书最终成为一本“菜谱”式图书而丧失统一性;若过于专注自己感兴趣的领域,则可能会错失许多其他有趣的方向和应用。经过反复斟酌,我确定了本书的基本宗旨,即统一性和多样性“两手都要抓,两手都要硬”。具体表现是通过将任务和特征分开处理(每个机器学习方法都有这个东西,但大家往往不会过多关注它们),以实现统一性;通过覆盖大量逻辑模型、几何模型和概率模型,以实现内容的多样性。
显然,指望在区区三百页的篇幅内深入介绍所有的机器学习内容是不现实的。后记中列出了我最终决定舍弃的,但值得进一步研究的重要领域和方向。在我看来,机器学习是统计学和知识表示“联姻”的产物,因而我在书中主题的取舍上也有意识地强化了这种观点。比如,在介绍与统计学联系更紧密的内容之前,我会用大量篇幅来介绍决策树和规则学习。纵贯全书,我都会特别关注“直观”,希望通过大量例子和图解来帮助读者培养和加强直观理解,其中许多例子都源于我对机器学习中ROC应用相关的研究工作。
如何阅读本书
本书内容是以“线性”方式呈现的,也就是说读者可按章节顺序逐页阅读。然而,这并不意味着你不能随便挑一章进行阅读,因为我在写作时已力图使内容模块化。
例如,对于那些希望尽快了解其第一个学习算法的读者,可直接从介绍两类分类的2.1 节开始,然后直接跳转至第5 章学习决策树的相关算法,这样在知识连贯性方面不会有什么问题。阅读完5.1节之后,还可以直接跳转到第6 章的前两节去学习基于规则的分类器。
或者,对线性模型感兴趣的读者可在学习完2.1 节之后,转而阅读3.2 节关于回归任务的相关内容,之后再跳转到第7 章学习线性回归。第4 ? 9 章关于逻辑模型、几何模型和概率模型的编排次序有一定的逻辑,但这几章的大部分内容都是相互独立的,第10 ? 12 章关于特征、模型组合及机器学习实验的相关内容也是如此。
我还要说明的是,绪论和第1 章属于导论,且都是自成体系的:尽管绪论中的确包含了一些技术细节,但对于大学预科以上水平的读者,理解起来不会有太大难度;第1 章则对本书所覆盖的大部分内容给出了提纲挈领式的介绍。这两部分内容可从本书网站免费下载:www.cs.bris.ac.uk/~flach/mlbook;今后,我还将陆续添加一些其他材料,如讲义幻灯片等。考虑到本书所涉及内容的广泛性,出现一些小的错误在所难免,因此如果你希望了解已有的勘误列表,或提交新的勘误,欢迎你访问上述网站。
致谢
独自撰写一部著作难免孤独,但幸运的是,我得到了许多同事和朋友的热情帮助和鼓励。布里斯托尔的Tim Kovacs、鲁汶的Luc De Raedt 以及波士顿的Carla Brodley 组织了专门的阅读小组,给予了我极有价值的反馈。我还收到了来自Hendrik Blockeel、Nathalie Japkowicz、Nicolas Lachiche、Martijn van Otterlo、Fabrizio Riguzzi 以及Mohak Shah的富有帮助的评论。还有许多人也以各种形式向我提供了帮助,在此我一并向他们表示感谢。
José Hernández-Orallo 做了许多本职以外的工作,她不仅仔细阅读了我的手稿,而且还提出了诸多批评和出色的建议,我已一一采纳。José,我一定会找个机会请你吃饭。
感谢我在布里斯托大学的同事和合作者Tarek Abudawood、Rafal Bogacz、Tilo Burghartdt、Nello Cristianini、Tijl De Bie、Bruno Golénia、Simon Price、Oliver Ray 以及SebastianSpiegler,感谢他们与我一道工作,并开展了诸多富有启发的讨论。感谢我的国际合作者Johannes Fürnkranz 、Cèsar Ferri 、Thomas G?rtner 、José Hernández-Orallo 、NicolasLachiche、John Lloyd、Edson Matsubara 以及Ronaldo Prati,本书中的许多内容都来自或受到我们合作研究的启发。有时,本书需要推进,多亏Kerry、Paul、David、Renée 和Trijntje 仗义出手,我方得以逃到某个僻静之所从容写作。
剑桥出版社的David Tranah 对本书加工工作的启动给予了诸多帮助,封面上隐喻“理解数据”的点彩画正是他的建议(如果你正在琢磨这是谁的画像,那我得解释一下:据David 自己说,这就是个普通的剪影画,并非特指某个人)。感谢Mairi Sutherland 非常细致的编辑工作。
谨以此书献给先父,若他得知本书已经完成,定会开一瓶香槟来庆祝。他归纳问题的视角虽说有些病态,但也是发人深省的:每天用来喂鸡的那只手最终会将鸡的脖子拧断(这里我要向素食读者表示歉意)。感谢父母为帮助我找到自己的人生道路所提供的一切。
最后,千言万语也不足以表达我对妻子Lisa 的感激之情。在我们新婚燕尔之际,我便开始筹划本书的撰写。我们当时谁都没有预料到这本书居然会花费将近四年的时间。后见之明实在太奇妙,因为事后再看,怀疑下面几件事无法同时进行当然是合理的,但事前还是会坚信,我在完成一本书的同时,还能去组织一场国际会议,并且监督房子的大规模翻新。不过,这也见证了Lisa对我的支持、鼓励和默默忍受。所幸这三件事都已圆满成功。Dank je wel, meisje !
Peter Flach
于布里斯托大学
推荐序
人工智能、大数据分析、机器人等领域在近年来日益引人瞩目,而机器学习则是其中一类非常重要的理论和工具。Peter Flach 教授的这部著作可作为机器学习的入门图书,帮助广大迫切希望了解和掌握机器学习的同学和工程师奠定良好的基础。
媒体评论
——Fernando Berzal,Computing Reviews
亚马逊读者评论
“本书条理清晰,对机器学习技术的核心要素进行了全面的论述。作者首先从宏观角度审视机器学习,然后由面到点,深入阐释了各项技术的具体细节。如果你是机器学习领域的专业人士或学生,阅读本书可以帮助你巩固所学的知识。我向所有想认真研究机器学习的人强烈推荐本书!”
“本书抽象、系统地阐述了机器学习的方方面面,让读者能够深入理解常用机器学习技术的原理。这是攻略和实用手册类图书所做不到的。”
“这本书太棒了!我一个月前买来自学,每一页读起来都很愉悦。”