基本信息
- 原书名:Applied Predictive Modeling

内容简介
计算机书籍
这是一本专注于预测建模的数据分析书,意在为实践者提供预测建模过程的指导,比如如何进行数据预处理、模型调优、预测变量重要性度量、变量选择等。读者可以从中学到许多建模方法以及提高对许多常用的、现代的有效模型的认识,如线性回归、非线性回归和分类模型,涉及树方法、支持向量机等。第10章和第17章分别研究混凝土混合物的抗压强度和作业调度两个案例。
作者重实际应用,轻数学理论,从实际数据出发,结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含书中使用的数据,以及可以用于重复书中每一章分析的R代码,让读者能在一定精度范围内重复本书的结果,并自然地将书中的预测建模方法应用到自己的数据上。章后附有习题,方便读者巩固所学。
这本业界互相推荐的好书,适合所有数据分析人员阅读。
作译者
目录
前言
第1章导论
1.1预测与解释
1.2预测模型的关键部分
1.3专业术语
1.4实例数据集和典型数据场景
1.5概述
1.6符号
第一部分一般策略
第2章预测建模过程简介
2.1案例分析:预测燃油效能
2.2主题
2.3总结
第3章数据预处理
3.1案例分析:高内涵筛选中的细胞分组
3.2单个预测变量数据变换
3.3多个预测变量数据变换
3.4处理缺失值
3.5移除预测变量
译者序
数据科学是很多不同学科的结合体(统计学、计算机科学、人工智能等,基于其应用的领域还要求特定的行业知识),从业者的背景跨度很大。相关书籍有些注重应用而没有提供足够的理论说明,有些又过于偏重理论而让读者不知如何有效应用。本书很好地平衡了两者,与其他书不同的是,本书对应有一个R包,其中包含许多代码示例,极大地方便了读者使用书中介绍的模型。
除了可重复性外,在我看来,本书的最大优点是介绍了从数据预处理到建模再到模型评估选择的整个过程,以及背后的统计思想。统计研究的不是确定性而是不确定性。统计学界泰斗George EPBox有这样一句名言:
“本质上讲,所有模型都是错的,但有一些是有用的。”
这短短的一句话体现了很高的统计成熟度。记得博士期间,讲《高级应用统计》的教授说过:“这门课的主要目的不是教统计知识,而是提高你们的统计成熟度。”该教授讲课天马行空,一学期下来让我觉得不着边际,但这五个字我牢牢地记住了,并在之后从业过程中不断隔空回响,成为我的职业箴言。阅读本书不仅可以学习统计知识,更重要的是可以提高统计成熟度。预测模型不是万能的,每一个预测都带有不确定性,建模者不是提供了预测值就万事大吉,更重要的是尝试尽可能多的模型,通过严格的训练测试探究模型的不确定性并且选出最优模型。在实际应用中,对不确定性的理解越深,越能在风险和收益之中做出权衡,预测模型产生的实际影响就越大。理论和应用之间还有相当长一段路要走,本书就是连接这两点的一条路。
在负责杜邦先锋北美市场预测建模两年多来,本书给我很大的帮助。我相信无论你是数据分析的新手,还是数理统计的博士,本书都会让你受益匪浅。如果你打算从事预测建模的工作,本书绝对不容错过。
本书的翻译工作是由5人合作完成的。林荟翻译了书的第1~4,16,18、19章和第14章的后半部分。邱怡轩和肖楠共同翻译了第5~10章。马恩驰翻译了第11、15、17章,以及第14章的前半部分。张尚轩翻译了第12、13章。邱怡轩、肖楠和林荟负责审校。在翻译和校对过程中,我们对原书的一些明显错误做了修订,有的地方加上了译者注以帮助读者理解。机械工业出版社的明永玲编辑对该书的翻译工作给予了大力的支持和帮助。在此对所有为本书中文版问世做出努力的人表示感谢!
限于译者水平,书中难免有错误和不妥之处,恳请读者批评指正。
林荟
前言
本书意在为实践者提供预测建模过程的指导,读者可以从阅读中学到许多(建模)方法以及提高对许多常用的、现代的有效模型的认识。我们会介绍许多统计和数学技术,但在任何情况下我们描述技术细节的动机都是帮助读者理解模型的优缺点,而非(单纯)数理统计知识。我们极力避免复杂的公式,但是有少数例外。关于预测模型的理论知识,推荐这两本书,即Hastie等(2008)和Bishop (2006)。本书的读者需要有一些基本的统计学知识,包括方差、相关性、简单线性回归以及基本的统计假设检验(如p值和检验统计量)。
预测建模的过程本质上具有很强的应用实践性。但我们研究发现,很多文章、出版物不能让读者再现(他们的)建模结果,因为数据不公开,或读者无法使用相应软件,又或软件需付费。Buckheit和Donoho(1995)对传统学术界提出了相似的批评:
一篇发表于科学刊物上关于计算机科学的文章本身不是学术,仅是关于学术的广告。真正的学术是完整的软件开发环境和能够生成那些图的所有指令集。
因此,我们的目标是尽可能地具有实践应用性,让读者能在一定精度范围内重复本书的结果,且可以自然地将书中的预测建模方法应用到他们自己的数据上。再者,对于整个建模过程,我们使用R语言(Ihaka和Gentleman 1996; R Development Core Team 2010),这是一个用于数学和统计计算的免费软件。几乎所有例子中的数据集都可以在相应R包中找到。R包AppliedPredictiveModeling包含了书中使用的很多数据,以及可以用于再现书中每一章分析结果的R代码。
我们选择R作为计算引擎有如下几个原因。首先R是免费的(虽然也有商业版的R),可以在不同的操作系统上使用。其次,它在通用公共许可(General Public License)下发行(免费软件基金2007年6月),该许可阐明程序再次发布的规则。在此构架下,任何人可以任意检查、修改源程序。由于开源特性,很多预测模型已经由R包可以实现。再者R有进行预测建模的大量强大的功能。不熟悉R的读者可以在网上找到大量的入门教程(见附录)。
由于篇幅所限,本书没有涵盖广义加性模型、模型集成、网络模型、时间序列等内容。
本书还有一个配套网站:
http://appliedpredictivemodeling.com/
其中含有一些相关内容。
没有如下这些人的指导和帮助不会有本书的问世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我们还要感谢Ross Quinlan对Cubist和 C50部分的帮助,他们帮我们修正了这两部分的一些描述。我们还要感谢Springer出版社的Marc Strauss和Hannah Bracken以及审阅者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名审阅者。最后我们要感谢家人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。
Max Kuhn
Kjell Johnson
媒体评论
——Timothy King Business Intelligence Solutions-Review,solutions—revlew.com
我曾用这本书作为数据科学课程的辅助教材,因为数据科学需要涵盖处理数据、模型评估和机器学习方法等方面的内容,所以我使用了一系列不同的资料。如果下次我还教授数据科学课程,我将只用这本书,因为它包含了这个领域所有方面的内容。
——Louis Luangkesorn Iugerpitt.blogspot.com
关于回归和分类模型的预测技术,这部著作提供了非常有用的实践课程……两位作者不仅是建模和预测领域公认的专家,也是R包开发者和统计方法领域公认的专家……对于在应用复杂统计技术时需要直接帮助的学生和实践者,这本书是非常有益的。
——Stan Lipovetsky Technometrics