基本信息
- 原书名:Data Mining and Business Analytics with R

编辑推荐
《数据挖掘与商务分析:R语言》由机械工业出版社出版。
内容简介
作译者
目录
前言
致谢
第1章引言
参考文献
第2章处理信息与认识数据
2.1例1:2006年出生数据
2.2例2:校友捐赠
2.3例3:橘子汁
参考文献
第3章标准线性回归
3.1用R函数估算线性回归模型
3.2例1:汽车燃油效率
3.3例2:丰田二手车价格
附录3.A模型过度拟合对回归预测均方误差的影响
参考文献
第4章局部多项式回归的非参数回归方法
4.1模型的选择
4.2密度估计和直方图平滑化的应用
4.3多重回归模型的拓展
前言
数据挖掘需要一套功能强大、计算精准、兼容良好的计算工具,在这方面微软的Excel难以胜任。尽管我们也多次获得许多供应商专门提供的卓越的数据挖掘商务软件,但通常来说这些软件价格昂贵。书中我们所使用的R统计软件功能强大而且免费。不过要想正常使用R需要一些学习代价,它需要用户写指令,而大多数电子表格用户对程序指令的编写并不熟悉,这也是我在书中和与本书相关的网页上提供R示例代码的原因。这些示例代码应该可以顺利地迁移到当下通用的、强大的计算机环境中,并有助于最小化R的学习成本。
本书采用了将软件与数据挖掘的统计基础相融合的写作风格,同时也推广了工具的应用。虽然市面上不乏深入阐述这些方法的教材,也不缺乏对R计算的详尽完整的说明手册。但是本书力图权衡理论与实践,定位于对定量方法感兴趣的MBA学生的认知层次。本书适用于MBA的数据挖掘课程,以及高年级本科生和研究生的分析与解释大数据集的课程。从事商学、社会学、自然科学、医学以及工科的学生都可以从本书受益。本书所涉大部分主题可以安排在一个学期的课程中,但是包括的主题并不适用于每一个读者。可能有些读者会认为其中一些主题内容太深或者太浅。建议主讲老师略去或适当扩展某些主题。从这个角度来看,本书可以适用于很多不同的读者。
数据挖掘的应用常常需要花大力气收集相关信息。在这种情况下,数据的准备工作比最终建立模型需要花费更多的时间。在另外一些应用中,数据收集的工作量并非大问题,工作的重点是大容量信息的存取(即数据仓库)。尽管如何获取、存储、合并和整理信息在数据分析全过程来说必不可少,但书中对这些技术细节并未做深入探讨,本书重点介绍数据挖掘的建模。
本书所述全部例子的数据集和R代码都可以在配套网页(http://www.bizuiowaedu/faculty/jledolter/DataMining)上找到。也可以通过在booksupportwileycom上输入ISBN 9781118447147获取本书的附加材料。读者可以将书中的代码复制粘贴到自己的R会话中,从而得到分析结果。也可以在软件中修改或添加一些代码来做数据实验,以及用我们给的R模板程序对自己的数据集进行分析。附录给出了练习和几个大的练习数据集。练习有助于老师布置课后作业,也为读者提供了一个实践书中所讨论技巧的机会。如何使用这些数据集的相关说明请参见附录A。
这是本书第1版,尽管在表述和例证数据集的分析上我们很小心谨慎,但不得不承认其中有很多地方还值得推敲。如果在阅读本书的过程中有任何反馈,我们将不胜感激,期待你将你的建议通过johannesledolter@uiowa.edu邮箱写信给我。相关的勘误和评论我将在本书的网页上随时更新。
致谢
2011年我访问芝加哥大学布斯商学院时,忽然为一篇MBA方面有关数据挖掘的文章中的素材产生了兴趣。芝加哥大学著名教授Matt Taddy的数据挖掘(BUS41201)课件为本书的撰写提供了灵感,在表述上我同样受到Taddy教授课件中的案例和R模板的影响。第19章中关于文本数据的分析也大量引用了他近期的研究成果,由衷感谢Taddy教授对本书的贡献。
著书是一项耗时的工作。如果没有妻子Lea Vandervelde的持续支持和鼓励,无法想象我的这项工作可以画上句号。她是艾奥瓦大学从事密苏里州奴隶自由史研究的教授,同时她的亲身体验告诉我,从文本数据的挖掘中构建数据集是一项多么重要和艰难的工作。
序言
本书英文版自出版后就在Amazon上得到了极高的评价,曾经是Amazon网站上最畅销的数据挖掘类书籍之一。
本书的作者Johannes Ledolter是世界顶尖商学院——美国艾奥瓦大学Tippie商学院管理科学系的一位数据挖掘专家,同时也是一位R资深开发者。本书包括多达19个数据挖掘的翔实案例,内容十分丰富,涉及医疗、慈善、汽车、二手市场等行业领域。书中案例从数据量、分析目标、数据类型等方面提出了各种具有挑战性的问题,并给出了克服这些挑战的方法和技巧。本书专注于数据挖掘的建模,以实际问题、解决方案以及探讨解决方案为主线组织内容。读者需要具备一定的数据挖掘基础知识,同时对R有一定的了解。但本书也对R计算进行了详尽完整的说明,对于零基础的读者来说,还可以通过直接复制书中提供的R程序来学习相应的数据挖掘算法。本书定位于面向定量方法的MBA学生,同时也适用于大数据分析的本科生及研究生,适合作为数据挖掘的教材或学习指南。
本书的翻译工作由宋涛、王星和曹方共同完成。在本书的翻译过程中,原作者Johannes博士多次就译者提出的问题进行了耐心而细致的解答。这里对他的帮助表示由衷的谢意。由于水平所限,书中可能会有翻译不当之处,希望读者多加指正。
必须说明的是,本项工作是集体努力的结果。其中,王星老师在翻译和统稿过程付出了大量心血,她的坚持使我打消了放弃此项目的想法。此外,余阿炎、曹家铭、温丽、丁虹元、俞良、金璐等人也参与了本书的翻译。感谢王宝东、宋辰玉、宋燕、仓猛、刘宇等完成了清样的校对和通读。还有许多其他同学和同事在不同阶段参与了本项工作,在此不再一一列出。
为进一步探讨、解析和扩展本书中的案例,译者团队将在“数据科学家”公众号中免费为各位读者奉献更多更翔实的R案例内容。可扫描以下二维码,关注“数据科学家”微信公众号,获得更多有关数据科学和R应用的最新知识。
宋涛
2016年9月