基本信息
- 原书名:Modeling Techniques in Predictive Analytics with Python and R: A Guide to Data Science
- 作者: [美] 托马斯 W.米勒(Thomas W. Miller)
- 译者: 程豪
- 丛书名: 数据科学与工程技术丛书
- 出版社:机械工业出版社
- ISBN:9787111548874
- 上架时间:2016-9-20
- 出版日期:2016 年9月
- 开本:16开
- 页码:284
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > Python
教材

内容简介
目录
前言
第1章 分析与数据科学1
第2章 广告与促销10
第3章 偏好与选择24
第4章 购物篮分析31
第5章 经济数据分析42
第6章 运营管理56
第7章 文本分析72
第8章 情感分析93
第9章 体育分析132
第10章 空间数据分析146
第11章 品牌和价格165
第12章 大型的小数字游戏188
附录A 数据科学方法191
附录B 测量方法204
附录C 案例研究212
附录D 编码和脚本226
参考文献259
前言
—出自《布莱恩的一生》(1979年)中John Cleese的对白
20世纪70年代末,我在明尼苏达大学攻读博士学位。在此期间,我学习了一门统计学编程课程。上课伊始,老师说:“课程作业不限编程语言,只要自己独立完成即可。”
当时,我已经熟练掌握Fortran语言,同时自学了Pascal。我正在研究一种结构化的编程方式—不仅仅是GO TO语句。因此,我将老师的话信以为真,用Pascal语言完成了第一次作业。班里的其余14名同学用统计专业通用的Fortran语言。
当我提交作业的时候,老师看了看问我:“这是什么编程语言?”
“Pascal,”我回答,“您说过,我们可以选择任意一种编程语言,只要独立完成就好。”
老师回应说:“Pascal。我不会Pascal,只会Fortran。”
如今,数据科学世界汇聚了熟练使用Python语言的信息技术专业人士和熟练使用R语言的统计学者。他们之间有很多地方值得相互学习。对于数据分析科学家来讲,掌握多种编程语言是一种相当大的优势。
Python有时被称为“黏合语言”,它为科学编程和研究提供了丰富的开源环境。在计算机密集型应用领域,Python给予一种从C、C++和Fortran调用编译程序的能力。我们可以用Cython将Python转换为优化的C语句。我们可以用R解决当前用Python无法实现的建模和绘图问题。通过调用R软件包,我们能够处理非线性估计、贝叶斯分层建模、时间序列分析、多变量方法、统计制图和缺失数据,正如R使用者能从通用的Python语言中获益一样。
现如今,数据与算法当道。欢迎来到一个崭新的世界,一个快节奏、数据密集的世界,一个开源的环境。在这个环境中,通过分析技术和思想交流可以获得一个具有竞争力却稍纵即逝的优势。
很多有关预测分析和数据科学的书都在讨论策略与管理。还有一些书关注方法和模型。其余则讨论信息技术(和代码)。本书是一部同时兼顾三者的罕见著作,很受业界管理者、建模人士和程序员的青睐。
在获得具有竞争力的优势过程中,我们意识到了分析的重要性。我们通过提供建模技术的现有资源和参考指南,来帮助研究者和分析师。我们能够向程序员展示如何建立一个解决真实问题的代码基础。我们图文并茂地为管理者解释模型结果,以及数据和模型的意义。
随着收集和存储的数据容量增大、可用于分析的数据类型增多、数据产生和分析需求的速度加快,数据分析的重要性与日俱增。获得具有竞争力的优势意味着为信息管理和分析提供一套新体系,意味着业界问题处理方式的改变。
由于涉及很多学科和应用领域,数据科学的文献资料浩如烟海。相关的开源代码层出不穷。事实上,提供一部预测分析和数据科学的综合性指南将成为一项挑战。
我们关注的是实际问题和真实数据。在每一章加入一些特定应用领域和业界问题的案例,并提供有效的解决方法。通过展示建模技术和编程工具,我们将抽象的概念转换为具体的例子。这些详实的案例有助于读者的理解。
我们的宗旨是提供一种适合于很多读者的预测分析和数据科学方面的综述。本书省略了数学部分。有关具体的细节和方法导论,请统计学者和建模人士查阅参考文献。我们用通俗易懂的语言讲述方法,使用数据的可视化展示业界问题的解决方案。
了解本书的宗旨后,一些读者可能会想知道我是经典学派还是贝叶斯学派。在明尼苏达大学统计学院读书时,我对两大学派都心生敬意。我非常崇拜经验贝叶斯学者和将机器学习与传统统计学相结合的研究者。在建模和推断方面,我则是一个实用主义者。我会做有效的研究工作,并做出通俗易懂的解释。
本书之所以必要,是因为世界各地成千上万的专家将时间和想法贡献给开放源代码事业。开放源代码的增加及其难度的进一步降低,确保了先进的解决方法一定会在多年以后出现。精灵跑出明灯,能手走出幕后—火箭科学不再如往常。秘密正在被揭晓。本书就是此过程的一部分。
本书的绝大部分数据来自公开数据源。美国职棒大联盟的晋级和上座率数据由Erica Costello提供。计算机选择研究数据由Sharon Chamberlain提供。“匿名银行”的呼叫中心数据由Avi Mandelbaum和Ilan Guedj提供。电影信息获得了互联网电影数据库的使用许可。IMDb 电影评论数据由Andrew L. Mass和他在斯坦福大学的同事一起管理。其中一些例子出自佛罗里达州坦帕市的ToutBay,NCR Comten,Hewlett-Packard公司,纽约的Site Analytics公司,威斯康星州麦迪逊的Sunseed Research和麦迪逊的Union Cab Cooperative的工作人员。
我们在一个开源的环境中分享代码。我们所做的工作就是编译程序。在这个环境中,每个人都可以浏览现有程序,一些人还可以调试程序。为了促进学生学习,所有程序都包括了方便深入分析的详细注释和建议。所有数据集和计算机程序都可从本书的网站上下载:http://www.ftpress.com/miller/。
序言
作为开源的面向对象的脚本语言,R与Python具有免费获得、简单易学、功能强大的共性。随着多年的实践、发展和稳定,R与Python各自包含了一组完善、易懂的标准库,能够轻松解决很多现实问题。正如本书所言,在计算机密集型应用领域,Python给予一种从C、C++和Fortran调用编译程序的能力。而R能够完成当前用Python无法实现的建模和绘图任务。通过调用R软件包,用户可以处理数据分析、统计建模、统计制图和缺失数据等诸多问题,正如R用户从通用的Python语言中获益一样。
本书特别关注了众多统计领域中预测分析方向,加上用R与Python同时编程,为本书的独创性增色不少。作者通过涉及不同学科和应用领域的预测分析问题,为预测分析和数据科学提供一种综合性指南。秉承这种思想,我承担了本书的翻译工作。我希望能通过自己的努力,将这本实用性极强的R与Python综合教材推荐给更多的读者。无论您是R或Python初学者,还是R与Python高手,本书都可以为您在业界提供参考和帮助。
借此机会,不妨浅谈译书过程中的一些体悟。2015年9月伊始,我暂时离开我的母校中国人民大学,由国家公派到美国哥伦比亚大学联合培养。本书的翻译也发生在这个重要的求学期间。出于对R与Python语言的热爱,我希望在满足学业要求的同时,利用周末尝试更多的挑战。翻译过程中,我感受到作者浓郁的文艺气质、渊博的专业积淀和灵动的思维韵律。在有限的时间里,我认真踏实地扮演了不同学习、工作任务中的角色,增加了人生的厚度。与音乐一样,知识的研发和传播没有国界。因此,翻译不仅是知识表达语言的转换,更是一次学习和交流的机会。与原作者对话,高山仰止,受益匪浅;与读者对话,高山流水,闻过则喜。
在此,非常感谢机械工业出版社的各位领导和编辑。感谢王春华编辑将本书推荐给我。感谢陈佳媛编辑对翻译内容的审读。作为我们的第二次合作,两位编辑一如既往的职业操守和工作态度,让我由衷钦佩。由于身在国外,很多事情需要朋友和同学的帮助和支持。感谢我的挚爱刘钰洁同学。正是她承担了必要的沟通联络工作,才顺利衔接了翻译工作的不同环节。感谢我的朋友范超、王婷和赵建喜对一些翻译内容提供的建议。感谢程悦同学在本书最终校对阶段提供的帮助和支持。这里,我要特别感谢美国哥伦比亚大学的韦颖老师在科研上对我的指导,感谢我的导师中国人民大学易丹辉教授对我的关心和支持。感谢我的班主任尹建鑫老师,以及全体博士同学。
最后,我要特别感谢伟大的父母。作为人生中最能够包容且给予我最大支持的他们,让我有更强大的动力,去修缮和提高自己。感谢最爱的爷爷奶奶,跨洋的联系与问候让我倍感安心与温暖。感谢身边所有的亲朋好友。
介于个人时间与水平有限,如有纰漏,向您致歉,还望海涵。同时还请各位读者予以反馈,不吝赐教!
程豪
2016年3月15日