基本信息
- 作者: 【美】Vincent Granville(文森特·格兰维尔)
- 译者: 吴博 张晓峰 季春霖
- 出版社:电子工业出版社
- ISBN:9787121308833
- 上架时间:2017-5-5
- 出版日期:2017 年5月
- 开本:16开
- 页码:356
- 版次:1-1
- 所属分类:计算机 > 数据库 > 综合
编辑推荐
本书会精准地告诉你什么是数据科学,它跟计算机科学有何差异,如何从数据中提炼价值,如何提升数据科学技能,获得工作机会。本书包括以下内容:
源代码、数据集,以及供复习的名词字典
供数据科学家参考的简历样本、薪酬调查,以及职位描述样本
什么样的公司在寻找数据科学家
大数据及分析产业的权威分析
能展示竞争优势的实际面试问题
能帮助切实理解数据分析的案例
数据科学窍门、秘方和规则
内容简介
计算机书籍
这是一本跟数据科学和数据科学家有关的"手册",它还包含传统统计学、编程或计算机科学教科书中所没有的信息。
《数据天才:数据科学家修炼之道》有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。《数据天才:数据科学家修炼之道》中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写API),所以借助《数据天才:数据科学家修炼之道》,你现在就可以开始数据科学实践,并快速地提升你的职业水平。
《数据天才:数据科学家修炼之道》是写给数据科学家和相关专业人士的(如业务分析师、计算机科学家、软件工程师、数据工程师和统计学家),也适合有兴趣转投大数据科学事业的人阅读。
作译者
最近,Vincent推出了数据科学中心(Data Science Center)这个大数据、业务分析和数据科学界的领先社区。Vincent曾是剑桥大学和美国国家统计科学学院的博士后。他曾入围沃顿商业计划竞赛和比利时数学奥林匹克的决赛。Vincent 已经在统计期刊上发表了40篇论文,并且是许多国际会议的受邀演讲嘉宾。他还开发了一种新的数据挖掘技术,被称为隐性决策树,他还拥有多项专利,是发表数据科学书籍的第一人,并筹集了600万美元的创业启动资金。根据福布斯的排名,Vincent 是大数据领域前20位有影响力的人物之一,被VentureBeat、MarketWatch和美国有线新闻网(CNN)专门报道。Vincent的Twitter账号为@Analyticbridge。
关于译者
吴博:利兹大学博士后,具备多年机器学习研发、数据科学从业经验。曾任爱立信大数据高级研究员,多家公司数据科学家及数据变现业务负责人。现任深圳市宜远智能科技有限公司创始人。
张晓峰:哈尔滨工业大学深圳研究生院计算机科学与技术学院副教授、博士生导师,主要研究方向为数据挖掘、隐私保护和机器学习等。曾在北大方正研究院、香港大学电子技术研究所工作。主持包括国家自然科学基金面上项目,以及其他省/市纵向、横向课题十余项。已在国内外重要学术刊物与会议上发表SCI/EI索引论文40余篇。
季春霖:深圳光启高等理工研究院联合创始人,副院长;深圳市统计学会副会长;哈佛大学博士后,杜克大学统计学博士,剑桥大学硕士;广东省自然科学基金杰青项目获得者;发表包括Science在内的论文60余篇,授权专利400余项。热衷于贝叶斯统计学及其应用。
目录
-真伪数据科学对比 2
- - 伪数据科学的两个例子 5
- - 新大学的面貌 7
-数据科学家 10
- - 数据科学家与数据工程师 10
- - 数据科学家与统计学家 12
- - 数据科学家与业务分析师 13
-13个真实世界情景中的数据科学应用 14
- - 情景1:国家对烈性酒销售的垄断结束后,DUI(酒后驾驶)逮捕量减少 15
- - 情景2:数据科学与直觉 17
- - 情景3:数据故障将数据变成乱码 19
- - 情景4:异常空间的回归 21
- - 情景5:分析与诱导在提升销量上有何不同价值 22
- - 情景6:关于隐藏数据 24
- - 情景7:汽油中的铅会导致高犯罪率。真的吗 25
- - 情景8:波音787(梦幻客机)问题 26
- - 情景9:NLP的7个棘手句子 27
- - 情景10:数据科学家决定着我们所吃的食品 28
- - 情景11:用较好的相关性增加亚马逊的销售量 30
译者序
本书不失专业性,但也不是令人生畏的大学教材。它处处体现理论与实践的结合,还兼顾技术与商业的平衡。这要归功于原作者Vincent是学术、技术、商业三栖高手。比如书中对于星空双星的估算、陨石撞地球的建模推算,让作者在数学奥赛方面的天分展现得淋漓尽致;在垃圾邮件、水印加密、点击欺诈等案例中,作者又分享了诸多为大公司实施数据项目的经验;在方案选择、股市预测等场景中,作者更侧重商业视角,帮读者提升对数据科学方法投入/产出比及适用性的敏感度。
本书虽然专业度高,但也因为案例翔实、讲求实际,适合其他行业或领域的人士阅读。特别建议业务跟数据息息相关的企业负责人或高管,或者对数据相关项目感兴趣的投资者品读。毕竟数据科学家这一高层职位,跟企业负责人及高管的对接较多。虽说好的数据科学家,应具备与非技术人士沟通的能力,但作为数据科学家的领导,一旦多懂一些数据科学的思考模式及流程,便会对数据科学家有更多理解,也会对数据化的决策有更深的认识。
本书也传递出对行业热词的审慎态度。比如本书就对"大数据"的缘起、演变、更替、历史、迷思和幻象,着墨不少。就像书中所说,大数据领域许多看似新的方法,可以追溯到二三十年前,如今的不少创新,实乃新瓶旧酒。想必读者从Gartner的成熟度曲线里,可以看到大数据一词已渡过巅峰、渐趋理性,与之相随的,是跟数据科学息息相关的人工智能(AI)重新崛起。若理解本书的立场和价值取向,就知道人工智能60多年来几起几落,不少如今大放异彩的方法,也可找到前身。透过现象看本质,人工智能多少因为数据体量更大、数据分析更细、计算能力更强,才成为行业焦点。忽视基础理论盲目追随人工智能热点无异于舍本逐末,认真和刻意学习数据科学及人工智能的基础理论和实践,方是正途。
正因为这本书内容如此之好,能满足读者所需,于是我痛快答应电子工业出版社付睿编辑的邀约来翻译本书。但这个小想法变成最终成品,却耗费不少人的时间和精力,对他们的感谢和亏欠不能尽录。我最要鸣谢翻译合作者光启研究院的副院长季春霖博士,还有在哈工大深圳研究生院任教的张晓峰博士,两位的研究和管理任务都很繁重,面对译书这种流程漫长、成效滞后的工作,他们展现了学界出身的坚韧素养,而在翻译校对本书的过程中,又处处体现出手不凡的专业功力。同时,也要感谢配合翻译校对本书的助手和出版社工作人员,他们对我有莫大的包容和支持。本书准备期间,也正是我的一对小孩--泰学和雅学--从孕育到出生的过程,所以要感谢我的太太熊瑛,容许我为本书挤出不少本来可以陪伴家人的时间。
最后,我还要代表季春霖博士感谢广东省自然科学杰出青年基金项目(No-S20120011253)和深圳市数据科学与建模技术重点实验室的资助。也要感谢我所在的宜远智能团队,他们在将本书中许多数据科学方法实践到医疗健康领域时,提出了诸多宝贵的翻译修正补充建议。当然,对专业内容的翻译,难在对作者见识的理解和原意的把握,所以总有力有不逮、不甚精确之处,请各位读者和专家对此海涵,提出宝贵的建议。
本书译者 吴博
前言
本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写 API),所以借助本书,你现在就可以开始数据科学实践,并快速地提升你的职业水平。如果你是一位决策者,你会在本书中找到一些信息,来帮助你建立更好的分析团队,以及决定是否需要及何时需要专业的解决方案,以及哪些方案最为恰当。
这本书是写给谁的
这本书是写给数据科学家和相关专业人士的(如业务分析师、计算机科学家、软件工程师、数据工程师和统计学家),以及有兴趣转投大数据科学事业的人。本书也是为学习定量课程、想成为数据科学家的大学生所准备的。最后,本书也可供数据科学家的上级领导、想创建数据科学初创公司开展业务或提供数据科学咨询的人阅读。
这些读者将在本书中找到有价值的信息,特别是在以下几章中。
第2、4、5、6章对数据科学工作者特别有价值,因为它们包含大数据技术内容(如聚类和分类技术),以及前沿数据科学技术,如组合特征选择、隐性决策树、分析类API、判断MapReduce何时有用等。这些章节里很多案例研究(如欺诈检测、数字分析、股票市场策略和其他更多)的说明非常详细,详细到可以让读者在实际工作中面临类似数据时,能沿用这些案例的分析方法。然而,它们的文字描述都很简单,高层管理人员不用花太多时间在细节、代码或公式上,也能阅读下来。
修读计算机科学、数据科学或工商管理硕士课程的学生,会在第2、4、5、6章中找到对他们有用的信息。特别是在第2、4、5章,他们能从中找到进阶内容,如实际的数据科学方法和原则,这些在一般的教科书或典型的大学课程里都没有。第6章还介绍了现实生活应用和案例研究,并包含更深入的技术细节。
求职者将会在第3章中找到有关数据科学的培训和课程资源。第7、8章为求职者提供了大量的资源,包括面试问题、简历模板、招聘广告样板,经常招聘数据科学家的公司的清单,以及薪资调查等。
对于想要创建一个数据科学创业公司或顾问公司的企业家,在第3章中会找到商业计划书样板、创业公司点子和针对顾问职位的薪酬调查。同时,在本书中,数据顾问会了解如何提高数据科学工作沟通效率,掌握数据科学项目的生命周期,并得到相关书籍、会议参考和许多其他资源。
对于试图评估数据科学的价值和它们对企业项目的益处,以及评估MapReduce架构何时有用的高管们,会在第1、2、6(案例部分)、8章(招聘广告样板、简历、薪金调查)中找到有价值的信息。这些章节的重点通常不是技术。顶多会在第2章和第6章介绍一些新的分析技术。
这本书涵盖了什么
本书的技术部分包括数据科学的核心内容,比如:
将大数据和传统的算法应用到大数据时的挑战(例如在进行大数据聚类或分类时的解决方案)。
一种统计科学上新颖、简化、对数据科学友好的方法,重点在于它是一种健壮的无模型方法。
顶尖的机器学习方法(隐性决策树和组合特征选择)。
新型数据的新指标(综合指标、预测能力、波动系数)。
创建快速算法所需的计算机科学要素。
MapReduce和Hadoop,以及Hadoop进行计算时的数值稳定性。
重点还是最新的技术。在本书中你不会找到关于旧技术的资料介绍,如线性回归(除非在引文里涉及),因为这些在经典书籍里已经讨论了很多。在本书中,对逻辑回归类的知识讨论不多。我们只是将逻辑回归与其他分类器混合,提出一种数值稳定的近似算法(近似的解决方案往往和精确模型一样有效,毕竟没有任何数据完全符合理论模型)。
除了技术,本书还提供了有用的工作资源,包括工作面试的相关问题、简历模板和招聘广告样板。本书的另一个重要组成部分是案例研究。本书的案例研究,有些带有统计或机器学习的意味,有些则跟商业或决策科学或运筹学有关,有些则关乎数据工程。大多数时候,我喜欢Data Science Central(这是个数据科学家的领先社区)上最新发表和非常热门的主题,而不是我特别重视的话题。
媒体评论
--王磊 国家统计局高级统计师
中国国际经济交流中心金融学博士后
北京大学肿瘤医院核医学科客座教授
2017 年大数据行业已经从上半场开始挺进下半场,数据在不知不觉中影响着我们的生产、生活、娱乐等方方面面。我们深耕在行业,深知目前国内从行业角度真正缺乏的是有着商业精神的数据科学家,本书从场景出发给我们展示了如何成为数据天才。我与吴博、晓峰、春霖交流很多,他们有深厚的学术素养,但仍实实在在地做着数据商业,恰恰这一点也是目前国内缺乏的,我一直认为在中国不缺数据技术人才,但缺乏的是真正懂商业的数据天才、数据科学家。希望大家能从本书中汲取知识,真正走向数据科学的商业之路。
--汪祥斌 DataEye 创始人、CEO
数据科学家是"21 世纪最性感的职位",全球到 2018 年对数据科学家有上千万的职位空缺,仅中国就稀缺上百万这样的人才。这本《数据天才:数据科学家修炼之道》是成为数据科学家的必备宝典。书中对数据科学有着翔实的介绍,并针对数据科学家日常工作中所需的技能进行了深度的剖析,辅以大量的实用案例分析,有助于快速提升大家对数据科学的理解和应用。本书势必会成为继维克托·迈尔-舍恩伯格的《大数据时代》后的又一经典大作!
--刘金玲 中国大数据产业第一媒体"36 大数据"创始人
大数据是近年来媒体的热点话题,大数据时代在科学领域里的表现就是数据科学的兴起。那么人们不禁会问:什么是数据科学以及如何成为数据科学家?作者通过本书及时地为读者用一种全景式的方式给出了答案。本书以通俗易懂的语言风格和众多的真实案例,讲活了大数据与数据科学,全面而又深入浅出地阐明了数据科学的实质与内涵,揭示了数据科学家的修炼秘笈。相信不同读者一定都能从书中得到启发,了解价值,找到灵感,更好地以全新的视角审视自己的专业领域以及汲取更多的新理念、新思想。
--谌东宇 教授 深圳云数通科技有限公司总裁
前海云游数据运营(深圳)有限公司首席数据官
西南交通大学数学学院客座教授
人生的关键决策只有几个,择业就是其中之一。良好的职业决定和素质准备来自于对未来的场景有清晰而且正确的认知。吴博的这本译著,不仅能够帮助我们认识未来几十年社会、商业和技术场景中的数据行业,数据科学家的是和不是,更重要的是提供了修炼自己的宝鉴。本书横跨中美视野、结合生活事件的描述,使得我们带着轻松、开心的心情完成对数据科学的认知、体悟,让人有一种跃跃欲试和大展宏图的感觉。实在是 4-0 时代必备的一本书!
--郑立新 德摩资本董事长
2017 年 3 月 14 日于深圳