基本信息
- 原书名:Practical Data Science with Hadoop and Spark: Designing and Building Effective Analytics at Scale
- 作者: (美)奥弗·曼德勒维奇(Ofer Mendelevitch) (美)凯西·斯特拉(Casey Stella) (美)道格拉斯·伊德理恩(Douglas Eadline)
- 译者: 唐金川
- 丛书名: 数据科学与工程技术丛书
- 出版社:机械工业出版社
- ISBN:9787111600343
- 上架时间:2018-6-12
- 出版日期:2018 年6月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 数据库 > 数据库理论 > 综合
教材 > 计算机教材 > 本科/研究生 > 计算机专业教材 > 计算机专业课程 > 数据库

内容简介
计算机书籍
本书由3位资深数据科学家合作撰写,非常适合用来入门数据科学。全书共分三部分,12章。第一部分(第1~3章)概述了数据科学及其历史演变, Hadoop及其演进史,以及Hadoop生态系统中的各种工具;第二部分(第4~6章)讨论了将数据集从外部源导入Hadoop的各种工具和技术,使用Hadoop进行数据再加工,以及大数据的可视化;第三部分(第7~12章)介绍了对机器学习的高层次理解,预测建模的基本算法和各种Hadoop工具,各种聚类分析,异常检测的各种方法和算法,将数据科学应用于自然语言处理,以及Hadoop环境下数据科学的未来。
本书可作为高等院校数据科学专业相关课程的参考教材,也可供数据科学家、数据工程师、开发人员和项目利益相关者参考使用。
作译者
Ofer Mendelevitch是Lendup公司的数据科学副总裁,领导Lendup的机器学习和高级分析小组。在加入Lendup之前,Ofer是Hortonworks的数据科学总监,负责帮助Hortonwork的客户使用Hadoop和Spark将数据科学应用于医疗保健、金融、零售和其他行业。在Hortonworks之前,Ofer曾先后是 XSeed Capital的驻场企业家、Nor1的工程副总裁、雅虎的工程总监。
Casey Stella是Hortonworks的首席数据科学家。Hortonworks提供了一个开源的Hadoop版本。Casey的主要职责是领导开源的Apache Metron网络安全项目的分析和数据科学团队。在Hortonworks之前,Casey是Explorys公司的架构师,该公司是克利夫兰诊所的一家医疗信息创业公司。更早时,Casey曾是Oracle的开发人员、ION地球物理研究所的地球物理学专家,并在德州农工大学获得数学学士学位。
Douglas Eadline博士最初是一名分析化学家,并对计算机方法感兴趣。 Douglas从第一个Beowulf 的入门文档开始,撰写了数百篇文章、白皮书和教学文件,涵盖了高性能计算(HPC)和Hadoop计算的各个方面。在2005年创立并编辑流行的ClusterMonkey.net网站之前,他曾担任《ClusterWorld Magazine》的主编,并且是《Linux Magazine》高性能计算的资深编辑。他在高性能计算和Apache Hadoop的许多方面具有实践经验,包括硬件和软件设计、基准测试、存储、GPU、云计算和并行计算。目前,他是高性能计算和分析行业的作家兼顾问,也是 Limulus Personal Cluster 项目的负责人(http://limulus.basement-supercomputing.com)。他是Pearson出版的《Hadoop Fundamentals LiveLessons》和《Apache Hadoop YARN Fundamentals LiveLessons 》视频的作者,Addison-Wesley 出版的《Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2》的联合作者,Addison-Wesley 出版的《Hadoop 2 Quick Start Guide: Learn the Essentials of Big Data Computing in the Apache Hadoop 2 Ecosystem》和《High Performance Computing for Dummies》的作者。
目录
序
前言
致谢
关于作者
第一部分 Hadoop中的数据科学概览
第1章 数据科学概述2
1.1 数据科学究竟是什么2
1.2 示例:搜索广告3
1.3 数据科学史一瞥4
1.3.1 统计学与机器学习4
1.3.2 互联网巨头的创新5
1.3.3 现代企业中的数据科学6
1.4 数据科学家的成长之路6
1.4.1 数据工程师7
1.4.2 应用科学家7
1.4.3 过渡到数据科学家角色8
1.4.4 数据科学家的软技能9
1.5 数据科学团队的组建10
1.6 数据科学项目的生命周期11
译者序
让大数据发挥巨大潜力的职位,国外更多叫作“数据科学家”,而国内则更多地细分为数据工程师、数据挖掘工程师、机器学习工程师,抑或泛称算法工程师。虽然各个公司技术栈不尽相同,但Hadoop与 Spark的使用颇为广泛。
本书囊括的内容为Hadoop及 Spark 应用方面的从业者提供了比较全面的入门指南。全书分为三部分。
第一部分:数据科学概述及实例介绍,Hadoop 生态环境及相关工具介绍。
第二部分:数据的获取、存储、再加工、探索和可视化。
第三部分:应用数据,内容包括机器学习、预测模型、聚类、异常检测和NLP。
本书所涵盖的内容有助于读者具备数据科学家的能力。在阅读过程中,如果对某些部分或章节已经了然于胸,则可跳过进而阅读后续内容。本书的不同章节,也可作为专项实践能力锻炼时的参考资料。
此书付梓之际,非常感谢吴怡、关敏两位编辑的指导和督促,也衷心感激爱妻李珂欣在我翻译期间给予我鼓励、体谅和帮助。
书中不少英文术语,国内业界人士也惯用英文,而对应的中文翻译则未形成统一的规范。例如“true negative”一词,“真负”和“真阴”的译法都有。原书作者英文表达行云流水,措辞变换也颇为丰富,本人英文才疏,翻译过程中未必能尽达作者之意。凡此种种都增添了翻译的难度。此书又是本人第一本译作,虽经反复校对,但也不免有疏漏、错误之处。在此,热切欢迎广大读者不吝指正。
唐金川
于2018 年清明前夜
前言
随着Apache Hadoop的引入,所有这一切都发生了变化。 Hadoop提供了一个平台,可以廉价且大规模地存储、管理和处理大型数据集,从而使大数据集的数据科学分析变得实际可行。在这个大规模数据深层分析的新世界,数据科学是核心竞争力,它使公司或组织得以超越传统的商业模式,并在竞争和创新方面保持优势。在Hortonworks工作期间,我们有机会看到各种公司和组织如何利用这些新的机会,帮助它们使用 Hadoop和Spark进行规模化数据科学实现。在本书中,我们想分享一些这样的经验。
另外值得强调的是,Apache Hadoop已经从早期的初始形态演变成整体强大的MapReduce引擎(Hadoop版本1),再到目前可运行在YARN上的多功能数据分析平台(Hadoop版本2)。目前 Hadoop 不仅支持MapReduce,还支持Tez和Spark作为处理引擎。当前版本的Hadoop为许多数据科学应用程序提供了一个强大而高效的平台,并为以前不可想象的新业务开辟了大有可为的新天地。
本书重点
本书着重于在Hadoop和Spark环境中数据科学的实际应用。由于数据科学的范围非常广泛,而且其中的每一个主题都是深入且复杂的,所以全面阐述数据科学极其困难。为此,我们尝试在每个用例中覆盖理论并在实际实现时辅以样例,以期在理论和实践之间达到平衡。
本书的目的不是深入了解每个机器学习或统计学方法的诸多数学细节,而是提供重要概念的高级描述以及在业务问题背景下践行的指导原则。我们提供了一些参考文献,这些参考文献对书中技术的数学细节进行了更深入的介绍,附录C中还提供了相关资源列表。
在学习Hadoop 时,访问 Hadoop 集群环境可能会成为一个问题。找到一种有效的方式来“把玩”Hadoop 和 Spark对有些人来说可能是一个挑战。如果要搭建最基础的环境,建议使用 Hortonworks 虚拟机上的沙箱(sandbox),以便轻松开始使用Hadoop。沙箱是在虚拟机内部可运行的完整的单节点Hadoop。虚拟机可以在 Windows、Mac OS 和 Linux 下运行。有关如何下载和安装沙箱的更多信息,请参阅http://hortonworks.com/products/sandbox。有关Hadoop的进一步帮助信息,建议阅读《Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computation in the Apache Hadoop 2 Ecosystem》一书并查看相关视频,在附录C中也可以找到这些信息。
谁应该读这本书
本书面向那些有兴趣了解数据科学且有意涉猎大规模数据集下的应用的读者。如果读者想要更多地了解如何实现各种用例,找到最适合的工具和常见架构,本书也提供了强大的技术基础。本书还提供了一个业务驱动的观点,即何时何地在大型数据集上应用数据科学更有利,这可以帮助利益相关者了解自己的公司能产生什么样的价值,以及在何处投资资源来进行大规模机器学习。
本书需要读者有一定的经验。对于不熟悉数据科学的人来说,需要一些基本知识以了解不同的方法,包括统计概念(如均值和标准差),也需要一些编程背景(主要是Python,一点点Java或 Scala)以理解书中的例子。
对于有数据科学背景的人员,可能会碰到一些如熟悉众多Apache项目的实际问题,但是大体上应该对书中的内容游刃有余。此外,所有示例都是基于文本的,并且需要熟悉Linux命令行。需要特别注意的是,我们没有使用(或测试)Windows环境的示例。但是,没有理由假定它们不会在其他环境中正常运行(Hortonworks支持Windows)。
在具体的Hadoop环境方面,所有示例和代码都是在Hortonworks HDP Linux Hadoop版本(笔记本电脑或集群都适用)下运行的。开发环境在发布版本(Cloudera、MapR、Apache Source)或操作系统(Windows)上可能有所不同。但是,所有这些工具在两种环境中都可使用。
如何使用本书
本书有几种不同类型的读者:
数据科学家
开发人员/数据工程师
商业利益相关者
虽然这些想参与Hadoop分析的读者具有不同背景,但他们的目标肯定是相同的:使用Hadoop和Spark处理大规模的数据分析。为此,我们设计了后续章节,以满足所有读者的需求。因此,对于在某领域具有良好实践经验的读者,可以选择跳过相应的章节。最后,我们也希望新手读者将本书作为理解规模化的数据科学的第一步。我们相信,即使你看得一头雾水,书中的例子也是有价值的。可以参考后面的背景材料来加深理解。
第一部分包括前3章。
第1章概述了数据科学及其历史演变,阐述了常见的数据科学家成长之路。对于那些不熟悉数据科学的人,该章将帮助你了解为什么数据科学会发展成为一个强大的学科,并深入探讨数据科学家是如何设计和优化项目的。该章还会讨论是什么造就了数据科学家,以及如何规划这个方向的职业发展。
序言
数据科学涉及的主题包括数据摄取、数据再加工(data munging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。 Hadoop、Spark 以及 Hadoop 生态系统的其他模块为前面这些主题提供了良好的实现用例。它们都是值得选择的平台。数据科学覆盖范围广泛,为此,本书提供具体示例,以帮助工程师解决实际工作中的问题。对于已经熟悉数据科学的读者而言,如果希望掌握超大数据集和 Hadoop 的相关技能,本书也是一块很好的敲门砖。
本书侧重于具体的例子,并通过不同方式来提供对业务价值的洞察。第5章提供了特别实用的实例:使用 Hadoop 准备大型数据集,用于常见机器学习和数据科学任务。第 10 章是关于异常检测的,对于重要的大型数据集的监控和报警特别有用。第 11 章是关于自然语言处理的, 想研究聊天机器人的读者会比较感兴趣。
Ofer Mendelevitch 是 Lendup公司的数据科学副总裁,他之前是 Hortonworks 的数据科学总监。在数据科学和 Hadoop 结合的本书中,还有其他几位重要作者。与 Ofer 一起参与本书写作的还有其前同事、Hortonworks 的首席数据科学家 Casey Stella。在这些数据科学和 Hadoop 专家中还有 Douglas Eadline,他也是 Addison-Wesley的数据和分析系列图书《Hadoop Fundamentals Live Lessons》《Apache Hadoop 2 Quick-Start Guide》和《Apache Hadoop YARN》的贡献者。总的来说,这个作者团队有超过十年的 Hadoop 经验。能有如此丰富的数据科学和 Hadoop 经验的人屈指可数。
本书能加入数据和分析系列图书中令人欣喜。在产品系统中针对大规模数据集创建数据科学解决方案是一种必备技能。本书将助你在部署和执行大规模数据科学解决方案时游刃有余。
Paul Dix
图书系列编辑