基本信息
- 作者: 朱尔斯·J. 伯曼 董西成
- 丛书名: 数据科学与工程技术丛书
- 出版社:机械工业出版社
- ISBN:9782007071051
- 上架时间:2020-7-7
- 出版日期:2020 年6月
- 开本:16开
- 页码:372
- 版次:1-1
- 所属分类:计算机 > 数据库 > 数据库存储与管理

编辑推荐
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
大数据原理与实践
复杂信息的准备、共享和分析
(原书第2版)
[ 美 ]朱尔斯·J. 伯曼(Jules J. Berman)著
张桂刚 邢春晓 任广皓 王云译
Principles and Practice of Big Data
Preparing, Sharing, and Analyzing Complex Information, Second Edition
---------------------------大数据技术体系详解:原理、架构与实践---------------------------
适读人群 :1.大数据应用开发人员对这部分读者来说,本书的内容有助于加深他们对大数据技术的理解,提高自己的开发水平。本书可以作为他们应用、定制和扩展大数据的宝贵参考资料。2.
(1)作者是资深大数据专家,经验极其丰富,著有《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》两本畅销书。
(2)从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个方面详细讲解全栈大数据技术。
内容简介
计算机书籍
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
---------------------------大数据技术体系详解:原理、架构与实践---------------------------
本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。本章主要包括6个部分共16章的内容,其中:第壹部分介绍了大数据体系架构,以及Google和Hadoop技术栈;第二部分介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume以及分布式消息队列Kafka;第三部分介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统以及分布式数据库;第四部分介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统ZooKeeper;第五部分介绍计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎;第六部分数据分析相关技术,涉及基于数据分析语言HQL与SQL、大数据统一编程模型及机器学习库等。
作译者
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
[美]朱尔斯·J. 伯曼(Jules J. Berman) 著:朱尔斯·J. 伯曼(Jules J. Berman) 拥有麻省理工学院数学和地球与行星科学两个学士学位,天普大学哲学博士学位,以及迈阿密大学医学博士学位。撰写信息科学、计算机程序设计和病理学三个专业领域的著作近20本。2006年,伯曼博士成为美国病理信息学协会主席,2011年荣获该协会终身成就奖。
---------------------------大数据技术体系详解:原理、架构与实践---------------------------
董西成
资深大数据技术实践者和研究者,对大数据基础架构有非常深刻的认识和理解,有着丰富的实践经验。熟悉常见的开源大数据解决方案,包括Hadoop和Spark生态系统等,擅长底层分布式系统的优化和开发。撰写了大量关于Hadoop和Spark等大数据相关的技术文章并分享在自己的博客上,由于文章技术含量高,所以非常受欢迎。
出版有大数据领域负有盛名的专著:《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》。
个人博客:http://dongxicheng.org/(大量关于Hadoop的干货分享)
微信公众账号:hadoop123(大量关于大数据最新资讯和干货分享)
如果想了解更多关于本书的内容,可访问:http://hadoop123.com/
目录
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
译者序
第2版前言
第1版前言
作者简介
第1章 引言 1
1.1 大数据的定义 1
1.2 大数据与小数据 2
1.3 大数据在哪里 5
1.4 大数据最常见的目的是产生小数据 6
1.5 大数据是研究领域的中心话题 6
术语表 7
参考文献 11
第2章 为非结构化数据提供结构 13
2.1 几乎所有数据都是非结构化的、
前言
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
第2版前言
一切都说过了,但因为大家都没有听,我们不得不回归原点,从头开始。
—Andre Gide
优秀的科学作家总是抓住机会为早期的作品写一部第2版。无论多么努力地尝试,第1版总是会含有不准确,甚至产生误导的言论。随着时间的推移,那些在第1版中看起来很精彩的句子也变成了夸大智慧的例子。那些由于太过微不足道而在原始手稿中没有包含进去的部分现在似乎成了需要被完整阐释的深刻内容。第2版为懊恼的作者提供了纠正这些的机会。
当2013年本书第1版出版的时候,这个领域还很年轻,很少有科学家知道大数据能够做什么。在世界各处,无时无刻不断涌入的数据被存储起来,就像小麦被保存在筒仓中一样。对于数据管理者来说,很显然这些被存储起来的数据是没有任何科学价值的,除非它们通过元数据、标识符、时间戳和一组基本描述符恰当地注释。在这种情况下,本书第1版指出了在大数据收集、注释、组织并展开过程中那些适当且重要的方法。处理大数据的过程伴随着独特的挑战,第1版充满了警告和劝告,旨在引导读者远离灾难。
自第1版出版至今已有数年了,此后有数百本关于大数据主题的书籍相继出版。作为一名科学家,我很失望地发现,现今关于大数据的主题都聚焦于营销和预测分析(例如,“谁有可能购买产品x,由于他们两周前购买了产品y”),以及机器学习(例如,无人驾驶汽车、计算机视觉、语音识别)等问题上。机器学习在很大程度上依赖于那些大肆宣传的技术,如神经网络和深度学习,这两者并没有简化和拓宽我们理解自然界和物质世界的基本法则和原则。在大多数情况下,这些技术使用的都是相对较新的(即新收集的)、标注较差的(即仅提供一个特定的分析过程所需的最小信息)、不被保存以便于公共评估或重复使用的数据。简而言之,大数据已经走上了阻力最小的道路,避免了本书第1版中提出的大多数棘手问题,例如,与公众共享数据的重要性,探索数据对象之间关系(非相似性)的价值,以及创建鲁棒的、不变的且注释良好的数据这一沉重但不可避免的负担。
我当然希望大数据的伟大进步将成为医学、生物学、物理学、工程学和化学领域的根本性突破。为什么大数据的重点从基础科学转向了机器学习?这可能与这样一个事实有关,即包括本书第1版在内的所有书籍都没能为读者提供将大数据原理付诸实践的方法。回想起来,光描述理论,然后寄期望于读者开拓出自己的方法是不够的。
因此,在第2版中,在介绍理论的同时,亦将提供与之相应的实践手段。读者会发现用于实现大数据准备和分析的所有方法都非常简单。在大多数情况下,为了理解计算机方法,需要对编程语言有一些基本的了解。尽管会有疑虑,但Python将作为本书的首选语言。Python的优点如下:
Python是一种免费的、开源的高级编程语言,易于获取、安装、学习和使用,并且适用于所有主流的计算机操作系统。
Python目前非常受欢迎,并且其受欢迎程度似乎越来越高。
Python发行版(例如Anaconda)绑定了数百个非常有用的模块(例如numpy、matplot和scipy)。
Python有一个庞大而活跃的社群,这为Python方法和模块提供了大量的参考文档。
Python支持一些面向对象的技术,这些技术将在第2版中有所讨论。
事物都有其两面性,Python也有缺点:
媒体评论
---------------------------大数据原理与实践:复杂信息的准备、共享和分析(原书第2版)---------------------------
本书介绍广泛适用于大型复杂数据集的新方法,新版添加了大量应用实例及Python代码示例,关注如何将原理付诸实践。书中除了涵盖常见的与大数据设计、架构、操作和分析相关的内容,还有涉及法律、社会和伦理问题的非技术性章节。书中描述的所有算法的核心部分都可以用几行代码轻松实现,可帮助读者掌握如何在不安装新软件和不购买新硬件的情况下,有效地完成自己的项目。
本书特色
·重新审视数据准备环节,包括三元组、内省、标识符、不变性、永久性、单向散列、加密、计时和时间戳等技术及方法。
·讨论大数据相关的数据结构,涵盖分布式账本、一致性、索引、字典对象等概念,并讨论了数据对象分类在大数据分析中的作用。
·分享大数据分析技巧,使用蒙特卡罗模拟等简单方法来克服大数据规模和维度的限制,还讨论了数据再分析、数据重新利用和数据共享。
书摘
---------------------------大数据技术体系详解:原理、架构与实践---------------------------
《大数据技术体系详解:原理、架构与实践》:
(1)基于哈希的实现
基于哈希的实现是Spark第一个Shuffle实现版本,它的基本思想是:ShuffleMapTask在每个core上生成R(R指Shuffle Read端任务个数)个文件,数据直接通过哈希方式决定具体写入哪个文件,这些文件被该core上运行的每一轮任务公用,并以追加的形式不断增加。图11—19展示了SimpleReduceByKey基于哈希的Shuffle的实现原理,在该应用程序中,共启动了2个Executor,每个Executor拥有2个core(可同时运行2个任务),ShuffleRead端共有3个任务。
基于哈希的Shuffle实现最大缺点是扩展性差,主要体现在以下两个方面:
1)产生过多临时文件:如果一个应用程序共启动了C个Executor,且shuffle Read端启动R个ResultTask任务,则该应用程序共产生C*R个临时文件,很明显,应用程序产生的临时文件数目随着Executor数目和任务数目的增大而线性增加,文件数目过多会产生以下两个问题:
写性能低下:大量小文件会意味着大量随机写,性能低下。
操作系统资源消耗大:过多文件可能会耗光操作系统资源(比如Inode数)。
……