基本信息
- 作者: (美)Tom White
- 译者: 华东师范大学数据科学与工程学院
- 出版社:清华大学出版社
- ISBN:9787302370857
- 上架时间:2014-10-24
- 出版日期:2015 年1月
- 开本:16开
- 页码:679
- 版次:3-1
- 所属分类:计算机 > 数据库 > 数据库存储与管理
编辑推荐
唯一全面深度解读Hadoop的权威指南,驰骋于云计算和大数据领域的通俗读本。
“谁说大象不能跳舞?!——挑战互联网规模的数据存储与分析!”
第2版2011年底发行,重印次数达13次,累计销量近3.5万册。
内容简介
作译者
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。
目录
第1章 初识Hadoop 1
1.1 数据!数据! 1
1.2 数据的存储与分析 3
1.3 相较于其他系统的优势 4
1.3.1 关系型数据库管理系统 5
1.3.2 网格计算 7
1.3.3 志愿计算 9
1.4 Hadoop发展简史 10
1.5 Apache Hadoop和Hadoop生态系统 14
1.6 Hadoop的发行版本 15
1.6.1 本书包含的内容 16
1.6.2 兼容性 17
第2章 关于MapReduce 19
2.1 气象数据集 19
2.2 使用Unix工具来分析数据 21
2.3 使用Hadoop来分析数据 23
2.3.1 map和reduce 23
2.3.2 Java MapReduce 24
2.4 横向扩展 33
译者序
在2008年,学术界曾经爆发过MapReduce技术是否是一个倒退的争论。一方面,以Michale Stonebraker 和David Dewitt为主导的数据库大师指出,MapReduce数据处理模型存在有一些不足和局限,例如,缺乏对过去四十多年以来数据库系统领域所取得成就的重视(包括数据建模、数据库模式与应用分离、高级查询语言等),而是采用蛮力进行数据扫描,并不重视索引在数据处理方面的作用。而且,MapReduce所采用的并行处理模型在早期的并行数据库Gamma系统中业已采用,并得到了深入的研究,所以也算不上什么重大的创新。另一方面,以谷歌云计算专家Jeff Dean 和 Sanjay Ghemawat为首的技术新秀(2013年ACM Infosys基金会计算机科学奖获得者)则认为,MapReduce最大的作用是它提供了一种便捷的大数据处理方式,大幅简化了企事业机构安装、部署和配置大数据处理系统的工作,大幅降低了大数据处理成本。这场争论最后以并行数据库系统和MapReduce技术各自有其适合的应用场合而结束。
以MapReduce技术为主要技术蓝本的Hadoop系统在我国拥有者庞大的用户群,形成了一个活跃的开源系统生态圈。互联网企业(例如百度、阿里和腾讯等)、金融行业(例如工商银行和建设银行等)、IT厂商(例如华为和中兴等)以及不计其数的中小型企业,都是Hadoop系统的拥趸。从每年召开的大数据技术大会上可以看出,我国拥有着庞大的Hadoop系统开发群体,他们现在已经构建了Hadoop之上大量的应用软件,每天处理着类型各异的大规模数据。因此,Hadoop及其周边技术和系统在我国仍然有广泛的影响和应用市场。
从2006年开始,我们团队就在拥有288核和40 TB存储的计算机集群上部署了Hadoop系统,成功完成了多项研究。通过多年的学术研究和项目实施,我们对Hadoop系统及其上的应用开发有了较深入的理解和认识,积累了系统部署、调优、优化等方面的诸多经验。在本书作者Tom White于2010年出版《Hadoop权威指南》(第2版)之后,我们受邀进行翻译工作。这本书的内容组织得很好,思路也很清晰,紧密结合实际问题。第2版的翻译是成功的,深受广大读者喜爱和欢迎。在2013年,Tom White根据Hadoop的新版本推出第3版之后,我们出于对这本书的喜爱,再一次着手修订、翻译和完善。希望新版本能够给读者带来更高的技术含量,更好的阅读感受。
全书包含16章和3个附录。翻译和审校工作由周傲英教授组织完成。参加翻译工作的有:周敏奇,第1章到第4章;王晓玲,第5章到第7章;金澈清,第8章到第10章及附录A、B、C;钱卫宁,第11章到第13章;宫学庆,第14章到第15章;张蓉,第16章。
由于本书涉及面广,许多术语目前尚无固定译法。有时,为一个术语选择一个简洁、达意的译法,译者团队虽然经过反复推敲和讨论,但仍然可能出现词不达意的情况。对于有些确信不会对读者造成困扰的专有名称(如datanode,comparator等),由于在实践过程中都习惯于沿用这些外来语,所以我们在本书的表述中也保留了部分名称,希望不会对您的工作和学习造成困扰。由于译者水平有限,译文中的不当之处也在所难免,真诚希望广大同行和读者不吝赐教。如果能将您的意见和建议发往{mqzhou,wnqian,cqjin,xlwang,xqgong,rzhang}@sei.ecnu.edu.cn,我们将不胜感激。
华东师范大学数据科学与工程研究院
2014年11月
前言
在大象书《Hadoop权威指南(第3版)》出版之际,有几点需要向读者做一个简单的说明。
考虑到这本书的特殊性(加之Hadoop所涉及的一些术语现在尚未形成规范),考虑到使用Hadoop的人群(素质高、英文水平也过硬),我们尝试着结合出版的实际,对原书的英文示意图进行了适当的保留,以方便大家能够快速建立中英文之间的映射。希望我们的这种尝试能够为大家带来更好的阅读感受。
同时,也借这个机会向以下人员致以诚挚的谢意!
首先要感谢作者Tom White。一部好的作品,必然凝聚着作者的心血。Tom从2007年以来,就担任Hadoop项目负责人。剑桥大学数学学士和英国利兹大学科学哲学硕士的背景,使得他能以数学家和哲学家的头脑、研究者的严谨态度和开发人员的务实精神,认真地研习和推动Hadoop这个云计算平台的发展。
我们欣喜地看到,Hadoop最近几年得到突飞猛进的蓬勃发展,同时也催生了更多开源项目:
2011年3月,Apache Hadoop荣获Media Guardian年度创新大奖,被评审委员会誉为“21世纪的瑞士军刀,未来媒体创新的引爆点”;
2011年1月,Hadoop子项目ZooKeeper“毕业”升级为Apache顶级项目;
2010年9月,Hadoop子项目Hive和Pig“毕业”升级为Apache顶级项目;
2010年5月,Hadoop子项目Avro和HBase“毕业”升级为Apache顶级项目;
2009年7月,Hadoop新的子项目诞生,Hadoop Core更名为Hadoop Common,MapReduce和Hadoop Distributed File System(HDFS)独立成为子项目,Avro和Chukwa成为新的Hadoop子项目;
2009年3月,ApacheCon 2009欧洲用户大会召开;
2008年,ApacheCon美国用户大会召开。
在“众人拾柴火焰高”这样的社区大环境下,Hadoop得到广泛的使用和普及。到现在,全球使用Hadoop的企业和组织多达数千家。在中国,Hadoop在越来越多的企业和高校落地生根,百度、天涯和口碑网,都是Hadoop的重度用户。
Tom作为项目负责人,懂得如何封装那些深奥难懂的技术细节(尽管他个人非常喜欢,比如,他个人强烈推荐Jimmy Lin等著的Data-Intensive Text Processing with MapReduce一书),懂得如何让更多的人充分应用Hadoop,为Hadoop做出贡献。《Hadoop权威指南》就是一个明证。在这本书中,他借助于条理清晰的结构,通俗易懂、行如流水的文笔,将Hadoop的优势与局限,Hadoop的工作机理,Hadoop之魂MadpReduce,Hadoop的最佳拍档(如Hive等),Hadoop的实践案例,娓娓道来。这本书充分演绎了Tom的智慧,同时也给我们很多启发。
感谢Hadoop创始人Doug Cutting为本书写序。他给我们讲述了Hadoop的故事,讲到他眼中的Tom,也充分肯定了Tom对Hadoop所做的卓越贡献。
感谢周傲英老师及其团队成员周敏奇、王晓玲、金澈清、钱卫宁、宫学庆和张蓉。从大象书《Hadoop权威指南(第3版)》的翻译启动到出版,和大家一起度过了一段值得回忆的美好时光。周傲英老师在业内具有很高的威望,是一位深受学生爱戴的师长,一名知人善任的学者。这个自组织的译者团队分工明确,规范,交付时间有保障,同时还非常认真地对待编辑提出的问题,尤其是周敏奇老师和何晓丰老师。这些规范的流程,显然不是一日建成的,而是长期工作过程中训练有素的结果。在此向他们的敬业精神表示诚挚的谢意!
最后要感谢我们的广大读者,Hadoop未来的享用者和贡献者。对于本书,尽管已经尽心尽力,但仍然为可能存在的疏漏和差错而心怀忐忑,恳请大家批评和指正。如果有发现任何疏漏之处或者阅读过程中有任何不理解的地方,请发送邮件到coo@netease.com,期待着能够为您答疑解惑。
序言
在这本《Hadoop权威指南(第3版)》即将出版之际,我十分高兴地再次向广大读者推荐这本书。
一本书的价值最重要的是取决于它的用途。今天,开源的Hadoop已经成为研究大数据十分重要的平台,在我国已经形成一个庞大的Hadoop用户社群,他们对学习、掌握和提高Hadoop提出了很高的需求,《Hadoop权威指南(第3版)》恰好满足这样的需要,其用途和价值不言而喻。这一点也可以从下面的事实中得到佐证:从2011年年底出版至今,本书的第2版已经实现了12次印刷,拥有近3.5万名读者并连续两年位列专业图书畅销榜榜首。
一本书的价值还来自于它的内容。原著是用英文写作的,它的内容组织得当,思路清晰,紧密结合实际。但是要把它翻译成中文介绍给中国的读者,并非易事。它不单单要求译者能够熟练地掌握英文,还要求他们对书中的技术性内容有深入、准确的了解和掌握。从这两点来审视,本书的译者团队完全足以胜任。作为大学老师,他们不仅在大数据领域从事一线教学和科研,同时还负责指导研究生从事数据库方面的研究。从 2006 年开始,他们就在计算机集群上部署了Hadoop并成功完成了很多项研究。在这几年的工作过程中,他们对Hadoop及其应用开发有着深入的理解和认识,这是本书翻译质量有保证的重要前提。
经过再一次升级、修订和更新,值此《Hadoop权威指南(第3版)》出版之际,我衷心地希望这本书继续为广大读者带来更高的学习价值,更友好的阅读体验。
周立柱@清华园
2014年秋
媒体评论
一本书的价值最重要的是取决于它的用途。今天,开源的Hadoop已经成为研究大数据十分重要的平台,在我国已经形成一个庞大的Hadoop用户社群,他们对学习、掌握和提高Hadoop提出了很高的需求,《Hadoop权威指南(第3版)》恰好满足这样的需要,其用途和价值不言而喻。这一点也可以从下面的事实中得到佐证:从2011年年底出版至今,本书的第2版已经实现了12次印刷,拥有近3.5万名读者并连续两年位列专业图书畅销榜榜首。
一本书的价值还来自于它的内容。原著是用英文写作的,它的内容组织得当,思路清晰,紧密结合实际。但是要把它翻译成中文介绍给中国的读者,并非易事。它不单单要求译者能够熟练地掌握英文,还要求他们对书中的技术性内容有深入、准确的了解和掌握。从这两点来审视,本书的译者团队完全足以胜任。作为大学老师,他们不仅在大数据领域从事一线教学和科研,同时还负责指导研究生从事数据库方面的研究。从 2006 年开始,他们就在计算机集群上部署了Hadoop并成功完成了很多项研究。在这几年的工作过程中,他们对Hadoop及其应用开发有着深入的理解和认识,这是本书翻译质量有保证的重要前提。
经过再一次升级、修订和更新,值此《Hadoop权威指南(第3版)》出版之际,我衷心地希望这本书继续为广大读者带来更高的学习价值,更友好的阅读体验。
——周立柱@清华园
2014年秋
书摘
在古时候,人们用牛来拉重物。当一头牛拉不动一根圆木时,人们从来没有考虑过要培育更强壮的牛。同理,我们也不该想方设法打造超级计算机,而应该千方百计综合利用更多计算机来解决问题。
——格蕾斯·霍珀(Grace Hopper)
1.1 数据!数据!
我们生活在这个数据大爆炸的时代,很难估算全球电子设备中存储的数据总共有多少。国际数据公司(IDC)曾经发布报告称,2006年数字世界(digital universe)项目统计得出全球数据总量为0.18 ZB并预测在2011年将达到1.8 ZB。 1 ZB等于1021字节,等于1000 EB(exabytes),1 000 000 PB (petabytes),等于大家更熟悉的10亿TB(terrabytes)!这相当于全世界每人一个硬盘中保存的数据总量!
数据“洪流”有很多来源。以下面列出的为例:
? 纽约证交所每天产生的交易数据多达1 TB
? 脸谱网(Facebook)存储的照片约100 亿张,存储容量约为 1 PB
? 家谱网站Ancestry.com存储的数据约为2.5 PB
? 互联网档案馆(The Internet Archive)存储的数据约为2 PB,并以每月至少20 TB的速度持续增长
? 瑞士日内瓦附近的大型强子对撞机每年产生的数据约为15 PB
还有其他大量的数据。但是你可能会想它对自己又有哪些影响呢?地球人都知道,大部分数据都严密锁存在一些大型互联网公司(如搜索引擎公司)或科学机构与金融机构中。难道所谓的“大数据”只影响小机构和个人?
我个人是这样认为的。以照片为例,我妻子的爷爷是一个骨灰级的摄影爱好者。在成年之后,他一直都在拍照。他的整个相册,包括普通胶片、幻灯片、35mm胶片,在扫描成高分辨率的图片之后,大约有10 GB。相比之下,在2008年,我家用数码相机拍摄的照片总共有5 GB。对照爷爷的照片生成速度,我家是他老人家的35倍!并且,而且这个速度还在不断增长中,因为现在拍照片真的是越来越容易了。
有一种情况更普遍,个人产生的数据正在快速增长。微软研究院的MyLifeBits 项目 (http://research.microsoft.com/enus/projects/mylifebits/ default.aspx)显示,在不久的将来,个人信息档案将日益普及。MyLifeBits的一个实验是获取和保存个人的对外联系情况(包括电话、邮件和文件),供日后存取。收集的数据中包括每分钟拍摄的照片等,数据量每月约为1 GB。当存储成本急剧下降以至于可以存储音频和视频时,MyLifeBits项目在未来的存储的数据量将是现在的很多倍。
保存个人成长过程中产生的所有数据似乎逐渐成为主流,但更重要的是,计算机产生的数据可能远远超过我们个人所产生的。机器日志、RFID检测仪、传感器网络、车载GPS 和零售交易数据等——所有这些都将产生巨量的数据。
在网上公开发布的数据也在逐年增加。组织或企业,要想在未来取得成功,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息。
这方面的先锋有Amazon Web Services(http://aws.amazon.com/publicdatasets)、Infochimps.org(http://infochimps.org/)和theinfo.org(http://theinfo.org),它们所发布的共享数据集,正在促进信息共享(information commons),供所有人自由下载和分析 (或者只需要支付合理的价格通过AWS 平台来共享)。不同来源的信息在经过混搭和处理之后,会带来意外的效果和我们今天难以想象的应用。
以Astrometry.net(http://astrometry.net)为例,主要查看和分析Flickr网站上星空机器人小组所拍摄的星空照片。它对每一张照片进行分析并能辨别出它来自星空或其他天体(例如恒星和银河系等)的哪一部分。虽然这项研究尚处于试验阶段,但也表明如果可用的数据足够多(在本例中,为加有标签的图片数据),通过它们而产生的后续应用也许会超乎这些拍照片的人最初的想象 (图片分析)。
有句话说得好:“大数据胜于好算法。” 意思是说对于某些应用 (譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。
现在,我们已经有了大量数据,这是个好消息。但不幸的是,我们必须想方设法好好地存储和分析这些数据。