Hadoop权威指南(第2版)
基本信息
- 作者: (美)Tom White [作译者介绍]
- 译者: 周敏奇 钱卫宁 金澈清 王晓玲
- 丛书名: 清华大学出版社O'Reilly系列
- 出版社:清华大学出版社
- ISBN:9787302257585
- 上架时间:2011-7-4
- 出版日期:2011 年7月
- 开本:16开
- 页码:600
- 版次:2-1
- 所属分类:
计算机 > 数据库 > 数据库存储与管理
推荐阅读
内容简介回到顶部↑
书籍
计算机书籍
《hadoop权威指南(第2版)》从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;hadoop分布式文件系统;hadoop的i/o、mapreduce应用程序开发;mapreduce的工作机制;mapreduce的类型和格式;mapreduce的特性;如何构建hadoop集群,如何管理hadoop;pig简介;hbase简介;hive简介;zookeeper简介;开源工具sqoop,最后还提供了丰富的案例分析。
《hadoop权威指南(第2版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。
google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。
作者tomwhite作为hadoop的项目负责人,通过自己对hadoop和hadoop社区的理解,化繁为简,用浅显易懂的语言介绍了hadoop能做什么,怎么做才能充分发挥hadoop的优势,hadoop能够和哪些开源工具结合使用。这是一本主题丰富、讲解透彻的权威参考书,可帮助程序员了解分析海量数据集的细枝末节,帮助管理员掌握搭建和运行hadoop集群的具体过程。
经过修订和更新的第2版概述了hadoop的最新动态,例如hive、sqoop和avro等。书中还提供了案例分析来帮助读者了解如何用hadoop来解决具体的问题。如果想充分利用数据,从中挖掘出有价值的见解或者观点,毫无疑问,这本书将是您不可或缺的重要参考。
使用hadoop分布式文件系统(hdfs)来存储大型数据集,然后用mapreduce对这些数据集执行分布式计算
hadoop的数据和i/o构建块(用子压缩、数据完整性、序列化和持久处理)
探究mapreducc应用开发中常见的陷阱和高级特性
设计,构建和管理门adoop专用集群或在云上运行hadoop
使用pig这种高级的查询语言来进行大规模数据处理
使用hive(hadoop的数据仓库系统)来分析数据集
使用hbase(hadoop的数据库)来处理结构化数据和半结构化数据
深入介绍zookeeper,一个用子构建分布式系统的协作类型工具箱
计算机书籍
《hadoop权威指南(第2版)》从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;hadoop分布式文件系统;hadoop的i/o、mapreduce应用程序开发;mapreduce的工作机制;mapreduce的类型和格式;mapreduce的特性;如何构建hadoop集群,如何管理hadoop;pig简介;hbase简介;hive简介;zookeeper简介;开源工具sqoop,最后还提供了丰富的案例分析。
《hadoop权威指南(第2版)》是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。
google帝国的基石是什么?mapreduce算法!开源项目hadoop作为它的一个具体实现,可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。
作者tomwhite作为hadoop的项目负责人,通过自己对hadoop和hadoop社区的理解,化繁为简,用浅显易懂的语言介绍了hadoop能做什么,怎么做才能充分发挥hadoop的优势,hadoop能够和哪些开源工具结合使用。这是一本主题丰富、讲解透彻的权威参考书,可帮助程序员了解分析海量数据集的细枝末节,帮助管理员掌握搭建和运行hadoop集群的具体过程。
经过修订和更新的第2版概述了hadoop的最新动态,例如hive、sqoop和avro等。书中还提供了案例分析来帮助读者了解如何用hadoop来解决具体的问题。如果想充分利用数据,从中挖掘出有价值的见解或者观点,毫无疑问,这本书将是您不可或缺的重要参考。
使用hadoop分布式文件系统(hdfs)来存储大型数据集,然后用mapreduce对这些数据集执行分布式计算
hadoop的数据和i/o构建块(用子压缩、数据完整性、序列化和持久处理)
探究mapreducc应用开发中常见的陷阱和高级特性
设计,构建和管理门adoop专用集群或在云上运行hadoop
使用pig这种高级的查询语言来进行大规模数据处理
使用hive(hadoop的数据仓库系统)来分析数据集
使用hbase(hadoop的数据库)来处理结构化数据和半结构化数据
深入介绍zookeeper,一个用子构建分布式系统的协作类型工具箱
作译者回到顶部↑
本书提供作译者介绍
Tom White从2007年以来,一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一,同时也是Cloudera的一名工程师。Tom为oreilly.com、java.net和IBM的developerWorks写过大量文章,并经常在很多行业大会上发表演讲。
.. << 查看详细
.. << 查看详细
目录回到顶部↑
《hadoop权威指南(第2版)》
第1章 初识hadoop 1
数据!数据! 1
数据存储与分析 3
与其他系统相比 4
关系型数据库管理系统 4
网格计算 6
志愿计算 8
hadoop 发展简史 9
apache hadoop和hadoop生态圈 12
第2章 关于mapreduce 15
一个气象数据集 15
数据的格式 15
使用unix工具进行数据分析 17
使用hadoop分析数据 18
map阶段和reduce阶段 18
横向扩展 27
合并函数 30
运行一个分布式的mapreduce作业 33
hadoop的streaming 33
第1章 初识hadoop 1
数据!数据! 1
数据存储与分析 3
与其他系统相比 4
关系型数据库管理系统 4
网格计算 6
志愿计算 8
hadoop 发展简史 9
apache hadoop和hadoop生态圈 12
第2章 关于mapreduce 15
一个气象数据集 15
数据的格式 15
使用unix工具进行数据分析 17
使用hadoop分析数据 18
map阶段和reduce阶段 18
横向扩展 27
合并函数 30
运行一个分布式的mapreduce作业 33
hadoop的streaming 33
译者序回到顶部↑
据2011年4月圣地亚哥大学公布的报告,2008年全球两千七百万台服务器处理的数据量已达9.57 ZB。如何有效管理和高效处理这些海量数据已成为当前亟待解决的问题。另外,三大类海量数据——商业数据、科学数据、网页数据——的异构性(结构化数据、半结构化数据以及非结构化数据)又进一步加剧了海量数据处理的难度。2011年2月出版的《科学》杂志刊登专题“Special Online Collection: Dealing with Data”,围绕着目前各类数据量的激增展开讨论,认为海量数据的收集、维护和使用已成为科学研究的主要工作。对许多学科而言,海量数据处理意味着更严峻的挑战,然而更好地管理和处理这些数据也将会获得意想不到的收获。
关系型数据库系统的研究在数据管理方面积累较多经验。20世纪70年代,关系模型的提出以及IBM System R 和伯克利Ingres的成功开发,证明了关系型数据库系统处理商业数据的优越性。20世纪80年代,由此模型派生出的IBM DB2,Sybase SQL Server、Oracle Database等以联机事务处理(OLTP)为主的数据库系统的蓬勃发展,使数据库系统得以充分的商业化。20世纪90年代,W. H. Inmon提出的整合历史数据,通过在线分析(OLAP)和数据挖掘等方法实现商业规划、决策支持等商业智能服务的数据仓库系统,为数据库系统的应用翻开了崭新的篇章。然而,面对当下的海量数据,这一近40年历史、一体适用(one size fits all)的数据库系统架构显得老态龙钟,力不从心,逐渐无法应对当前的需求。
自从2003年以来,谷歌陆续发布GFS和MapReduce等高可扩展、高性能的分布式海量数据处理框架,并证明了该框架在处理海量网页数据时的优越性。该框架实现了更高应用层次的抽象,使用户无需关注复杂的内部工作机制,无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统的部署与海量数据的并行处理。Apache Hadoop开源项目克隆了这一框架,推出了Hadoop系统。该系统已受到学术界和工业界的广泛认可和采纳,并孵化出众多子项目(如Pig,Zookeeper和Hive等),日益形成一个易部署、易开发、功能齐全、性能优良的系统。
华东师范大学海量计算研究所从2006年开始从事海量数据方面的研究,且在集群(288核,40 TB存储)上部署了Hadoop系统,并成功完成多项研究。多年来从事海量数据学术研究和项目实施的相关经历,使得我们对Hadoop系统及其开发有了较深入的理解和认识,并在Hadoop部署、调优和优化等方面积累了丰富的经验。2010年,Hadoop项目负责人Tom White的《Hadoop权威指南》出版第2版。这本书内容组织得很好,思路清晰,紧密结合了实际问题。于是,我们翻译了本书,希望能为广大的Hadoop管理者和使用者提供部分帮助。
全书主要包括16章和3个附录。本书的翻译和审校由周傲英教授组织完成。参加翻译工作的有周敏奇(第1~4章)、王晓玲(第5~7章)、金澈清(第8~10章及附录A~C)、钱卫宁(第11~13章)、宫学庆(第14章&第15章)和张蓉(第16章)。
由于本书涉及面广,许多术语目前尚无固定译法,翻译难度确实很大。有时,为一个术语选择一个简洁、达意的译法,译者们往往需要反复推敲和讨论,虽然如此,词不达意的情况仍然在所难免。此外,由于译者水平有限,译文中也可能存在不当之处,恳请同行和读者朋友不吝赐教。如果能将您的意见和建议发往mqzhou@sei.ecnu.edu.cn,wnqian@sei.ecnu.edu.cn,cqjin@sei.ecnu.edu.cn,xlwang@sei.ecnu.edu.cn,xqgong@sei.ecnu.edu.cn,rzhang@sei.ecnu.edu.cn,我们将不胜感激。
周敏奇
2011年6月于上海
关系型数据库系统的研究在数据管理方面积累较多经验。20世纪70年代,关系模型的提出以及IBM System R 和伯克利Ingres的成功开发,证明了关系型数据库系统处理商业数据的优越性。20世纪80年代,由此模型派生出的IBM DB2,Sybase SQL Server、Oracle Database等以联机事务处理(OLTP)为主的数据库系统的蓬勃发展,使数据库系统得以充分的商业化。20世纪90年代,W. H. Inmon提出的整合历史数据,通过在线分析(OLAP)和数据挖掘等方法实现商业规划、决策支持等商业智能服务的数据仓库系统,为数据库系统的应用翻开了崭新的篇章。然而,面对当下的海量数据,这一近40年历史、一体适用(one size fits all)的数据库系统架构显得老态龙钟,力不从心,逐渐无法应对当前的需求。
自从2003年以来,谷歌陆续发布GFS和MapReduce等高可扩展、高性能的分布式海量数据处理框架,并证明了该框架在处理海量网页数据时的优越性。该框架实现了更高应用层次的抽象,使用户无需关注复杂的内部工作机制,无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统的部署与海量数据的并行处理。Apache Hadoop开源项目克隆了这一框架,推出了Hadoop系统。该系统已受到学术界和工业界的广泛认可和采纳,并孵化出众多子项目(如Pig,Zookeeper和Hive等),日益形成一个易部署、易开发、功能齐全、性能优良的系统。
华东师范大学海量计算研究所从2006年开始从事海量数据方面的研究,且在集群(288核,40 TB存储)上部署了Hadoop系统,并成功完成多项研究。多年来从事海量数据学术研究和项目实施的相关经历,使得我们对Hadoop系统及其开发有了较深入的理解和认识,并在Hadoop部署、调优和优化等方面积累了丰富的经验。2010年,Hadoop项目负责人Tom White的《Hadoop权威指南》出版第2版。这本书内容组织得很好,思路清晰,紧密结合了实际问题。于是,我们翻译了本书,希望能为广大的Hadoop管理者和使用者提供部分帮助。
全书主要包括16章和3个附录。本书的翻译和审校由周傲英教授组织完成。参加翻译工作的有周敏奇(第1~4章)、王晓玲(第5~7章)、金澈清(第8~10章及附录A~C)、钱卫宁(第11~13章)、宫学庆(第14章&第15章)和张蓉(第16章)。
由于本书涉及面广,许多术语目前尚无固定译法,翻译难度确实很大。有时,为一个术语选择一个简洁、达意的译法,译者们往往需要反复推敲和讨论,虽然如此,词不达意的情况仍然在所难免。此外,由于译者水平有限,译文中也可能存在不当之处,恳请同行和读者朋友不吝赐教。如果能将您的意见和建议发往mqzhou@sei.ecnu.edu.cn,wnqian@sei.ecnu.edu.cn,cqjin@sei.ecnu.edu.cn,xlwang@sei.ecnu.edu.cn,xqgong@sei.ecnu.edu.cn,rzhang@sei.ecnu.edu.cn,我们将不胜感激。
周敏奇
2011年6月于上海
前言回到顶部↑
数学和科普作家马丁?加德纳(Martin Gardner)曾在一次采访中谈到:
“除了微积分,我什么都不会。这个是我的专栏之所以成功的秘密。我花了好长一段时间才明白如何以大多数读者都能明白的方式将我所知道的东西娓娓道来。”
在很多方面,这也是我对Hadoop的感受。它的内部工作机制非常复杂,依托于一个集分布式系统理论、实际工程和常识于一体的系统。而对于门外汉,Hadoop则难以理解。
但我们并不需要这样来理解它。避开Hadoop的内核不谈,Hadoop提供的用于构建分布式系统的工具——用于数据存储、数据分析和协调处理——都非常简单。如果说这些工具有一个共通的主题,那就是它们提供了一定层次的抽象——为偶尔有大量数据需要存储的程序员,或有大量数据需要分析的程序员,或有大量计算机需要管理的程序员,同时却没有足够时间、技巧或者不想成为分布式系统专家的程序员,提供一套组件使其能够利用Hadoop来构建基础平台。
这样简单、通用的特性集,使得我在开始使用Hadoop时,明显觉得Hadoop的确值得广泛应用。但起初(2006年初),设置、配置和编写Hadoop应用是一门高深的艺术。之后,情况确实有所改善:文档增多了;示例增多了;碰到问题时,可以向大量邮件列表发邮件进行询问。对于新手而言,最大的任务是理解这个技术有哪些能耐,它有哪些擅长,如何使用它。这正是我写这本书的动机。
Apache Hadoop社区经过很多努力最终实现了Hadoop。在过去的三年多时间里,Hadoop项目开花结果并孵化出约半打子项目。到目前,这个软件在性能、可靠性、可扩展性和可管理性方面实现了巨大的飞跃。但是,为了让更多人采用Hadoop,我认为我们需要把Hadoop变得更好用。这需要创建更多的工具;集成更多的系统;创建新的、改进的API函数。我希望我自己能参与,同时也希望本书能够鼓励其他人参与Hadoop的开发。
说明
在正文中讨论特定的Java类时,我常常会忽略其包的名称以避免杂乱。如果想知道一个类在哪个包内,可以查阅相关子项目的Hadoop Java API文档,可以从Apach Hadoop主页(http://hadoop.Apache.org)链入。如果正在使用IDE,则可以借助于它的自动完成机制。
相似的,尽管它偏离传统的编码规范,但如果要导入同一个包的多个类,程序可以使用星号通配符来节省空间(例如,import org.apache.hadoop.io.*)。
本书中的示例代码可以从本书网站下载,网址为http://www.hadoopbook.com/。可以根据网页上的指示获取本书示例所用的数据集,以及运行本书示例所需要的进一步说明、更新链接、额外的资源以及我的博客。
本书包含哪些内容?
本书是这样组织的。第1章强调为什么需要Hadoop,概述项目发展历史。第2章简要介绍MapReduce。第3章深入剖析Hadoop文件系统,特别是HDFS。第4章包含Hadoop的主要I/O操作:数据完整性、压缩、序列化及基于文件的数据结构。
接下来的第5~8章深入剖析MapReduce。第5章全景呈现了MapReduce应用开发所涉及的具体步骤。第6章从用户的角度来看如何在Hadoop中实现MapReduce。第7章主要包含MapReduce编程模型和MapReduce可以使用的各种数据格式。第8章是MapReduce高级主题,包括排序和数据连接。
第9章和第10章主要面向Hadoop管理员,主要描述如何在Hadoop集群上设置和维护运行HDFS和MapReduce。
第11章~15章专门介绍构建在Hadoop上的特定项目或相关内容。第11章和第12章描述的是Pig和Hive,这两个分析平台构建在HDFS和MapReduce之上,而第13章、第14章和第15章分别介绍Hbase、ZKooeeper和Sqoop。
最后,第16章收集了Apache Hadoop社区成员提供的一系列示例。
第2版新增了哪些内容?
《Hadoop权威指南》第2版有两章新增内容,专门介绍Hive和Sqoop(第12和第15章)。第4章新增一个小节专门介绍Avro,第9章概述Hadoop新增的安全特性,第16章增加了一个新的实例分析,介绍如何使用Hadoop来分析海量网络图。
第2版继续介绍Apach Hadoop 0.20系列发行版本,因为这是本书写作期间最新、最稳定的发行版本。本书中有时会提到一些最新发行版本中的一些新特性,但在刚介绍这些特性时,会说明具体的Hadoop版本号。
本书采用的约定
“除了微积分,我什么都不会。这个是我的专栏之所以成功的秘密。我花了好长一段时间才明白如何以大多数读者都能明白的方式将我所知道的东西娓娓道来。”
在很多方面,这也是我对Hadoop的感受。它的内部工作机制非常复杂,依托于一个集分布式系统理论、实际工程和常识于一体的系统。而对于门外汉,Hadoop则难以理解。
但我们并不需要这样来理解它。避开Hadoop的内核不谈,Hadoop提供的用于构建分布式系统的工具——用于数据存储、数据分析和协调处理——都非常简单。如果说这些工具有一个共通的主题,那就是它们提供了一定层次的抽象——为偶尔有大量数据需要存储的程序员,或有大量数据需要分析的程序员,或有大量计算机需要管理的程序员,同时却没有足够时间、技巧或者不想成为分布式系统专家的程序员,提供一套组件使其能够利用Hadoop来构建基础平台。
这样简单、通用的特性集,使得我在开始使用Hadoop时,明显觉得Hadoop的确值得广泛应用。但起初(2006年初),设置、配置和编写Hadoop应用是一门高深的艺术。之后,情况确实有所改善:文档增多了;示例增多了;碰到问题时,可以向大量邮件列表发邮件进行询问。对于新手而言,最大的任务是理解这个技术有哪些能耐,它有哪些擅长,如何使用它。这正是我写这本书的动机。
Apache Hadoop社区经过很多努力最终实现了Hadoop。在过去的三年多时间里,Hadoop项目开花结果并孵化出约半打子项目。到目前,这个软件在性能、可靠性、可扩展性和可管理性方面实现了巨大的飞跃。但是,为了让更多人采用Hadoop,我认为我们需要把Hadoop变得更好用。这需要创建更多的工具;集成更多的系统;创建新的、改进的API函数。我希望我自己能参与,同时也希望本书能够鼓励其他人参与Hadoop的开发。
说明
在正文中讨论特定的Java类时,我常常会忽略其包的名称以避免杂乱。如果想知道一个类在哪个包内,可以查阅相关子项目的Hadoop Java API文档,可以从Apach Hadoop主页(http://hadoop.Apache.org)链入。如果正在使用IDE,则可以借助于它的自动完成机制。
相似的,尽管它偏离传统的编码规范,但如果要导入同一个包的多个类,程序可以使用星号通配符来节省空间(例如,import org.apache.hadoop.io.*)。
本书中的示例代码可以从本书网站下载,网址为http://www.hadoopbook.com/。可以根据网页上的指示获取本书示例所用的数据集,以及运行本书示例所需要的进一步说明、更新链接、额外的资源以及我的博客。
本书包含哪些内容?
本书是这样组织的。第1章强调为什么需要Hadoop,概述项目发展历史。第2章简要介绍MapReduce。第3章深入剖析Hadoop文件系统,特别是HDFS。第4章包含Hadoop的主要I/O操作:数据完整性、压缩、序列化及基于文件的数据结构。
接下来的第5~8章深入剖析MapReduce。第5章全景呈现了MapReduce应用开发所涉及的具体步骤。第6章从用户的角度来看如何在Hadoop中实现MapReduce。第7章主要包含MapReduce编程模型和MapReduce可以使用的各种数据格式。第8章是MapReduce高级主题,包括排序和数据连接。
第9章和第10章主要面向Hadoop管理员,主要描述如何在Hadoop集群上设置和维护运行HDFS和MapReduce。
第11章~15章专门介绍构建在Hadoop上的特定项目或相关内容。第11章和第12章描述的是Pig和Hive,这两个分析平台构建在HDFS和MapReduce之上,而第13章、第14章和第15章分别介绍Hbase、ZKooeeper和Sqoop。
最后,第16章收集了Apache Hadoop社区成员提供的一系列示例。
第2版新增了哪些内容?
《Hadoop权威指南》第2版有两章新增内容,专门介绍Hive和Sqoop(第12和第15章)。第4章新增一个小节专门介绍Avro,第9章概述Hadoop新增的安全特性,第16章增加了一个新的实例分析,介绍如何使用Hadoop来分析海量网络图。
第2版继续介绍Apach Hadoop 0.20系列发行版本,因为这是本书写作期间最新、最稳定的发行版本。本书中有时会提到一些最新发行版本中的一些新特性,但在刚介绍这些特性时,会说明具体的Hadoop版本号。
本书采用的约定
序言回到顶部↑
Hadoop起源于Nutch项目。我们曾尝试构建一个开源的Web搜索引擎,但是始终无法有效地将计算任务分配到多台(也就寥寥几台)计算机上。直到谷歌公司公布了GFS和MapReduce的相关论文,我们的思路才清晰起来。他们设计的系统已可精准地解决我们在Nutch项目中面临的困境。因此,我们(两个半工制的人)也尝试重建这些系统,将其作为Nutch的一部分。
我们成功地在20多台机器上运行Nutch。但是我们很快就意识到,只有在几千台机器上运行Nutch才能够应付Web的超大规模,但这实在超出两个半工制的开发者的应对能力。
几乎就在那个时候,雅虎公司也对这项技术产生了浓厚的兴趣,并迅速组建了一支开发团队。我有幸成为一员。我们剥离了Nutch的分布式计算模块,并称之为Hadoop。在雅虎的帮助下,Hadoop很快就能够真正处理Web数据。
从2006年起,Tom White就对hadoop贡献良多。我早就是通过他的一篇关于Nutch的非常优秀的论文认识了他,在这篇论文中,他以一种优美而清晰的笔调清晰地阐述了深刻的想法。很快,我发现他开发的软件也是同样的优美和易于理解。
Tom从一开始就乐于站在用户和项目的角度来考虑问题。与其他开源程序开发者不同,Tom不会刻意调整系统以更加符合他个人的需要,而是尽可能地让所有用户用起来都很方便。
Tom最初专注于如何让Hadoop在亚马逊公司的EC2和S3服务上运行良好。之后,他转而解决更为广泛的难题,包括如何提高MapReduce API、如何加强网站、如何设计对象序列化框架等。在所有工作中,Tom都非常精准地阐明了想法。在很短的时间里,Tom进入了Hadoop委员会,并在不久之后成为Hadoop项目管理委员会的一员。
现在,Tom是一个受人尊敬的Hadoop开发者社区的高级成员。尽管他是这个项目的多个技术领域的专家,但是不得不说他的专长是让Hadoop易于理解和使用。
因此,当得知Tom有意写一本关于Hadoop的书时,我非常高兴。是的,又有谁能够比他更胜任呢?现在,你们有机会向这位大师学习Hadoop——不单单是技术,也包括一些常识和通俗的笔调。
Doug Cutting
院棚小屋,加州
我们成功地在20多台机器上运行Nutch。但是我们很快就意识到,只有在几千台机器上运行Nutch才能够应付Web的超大规模,但这实在超出两个半工制的开发者的应对能力。
几乎就在那个时候,雅虎公司也对这项技术产生了浓厚的兴趣,并迅速组建了一支开发团队。我有幸成为一员。我们剥离了Nutch的分布式计算模块,并称之为Hadoop。在雅虎的帮助下,Hadoop很快就能够真正处理Web数据。
从2006年起,Tom White就对hadoop贡献良多。我早就是通过他的一篇关于Nutch的非常优秀的论文认识了他,在这篇论文中,他以一种优美而清晰的笔调清晰地阐述了深刻的想法。很快,我发现他开发的软件也是同样的优美和易于理解。
Tom从一开始就乐于站在用户和项目的角度来考虑问题。与其他开源程序开发者不同,Tom不会刻意调整系统以更加符合他个人的需要,而是尽可能地让所有用户用起来都很方便。
Tom最初专注于如何让Hadoop在亚马逊公司的EC2和S3服务上运行良好。之后,他转而解决更为广泛的难题,包括如何提高MapReduce API、如何加强网站、如何设计对象序列化框架等。在所有工作中,Tom都非常精准地阐明了想法。在很短的时间里,Tom进入了Hadoop委员会,并在不久之后成为Hadoop项目管理委员会的一员。
现在,Tom是一个受人尊敬的Hadoop开发者社区的高级成员。尽管他是这个项目的多个技术领域的专家,但是不得不说他的专长是让Hadoop易于理解和使用。
因此,当得知Tom有意写一本关于Hadoop的书时,我非常高兴。是的,又有谁能够比他更胜任呢?现在,你们有机会向这位大师学习Hadoop——不单单是技术,也包括一些常识和通俗的笔调。
Doug Cutting
院棚小屋,加州
媒体评论回到顶部↑
“有了这本权威指南,读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时,领略作者的睿智和清晰的文风。”
——Hadoop创始人Doug Cuning于Cloudera
——Hadoop创始人Doug Cuning于Cloudera
【插图】
评论交流
共有71人开贴评论 82人参与评论 14人参与打分 查看
评价等级:





发表于:2012-3-8 22:18:00
给原版4分,翻译版3分。
主要说说翻译的问题,顶着华师大海量计算研究所的名声,翻译质量实在不敢恭维。第91页整整少翻译了一段:The Text class uses an int (with a variable-length encoding) to store the number of
bytes in the string encoding, so the maximum value is 2 GB. Furthermore, Text uses
standard UTF-8, which makes it potentially easier to interoperate with other tools that
understand UTF-8.
其它翻译不通随便举一例:
第88页:因为我们使用JUnit4进行声明,而原文为:
as we see using JUnit 4 assertions
as是因为吗?assertions是声明吗?一句话两个错误。实在气愤不过,上来发发牢骚。
主要说说翻译的问题,顶着华师大海量计算研究所的名声,翻译质量实在不敢恭维。第91页整整少翻译了一段:The Text class uses an int (with a variable-length encoding) to store the number of
bytes in the string encoding, so the maximum value is 2 GB. Furthermore, Text uses
standard UTF-8, which makes it potentially easier to interoperate with other tools that
understand UTF-8.
其它翻译不通随便举一例:
第88页:因为我们使用JUnit4进行声明,而原文为:
as we see using JUnit 4 assertions
as是因为吗?assertions是声明吗?一句话两个错误。实在气愤不过,上来发发牢骚。
| 我要写评论 |
| 查看所有评论交流(共71条) |








点击看大图





加载中...

