Hadoop权威指南(中文版)
基本信息
- 原书名: Hadoop: The Definitive Guide
- 原出版社: O'Reilly Media
- 作者: (美) Tom White [作译者介绍]
- 译者: 曾大聃
- 丛书名: 清华大学出版社O'Reilly系列
- 出版社:清华大学出版社
- ISBN:9787302224242
- 上架时间:2010-5-17
- 出版日期:2010 年5月
- 开本:16开
- 页码:504
- 版次:1-1
- 所属分类:
计算机 > 计算机科学理论与基础知识 > 计算理论 > 算法
编辑推荐
本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hado叩这一高性能处理海量数据集的理想工具。
推荐阅读
内容简介回到顶部↑
本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i/o、mapreduce应用程序开发;mapreduce的工作机制:mapreduce的类型和格式;mapreduce的特性:如何安装hadoop集群,如何管理hadoop;pig简介:hbase简介:zookeeper简介,最后还提供了丰富的案例分析。
本书是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。
什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是应对海量数据的理想工具。项目负责人tomwhite透过本书详细阐述了如何使用hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装和运行hadoop集群。
本书结合丰富的案例来展示如何用hadoop解决特殊问题,它将帮助您:
·使用hadoop分布式文件系统(hdfs)来存储海量数据集,
通过mapreduce对这些数据集运行分布式计算
·熟悉hadoop的数据和ilo构件,用于压缩、数据集成、序列化和持久处理
·洞悉编~mapreduce实际应用时的常见陷阱和高级特性
·设计、构建和管理一个专用的hadoop集群或在云上运行hadoop
·使用高级查询语言pig来处理大规模数据
·利用hadoop数据库hbase来保存和处理结构化/半结构化数据
·学会使用zookeeper来构建分布式系统
如果您拥有海量数据,无论是gb级还是pb级,hadoop都将是您的完美解决方案。
本书是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。
什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是应对海量数据的理想工具。项目负责人tomwhite透过本书详细阐述了如何使用hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装和运行hadoop集群。
本书结合丰富的案例来展示如何用hadoop解决特殊问题,它将帮助您:
·使用hadoop分布式文件系统(hdfs)来存储海量数据集,
通过mapreduce对这些数据集运行分布式计算
·熟悉hadoop的数据和ilo构件,用于压缩、数据集成、序列化和持久处理
·洞悉编~mapreduce实际应用时的常见陷阱和高级特性
·设计、构建和管理一个专用的hadoop集群或在云上运行hadoop
·使用高级查询语言pig来处理大规模数据
·利用hadoop数据库hbase来保存和处理结构化/半结构化数据
·学会使用zookeeper来构建分布式系统
如果您拥有海量数据,无论是gb级还是pb级,hadoop都将是您的完美解决方案。
作译者回到顶部↑
本书提供作译者介绍
Tom White从2007年2月以来,一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一,同时也是Cloudera的一名工程师。Tome为O’Reilly.com,Java.net以及IBM的developerWorks撰写过大量文章,并经常在很多行业大会上举行Hadoop主题演讲。.
Cloudera为Hadoop提供商业支持并志愿贡献社区,不收取任何费用。不管是打算在云中运行Hadoop,还是在自己的服务器上运行Hadoop,Cloudera都能使其轻松实现。详情访问http://www.cloudear.com/hadoop。...
.. << 查看详细
Cloudera为Hadoop提供商业支持并志愿贡献社区,不收取任何费用。不管是打算在云中运行Hadoop,还是在自己的服务器上运行Hadoop,Cloudera都能使其轻松实现。详情访问http://www.cloudear.com/hadoop。...
.. << 查看详细
目录回到顶部↑
目 录
第1章 初识hadoop 1
1.1 数据!数据 1
1.2 数据的存储和分析 3
1.3 相较于其他系统 4
1.3.1 关系型数据库管理系统 5
1.3.2 网格计算 6
1.3.3 志愿计算 8
1.4 hadoop发展简史 9
1.5 apache hadoop项目 12
第2章 mapreduce简介 15
2.1 一个气象数据集 15
2.2 使用unix tools来分析数据 17
2.3 使用hadoop进行数据分析 19
2.3.1 map和reduce 19
2.3.2 java mapreduce 20
2.4 分布化 30
2.4.1 数据流 30
2.4.2 具体定义一个combiner 34
2.4.3 运行分布式mapreduce作业 35
第1章 初识hadoop 1
1.1 数据!数据 1
1.2 数据的存储和分析 3
1.3 相较于其他系统 4
1.3.1 关系型数据库管理系统 5
1.3.2 网格计算 6
1.3.3 志愿计算 8
1.4 hadoop发展简史 9
1.5 apache hadoop项目 12
第2章 mapreduce简介 15
2.1 一个气象数据集 15
2.2 使用unix tools来分析数据 17
2.3 使用hadoop进行数据分析 19
2.3.1 map和reduce 19
2.3.2 java mapreduce 20
2.4 分布化 30
2.4.1 数据流 30
2.4.2 具体定义一个combiner 34
2.4.3 运行分布式mapreduce作业 35
译者序回到顶部↑
随着数据规模的急剧增加、应用类型的巨大丰富,企业和个人用户信息使用模式的变化已经远远超过了原有系统乎台所提供的局限。越来越多的应用和平台,不论对企业级还是个人级用户都不堪重负,应接不暇。系统的大集中,企业应用平台的不断累加;个人用户桌面应用更是五花八门呈爆炸式增长;sars、5.12和H1N1,传统数据分析处理领域在面临新的重大问题时,需要更多领域数据的融合和协作。在这种巨大的潮流和趋势力的推动下,凤起“云”涌。云计算被推上了计算机科学和应用的舞台,带来信息使用模式的巨大变革。
我也曾思考,为什么将其称为云,这是一个为用户屏蔽了底层异构的软硬件资源,为其提供服务和资源的平台,各种不同类型的资源经过层层的虚拟化技术之后,针对虚拟资源的分配、共享和使用。是分布式计算技术和信息处理技术,以及网络技术、Web技术等,在架构层、应用层全面融合之后产生的必然结果。SaaS,PaaS,CaaS,IasS,DaaS,云上的应用种类繁多,仍在发展中,将其定义成云或者什么其他都是不重要的,重要的是我们在之上,将数据、软件和平台等等的复杂构建、安装和维护工作转嫁给云提供商,通过大型的用户池共享资源来降低基础设施成本,不同层面的用户将在云上轻松得到自己想要的,做到thin;client和on.demand service。
Google的App Engine允许用户通过使用其提供的API,在Google云上构建自己的应用;Amazon的云平台EC3,S3等为用户提供了种类丰富的云计算服务;Google和IBM联合宣布推广“云计算”的计划,包括卡内基梅隆大学,斯坦福、伯克利、华盛顿大学、MIT、清华大学都加入了这项计划。通过这项计划,高校的研究者能够更方便地利用Google和IBM的云计算资源,搭建出各种创新性的应用。未来的云计算平台中,用户个人维护的操作系统将被浏览器所取代。这使信息工业界面临一次重新洗牌的机会,我国的软件技术企业应抓住这个机会为云计算的本土化市场占领先机,同时学术界也将面临新的挑战和机遇。Microsoft感到了来自Google的威胁,微软MSRA的WebStudio就已经能够提供在Web规模上快速搭建应用。国内外各种云计算相关会议和论坛更是不计其数。在这其中,他们都无一例外的将Hadoop作为云计算中的重要技术之一。
Apache Hadoop作为一个开源项目,克隆了Google运行系统的主要框架,包括文件系统HDFS、计算架构MapReduce及对于结构化数据处理的HBase等。基于此的其他开源项目,比如Pig,Zookeeper,HIVE等,为Hadoop的使用和系统架构也带来了更多的福音。目前正在进行Hadoop Avro等,各种工作也将推进Hadoop在云计算的实现中扮演越来越重要的角色。利用Hadoop,对底层,可以实现对集群的控制和管理;对上层,可以更加便捷的构建企业级的应用。Hadoop实现海量数据的管理和分布式数据处理,使传统的分布式计算中的数据分割和错误管理等复杂问题屏蔽在于系统本身,从而取得更好的系统伸缩性。使用者可以更多地关注于数据处理本身和对应用问题本身的分析。
本书的作者Tom White是Hadoop开发团体的重要高级成员,是Hadoop项目中许多技术方向的专家,参与了多项Hadoop主要技术方向的设计、改进和实施。他对Hadoop的卓越贡献,使他成为项目管理委员会成员,并且他是推广Hadoop开发和使用的专家。
本书内容组织得很好,思路清晰,紧密结合实际问题,阅读并在实际中实践本书内容将是一个愉快的、充满收获的过程。对于Hadoop的开发使用者深刻全面理解其内部原理、使用以及二次开发,将很有帮助。
Cloudera作为一个商业公司致力干推广和培训Hadoop的使用,这是它出版的第一本Hadoop书籍,颇具代表性和全面性。国外使用这门技术已经比较成熟了,并且发挥了较高经济效益。
为了推动该技术在国内的普及,让更多读者更早受益,本书经过我们精心雕琢而成。在此期间,文开琪编辑为该书的出版付出了非常多的努力和辛勤工作,令人敬佩。由于时间有限、工作繁重,译著不足纰漏难免,欢迎广大读者批评、指正和交流。尾声:在云得到了蓬勃的发展和广泛的机会的同时,我们也该警醒。这时候更加欢迎负面和反对的声音。关注于云安全及相关规范的制订,相关技术的合理使用,以及配套应急措施的实施。只有这样才能使云以更低的代价受益于更多的人,对于云在未来的扩展和推广,更具有普遍的意义。
曾大聃
二零一零年五月
我也曾思考,为什么将其称为云,这是一个为用户屏蔽了底层异构的软硬件资源,为其提供服务和资源的平台,各种不同类型的资源经过层层的虚拟化技术之后,针对虚拟资源的分配、共享和使用。是分布式计算技术和信息处理技术,以及网络技术、Web技术等,在架构层、应用层全面融合之后产生的必然结果。SaaS,PaaS,CaaS,IasS,DaaS,云上的应用种类繁多,仍在发展中,将其定义成云或者什么其他都是不重要的,重要的是我们在之上,将数据、软件和平台等等的复杂构建、安装和维护工作转嫁给云提供商,通过大型的用户池共享资源来降低基础设施成本,不同层面的用户将在云上轻松得到自己想要的,做到thin;client和on.demand service。
Google的App Engine允许用户通过使用其提供的API,在Google云上构建自己的应用;Amazon的云平台EC3,S3等为用户提供了种类丰富的云计算服务;Google和IBM联合宣布推广“云计算”的计划,包括卡内基梅隆大学,斯坦福、伯克利、华盛顿大学、MIT、清华大学都加入了这项计划。通过这项计划,高校的研究者能够更方便地利用Google和IBM的云计算资源,搭建出各种创新性的应用。未来的云计算平台中,用户个人维护的操作系统将被浏览器所取代。这使信息工业界面临一次重新洗牌的机会,我国的软件技术企业应抓住这个机会为云计算的本土化市场占领先机,同时学术界也将面临新的挑战和机遇。Microsoft感到了来自Google的威胁,微软MSRA的WebStudio就已经能够提供在Web规模上快速搭建应用。国内外各种云计算相关会议和论坛更是不计其数。在这其中,他们都无一例外的将Hadoop作为云计算中的重要技术之一。
Apache Hadoop作为一个开源项目,克隆了Google运行系统的主要框架,包括文件系统HDFS、计算架构MapReduce及对于结构化数据处理的HBase等。基于此的其他开源项目,比如Pig,Zookeeper,HIVE等,为Hadoop的使用和系统架构也带来了更多的福音。目前正在进行Hadoop Avro等,各种工作也将推进Hadoop在云计算的实现中扮演越来越重要的角色。利用Hadoop,对底层,可以实现对集群的控制和管理;对上层,可以更加便捷的构建企业级的应用。Hadoop实现海量数据的管理和分布式数据处理,使传统的分布式计算中的数据分割和错误管理等复杂问题屏蔽在于系统本身,从而取得更好的系统伸缩性。使用者可以更多地关注于数据处理本身和对应用问题本身的分析。
本书的作者Tom White是Hadoop开发团体的重要高级成员,是Hadoop项目中许多技术方向的专家,参与了多项Hadoop主要技术方向的设计、改进和实施。他对Hadoop的卓越贡献,使他成为项目管理委员会成员,并且他是推广Hadoop开发和使用的专家。
本书内容组织得很好,思路清晰,紧密结合实际问题,阅读并在实际中实践本书内容将是一个愉快的、充满收获的过程。对于Hadoop的开发使用者深刻全面理解其内部原理、使用以及二次开发,将很有帮助。
Cloudera作为一个商业公司致力干推广和培训Hadoop的使用,这是它出版的第一本Hadoop书籍,颇具代表性和全面性。国外使用这门技术已经比较成熟了,并且发挥了较高经济效益。
为了推动该技术在国内的普及,让更多读者更早受益,本书经过我们精心雕琢而成。在此期间,文开琪编辑为该书的出版付出了非常多的努力和辛勤工作,令人敬佩。由于时间有限、工作繁重,译著不足纰漏难免,欢迎广大读者批评、指正和交流。尾声:在云得到了蓬勃的发展和广泛的机会的同时,我们也该警醒。这时候更加欢迎负面和反对的声音。关注于云安全及相关规范的制订,相关技术的合理使用,以及配套应急措施的实施。只有这样才能使云以更低的代价受益于更多的人,对于云在未来的扩展和推广,更具有普遍的意义。
曾大聃
二零一零年五月
前言回到顶部↑
马丁·加德纳(数学家和科学作家),曾经在一次采访中说道:
“没有微积分,我的生命就失去了意义。这是我成功的秘诀。我花了如此长的时间了解我在写什么,所以我知道如何写作才能让大多数读者明白我的意思。”在许多方面,这就是我对日adoop的感觉。它的内部工作机制是复杂的、相互依赖的,因为它运行在分布式系统的理论、实用技术和技术常识这些复杂的基础之上。对于门外汉来说,Hadoop就像是异形一样难以理解。
但事实上并不是这样的。剥离其核心,Hadoop提供给组件分布式系统的工具——如数据存储、数据分析和协调一一是十分简单的。如果有一个共同的主题,那么它将与提高抽象水平相关的一一为程序员创建用于处理这些事情的基础架构,这些程序员中,或者正好有大量数据需要存储,或者有大量数据需要分析。或者有大量机器需要协调,或者没有时间、技能或兴趣成为分布式系统专家。
借由这样一个简单的、普遍适用的功能组合,在开始使用这个理当被广泛普及的Hadoop的时候,我的想法逐渐清晰起来。然而,在当时(2006年初),设置、配置和编写程序来使用Hadoop称得上是一门艺术。幸运的是,此后有了明显的进步,因为有更多的文件,更多的例子,一旦有疑问,还有那么多邮件地址可以发过去帮助你解惑。但对大多数新手来说,最大的障碍是理解这项技术能做什么,它的长处何在,如何使用它。这就是我写这本书的原因。
恤ache Hadoop社区已经走过了漫长的道路。在三年的过程中,Hadoop项目已经拓展并分成许多子项目。在这个时候,软件已在性能、可靠性、可扩展性和可管理性上有了很大的飞跃。然而为了获得更为广泛地应用,我相信我们需要让Hadoop变得更容易使用。这将涉及三方面的工作:编写更多的工具;与更多的系统集成;编写新的改进后的API。我期待成为完成这项工作的一员,并且我希望这本书也能鼓励和帮助其他人完成这些事情。
写作风格的说明
在文中特定Java类的讨论中,我往往会省略其包名以减少混乱。如果需要知道一个类是放在哪个包里的,可以轻松地从Hadoop的Java APl文档中查找到有关的子项目,这些条目与Apache Hadoop的主页http://hadoop.apache.org链接。或者,如果使用的是IDE,它可以帮助使用其自动完成机制。
同样,虽然它偏离一贯的教学规则,但是从相同的使用星号通配符的包中导入不同的类还是能节省空间的(例如:importorg.apache.hadoop.io.*)。
本书的示例程序可以从本书相关网站下载,网址为http://www.hadoopbook.com/。还可以在此找到获得本书所用数据库的指令以及更多运行本书程序的注解、更新链接、其他资源以及我的blog。
本书内容
奉书其余部分内容如下。第2章介绍MapReduce。第3章着眼于Hadoop的文件系统,特别深入地讲解HDFS。第4章涵盖Hadoop基础的I/O输入和输出,主题包括:数据的完整性、压缩、序列化和基于文件的数据结构。
接下来的4章更深入地涉及MapReduce。第5章讲述全程开发一个MapReduce应用程序的实际步骤。第6章着眼于从用户的观点来看MapReduce如何在Hadoop上实现。第7章涉及MapReduce编程模型及MapReduce可以处理的各种数据格式。第8章的主题为如何改进MapReduce,包括排序和联接(JOIN)数据。
第9章和第10章是写给Hadoop管理员看的,阐述如何建立和维持在Hadoop集群上运行HDFS和MapReduce。
第11章、第12章和第13章分别提供了Pig,HBase和ZooKeeper应用示例。最后,第14章提供ApaheHadoop社区成员贡献的综合案例研究。
本书所用约定
本书采用如下印刷约定。
斜体
表示新名词,URL,电子邮件地址,文件名,文件扩展名,路径名,目录和Unix实用程序。
等宽字体
表示命令、选项、开关、变量、属性、键值,函数、类型、类、命名空间、方法、模块、参数、参数、值、对象、事件、事件句柄、XML标签、HTML标签、文件内容或者命令输出。
“没有微积分,我的生命就失去了意义。这是我成功的秘诀。我花了如此长的时间了解我在写什么,所以我知道如何写作才能让大多数读者明白我的意思。”在许多方面,这就是我对日adoop的感觉。它的内部工作机制是复杂的、相互依赖的,因为它运行在分布式系统的理论、实用技术和技术常识这些复杂的基础之上。对于门外汉来说,Hadoop就像是异形一样难以理解。
但事实上并不是这样的。剥离其核心,Hadoop提供给组件分布式系统的工具——如数据存储、数据分析和协调一一是十分简单的。如果有一个共同的主题,那么它将与提高抽象水平相关的一一为程序员创建用于处理这些事情的基础架构,这些程序员中,或者正好有大量数据需要存储,或者有大量数据需要分析。或者有大量机器需要协调,或者没有时间、技能或兴趣成为分布式系统专家。
借由这样一个简单的、普遍适用的功能组合,在开始使用这个理当被广泛普及的Hadoop的时候,我的想法逐渐清晰起来。然而,在当时(2006年初),设置、配置和编写程序来使用Hadoop称得上是一门艺术。幸运的是,此后有了明显的进步,因为有更多的文件,更多的例子,一旦有疑问,还有那么多邮件地址可以发过去帮助你解惑。但对大多数新手来说,最大的障碍是理解这项技术能做什么,它的长处何在,如何使用它。这就是我写这本书的原因。
恤ache Hadoop社区已经走过了漫长的道路。在三年的过程中,Hadoop项目已经拓展并分成许多子项目。在这个时候,软件已在性能、可靠性、可扩展性和可管理性上有了很大的飞跃。然而为了获得更为广泛地应用,我相信我们需要让Hadoop变得更容易使用。这将涉及三方面的工作:编写更多的工具;与更多的系统集成;编写新的改进后的API。我期待成为完成这项工作的一员,并且我希望这本书也能鼓励和帮助其他人完成这些事情。
写作风格的说明
在文中特定Java类的讨论中,我往往会省略其包名以减少混乱。如果需要知道一个类是放在哪个包里的,可以轻松地从Hadoop的Java APl文档中查找到有关的子项目,这些条目与Apache Hadoop的主页http://hadoop.apache.org链接。或者,如果使用的是IDE,它可以帮助使用其自动完成机制。
同样,虽然它偏离一贯的教学规则,但是从相同的使用星号通配符的包中导入不同的类还是能节省空间的(例如:importorg.apache.hadoop.io.*)。
本书的示例程序可以从本书相关网站下载,网址为http://www.hadoopbook.com/。还可以在此找到获得本书所用数据库的指令以及更多运行本书程序的注解、更新链接、其他资源以及我的blog。
本书内容
奉书其余部分内容如下。第2章介绍MapReduce。第3章着眼于Hadoop的文件系统,特别深入地讲解HDFS。第4章涵盖Hadoop基础的I/O输入和输出,主题包括:数据的完整性、压缩、序列化和基于文件的数据结构。
接下来的4章更深入地涉及MapReduce。第5章讲述全程开发一个MapReduce应用程序的实际步骤。第6章着眼于从用户的观点来看MapReduce如何在Hadoop上实现。第7章涉及MapReduce编程模型及MapReduce可以处理的各种数据格式。第8章的主题为如何改进MapReduce,包括排序和联接(JOIN)数据。
第9章和第10章是写给Hadoop管理员看的,阐述如何建立和维持在Hadoop集群上运行HDFS和MapReduce。
第11章、第12章和第13章分别提供了Pig,HBase和ZooKeeper应用示例。最后,第14章提供ApaheHadoop社区成员贡献的综合案例研究。
本书所用约定
本书采用如下印刷约定。
斜体
表示新名词,URL,电子邮件地址,文件名,文件扩展名,路径名,目录和Unix实用程序。
等宽字体
表示命令、选项、开关、变量、属性、键值,函数、类型、类、命名空间、方法、模块、参数、参数、值、对象、事件、事件句柄、XML标签、HTML标签、文件内容或者命令输出。
序言回到顶部↑
Hadoop起源于Nutch。当时,我们少数几个人正在打算构建一个开源的网络搜索引擎,但受困于如何管理仅运行于几台计算机的计算。在Google发布GFS和MapRduce的论文后,我们解决这个问题的思路变得清晰起来。他们设计的系统准确解决了我们在Nutch中碰到的问题。因此,我们两个中途开始尝试重建这些系统,将其作为Nutch的一部分。
我们成功地让Nutch运行在20台计算机上,但很快我们意识到,要想处理Web的巨大规模,我们需要在上千台计算机上运行它,显然,这远远不是两个half-time开发人员能够对付的。。
在那段时间,Yahoo!对其产生兴趣,并迅速组建了一个团队,我也加入其中。我们将Nutch的分布式运算这部分独立出来,命名为Hadoop。在Yahoo!的帮助下,Hadoop很快成为确实可扩展应用于Web的技术。
2006年,Tom White开始效力于Hadoop。由于之前已通过他写的一篇有关Nutch的精彩论文认识他,所以,我知道他能够用清晰的语言表达复杂的理念。我也很快意识到,他还能编写体现其思想的软件。
首先,Tom对Hadoop的贡献体现了他对用户和项目的关注。与大多开源工作者不同,Tom并不怎么关心如何将系统调整到更符合他的需求,而是努力使它变得更方便所有人使用。
一开始,Tom着重于使Hadoop在亚马逊的EC2和S3上顺畅运行。而后他转向各种各样的问题。包括改进MapReduce的API,改善网站,设计对象序列化框架。在任何时候,Tom都很清晰地表达他的构想。很快,Tom赢得Hadoop项目负责人的身份并很快成为Hadoop项目管理委员会的成员。
现在,Tom是Hadoop开发社区一名令人尊敬的高级成员。尽管他是这个项目的技术多面手,但他最大的专长还是让Hadoop更易于使用和理解。
因此,当我得知Tom有意写一本有关Hadoop的书时,我非常开心。还有谁更具备这个资格呢?现在您有此良机向大师学习Hadoop,在享用技术本身的同时,品味他的睿智和清晰的文风。
DOUg Cutting
于院棚,加州
我们成功地让Nutch运行在20台计算机上,但很快我们意识到,要想处理Web的巨大规模,我们需要在上千台计算机上运行它,显然,这远远不是两个half-time开发人员能够对付的。。
在那段时间,Yahoo!对其产生兴趣,并迅速组建了一个团队,我也加入其中。我们将Nutch的分布式运算这部分独立出来,命名为Hadoop。在Yahoo!的帮助下,Hadoop很快成为确实可扩展应用于Web的技术。
2006年,Tom White开始效力于Hadoop。由于之前已通过他写的一篇有关Nutch的精彩论文认识他,所以,我知道他能够用清晰的语言表达复杂的理念。我也很快意识到,他还能编写体现其思想的软件。
首先,Tom对Hadoop的贡献体现了他对用户和项目的关注。与大多开源工作者不同,Tom并不怎么关心如何将系统调整到更符合他的需求,而是努力使它变得更方便所有人使用。
一开始,Tom着重于使Hadoop在亚马逊的EC2和S3上顺畅运行。而后他转向各种各样的问题。包括改进MapReduce的API,改善网站,设计对象序列化框架。在任何时候,Tom都很清晰地表达他的构想。很快,Tom赢得Hadoop项目负责人的身份并很快成为Hadoop项目管理委员会的成员。
现在,Tom是Hadoop开发社区一名令人尊敬的高级成员。尽管他是这个项目的技术多面手,但他最大的专长还是让Hadoop更易于使用和理解。
因此,当我得知Tom有意写一本有关Hadoop的书时,我非常开心。还有谁更具备这个资格呢?现在您有此良机向大师学习Hadoop,在享用技术本身的同时,品味他的睿智和清晰的文风。
DOUg Cutting
于院棚,加州
媒体评论回到顶部↑
“恭喜您有此良机向大师学习Hadoop,在享用技术本身的同时,您还能领略到大师的睿智及其令人如沐春风的写作风格。”
——Hadoop创始人 Doug Cutting
——Hadoop创始人 Doug Cutting








点击看大图






加载中...

