Hadoop实战(全面、权威的Hadoop实战教程,热销中)
基本信息
编辑推荐
内容全面,涵盖Hadoop技术本身和Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等所有与Hadoop相关的子项目
实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强
推荐阅读
内容简介回到顶部↑
书籍
计算机书籍
本书是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强。
全书一共18章:第1章全面介绍了hadoop的概念、优势、项目结构、体系结构,以及它与分布式计算的关系;第2章详细讲解了hadoop集群的安装和配置,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的应用案例,以及hadoop平台上海量数据的排序;第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了hadoop的i/o操作、hdfs的原理与基本操作,以及hadoop的各种管理操作,如集群的维护等;第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和hadoop插件的开发。
本书既适合没有hadoop基础的初学者系统地学习,又适合有一定hadoop基础但是缺乏实践经验的读者实践和参考。
计算机书籍
本书是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强。
全书一共18章:第1章全面介绍了hadoop的概念、优势、项目结构、体系结构,以及它与分布式计算的关系;第2章详细讲解了hadoop集群的安装和配置,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的应用案例,以及hadoop平台上海量数据的排序;第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了hadoop的i/o操作、hdfs的原理与基本操作,以及hadoop的各种管理操作,如集群的维护等;第12-17章详细而系统地讲解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有与hadoop相关的子项目的原理及使用,以及这些子项目与hadoop的整合使用;第18章以实例的方式讲解了常用hadoop插件的使用和hadoop插件的开发。
本书既适合没有hadoop基础的初学者系统地学习,又适合有一定hadoop基础但是缺乏实践经验的读者实践和参考。
作译者回到顶部↑
本书提供作译者介绍
陆嘉恒,中国人民大学副教授,新加坡国立大学博士,美国加利福尼亚大学尔湾分校(University of California, Irvine) 博士后。专注于云计算及其相关技术的研究,对Hadoop有较深入的研究,积累了丰富的实践经验。对分布式计算和海量数据处理有深刻的认识,主持并完成了多个国家863和自然科学基金项目的研究与实施。2009年入选新世纪优秀人才,2010年入选北京科技新星。主持《云计算概论》课程获教育部-IBM精品课程称号。
.. << 查看详细
.. << 查看详细
目录回到顶部↑
《hadoop实战》
前 言
第1章 hadoop 简介/1
1.1 什么是hadoop/2
1.1.1 hadoop 概述/2
1.1.2 hadoop 的历史/2
1.1.3 hadoop 的功能与作用/2
1.1.4 hadoop 的优势/3
1.1.5 hadoop 的应用现状和发展趋势/3
1.2 hadoop 项目及其结构/3
1.3 hadoop 的体系结构/6
1.3.1 hdfs 的体系结构/6
1.3.2 mapreduce 的体系结构/7
1.4 hadoop 与分布式开发/7
1.5 hadoop 计算模型—mapreduce/10
1.6 hadoop 的数据管理/10
1.6.1 hdfs 的数据管理/11
1.6.2 hbase 的数据管理/12
1.6.3 hive 的数据管理/15
1.7 小结/17
前 言
第1章 hadoop 简介/1
1.1 什么是hadoop/2
1.1.1 hadoop 概述/2
1.1.2 hadoop 的历史/2
1.1.3 hadoop 的功能与作用/2
1.1.4 hadoop 的优势/3
1.1.5 hadoop 的应用现状和发展趋势/3
1.2 hadoop 项目及其结构/3
1.3 hadoop 的体系结构/6
1.3.1 hdfs 的体系结构/6
1.3.2 mapreduce 的体系结构/7
1.4 hadoop 与分布式开发/7
1.5 hadoop 计算模型—mapreduce/10
1.6 hadoop 的数据管理/10
1.6.1 hdfs 的数据管理/11
1.6.2 hbase 的数据管理/12
1.6.3 hive 的数据管理/15
1.7 小结/17
前言回到顶部↑
为什么写这本书
计算技术已经深刻地影响了我们的工作、学习和生活。分布式的云计算技术是当下IT领域最炙手可热的话题,其发展速度非常迅速,潜力巨大,悄然改变着整个行业的面貌。云计算技术通过整合资源的方式,为降低成本和能耗提供了一种简化的、集中的计算平台。作为一种新兴的技术,它将为IT产业带来深刻的变革,相信人类会因此迎来一个新的信息化时代!
在学术界,政府和很多高校都十分重视对分布式的云计算技术的研究和投入;在产业界,各大IT公司也在投入大量的资源研究和开发相关的云计算产品,与之相关的新兴技术和产品正在不断涌现,传统的信息服务产品也在向云计算模式转型。这一切都极大地推进了云计算技术的发展。
Hadoop是Apache基金会的开源项目,为开发者提供了一个分布式系统的基础架构,用户可以在不了解分布式系统的底层细节的情况下开发分布式的应用,充分利用集群的强大功能,实现高速运算和存储。Hadoop项目中包括一个分布式的文件系统HDFS项目,一个分布式的并行编程框架MapReduce,以及包括Nutch在内的诸多子项目。目前,Hadoop开源项目已经得到了Yahoo!、Facebook、中国移动、阿里巴巴、百度、腾讯等国内外大型互联网企业的关注,并且已经被投入到了实际的产业应用中。在诸多的云计算技术中,Hadoop具有无与伦比的优势,越来越多的公司和组织选择使用Hadoop开源项目作为他们的解决方案。
Hadoop技术本身较为复杂,而且涉及具体的应用场景时会变得更为复杂,很多人在学习的初级阶段需要进行大量的摸索和实践,然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握Hadoop技术的朋友学习并在学习中少走弯路,笔者将自己在该领域的经验和积累凝聚成了这本书,希望能推动Hadoop及其相关技术在国内的发展。
本书面向的读者
在编写本书时,我们力图使不同背景和职业的读者都能从这本书中获益。
如果你是专业技术人员,本书将带领你快速地进入云计算的世界,全面掌握Hadoop及其相关技术,能帮助你使用Hadoop技术解决当前面临的问题。
如果你是高等院校计算机及相关专业的学生,本书为你在课堂之外了解最新的IT技术打开了一扇窗户,能帮助你拓宽视野,完善知识结构,为迎接未来的挑战做好知识储备。
在学习本书之前,大家应该具有如下的基础:
·具有一定的分布式系统的基础知识,对文件系统的基本操作有一定的了解。
·有一定的Linux操作系统的基础知识。
·有较好的编程基础和阅读代码的能力,尤其是要能够熟练使用Java语言。
·对数据仓库、系统监控、网络爬虫等知识最好也能有一些了解。
如何阅读本书
本书一共18章和一个附录。前10章主要介绍了Apache Hadoop的common核心、MapReduce及文件系统。从第11章开始,详细讲解了与Hadoop相关的其他项目,分别为:Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa,以及Hadoop的常用插件。此外,附录中还包含一个简单的云计算在线检测平台。
在阅读本书时,大家可以先系统地学习前10章的知识,目的是对Hadoop的核心内容有一个很好的理解。在此基础上,大家可以对后面的章节进行选择性的学习。这是因为在内容的编排上,各章的知识点是相对独立的,各章之间是并行的关系。当然,如果时间允许,还是建议大家系统地学习全书的内容,这样能够对Hadoop系统的机制有一个完整的理解,为今后深入地研究和实践Hadoop及云计算技术打下坚实的基础。
另外,我们希望大家在学习本书时能一边阅读,一边根据书中的指导动手实践,亲自实践本书中所给出的编程范例。例如,先搭建一个自己的云平台,如果条件受限,可以选择伪分布的方式。
致谢
在本书的编写过程中,还有很多Hadoop领域的实践者和研究者为本书做了大量的工作,他们是冯博亮、程明、徐文韬、张林林、朱俊良、许翔、陈东伟、谭果、林春彬等,在此特别表示感谢。
计算技术已经深刻地影响了我们的工作、学习和生活。分布式的云计算技术是当下IT领域最炙手可热的话题,其发展速度非常迅速,潜力巨大,悄然改变着整个行业的面貌。云计算技术通过整合资源的方式,为降低成本和能耗提供了一种简化的、集中的计算平台。作为一种新兴的技术,它将为IT产业带来深刻的变革,相信人类会因此迎来一个新的信息化时代!
在学术界,政府和很多高校都十分重视对分布式的云计算技术的研究和投入;在产业界,各大IT公司也在投入大量的资源研究和开发相关的云计算产品,与之相关的新兴技术和产品正在不断涌现,传统的信息服务产品也在向云计算模式转型。这一切都极大地推进了云计算技术的发展。
Hadoop是Apache基金会的开源项目,为开发者提供了一个分布式系统的基础架构,用户可以在不了解分布式系统的底层细节的情况下开发分布式的应用,充分利用集群的强大功能,实现高速运算和存储。Hadoop项目中包括一个分布式的文件系统HDFS项目,一个分布式的并行编程框架MapReduce,以及包括Nutch在内的诸多子项目。目前,Hadoop开源项目已经得到了Yahoo!、Facebook、中国移动、阿里巴巴、百度、腾讯等国内外大型互联网企业的关注,并且已经被投入到了实际的产业应用中。在诸多的云计算技术中,Hadoop具有无与伦比的优势,越来越多的公司和组织选择使用Hadoop开源项目作为他们的解决方案。
Hadoop技术本身较为复杂,而且涉及具体的应用场景时会变得更为复杂,很多人在学习的初级阶段需要进行大量的摸索和实践,然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握Hadoop技术的朋友学习并在学习中少走弯路,笔者将自己在该领域的经验和积累凝聚成了这本书,希望能推动Hadoop及其相关技术在国内的发展。
本书面向的读者
在编写本书时,我们力图使不同背景和职业的读者都能从这本书中获益。
如果你是专业技术人员,本书将带领你快速地进入云计算的世界,全面掌握Hadoop及其相关技术,能帮助你使用Hadoop技术解决当前面临的问题。
如果你是高等院校计算机及相关专业的学生,本书为你在课堂之外了解最新的IT技术打开了一扇窗户,能帮助你拓宽视野,完善知识结构,为迎接未来的挑战做好知识储备。
在学习本书之前,大家应该具有如下的基础:
·具有一定的分布式系统的基础知识,对文件系统的基本操作有一定的了解。
·有一定的Linux操作系统的基础知识。
·有较好的编程基础和阅读代码的能力,尤其是要能够熟练使用Java语言。
·对数据仓库、系统监控、网络爬虫等知识最好也能有一些了解。
如何阅读本书
本书一共18章和一个附录。前10章主要介绍了Apache Hadoop的common核心、MapReduce及文件系统。从第11章开始,详细讲解了与Hadoop相关的其他项目,分别为:Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa,以及Hadoop的常用插件。此外,附录中还包含一个简单的云计算在线检测平台。
在阅读本书时,大家可以先系统地学习前10章的知识,目的是对Hadoop的核心内容有一个很好的理解。在此基础上,大家可以对后面的章节进行选择性的学习。这是因为在内容的编排上,各章的知识点是相对独立的,各章之间是并行的关系。当然,如果时间允许,还是建议大家系统地学习全书的内容,这样能够对Hadoop系统的机制有一个完整的理解,为今后深入地研究和实践Hadoop及云计算技术打下坚实的基础。
另外,我们希望大家在学习本书时能一边阅读,一边根据书中的指导动手实践,亲自实践本书中所给出的编程范例。例如,先搭建一个自己的云平台,如果条件受限,可以选择伪分布的方式。
致谢
在本书的编写过程中,还有很多Hadoop领域的实践者和研究者为本书做了大量的工作,他们是冯博亮、程明、徐文韬、张林林、朱俊良、许翔、陈东伟、谭果、林春彬等,在此特别表示感谢。
媒体评论回到顶部↑
将网格计算、并行计算和虚拟化等技术融为一体的云计算技术已成为我们当下存储和处理海量数据的最佳选择之一。Hadoop的开源、高性能、高容错、跨平台等特点又使其成为架构云计算平台的首选。本书以实践为主,理论与实践相结合,全面阐述了整个Hadoop技术体系,适合读者系统地学习。强烈推荐!——Hadoop中文网
目前,国内的很多互联网企业都在使用或正准备使用Hadoop技术,这些企业都面临着一个共同的难题:Hadoop方面的人才难求。Hadoop方面的人才之所以难找,一方面是因为Hadoop在国内应用的时间不长,从业人员并不多;另一方面是因为Hadoop技术本身较难以掌握,而且与涉及海量数据处理的实际生产环境密切相关。本书很好地把握住了当前Hadoop从业者的核心需求,不仅理论知识全面,更重要的是包含大量与实际生产环境相结合的案例,极具指导意义。——Hadoop用户社区
Hadoop可谓炙手可热,在全球范围内,已经有数量庞大的大中型互联网公司开始使用Hadoop,国外的Amazon、Facebook、Yahoo!,国内的腾讯、百度、淘宝、阿里巴巴等都是成功应用Hadoop的典范。然而,Hadoop技术本身却极为复杂,而且涉及众多其他的技术,学习门槛比较高。本书从中初级读者的需求出发,以实践为导向,全面而系统地讲解了Hadoop技术本身,以及与之相关的其他各种技术。对于想系统学习Hadoop和想增加实战经验的读者来说,本书不可多得!——51CTO
目前,国内的很多互联网企业都在使用或正准备使用Hadoop技术,这些企业都面临着一个共同的难题:Hadoop方面的人才难求。Hadoop方面的人才之所以难找,一方面是因为Hadoop在国内应用的时间不长,从业人员并不多;另一方面是因为Hadoop技术本身较难以掌握,而且与涉及海量数据处理的实际生产环境密切相关。本书很好地把握住了当前Hadoop从业者的核心需求,不仅理论知识全面,更重要的是包含大量与实际生产环境相结合的案例,极具指导意义。——Hadoop用户社区
Hadoop可谓炙手可热,在全球范围内,已经有数量庞大的大中型互联网公司开始使用Hadoop,国外的Amazon、Facebook、Yahoo!,国内的腾讯、百度、淘宝、阿里巴巴等都是成功应用Hadoop的典范。然而,Hadoop技术本身却极为复杂,而且涉及众多其他的技术,学习门槛比较高。本书从中初级读者的需求出发,以实践为导向,全面而系统地讲解了Hadoop技术本身,以及与之相关的其他各种技术。对于想系统学习Hadoop和想增加实战经验的读者来说,本书不可多得!——51CTO
【插图】








点击看大图






加载中...
