基本信息

编辑推荐
国内资深Hadoop技术专家实践经验结晶,完全从企业实际生产环境和需求出发,旨在帮助企业真正解决大数据的落地问题。
系统介绍HBase的功能使用、框架设计、基本原理和高级特性;详细讲解使用HBase设计大型数据应用系统的实践方法和技巧;深刻总结系统运维、监控和性能调优的最佳实践。
内容简介
计算机书籍
《HBase企业应用开发实战》强调HBase在企业的实际应用,立足于企业的实际生产环境,旨在帮助企业切实解决大数据技术如何落地的问题。三位作者都是奋战在中国大数据技术一线的实践派专家,本书是他们实践经验的结晶。
《HBase企业应用开发实战》内容在三个维度上具有重要特色:功能维度,从HBase的安装配置、参数设置,到数据模型、表结构设计、客户端使用、高级特性,本书做了系统且详尽的介绍;实战维度,不仅通过3个典型的应用案例详细讲解了如何使用HBase设计大型的数据应用系统,而且还结合实际生产系统讲解了HBase的集群运维、监控和性能调优;理论维度,则深入分析了HBase、框架设计、模式设计和基本原理。可谓是理论与实践完美结合,深度与广度兼备!
作译者
孟鑫,资深Hadoop技术专家,在软件行业从业近10年,对海量数据处理技术有着深刻的认识,曾负责Hadoop平台建设工作,在Hadoop开发和运维方面积累了大量的实战经验。于2013年获取了Cloudera的Hadoop Developer认证,多次到企业和社区去分享Hadoop、HBase等方面的技术知识和经验。对技术拥有极大的兴趣,热衷于研究各种新技术,总结和分享经验及教训,目前从事管理工作,但依然热衷于产品设计和实现。
李立松,资深Hadoop技术专家,Easyhadoop技术社区创始人之一,对HDFS、MapReduce、HBase、Hive等Hadoop生态系统中的技术有比较深入的研究,在Hadoop开发方面积累了丰富的经验。曾就职于暴风,负责暴风大数据平台开发与应用,暴风大数据项目负责人。现在就职于缔元信,担任Hadoop高级工程师,负责缔元信DMP平台的研发工作。
目录
前 言
第一部分 基础篇
第1章 认识HBase 2
1.1 理解大数据背景 2
1.1.1 什么是大数据 3
1.1.2 为何大数据至关重要 4
1.1.3 NoSQL在大数据中扮演的角色 4
1.2 HBase是什么 6
1.2.1 HBase的发展历史 6
1.2.2 HBase的发行版本 7
1.2.3 HBase的特性 9
1.3 HBase与Hadoop的关系 10
1.4 HBase的核心功能模块 12
1.4.1 客户端Client 12
1.4.2 协调服务组件ZooKeeper 13
1.4.3 主节点HMaster 13
1.4.4 Region节点HRegionServer 13
1.5 HBase的使用场景和经典案例 14
1.5.1 搜索引擎应用 15
前言
大数据是继云计算、物联网之后IT行业又一次颠覆性的技术革命。大数据在互联网、军事、金融、通信和物理学等领域已经有不少落地案例,而Hadoop技术的快速发展也引起业界广泛关注。可以说,现在Hadoop是大数据处理的关键技术,也是迄今为止,最成熟、应用最广泛的技术。
HBase原型是Google的BigTable论文,从基因上讲,HBase已经是Hadoop生态系统不可或缺的一部分。HBase是完全开源的,同时存在多个版本,并且版本升级非常快,其学习成本比较高,学习周期比较长,所以现在大部分公司的工作人员很难在短时间内快速掌握并使用HBase框架。
此外,现在有关HBase的中文学习资料非常少,也给研发人员的学习带来了很大的难度。尽管现在市面上已经有几本关于HBase的中文书,但是,这几本书都是翻译作品,语言的组织不符合国人的习惯,并且实例讲解部分也不能切合本土国情。还有,这几本书分别侧重了某一个方面,如理论、实战、运维等,还没有一本书能够非常系统地阐述HBase框架。本书正是为了解决以上各种问题而编写的,也是国内第一本系统讲解HBase理论、实战和运维调优的书籍。
本书以HBase 0.94为基础,不仅深入探讨了HBase的原理架构和数据模型,更重要的是通过实际案例教会读者如何运用HBase框架来设计、搭建及运行大数据应用系统,同时结合生产案例剖析HBase系统运维和性能调优的技巧。
读者对象
本书适合以下读者阅读。
(1)云计算、大数据处理技术和NoSQL数据库爱好者
“大数据”无疑是继“云计算”之后IT业界最热门的词汇。而云计算、大数据、NoSQL技术本身存在交集,现在不少研究云计算的公司或机构都开始涉猎大数据和NoSQL领域,本书讲解的HBase数据库是NoSQL的一种,同时是大数据处理的关键技术,本书可以帮助这部分读者快速且全面地了解HBase的原理、架构、使用场景和细节知识点,理解HBase在云计算、大数据和NoSQL中的位置。
(2)对Hadoop及HBase感兴趣的开发人员
Hadoop技术在近几年非常热,它已经是大数据处理的关键技术,而HBase作为Hadoop生态系统的重要组件,已经被越来越多的公司使用。本书详细介绍了HBase与Hadoop的关系、HBase的基本概念、核心知识点和高级特性,并且结合实战案例讲解,使得读者可以快速掌握HBase的使用。
(3)使用HBase进行数据库开发或运维的高级DBA
HBase作为NoSQL数据库的一种,被越来越多的企业应用用作底层存储或者中间存储。本书不但讲解了HBase的原理和架构,更重要的是详细介绍了HBase的使用方法、运维监控和系统调优方法,能够帮助该部分读者快速掌握大型分布式数据库的安装、运维和调优技巧。
(4)开源软件爱好者
HBase作为Apache基金会的顶级优秀开源项目,其实现过程中吸收了很多开源领域的优秀思想,同时也值得我们深入研究和学习。本书在讲解过程中剖析了不少HBase源代码,可以帮助该部分读者了解和掌握HBase框架源代码的设计方法和技巧。
(5)开设相关课程的高等院校学生
现在越来越多的高等院校已经开设了大数据方向的学生培养课程。在这些课程中,Hadoop生态系统技术是核心课程,本书详细介绍Hadoop生态系统重要组件——HBase,这部分读者可以将本书作为参考教材使用。
如何阅读本书
本书分为三大部分。
第一部分为基础篇(第1~5章),介绍了大数据背景、HBase基本原理、模式设计、HBase的安装部署和所支持客户端API及使用方法。
媒体评论
本书作者在Hadoop开发和运维领域工作近4年,积累了丰富的经验,同时也对Hadoop技术人员在学习过程中可能会遇到的问题有一定的了解,在此基础上写了这本书。从如何用好HBase出发,首先介绍设计原理和应用场景,让读者了解HBase适合什么场景不适合什么场景,然后再介绍应用编程、性能优化和生产环境中的运维经验,可谓由浅入深,循序渐进,值得推荐!
——查礼 博士
中国大数据技术大会(原Hadoop in China)主席,中国计算机学会大数据专家委员会委员,中科院计算所副研究员
近几年,大数据和开源越来越受到各行各业的关注,而作为大数据中不可替代的重中之重,Hadoop及其周边生态,也逐渐从互联网公司向传统行业过渡。本书的几位作者都是在Hadoop与大数据领域深入工作多年的践行者,既有丰富的理论知识,又有多年工作的实战经验。本书着重介绍了HBase的工作原理和设计架构,同时在实际工作的应用场景上亦着墨很重,大数据的神秘不仅仅在于具体的技术细节,更多的是由于它是个新生事物,很多人并不很清楚大数据的技术架构应如何设计,应用场景如何,而我这几位好友结合自己在实际工作中的宝贵经验,通过撰写本书为广大爱好者解答了这一难题。本书是不可多得的理论与实践完美结合的技术书籍。
——向磊 phphiveadmin作者,汉云数衍创始人
大数据的概念已经逐渐深入人心,从互联网行业到传统行业,已经掀起一股“数据驱动商业价值”的热潮。大数据需要落地,需要开源技术来驱动新一轮的变革,而HBase作为大数据落地过程中的神兵利器,已经一次又一次证明了其巨大价值。本书不同于其他HBase的翻译版书籍,由来自国内互联网最前沿的实战派资深人士撰写而成,融合了自身的实战经验,更契合中国企业应用HBase技术的实情。本书由浅入深,结合理论阐述与案例剖析,如同一壶香茶,值得细细品咂。
——数盟社区 致力于为推崇”数据价值”的企业及个人打造最好的数据科学交流平台
书摘
基础篇
第1章认识HBase
第2章HBase安装与配置
第3章数据模型
第4章HBase表结构设计
第5章HBase客户端
Chapter 1 第1章
认识HBase
本章将介绍大数据背景和HBase的基本概念,从大数据引申到NoSQL,并阐述HBase出现的契机。随后,将介绍HBase的概念、发展历史、发行版本和基本特性。其中,HBase的核心功能模块将作为一个小节单独重点介绍,最后通过介绍HBase的使用场景和经典案例,让读者朋友能够清晰地了解HBase可以做什么。
作为NoSQL家庭的一员,HBase的出现弥补了Hadoop只能离线批处理的不足,同时能够存储小文件,提供海量数据的随机检索,并保证一定的性能。而这些特性也完善了整个Hadoop生态系统,泛化其大数据的处理能力,结合其高性能、稳定、扩展性好的特行,给使用大数据的企业带来了福音。
因为本章是全书的开篇,唯有简明扼要地介绍才能帮助正在学习和想要学习HBase的读者,所以本章将提纲掣领地介绍HBase的相关知识,重点介绍HBase是什么以及HBase能做什么两部分。
1.1理解大数据背景
经美国权威机构IDC调查发现,现如今的公司正在以前所未有的速度和丰富的类型产生数据,并且也有能力存储这些数据,但是,如何关联这两方面以便产生最大的商业价值,是所有公司共同面临的挑战。这个问题非常复杂:虽然业务人员在技能提升和专业工具的帮助下,越来越了解数据,但由于数据的增长速度越来越快,积累量级越来越大,公司可以利用的数据比例正在迅速下降。
1.1.1什么是大数据
Gartner认为与过去相关概念相比,大数据强调3V特征,即Volume(量级)、Varity(种类)和Velocity(速度),如图1-1所示。
图1-1大数据三大特性
如今存储的数据量正在急剧增长,2000年全球存储了EB级别的数据,预计到2020年,该值将变为ZB级别。仅Twitter每天就会生成超过10TB的数据,Facebook的数据为几十TB,一些特殊的企业在每小时就会产生TB级别的数据。
上面这些企业是一些典型的案例,其实我们生活的方方面面都会形成很多“轨迹”。例如,打开手机会生成一个事件;乘坐公共交通刷卡,这是一个事件;检票登机、打卡上班、App Store上购买应用、更换电视频道、使用高速路电子收费系统等。每一项操作都会生成数据,并且该数据的量级与参与的人数相关,全球60亿人口,如果仅仅1/10的人参与进来,那么这个数据量级就已经非常惊人。就在10年前IT界超过1TB的数据仓库屈指可数,而现在则是“举不胜举”。
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、Web日志文件、社交媒体论坛、电子邮件、文档、传感器数据等原始、半结构化和非结构化数据。