基本信息

编辑推荐
广告语:
作者曾在国内互联网头部公司从事大数据项目研发。百度无线搜索前负责人胡嵩、字节跳动算法团队技术总监丁锐等6位大咖力荐。基于大数据生态介绍Hive性能调优所涉及的Hadoop组件和Hive工具,适用于Hive的多个版本
内容简介
目录
第1章 举例感受Hive性能调优的多样性 1
1.1 感受改写SQL对性能的影响 1
1.1.1 数据准备 1
1.1.2 union案例 4
1.1.3 改写SQL实现union的优化 5
1.1.4 失败的union调优 8
1.2 感受调整数据块大小对性能的影响 10
1.2.1 数据准备 11
1.2.2 案例比较 11
1.3 感受不同数据格式对性能的提升 15
1.3.1 数据准备 15
1.3.2 案例比较 16
1.4 感受不同的表设计对性能的影响 18
1.4.1 数据准备 19
1.4.2 案例比较 21
1.5 调优其实不难 24
第2章 Hive问题排查与调优思路 25
2.1 小白推演Hive的优化方法 25
2.1.1 类比关系型数据库的调优 25
前言
目前,图书市场上关于Hive的书籍比较少,而专题介绍Hive性能调优的图书就更少了,几乎是个空白。有些书籍中涉及Hive性能调优,但也只是浅尝辄止。笔者认为,Hive是构建在Hadoop生态之上的,其性能调优其实与自身及其关联的大数据组件都有很密切的联系。鉴于市面上还没有从Hadoop的整体和全局介绍Hive性能调优的书籍,笔者编写了这本书。这本书除了总结和完善自己的知识体系外,还希望能将自己多年的大数据开发经验系统地总结出来,供读者借鉴,从而让他们在学习和工作中少走弯路。
考虑到很多调优方法的着眼点有一定的相似性,这些方法一般可以适用于多个Hive版本,所以本书在讲解时穿插了Hive 1.x、Hive 2.x和Hive 3.x等多个版本的内容。
本书特色
1. 内容非常系统、实用
本书从语法、表模型设计、执行计划和计算引擎等多个角度系统地介绍了Hive性能调优的相关知识。为了避免纸上谈兵,书中在讲解知识点时列举了大量的实例帮助读者理解。
2. 从原理谈优化
本书所介绍的实例都是从原理谈优化,让读者知其然也知其所以然。例如,在介绍HiveSQL调优时,我们会转换成计算引擎执行的等价代码,让读者知道HiveSQL的实际运行流程,从而直观地理解其可能引发的性能问题。
3. 适用于多个Hive版本
本书总结了Hive性能调优的方法论,并总结了Hive性能调优需要关注的技术点。这些方法论和技术点无论是现在还是将来,只要是将Hive构建于Hadoop大数据平台之上,就都可以借鉴和使用。
本书内容
第1章 举例感受Hive性能调优的多样性
本章用代码演示了各种优化技巧,从多个完全不同的角度介绍了Hive性能调优的多样性,例如改写SQL、调整数据存储的文件块、改变数据存储格式、设计Hive表等。
第2章 Hive问题排查与调优思路
本章介绍了Hive性能调优的整个过程,并给出了作者对于Hive调优过程中的一些思考,如编码和调优的原则、Hive SQL的相关开发规范等。通过阅读本章内容,读者可以对Hive性能调优的过程和工具有一个整体认识。
第3章 环境搭建
本章介绍了多种快速部署大数据开发环境的方式。考虑到不同读者手头的计算机资源有限,加之很多开发者并不喜欢“折腾”基础环境的搭建,书中介绍了一些比较快捷搭建环境的方式,涉及Docker和Cloudera Manager等技术。通过阅读本章内容,读者可以快速构建自己的大数据开发环境。
第4章 Hive及其相关大数据组件
本章比较系统地介绍了Hive及其相关大数据组件的基础知识。因为Hive构建于Hadoop大数据平台之上,其数据存储依赖HDFS,而HiveSQL的执行引擎依赖MapReduce、Spark和Tez等分布式计算引擎,其作业资源调度依赖YARN和Mesos等大数据资源调度管理组件,所以脱离Hadoop生态讲Hive性能调优无异于隔靴搔痒,解决不了根本问题。
第5章 深入MapReduce计算引擎
媒体评论
市面上讲大数据技术的书很多,有些过于基础,有些又太理论化,实操价值不高。志煌的这本新书以Hive性能调优为主题,很实用,非常有价值,而且又能从Hadoop生态的整体视角来阐述和解决问题,填补了Hive性能调优类图书的空白。志煌长期在一线参与实际项目,其作品是他多年实战经验的总结,强烈推荐大数据行业的从业者阅读。
——进化星球CEO/百度无线搜索前负责人胡嵩
志煌是一个对技术有着执着信念的人,很善于将一个问题“掰开揉碎”并由浅入深地讲述清楚。本书就是这样一本可以让读者很容易理解的Hive性能调优图书,是一本不可多得的好书。本书创造性地从Hadoop的全局告诉读者应该怎样做才能让Hive“更好玩”,特别适合正在学习Hive或正在用Hive做大数据分析的人员阅读。
——平安科技大数据平台数据集中组负责人李钊
本书系统地介绍了Hive性能调优的相关知识,书中在用实例讲解调优的同时,还特别注重方法论的总结和学习能力的培养,非常值得大数据技术爱好者阅读。
——字节跳动算法团队技术总监丁锐
本书结合作者多年的Hive调优经验,深入浅出地描述了Hive性能调优的理论基础和实践流程,相信能对你在Hive性能调优的思路上有所启发和帮助。
——聚信网络技术总监/百度91前高级技术总监陈兴柏
这本书所介绍的Hive性能调优思路有点意思。作者首先带领读者梳理了Hive的技术生态和调优所需的基础理论,然后对Hive的技术栈进行了解剖,并对Hive性能调优做了介绍,有点有面,点面结合。赞!
——百度91无线数据组前负责人林艳强
本书由浅入深地介绍了Hive参与大数据系统的全过程。书中通过理论和实践相结合的方式,总结了Hive性能调优的方法和实用技巧,给使用Hive进行性能调优的人提供了一条学习的捷径,非常值得一读。
——无觅科技技术负责人周宏斐