- 定价:¥69.00
- POD价:¥69.00
- 评分:
(已有0条评价)
- 电子书:Greenplum企业应用实战[按需印刷]
- 促销活动:
- 我要买:
基本信息

编辑推荐
阿里巴巴资深技术工程师撰写,完全展现阿里巴巴的Greenplum企业实战经验。
系统介绍Greenplum的功能特性、使用方法、高级应用;详细讲解Greenplum的系统架构、运维管理,性能优化和各种技巧;包含大量企业级应用案例和实操指导。
内容简介
计算机书籍
这是国内首本Greenplum著作,国内最早开始使用Greenp,um的企业是阿里巴巴,本书的两位作者是阿里巴巴最早负责使用和维护Greenplum的技术工程师,权威性毋庸置疑。本书完全立足于阿里巴巴的企业应用实践,不仅系统介绍Greenplum的功能特性、使用方法、高级应用,而且还详细讲解 Greenplum的系统架构、运维管理、性能优化和各种技巧。最重要的是,包含大量企业级应用案例,并且对每个案例都进行了详尽的讲解和实操指导。
全书一共15章,分为三个部分:基础篇(第 1-3章)首先介绍了Greenplum的应用场景、功能特性以及与PostgreSQL的关系,然后讲解了 Greenplum的安装配置、语法以及相关操作,最后通过两个具体的数据仓库ETL案例加强读者对 Greenplum的功能特性的了解和操作能力;进阶篇(第4-7章)围绕数据字典、执行计划、系统架构、高级特性等主题对Greenplum进行了更深入的讲解,不仅能让读者更深入理解Greenplum的工作原理,也能让读者游刃有余地应对各种日常操作;管理篇(第8-15章)从运维和管理的角度讲解了 Greenplum的线上部署、数据库管理、脚本维护、监控、权限控制、容灾/扩容、备份恢复、性能调优、常用技巧和常见问题等。
作译者
陈晓峰资深数据库专家和高级开发工程师,对Greenplum和PostgresQL等数据库以及Hadoop和Storm等大数据技术有非常深入的研究和丰富的实践经验。曾就职于阿里巴巴数据平台事业部,负责数据仓库Greenplum计算集群、报表集群的维护及调优,担任RTDC项目和天罡项目的技术负责人,以及负责双十一的交易直播间项目;还曾就职于阿里巴巴小微金服集团保险事业部,负责保险事业部所有险种的核保核赔;现就职于深圳前海微众银行。熟悉Java、C、C++、Python,以及数据挖掘和数据分析相关技术。
目录
前言
上篇 基 础 篇
第1章 Greenplum简介 2
1.1 Greenplum的起源和发展历程 2
1.2 OLTP与OLAP 3
1.3 PostgreSQL与Greenplum的关系 3
1.3.1 PostgreSQL 3
1.3.2 Greenplum 5
1.4 Greenplum特性及应用场景 6
1.4.1 Greenplum特性 6
1.4.2 Greenplum应用场景 7
1.5 小结 8
第2章 Greenplum快速入门 9
2.1 软件安装及数据库初始化 9
2.1.1 Greenplum架构 9
2.1.2 环境搭建 11
2.1.3 Greenplum安装 13
2.1.4 创建数据库 20
2.1.5 数据库启动与关闭 20
前言
阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。
Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍。
Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手。
Greenplum有着完善的工具,相比Hive,整个体系都比较完善,不需要像Hive一样花太多的时间和精力进行改造,非常适合作为一些大型的数据仓库解决方案。
Greenplum能够方便地与Hadoop进行结合,可直接把数据写在Hadoop上,还可以直接在数据库上写MapReduce任务,并且配置简单。
从2010年毕业加入阿里巴巴B2B的数据仓库起,我就开始接触Greenplum数据库,并有幸维护了一年多的Greenplum数据库,积累了很多数据库的相关知识。Greenplum在国内的应用相对比较少,尤其是网上资料相当匮乏。在使用Greenplum的过程中,阿里巴巴遇到了很多困难,也积累了很多宝贵经验。
由于学习资料的匮乏,我和何勇有了将阿里巴巴使用Greenplum的一些经验技巧汇聚成书的想法,这样既总结和沉淀了自身知识,同时也可以给国内使用Greenplum的同行们提供一点帮助。
本书组织结构
本书从实战角度出发,结合了大量实践案例(附有详细的代码),由浅入深介绍了Greenplum。本书由15章组成,主要分为3篇。
上篇(第1~3章)——基础篇
基础篇目的是帮助读者快速了解Greenplum,从实战的角度介绍一些入门必备的基础知识。从如何安装部署Greenplum开始,一步步引导读者搭建自己的Greenplum数据库,然后介绍基本的语法及相关操作。本篇最后通过分析两个具体的数据仓库ETL的案例,加强读者对Greenplum功能特性的了解,提高实践能力。
中篇(第4~7章)——进阶篇
进阶篇重点介绍Greenplum的数据字典、执行计划、架构以及一些高级特性。
数据字典是Greenplum对元数据信息的组织方式,执行计划是数据库执行SQL的灵魂,高级特性则是Greenplum的优势所在。本篇结合了大量案例对以上内容进行了深入分析。通过对这些内容的学习,可以深入理解数据库的工作原理,是进阶的必经之路,可以让读者游刃有余地应对各种Greenplum的日常操作。
下篇(第8~15章)——管理篇
管理篇主要介绍一些与数据库管理员相关的知识,包括线上部署、性能优化、权限控制、监控、容灾/扩容方案、常用脚本以及常见问题等。这些更偏向于后台管理,是DBA必修的课程。
本书面向的读者
阅读本书需要读者对关系型数据库有基本了解,最好也了解一些Linux的基本操作。本书面向的读者主要有:
Greenplum数据库管理员
书摘
基础篇
第1章Greenplum简介
第2章Greenplum快速入门
第3章Greenplum实战
第1章
Greenplum简介
本章先介绍Greenplum的产生背景、特性及应用场景、与PostgreSQL关系,以及发展历程。
1.1Greenplum的起源和发展历程
短短十多年,互联网在中国经历了从门户网站、搜索、即时通信、游戏娱乐、垂直细分……到电子商务、Web 2.0,再到社会化网络、移动互联网的一系列进化和变革。无论是互联网还是移动互联网,都是由海量的数据构成。对海量数据分析的需求开始突破传统边界,不再局限于电信、移动、金融、保险、制造等传统企业,涌现出大批将海量、庞杂的数据转化为知识,提供业务经营决策支持的企业。针对数据密集型计算中的海量数据处理这一问题,研究者开始考虑如何利用大规模集群系统所具有的可伸缩性和容错性的优势,实现高效的数据管理功能。比较典型的解决方案有Teradata、Greenplum、Hadoop Hive、Oracle Exadata、IBM Netteza等。
Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。选择Greenplum的产品的国际大客户有:纳斯达克、纽约证券交易所、Skype. FOX、T-Mobile等,在中国,中信实业银行、东方航空公司、阿里巴巴、华泰保险、中国远洋(Cosco)、李宁公司等大型企业用户也选择了Greenplum的产品。Greenplum的发展历程简要如下。
2003:Greenplum由Scott Yara和Luke Lonergan成立。
2005:Greenplum数据库第一个版本发布。
2006:与Sun公司合作,成为其合伙人。
2008:Greenplum MapReduce发布,同年12月份进入中国市场,一年多后,Greenplum正式宣布在中国独立运营。
2010:Greenplum被EMC收购,并被整合到EMC的云计算战略中。
2011—2012:Greenplum社区版发布,Greenplum Chorus发布并开源。
2014:Greenplum 4.3发布。
1.2OLTP与OLAP