基本信息

编辑推荐
《华章教育·面向CS2013计算机专业规划教材·分布式数据库系统:大数据时代新型数据库技术(第2版)》是作者在长期的数据库教学和科研基础上,面向大数据应用的新需求,结合分布式数据库和大数据管理的基本原理及其实际应用技术编写而成的。书中详细介绍了经典的分布式数据库管理和新兴的大数据库管理的理论和技术,以流行的商用数据库Oracle为例介绍了分布式数据库的相关实现技术,以P2P数据管理和Web数据库集成系统为例介绍了面向互联网和Web应用的分布式数据库技术,以HBase、Cassandra、Spanner、OceanBase等为例介绍了面向大数据应用的新型数据库技术,还给出了大数据库系统的最新研究进展及发展趋势。
内容简介
计算机书籍
于戈、申德荣等编*的《分布式数据库系统(大
数据时代新型数据库技术第2版》主要介绍分布式数
据库系统和大数据库系统的基本理论与实现技术。全
书共分12章,第1章和第2章介绍分布式数据库系统和
大数据库系统的基础和背景,主要包括系统的基本概
念、体系结构、发展历史、系统分类和主要研究问题
;第3~9章为全书的重点,介绍分布式数据库系统和
大数据库系统的核心技术,包括分布式数据库设计、
分布式查询处理与优化、分布式查询的存取优化、分
布式事务管理、分布式恢复管理、分布式并发控制、
数据复制与一致性,并给出了Oracle应用示例;第10
章和第11章介绍两个分布式的数据管理系统案例,分
别为P2P数据管理系统和Web数据库集成系统;第12章
介绍大数据库系统研究进展及发展趋势。
本书内容新颖,理论与实践相结合,可作为计算
机专业高年级本科生和研究生的教材,也可作为大数
据管理和应用的研究和开发人员的参考书。
作译者
目录
教学建议
第1章分布式数据库系统概述
1.1引言及准备知识
1.1.1相关基本概念
1.1.2相关基础知识
1.2分布式数据库系统的基本概念
1.2.1节点/场地
1.2.2分布式数据库
1.2.3分布式数据库管理系统
1.2.4分布式数据库系统应用举例
1.2.5分布式数据库的特性
1.3分布式数据库系统的作用和特点
1.3.1分布式数据库系统的作用
1.3.2分布式数据库系统的特点
1.4分布式数据库系统中的关键技术
1.4.1关键技术
1.4.2典型的分布式数据库原型系统简介
1.5大数据应用与分布式数据库技术
1.5.1大数据类型和应用
前言
从20世纪70年代中期开始,各发达国家纷纷投巨资支持分布式数据库系统的研究和开发计划。历时十年,呈现出了许多研究成果。典型的原型系统有美国国防部委托CCA公司设计和研制的SDD1分布式数据库系统、美国加利福尼亚大学伯克利分校研制的分布式INGRES系统、IBM圣何塞实验室研制的R*分布式数据库系统、德国斯图加特大学研制的Porel分布式数据库系统、法国Sirius资助计划产生的若干原型系统(如SiriusDelta、Polypheme等)。随后,商品化的数据库系统Oracle、Sybase、DB2、Informix、INGRES等都从分布式数据库系统研究中吸取了许多重要的概念、方法和技术,实现了相当程度上的分布式数据管理功能,并宣称它们都是分布式数据库系统产品。在分布式数据库系统的商品化进程中,随着研究的深入和应用的普及,更由于分布式数据库管理系统本身的高复杂性,研究者提出了更简洁、更灵活的实现技术来满足分布式数据处理的要求。目前,商品化数据库产品如Oracle、Sybase、DB2、SQL Server、Informix都支持异构数据库系统的访问和集成功能。它们都采用基于组件和中间件的松散耦合型事务管理机制来实现分布式数据的管理,具有高灵活性和可扩展性,并且具有替代传统分布式数据库管理系统中的紧耦合型事务管理机制的趋势。
随着Internet和Web的蓬勃发展,Web环境下的分布式系统已成为当前应用的主流,如电子商务系统、网格系统、P2P共享系统等。近来,云计算、物联网等新型分布式应用的提出,更凸显了分布式数据管理的重要地位。分布式数据处理是分布式系统中必不可少的重要组成部分,涉及数据的分布式存储管理、分布式数据的查询优化、分布式事务管理与故障恢复,以及并发控制处理机制等。分布式数据库系统的概念、基本理论、算法及其相应的技术都将对分布式数据处理以及分布式系统的研究起到重要的指导作用。并且,随着分布式计算技术和应用的发展,分布式数据管理系统的基本理论和技术将发挥越来越重要的作用。
随着技术的发展,大数据广泛存在,如Web数据、移动数据、社交网络数据、电子商务数据、企业数据、科学数据等,并且各行各业都期望得益于大数据中蕴含的有价值的知识。为此,呈现出了支持大数据管理和分析的技术,如大数据存储模型、键值模型、MapReduce分布式处理架构、改进的支持分布式的事务协议、副本管理等,并推出了许多关系云系统和多存储结构的大数据库系统等。支持大数据库管理的基础理论和技术,典型代表是以经典的分布式数据库理论和技术为基础的扩展研究,满足大数据处理的实时性、高性能和可扩展性需求等。
多年来,作者在国家自然科学基金、国家973计划、国家863计划等课题的支持下,以大数据管理、Web数据库集成、联盟企业数据集成为应用背景,针对分布式环境下的数据管理进行了深入研究。同时,作者一直承担东北大学计算机专业硕士研究生的分布式数据库系统课程以及计算机专业本科生的数据库系统概论和数据库系统实现课程的教学工作。本书正是基于以上工作而撰写的。
本书首先重点介绍经典的分布式数据库系统的基本理论和关键技术,介绍当前流行的商品化分布式数据管理机制,并进行特点分析和对比。同时,以经典的分布式数据库基本理论和技术为基础,介绍大数据库管理的关键技术和流行的大数据库系统。
本书共分为12章,内容包括分布式数据库系统概述、分布式数据库系统的结构、分布式数据库设计、分布式查询处理与优化、分布式查询的存取优化、分布式事务管理、分布式恢复管理、分布式并发控制、数据复制与一致性、典型的分布式数据库系统案例(P2P数据管理系统、Web数据库集成系统)和大数据库系统研究进展。
第1章主要介绍数据库基本知识、分布式数据库概念及其特性,以及分布式数据库系统的作用和特点。之后,概述大数据管理并介绍大数据库概念,主要包括大数据类型、特点、处理过程和大数据库关键技术。
第2章主要介绍分布式数据库系统的结构,包括分布式数据库系统的物理结构、逻辑结构、模式结构和组件结构,阐述典型的分布式数据集成系统的异同点,给出分布式数据库系统的分类。之后,介绍大数据库系统的分类、典型的体系结构和大数据库系统案例。
第3章主要介绍分布式数据库设计方法,包括全局关系模式的逻辑划分和实际物理分配,主要包括分片定义、分片设计和分配设计,具体包括水平分片、垂直分片和混合分片的设计。之后,介绍支持大数据库管理的存储模型、数据分布式存储策略以及大数据库存储案例。
第4章主要介绍分布式查询处理技术,包括查询优化的基本概念、查询处理与优化过程、查询分解、数据局部化和片段查询优化方法。之后,介绍大数据库的查询API、查询处理和优化策略。
第5章主要介绍分布式查询的存取优化技术,包括存取优化的基本概念、存取优化的代价模型、典型的半连接优化技术、枚举法优化技术,以及几种典型的集中式查询优化算法和分布式查询优化算法。之后,介绍大数据库管理的索引技术、缓存技术、并行处理技术。
第6章主要介绍分布式事务管理技术,包括分布式事务概念、分布式事务的实现模型、分布式事务执行的控制模型、分布式事务管理的实现模型以及分布式事务提交协议。之后,介绍大数据库的事务管理,包括大数据库管理理论、扩展的事务模型和实现方法。
第7章主要介绍分布式恢复管理技术,包括分布式数据库系统中的故障类型、集中式数据库的故障恢复方法、分布式数据库的恢复方法以及分布式数据库的可靠性协议。之后,介绍大数据库系统中的恢复管理问题、故障类型、故障检测技术和容错技术。
第8章主要介绍分布式并发控制技术,包括分布式并发控制概念及其理论基础、基于锁的并发控制方法、基于时间戳的并发控制方法、乐观的并发控制方法以及分布式死锁管理。之后,介绍支持大数据库并发控制的扩展技术。
第9章主要介绍分布式数据库的数据复制和一致性技术,包括复制策略、复制协议和一致性协议。之后,结合大数据库一致性协议介绍大数据库系统所采用的副本一致性实现策略。
第10章介绍一个典型的分布式数据库系统案例——P2P数据管理系统,包括几种典型的P2P系统的体系结构、数据管理机制以及查询处理与优化策略。
第11章介绍另一个典型的分布式数据库系统案例——Web数据库集成系统,包括典型的Web数据库集成系统的组成结构以及集成系统中的三个核心模块(搜索子系统、查询子系统和集成子系统)。
第12章介绍大数据库系统研究进展及展望,包括数据模型、基于MapReduce框架的查询处理与优化策略、事务管理技术、动态负载均衡策略、副本管理技术以及多存储模式的数据库系统。
本书由东北大学计算机科学与工程学院于戈、申德荣、赵志滨、李芳芳、聂铁铮、寇月、冯时、鲍玉斌撰写。其中,于戈负责本书前言部分,申德荣负责教学建议部分,于戈、申德荣负责第1章,赵志滨、申德荣负责第2章,申德荣、聂铁铮负责第3章,李芳芳、于戈负责第4章、第8章、第9章,聂铁铮负责第5章,寇月负责第6章和第7章,赵志滨负责第10章,申德荣、聂铁铮负责第11章,申德荣、于戈、鲍玉斌负责第12章,冯时负责各章中有关Oracle数据库的案例部分。参加本书撰写的还有博士研究生朱命冬、王习特等。全书由于戈和申德荣统稿。
书摘
全局关系通常划分为关系片段,即物理分片,并存储在相应的物理场地上。逻辑上的全局查询实际上是分布式查询,需要通过关系分片和分配描述将关系映射到关系的物理片段上,我们称这个过程为查询局部化。查询局部化的主要功能是将分布式查询转换为针对局部数据的局部查询。出于可靠性的目的,可将片段复制存储于不同的场地上。尽管大多数优化算法考虑独立的局部化优化过程,但也存在一些算法,在运行时基于存在的复制片段达到通信时间最小化。这类优化算法更加复杂,因为存在更多种可能的策略。
6.是否支持半连接
半连接操作对于缩减操作关系的大小很有意义。当主要考虑通信代价时,半连接对于提高分布式连接操作特别有用,因为它可以减少场地之间的数据交换量。然而,使用半连接可能导致消息数的增加和局部处理时间的增加。早期的分布式数据库中,比如基于低速广域网的SDD—1中,广泛地使用了半连接。后来的一些系统如System R*,是基于高速网络的,没有使用半连接,而是采用直接连接,因为使用直接连接可以降低局部处理代价。实际上,如果能大量缩减连接操作所产生的数据,半连接在高速网环境中仍然很有效。因此,一些查询处理算法仍选择直接连接和半连接结合的优化策略。
7.网络拓扑
分布式查询处理器要考虑网络拓扑结构。在广域网中,代价函数简化为以数据通信代价为主导因素。这样,分布式查询优化简化为两个分离的子问题:基于中间场地的通信来选择全局执行策略;基于集中查询处理算法选择各个局部执行策略。局域网中,局域网的通信代价与I/O代价相当,因此,分布式查询处理器通过增加并行执行是合理的,如一些局域网的消息多播(muhi—cast)策略已成功应用于连接操作的优化处理中。