基本信息
- 原书名:Managing Data in Motion: Data Integration Best Practice Techniques and Technologies
- 原出版社: Morgan Kaufmann

编辑推荐
移动互联网、物联网和社交媒体的飞速发展,数据量呈现蠕炸式增长,企业如何实现应用之间的数据共享,如何更好地利用已有数据资源
作者结合她25年的数据集成工作经验,给出了实施企业数据集成的通用法则,深入讲解大数据环境下大中型企业不同应用系统间数据集成的关键技术、架构、工具集和最佳实践
内容简介
计算机书籍
《大数据管理:数据集成的技术、方法与最佳实践》是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。
《大数据管理:数据集成的技术、方法与最佳实践》分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和最佳实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。
《大数据管理:数据集成的技术、方法与最佳实践》虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。
作译者
资深数据集成专家、资深信息管理顾问、企业架构师和项目经理,拥有数十年行业从业经验,经历丰富,曾服务于多家大型跨国公司,主要负责开发数据战略以及管理开发和运行方案。她是数据转换、数据仓库、商务智能、主数据管理、数据集成和数据治理等数据管理领域的专家。目前,她作为企业信息管理实践的咨询顾问服务于EMC2咨询公司。
余水清
国家认证系统分析师、信息系统项目管理师、系统架构师、中国系统分析员协会(CSAI)专业顾问,领导和参与过多项大型软件系统开发项目,担任软件设计师、系统架构设计师、项目经理等职位,涉及银行、医疗、制造业等多个行业 。在信息系统、数据仓库的设计、开发和部署方面拥有丰富的理论和实践经验。
潘黎萍
软件工程硕士,高级工程师,从事企业级信息系统开发和管理十余年,精通数据仓库、商务智能系统的设计和开发,研究领域包括数据集成方法、ETL、数据转换、大数据应用和智能分析系统开发。
目录
译者序
序言
前言
第一部分 数据集成导论
第1章 数据集成的重要性 / 2
1.1 数据接口的天然复杂性 / 2
1.2 购买供应商应用包的数量日益增加 / 3
1.3 大数据和虚拟化的催化剂 / 3
第2章 什么是数据集成 / 5
2.1 运动中的数据 / 5
2.2 集成为通用格式—数据转换 / 5
2.3 数据从一个系统迁移到另一个系统 / 6
2.4 在组织内部移动数据 / 6
2.5 从非结构化数据中抽取信息 / 8
2.6 将处理移动到数据端 / 9
第3章 数据集成的类型和复杂性 / 10
3.1 管理运动中的数据和持久化数据的异同点 / 10
3.2 批处理数据集成 / 10
3.3 实时数据集成 / 11
译者序
企业在实施数据共享的过程当中可能会遇到各式各样的问题,例如:不同应用产生的数据可能来自不同的途径,数据内容、数据格式和数据质量千差万别,有时数据格式不能转换或数据转换格式后丢失信息等,这些问题有时候相当棘手,如果没有正确方法论的指导,则会严重阻碍数据在各部门和各软件系统中的流动与共享。数据集成则是有效解决这些问题的一把金钥匙。
但是,数据集成是一个很大的课题,通常会包括以下几部分:如何实施一个数据集成项目?数据集成项目的生命周期有哪些不同阶段?与传统的软件项目生命周期有什么迥异之处?数据集成常见的模式包括哪些?数据集成与数据仓库、商务智能有什么联系?诸如此类的问题。其中每一个问题的答案都可能需要一部大部头的数据图书才能讲解得透彻,更别说成千上万的商业或者开源工具、框架了。幸运的是,April Reeve给我们带来了这本书,这本书不仅给出了以上这些问题的答案,还给出了实施企业数据集成的通用法则,即面向整个企业的业务整合元数据、数据规范化模型、主数据管理、ETL,以及数据仓库和商务智能等不同技术与工具的战略性集成方法。
April Reeve结合她数据集成领域25年以上的工作经验,深入浅出地讲解了数据集成中所涉及的每一个主题。而且,难能可贵的是,全部用非技术人员的语言来讨论每一个问题。因此,阅读本书的过程中,即使没有一定的技术背景,你也不会感到很吃力。当然,如果在数据仓库或者商务智能方面有些实践经验的话,那么阅读本书的过程将会是一次轻松愉快的旅行,而且,我相信对于作者给出的很多观点你会报以会心一笑。
本书的另外一大亮点就是专家访谈。在每一章中间或者后面,作者都和相关领域的资深专家就数据集成的相关技术、工具、变化和发展趋势,以及不同的数据集成之间的关系进行了深入讨论。这些来自一线资深专家们的经验之谈,犹如一颗颗珍珠点缀着全书,让人在领略相关知识的同时,也可以更进一步地去省视和思考。
翻译完整本书,我最大的感受就是,真心希望能够早几年读到这本书,那样我在实施和管理数据仓库与商务智能的项目中也许可以少走很多的弯路。
在本书的翻译过程,得到了机械工业出版社谢晓芳编辑的精心指导和帮助,谢编辑对技术的熟练掌握以及对语言的精准把握让人受益匪浅。
感谢妻子和家人的宽容和耐心,你们的关心和鼓励让我可以安心地专注于技术、翻译和文字所带来的乐趣。
时间有限,错误之处在所难免,因此,怀着忐忑的心情,向广大读者呈上这本译著,希望大家不吝指正。
余水清
前言
绝大多数大中型组织都拥有上百甚至上千的应用系统,而每个应用都有不同的数据库和其他多种形式的数据存储。不管这些数据存储是来自传统技术以及数据库管理系统、新兴技术或者文档管理系统,要使这些应用在组织中发挥作用,在这些数据存储之间共享信息是至关重要的。但是,如果没有一个贯穿整个组织的统一方法,开发和管理在不同的应用系统之间移动数据的方案将会变得复杂无比。本书给出了一个合理的途径和架构,使得在一个应用系统组合中管理纷繁复杂的接口成为可能。
基于信息技术的数据管理的重点通常围绕着如何高效地管理数据库或者静态存储的持久化数据。由于目前很多组织的应用系统主要都是购买的供应商解决方案,因此,管理系统之间、应用之间、数据存储之间以及组织之间“运动着的数据”应当成为任何一个组织的信息技术的核心工作。对于大多数组织来说,相对于新应用的开发,定制开发将继续围绕着应用之间的数据迁移。
读者将学到什么
本书高屋建瓴地阐述了在大型组织的环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术以及最佳实践。
通过本书,读者将掌握开发和管理数据集成方案的最佳实践技能、工具集以及架构。对于组织来说,为了支持健壮的组织级数据集成能力,这些都是必须具备的。根据数据集成的不同类型及其相关性,这些技术可以进一步划分为:批处理集成、实时集成以及大数据集成。
所有人都应该阅读第1章和第12章,这是将组织中应用接口难以管理的复杂性转变为易于管理的数据层的关键。这两章讲述的内容是开发一个报价合理的数据集成项目的基础。
谁应该阅读本书
本书面向以下五类读者:
资深业务和信息技术经理
企业数据、应用和技术架构师
数据处理相关项目的项目经理,包括数据仓库、主数据管理项目、数据转换和迁移以及数据归档
数据分析师、数据模型设计师、数据库工作者以及数据集成程序员
数据管理专业学生
本书包含了对各种数据集成问题的多种不同类型的技术解决方案的应用,但读者并不需要具备广阔的技术背景就能理解。
资深业务和信息技术经理
对大多数组织来说,管理成百上千的应用之间、数据库之间纷繁复杂的交互和接口是IT管理所面临的主要挑战之一。资深经理们,包括信息技术经理和那些需要了解问题并参与管理应用系统组合的经理们,也许对管理数据在组织内部和组织之间迁移的技能、技术和最佳实践感兴趣。而这些数据管理技术以前一直被视为组织中极其细枝末节的技术领域。除了应该了解技术投资的主要部分外,经理们还应当理解一些数据集成管理技术上简单的架构决策可以带来极大的生产率提高,这在任何组织中都不应该被忽视。
企业数据、应用和技术架构师
企业架构师,尤其是那些不但从事与数据和应用相关架构工作并且从事技术组件设计的架构师,当然需要了解在组织的技术组合和架构计划中所需要的数据集成方案。任何一个组织的数据架构应当包括一些层以支撑数据安全、商务智能、数据库管理、文档管理以及数据集成。
数据处理相关项目的项目经理
序言
差不多在40年前,即Richard Nolan将数据管理作为他的数据处理成熟度模型的倒数第二个层次开始,人们认识到在开发应用程序以支持业务流程的过程中,如果没有恰当管理,将会产生大量重复和不一致的数据。
在数据库技术发展的早期阶段,人们曾经梦想通过以一种协调的方式来构建所有组织的数据库,以消除所有的数据重复,从而实现Nolan的目标。“获取数据一次、在一个地方存储并在所有的地方都可以使用数据”就是当时的愿望。
分布式计算、通用软件包,以及朴实的利己主义为这个梦想画上了一个句号。但是这一基础思想依然以数据管理初步尝试的方式存在于很多组织中,即基于计划和协调来构建数据库—最显著的形式就是企业数据模型。他们的成功是有限的,因此,组织转向于采用战术性的方案来解决最为紧迫的问题。他们构建了接口以便在应用之间传输数据,而不是多次捕获数据。为了报表分析,他们将所有的数据汇聚到一起,而这成为后来的数据仓库和集市。这一实用的做法体现了接收现有的重复数据的一种意愿,因此对于纯粹主义者并不具有任何吸引力。
具有战略性的、全组织范围的数据处理方法与事后分析的方案之间的矛盾在今天依然存在。但是,问题的规模已经超越了在19世纪70年代的任何设想。
我们见证了计算能力、存储技术,以及开发工具的非同凡响的进步和发展。信息技术在商务和政府部门无处不在,即使中等规模的组织也依赖他们数以千计的应用和PB级的数据。但是,每个新的应用,每个新的方案都使数据迅速增加。这些解决方案逐渐地都转变成了商业软件包,在数据库设计以及这些软件如何与现存的软件和将来要购买的软件特性上如何重叠上,购买者几乎没有发言权。
不仅应用的数量呈爆炸性增长,而且应用内部的数据的复杂性也远非早期的文件和数据库的简单结构所能够比拟。互联网和智能手机产生了巨量的非结构化数据,这里的“数据”包括文档、音频以及视频。云计算扩展了组织的数据边界,而且进一步方便了对新应用的获取。
对数据集成的需求也成比例增长,或者更确切地说,不成比例,因为系统之间的接口呈指数级增长。在很多组织里面,这再一次成为机会,因为他们可以将更多的精力专注于系统开发上。
在过去的20年里,借助于消息处理和虚拟化技术,数据集成的支持工具取得了重大进步。本书以一种易于非专业人员(计划人员、管理者以及开发者)理解的方式提供了这一技术的概览从而弥补了一个重要的缺口。April Reeve极为罕见地将商务视角与详细的技术知识组合在一起呈现给读者,这些知识来自于她多年在若干个公司作为IT技术人员、经理从事设计、实施,以及运作应用系统,以及最近作为顾问在多个不同的环境中使用这些技术的经验积累。
也许数据经理将成为本书最重要的读者,尤其是那些顽固执著于静态数据管理模型以及相关工具的数据经理。由于对移动中的数据管理在信息技术预算中的比例渐趋增加,因此需要一种战略性的关注度。而数据经理由于具备一定组织职权,因此理所当然地负起这个责任。本书讨论的技术形成了数据集成的主流思想,并且代表了一种美好的愿望,即达成Nolan很久以前所描述的数据管理的目标。
Graeme Simsion
媒体评论
——John Ladley,IMCue方案公司首席工程师
这本书针对企业每天所面临的复杂挑战给出了清晰的解决思路,以通俗易懂的语言介绍批处理、实时和大数据集成,包括相关定义、思路、观点,以及最佳实践。我强烈推荐这本书!
——Danette McGilvray,Granite Fall咨询公司总裁兼首席顾问
书摘
数据集成导论
第1章数据集成的重要性
第2章什么是数据集成
第3章数据集成的类型和复杂性
第4章数据集成开发过程
第1章数据集成的重要性
1.1数据接口的天然复杂性
一般企业计算环境总是由上百甚至上千离散并且不断变化的计算机系统组成的,这些系统或自行构建,或购买,或通过其他方式获得。这些系统的数据需要集成到一起,用于做报表或者分析,需要共享以进行商务处理;当旧系统被设立的新系统取代时,需要从旧系统格式转换为另外一种格式。对于所有的信息技术组织来说,如何有效地管理系统之间的数据传输是需要面对的主要挑战之一。
绝大多数数据管理都集中在存储于数据结构中的数据,如数据库和文件系统。只有极少数关注不同的数据结构存储之间流动的数据。然而,组织内部的数据接口管理正快速成为业务和信息技术管理最主要的关注点。随着越来越多的系统加入组织的应用系统组合中,系统之间接口的数量和复杂度也随之迅速膨胀,接口之间的管理也让人不堪重负。
传统的接口开发方式很快导致复杂度变得难以管理。应用和系统之间接口的数量随着系统数量的增加呈指数级增加。实际工作中,并不是每个系统都需要和其他系统交互,但是为了满足不同的需求或者数据交换的需要,在系统之间却会存在多个接口。因此,对于一个拥有100个应用的组织来说,可能有大致5000个接口。对于一个拥有1000个应用的应用组合来说,可能会有近50万个接口需要管理。
如图1-1所示,传统的“点对点”的集成方案正是产生这种挑战的原因。而借助一些数据管理最佳实践的技巧,则可以让组织的数据接口管理更为合理。如果组织在开发接口的时候没有一个企业级的数据集成策略,那么很快就会发现接踵而至的管理大量接口的麻烦。
图1-1点对点接口复杂性
1.2购买供应商应用包的数量日益增加
在大多数情况下,除了那些战略上泾渭分明的应用外,购买现成的软件包并进行适当配置,对于组织来说是非常经济的一种做法,这已经是多年来业界所形成的一种共识。除此之外,还可以享受一些额外的益处,如与使用该软件的其他组织均摊诸如开发新功能、新特性支持、查找和解决已存在问题等成本。购买的软件包也称为COTS(Commercial Off the Shelf,商用现货)软件。
由于绝大多数组织内部已经实施的软件应用都是购买的供应商的软件包,对于某个具体的组织来说,集成特定的软件应用组合所需要的工作和过程便成了为数不多的定制化开发活动之一。软件供应商可以让所开发的软件支持与应用组合中其他的系统之间的交互和集成,但是在特定的组织所具有的应用组合中需要集成的系统,以及数据集成方案对于每个组织来说却是唯一的。
除了应用系统组合之外,还有购买的软件包本身。因为每个软件包都不可避免地要包含它们自身对一些主数据结构的定义,如客户、产品以及组织层级等。由于这些主数据毫无例外地存在于任何定制应用以及应用组合中的任何其他软件包中,因此就需要跨越不同的应用对这些主数据进行整合和集成。所以,相对于构建和定制化开发,如果所有的应用可以基于通用的数据结构进行定制开发,虽然购买应用解决方案从某种程度上方便了对应用组合的管理和支持,但是,这也增加了应用组合中各个系统之间进行数据集成的复杂度。
1.3大数据和虚拟化的催化剂
在新兴的领域(如大数据、云处理、数据虚拟化中,数据集成技术也是实现这些技术和方案的关键组件。
相对于在分析之前将数据进行归并的方案,大数据是一个更好的解决方案,因为它将大量不同类型的数据原封不动地保存在原地,而将处理过程适当分配给这些数据,这是一个并行处理过程。当在这些分布式数据上执行请求之后,需要整合并返回结果。虽然数据集成对大数据非常关键,但方案和传统的数据集成有着天壤之别。如图1-2所示,箭头表示了在各种各样数据结构之间进行数据传输和整合的数据集成方案。