基本信息
- 原书名:DW 2.0: The Architecture for the Next Generation of Data Warehousing
- 原出版社: Morgan Kaufmann

内容简介
作译者
除南极洲之外,Bill在各大洲都组织过研讨会并在各种会议上发言。他拥有九项软件专利。他最新成立的一个公司是Forest Rim Technology公司,该公司致力于非结构化数据的存取并将其整合到结构化环境中。每月有超过1 000 000人访问Bill的网站:inmoncif.com。他在beyenetwork.com上的每周通讯已经在业界被广泛阅读,每周有75 000个订阅者。
Derek Strauss:Gavroshe公司的创始人、CEO和首席顾问。他拥有28年IT界从业经验和22年信息资源管理及商业智能/数据仓库领域的从业经验。
Derek发起并管理了许多企业项目,他倡导运用商业智能、数据仓库来改善数据质量。Bill Inmon的CIF(Corporate Information Factory)理论及John Zachman的EAF(Enterprise Architecture Framework)理论是Derek的工作的基石。Derek同时也是一名专家研讨会主持人,他曾多次在国内及国际的数据仓库会议中演讲。另外,他还是DW2.0认证的构架师和培训师。
Genia Neushloss:Gavroshe公司的联合创始人和首席顾问。30多年来,她在保险业、金融业、制造业、采矿业及电信业都拥有相当深厚的管理及技术经验。
Genia曾举办JAD/JRP和系统再造培训课程,是系统再造方法集的编码开发者之一。她拥有22年规划、分析、设计和构建数据仓库的专业经验。Genia多次在欧洲、美国和非洲等与观众见面。另外,她也是DW2.0认证的构架师和培训师。
目录
译者序
前言
关于作者
第1章数据仓库简史及第一代数据仓库
1.1数据库管理系统
1.2在线应用
1.3个人电脑和4GL技术
1.4蜘蛛网环境
1.5企业角度的演化
1.6数据仓库环境
1.7什么是数据仓库
1.8整合数据——一个痛苦的经历
1.9数据的量
1.10一种不同的开发方法
1.11演变到DW2.0环境
1.12数据仓库的商业影响
1.13数据仓库环境的各种组件
1.13.1ETL——抽取/转换/装载
1.13.2ODS——操作数据存储
译者序
本书是数据仓库和商业智能领域的又一部经典著作,作者Bill Inmon等人在数据仓库领域享有很高的声誉,他们都长期工作在数据仓库系统开发的第一线,将自己多年的经验和感悟融入到了本书的字里行间。本书讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW20详细的定义和描述,所有的内容被分为不同的章节,其中每一个章节都相当于该部分内容的白皮书。
此外,书中对数据仓库的结构、内容及其前景进行了介绍。
本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。
本书的翻译凝结了许多人的智慧。最初,第1章由付彬翻译,第2章由李波翻译,第3章由邵金刚和李亚飞翻译,第4章由冯瑶翻译,第5章由徐闻琸翻译,第6章由王倚丹翻译,第7章与第8章由张森翻译,第9章由刘雪莲翻译,第10章由毛佳敏翻译,第11章由杨磊翻译,第12章由李志尧翻译,第13章由武婷婷翻译,第14章由郑超翻译,第15章由王鑫翻译,第16章与第17章由俞雪娇翻译,第18章由郑超翻译,第19章由邵晓康翻译,第20章、第21章和第22章由武婷婷翻译,第23章由冯瑶翻译。在此基础上,付彬和武婷婷规范了全书的术语,并进行了认真的修订。冯浩、王世强、邵鲁杰、邵进智、孙兴中、贺一航、秦逞、赵飞国、刘礼辉、王辉、张学勇、刘学军、冯岩、杨迪、黄禹钦以及王中锋等参与了本书翻译的讨论。最后,由北京交通大学王志海教授和滨州学院王建林老师审核了全书。
在翻译过程中,我们无一不被Inmon教授等人的睿智和巨大贡献所打动,秉持“形似、意似、神似”的翻译原则,尽最大的努力,希望奉献给广大读者一部真实反映原著风貌的科技书籍。
当然,要译好一本经典著作并不是一件容易的事情,我们的水平还很欠缺,错误之处还望广大读者批评指正。
译者
2010年1月
前言
然而,数据仓库存在一个问题,即当前对数据仓库还存在多种不同的解释和实现方式。例如,有联合数据仓库、主动数据仓库、星状模式数据仓库、数据集市数据仓库等。实际上,有多少软硬件供应商,就有多少对数据仓库的诠释和实现方式。
还有一个问题就是,对什么样的结构才是数据仓库适合的,也存在着多种不同的解释和实现方式。而且,每一种实现在构架上都与其他的实现有很大区别。如果走进一个房间,里面联合数据仓库的支持者正在与主动数据仓库的支持者交谈,你也许会听到一些相同的词语,但这些词代表的意思却大相径庭。即使使用相同的词语,你听到的可能也不是有意义的交流。当两个不同背景的人交谈时,即使使用相同的词语,也不能保证他们彼此能够相互理解。
于是,今天的第一代数据仓库就处于这种情况下。
在陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑的情况下,出现了DW20。DW20是对下一代数据仓库的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义。本书对其含义进行了论述和定义。
DW20中有很多重要的构架上的特征。这些构架特征代表了DW20相对于第一代数据仓库在技术和构架上的进步。在本书中,我们讨论了DW20的如下几种重要特性:
认识到数据仓库中数据的生命周期。第一代数据仓库仅仅将数据放于磁盘存储器(称之为仓库)中。事实上,数据一旦被置于数据仓库,它就有了自己的生命周期。进入数据仓库后,数据开始老化,数据被访问的可能性也逐渐降低。而数据访问的可能性降低对选择适当的数据管理技术有着深远的含义。另一种现象是,随着数据老化,数据容量会不断增加,并且大多数情况下这种增加是显著的。想要处理访问可能性不断降低的大量数据,就需要一种特定的设计,以免数据仓库的花费巨大,以至于不能有效地使用数据仓库。
当既包含结构化数据又包含非结构化数据时,数据仓库是最有效的方法。典型的第一代数据仓库完全由面向事务的结构化数据组成,这些数据仓库提供了大量有用的信息。然而,现代数据仓库应该同时包含结构化数据和非结构化数据。非结构化数据是一些文本数据,包括医疗记录、合同、电子邮件、电子表格以及很多其他的文档。非结构化数据中存在着大量的信息,但如何获取这些信息却着实是一个挑战。对创建同时包括结构化数据和非结构化数据的数据仓库都有哪些要求的具体描述是DW20中的一个重要部分。
由于多种原因,元数据并没有成为第一代数据仓库的重要组成部分。而在定义第二代数据仓库时,元数据的重要性和作用开始得到认可。在DW20中,问题并不是对于元数据的需求。元数据存在于数据库管理系统目录中,存在于业务对象领域中,存在于ETL数据预处理工具中,等等。我们需要的是企业元数据,是从企业级视角理解元数据,需要调节元数据的所有来源并将它们放置在一个能使它们协调工作的环境中。除此之外,在DW20环境中还需要技术元数据和业务元数据的支持。
数据仓库最终建立在一种技术基础之上。数据仓库是围绕业务需求展开的,这通常会反映在数据模型上。随着时间的推移,企业的业务需求会发生变化,但数据仓库的技术基础却不能很容易地改变。这样,就出现了一个问题,即业务需求持续变化,而技术基础却不变。企业中这种不断变化的业务环境与相对稳定的技术环境之间的矛盾会在机构内形成很紧张的局势。在本书的相关部分中,集中讨论了两种解决方案,用于处理数据仓库中这种变化的业务需求和不变的技术基础之间的难题。一种解决方案是采用诸如Kalido这样的软件,其为数据仓库提供了一种有延展性的技术基础。另一种解决方案是在数据库定义时,通过设计来分离静态数据和临时数据。这两种方案对数据仓库的技术基础随着业务需求的改变而改变来说有很好的效果。
另外,书中还讨论了其他一些重要的话题。其中一些包括:
DW20数据仓库基础设施的在线更新。
ODS适用于哪里?
针对DW20数据仓库的研究处理过程和统计分析。
DW20数据仓库环境下的归档处理。
DW20数据仓库环境下的近线处理。
数据集市及DW20。
数据仓库中的粒度数据和数据容量。
方法论及开发方式。
DW20的数据模型。