基本信息
- 原书名:Building the Data Warehouse,4 edition
- 原出版社: Wiley

编辑推荐
数据仓库为企业和组织提供了收集、存储和分析海量业务数据的必要策略。随着业务活动的日益增长,数据仓库领域变得越来越重要。本书被誉为数据仓库的“圣经”,从1990年第1版出版起,不仅带动了数据仓库行业的发展,而且至今仍然是数据仓库方面的优秀入门读物。《数据仓库》(原书第4版)涵盖了数据仓库 ,保持了在这一领域的先锋地位。
纵观数据仓库系统的基本组成部分,读者会体验到数据仓库设计方法的更新;各种数据仓库的迁移策略以及应用在装载、索引和数据管理方面的技术。本书为读者提供了数据仓库领域的最新进展。
本书新增的内容:
在数据仓库中处理非结构化数据的方法
在各种不同的存储介质上存储数据的方法
关系型数据库设计和多维数据库设计的对比
在规划数据仓库项目时如何度量投资回报
探索更高级的研究主题,包括数据的监控与测试
内容简介
计算机书籍
本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、EIS系统和数据仓库的关系、外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。.
本书是数据仓库之父撰写的关于数据仓库的最权威著作,既可作为相关专业的研究生教材,也是数据仓库的研究、开发和管理人员的必备指南。
数据仓库为企业和组织提供了收集、存储和分析海量业务数据的必要策略。随着业务活动的日益增长,数据仓库领域变得越来越重要。本书被誉为数据仓库的“圣经”,从1990年第1版出版起,不仅带动了数据仓库行业的发展,而且至今仍然是数据仓库方面的优秀入门读物。第4版涵盖了数据仓库最新技术,保持了在这一领域的先锋地位。..
纵观数据仓库系统的基本组成部分,读者会体验到数据仓库设计方法的更新;各种数据仓库的迁移策略以及应用在装载、索引和数据管理方面的技术。本书为读者提供了数据仓库领域的最新进展。
本书新增的内容:
在数据仓库中处理非结构化数据的方法
在各种不同的存储介质上存储数据的方法
关系型数据库设计和多维数据库设计的对比
在规划数据仓库项目时如何度量投资回报
探索更高级的研究主题,包括数据的监控与测试...
作译者
王志海,博士,副教授,1963年10月出生,1985年毕业于郑州大学计算机科学系,获理学学士学位,1987年毕业于哈尔滨船舶工程学院计算机与信息科学系,获工学硕士学位,1998年毕业于合肥工业大学计算机与信息学院,获博士学位。曾先后在澳大利亚Monash大学和 Deakin大学从事两年多的博士后研究。2002年在Monash大学计算机科学与软件工程学院工作,并被聘为研究生导师.期间曾指导博士生2人,访问学者1人,国际交流学生1人.主要参加了澳大利亚研究委员会(ARC)资助项目:国家医疗保障系统(Medicare)数据分析系统开发和贝叶斯机器学习与数据挖掘算法研究.现被聘为Monash大学荣誉研究员。曾被多个国内和国际学术会议聘为程序委员会委员。2003年担任国际软件工程大会数据挖掘在软件工程中应用学术研讨会(DMSE'2003, USA)程序委员会委员,2004年担任亚太数据库知识发现与数据挖掘学术会议(PAKDD'2004, Australia)程序委员会委员。在国际学术刊物,国际学术会议和国内学术刊物上发表论文约30篇。
...
目录
专家指导委员会
译者序
第2版前言
第3版前言
第4版前言
第1章 决策支持系统的发展 1
1.1 演化 1
1.1.1 直接存取存储设备的出现 2
1.1.2 个人计算机/第四代编程语言技术 3
1.1.3 进入抽取程序 3
1.1.4 蜘蛛网 4
1.2 自然演化式体系结构的问题 4
1.2.1 数据缺乏可信性 5
1.2.2 生产率问题 6
1.2.3 从数据到信息 8
1.2.4 方法的变迁 9
1.2.5 体系结构化环境 11
1.2.6 体系结构化环境中的数据集成 12
1.2.7 用户是谁 13
译者序
数据仓库技术就是针对上述问题而产生的一种技术解决方案,它是基于大规模数据库的决策支持系统环境的核心。正如本书作者W. H. Inmon所定义的,数据仓库是一个面向主题的、集成的、永久的且随时间不断变化的数据集合,用于支持管理层的决策。本书详尽地讲述了数据仓库的基本概念、基本原理,以及建立数据仓库的方法和过程。主要内容包括决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、EIS系统和数据仓库的关系、外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。本书主要面向数据仓库的开发者、管理者、设计者、数据管理员、数据库管理员以及其他相关人员,对于计算机专业的本科生和研究生也有重要的参考价值。..
我们研究小组对数据仓库技术和数据挖掘技术进行了很长时间的研究,并翻译了一些相关文献。1999年翻译并出版了本书的第2版,2003年翻译并出版了本书的第3版,都得到了社会各界的好评。为了反映数据仓库技术的进展,本书作者在不断地充实和修改其著作。应出版社的要求,我们承担了第4版的翻译工作,并推荐给读者。随着这几年我们研究的进展,对数据仓库技术和工程有了更为深入的理解。为此,我们对数据仓库所涉及的术语的译法重新进行了规范,在翻译了新增和修改内容的同时,将全部原有内容重新逐字校正了一遍,更正了以前译文中的一些错误,使语言更加准确、通顺,便于读者理解。本书的第1章和第2章由范亚琼负责,第3章和第4章由曹源负责,第5章和第6章由李广群负责,第7章至第13章由山丹负责,第14章至第19章以及词汇表由廉捷负责翻译,杨迪参加了第3章的部分翻译工作。本书最后的定稿与许多人先后的辛勤工作密切相关,他们是王琨、王继奎、董隽、刘、林友芳、高思宇、王春花、宁云晖、李晓武、蔺永华、范星艳、高宏彬、贾旭光、李红松、秦远辉等。本书由王志海负责统一定稿,由黄厚宽教授和田盛丰教授共同审定全书。由于译者水平有限,错误之处望广大读者批评指正。...
前言
数据库及其理论已经出现好长时间了。早期的数据库主要是一些独立的数据库,应用于企业数据处理的各个方面—从事务处理到批处理,再到分析型处理。早期的大多数数据库系统主要集中于操作型的日常事务处理。近年来,出现了一种更高级的数据库观念,即一种数据库服务于操作型需求,而另一种数据库服务于信息型或分析型需求。从某种程度上讲,这种数据库的新颖思想是随着个人计算机技术、第四代程序设计语言(4GL)技术以及最终用户新需求的出现而产生的。.
将操作型数据库和信息型数据库分离开,是出于以下原因:
· 服务于操作型需求的数据在物理上不同于服务于信息型或分析型需求的数据。
· 支持操作型处理的技术从根本上不同于支持信息型或分析型需求的技术。
· 操作型数据的用户群体不同于信息型或分析型数据所支持的用户群体。
· 操作型环境的处理特点与信息型环境的处理特点从根本上是不同的。
由于这些原因(以及很多其他原因),当今建立系统的方法是将操作型处理及其数据与信息型或分析型处理及其数据分离开来。
本书讨论分析型的环境,或称为决策支持系统(DSS)环境,以及在这种环境中的数据结构问题。本书的重点是讨论信息型和决策支持系统处理的核心—“数据仓库”(或“信息仓库”)。
本书所讨论的问题是面向管理者和开发者的,在某些地方也涉及技术问题。但本书的大部分是关于数据仓库的问题和技术。本书旨在作为数据仓库设计者和开发者的一本指导性读物。
本书出第1版的时候,数据库的理论家们对数据仓库的概念大加嘲笑。有一个理论家说数据仓库技术将使信息技术倒退20年。另有人说不应该允许数据仓库技术的创建者在公共场合发表言论。另外一些学院派的研究人员宣称数据仓库技术根本就不是什么新技术,学术界早已经知道数据仓库技术,尽管那时没有出书、没有文章、没有课程、没有研讨会、没有学术会议、没有报告、没有参考文献、没有论文、也没有可用的术语或概念。 本书出第2版的时候,整个世界正在为互联网而疯狂。想要成功,就要在各种词之前加上字母“e”,如e-business,e-commerce,e-tailing等。记得一个风险投资家说过“我们现在有了互联网,为什么还要数据仓库呢?”
但是数据仓库技术已经远比那些想把所有数据放在一个数据库中的数据库理论家们期望的要好。数据仓库技术也挺过了由那些短视的风险投资家所带来的“.com”灾难。在技术常被华尔街和Main Street抛弃的这个时代里,数据仓库技术从来没有像现在这么活跃和强大。关于数据仓库技术,有着各种各样的学术会议、研讨会、书籍、文章、咨询等。更重要的是,现在有很多公司在做数据仓库。我们还可以发现,与大肆宣扬的所谓新经济不同,数据仓库技术确确实实在发挥着作用,尽管硅谷还在否认它。
第3版前言
本书的第3版预示着数据仓库技术更新、更强大的时代。当今,数据仓库技术已经不再是纯粹的理论,而是活生生的事实。新技术已经可以支持对数据仓库的各种新奇的需求。许多企业已经通过数据仓库运转它们的重要业务。由于有了数据仓库,获取信息的代价在急剧降低。对于混乱的遗留系统环境,管理人员最终有了一种可行的解决方案。企业第一次拥有了可用的企业范围内的历史数据“存储方式”。整个企业的数据集成真正成为可能,数据仓库容易使人糊涂的地方在于它是一种体系结构,而不是一种技术。这一点使技术人员和风险投资家感到灰心,因为他们想买的是那些很好地打成了包的东西。但是,数据仓库本身不会将自己“封装”起来。体系结构和技术之间的差别就像是新墨西哥州圣达菲和砖块之间的差别一样。如果你在圣达菲的大街上开着车,你就会知道你是在圣达菲,而不是在别的什么地方。每一幢住宅、每一座办公楼、每一家饭馆都有显著的特征,提醒着我们“这里是圣达菲”。使圣达菲突显的外观和风格是建筑结构,而这种结构是由砖块和裸露的横梁构成的。当然,如果没有这些砖块和横梁就没有圣达菲的各种建筑。但是,砖块和横梁本身并不能构成结构。它们是独立的技术。就像你在美国西南部所有地方和世界的其他地方都能看到砖块,但它们并不是圣达菲。
因此,数据仓库和数据库及其他技术之间的关系,就像是体系结构和技术之间的关系。有了这种体系结构,就有相应的基础技术,两者之间有很大的差别。毫无疑问,数据仓库和数据库技术之间存在着关系,但是可以确定的是,它们不是同一种东西。数据仓库需要许多不同种类的技术支持。
有了本书的第3版,我们知道什么东西管用,什么东西不管用。在写第1版的时候,我们有一些开发和使用数据仓库的经验。但是说真的,当时的经验没有现在多。例如现在,我们可以确切地知道以下这些内容:
· 数据仓库的建立要采用不同于应用程序的开发方法,不记住这点会带来很大的问题。
· 数据仓库在根本上不同于数据集市。两者不能混在一起,就像油和水一样。
· 数据仓库能够实现所承诺的功用,而不像许多被过分宣扬的、之后渐渐消逝的技术一样。
· 数据仓库中汇集了大量的数据,这样就需要有全新的技术来管理大规模的数据。