数据架构 : 大数据、数据仓库以及Data Vault
基本信息
编辑推荐
借助多年的实践经验,采用大量示例和易于理解的框架,W.H. Inmon和Daniel Linstedt准确解释了数据架构的重要意义,研究了如何使用它在已有系统中高效驾驭大数据。
- 探讨了大数据中经常被忽视的价值,研究了非重复型数据,并且阐述了为什么它的使用会带来显著的业务价值
- 展示了如何将文本信息转换成标准工具可以分析的形式
- 解释了如何使大数据适用于已有系统环境
- 介绍了大数据的出现所带来的新机遇
- 澄清了大数据中重复型数据和非重复型数据的不明确之处
内容简介
作译者
数据仓库之父,早期的数据仓库概念提出者,在数据库技术管理与数据库设计方面拥有30多年的经验。2007年,Inmon被ComputerWorld杂志评为计算机行业颇具影响力的十大名人之一。
Daniel Linstedt
世界知名数据仓库专家、商业智能分析家,Empowered Holdings公司创始人兼主席,有20余年的IT行业打拼经验。Linstedt还是下一代数据仓库模型Data Vault的发明者。
目录
1.1 企业数据 1
1.1.1 企业的全体数据 1
1.1.2 非结构化数据的划分 2
1.1.3 业务相关性 3
1.1.4 大数据 3
1.1.5 分界线 4
1.1.6 大陆分水岭 5
1.1.7 企业数据全貌 6
1.2 数据基础设施 6
1.2.1 重复型数据的两种类型 7
1.2.2 重复型结构化数据 7
1.2.3 重复型大数据 8
1.2.4 两种基础设施 9
1.2.5 优化了什么 10
1.2.6 对比两种基础设施 11
1.3 分界线 12
1.3.1 企业数据分类 12
1.3.2 分界线 12
1.3.3 重复型非结构化数据 13
译者序
学习大师的著作通常令人满怀景仰,而翻译大师的著作又往往让人惴惴不安。Inmon的著作总是将复杂的技术讲解得通俗易懂,体现出清晰的知识脉络,阐述观点的视角也非常独到。“授人以鱼,不如授之以渔。”这本书讲述的是原理、架构和方法论,颇有授人以“捕鱼之术”的味道。本书有三个比较重要的关键词:数据架构、大数据和Data Vault。对于工程技术人员、管理人员(包括行政管理人员和信息管理人员)以及从事各种数据分析和研究的科研人员而言,本书绝对是一本不可错过的好书。
从本质上讲,数据架构与建筑架构并无二致。没有良好定义的架构,就难以支撑起数据的捕获、计算、分析和管理运维等各个环节,更不用说管理和使用海量数据了。为什么我们的数据总是难以集成和交换?为什么我们的信息系统总是不够可靠,生命周期是那么短暂?为什么我们难以从数据中分析挖掘出业务价值?关键就在于我们在数据架构设计上投入的精力太少,总是草草地完成(甚至是跳过)设计阶段的工作,急匆匆地进入实施阶段,而忽略了数据的本质特性。
“大数据”的概念出现之后,在一种急功近利的狂躁情绪的牵引下,在商业包装和媒体炒作的推动下,在信息化的很多角落里,很多人正在试图将原来的“小垃圾桶”换成新的“大垃圾桶”;但是,真正从大数据技术中获益的人要远少于宣传大数据的人,而且“大数据”这个词实际上正面临着滥用的危险。在我们的各种数据标准尚不够完善之时,在我们的数据架构仍然存在短板之时,我们的大数据走不了多远。在静下心来读完这本书之后,相信你对此会有更为深刻的体会,不会再被各种有关大数据的华丽辞藻和神话传说迷住双眼。
Data Vault是本书的核心内容,蕴含着Inmon等人对数据仓库这门技术在大数据环境下如何发展和走向成熟的思考。在本书翻译之初,我曾经信誓旦旦地对编辑说,要在翻译工作结束之后为Data Vault这个英文词组找一个对应的汉语词组。遗憾的是,在全部翻译工作完成之后仍然未能如愿。我曾经试图将Data Vault翻译成“数据仓”“数据宝库”“数据仓储”“数据库所”等,但是又觉得这其中的每一个都有不妥。Data Vault的内涵比数据仓库丰富得多,也更加雄心勃勃。就我的理解来说,如果将企业视为一个封闭世界,那么Data Vault所面向的就是这个世界穹顶之下的所有数据。为了避免混淆和误导,在找到一个足够准确的词组之前,我觉得还是不作翻译为好。
虽然已经竭尽绵力,但是译文仍难免有错误和疏漏之处,还望读者海涵。感谢图灵公司的各位编辑为本书付出的心血与汗水。
唐富年
2016年3月于济南
前言
不久前有一段卡通视频非常流行,它从不同的视角展示了一架飞机。从防御装备的视角来看,整架飞机都采用了重型装甲。从武器装备的视角来看,飞机到处都配有火炮和火箭弹。从轰炸的视角来看,飞机携带了各种各样的炸弹。从飞行员的视角来看,该飞机造型优美且机动性良好。从工程师的视角来看,飞机上配置了各种各样的部件、按钮和小装置。
上述各个视角之间存在的问题在于,它们完全不同而且彼此不相称。到了最后,飞机其实是各个视角相互妥协的产物。在最终的实际产品中,每一个视角的优化都不能以牺牲其他视角为代价。
数据的情况与之非常类似:不同的人群对于数据有着不同的看法。有些群体需要处理海量数据;有些群体希望能够以近乎瞬时的速度在线访问详细数据;有些群体希望拥有严格控制完整性的数据;而有些群体则只关心自己的“个人”数据,希望能够使用计算机轻松快捷地创建和处理自己的数据版本。
每个群体都有自己的视角,都在自己的世界里有合乎情理的观点。不过数据无法同时满足所有的视角和所有需要。
数据很复杂,本身涉及很多方面,也有很多种用途。
本书旨在围绕数据展开研究,探索较为宽泛的数据架构问题。本书试图展现组织或企业中所有的数据用途和视角。此外,本书试图以一种合理、公平的方式来平衡所有对数据的需求和看待数据的视角。
本书首先介绍了企业中看待数据的最主流视角。为此,首先要明白企业数据存在广泛的多样性。要想有效地使用数据,组织就必须根据不同的情况来处理数据。
有些书是讲“如何做”的书,例如手册;有些书是讲故事的书,例如小说和非小说文学;还有些书是纯粹逃避现实的娱乐性书籍。与它们不同,本书是一本描述性的书,是一本讲“是什么”的书,是一本关于大而复杂的架构的书。形形色色的数据就像马赛克一样,而各个组织的数据都是不同的。本书首先从一个比较高的架构层次讲述数据,然后深入到清晰、易于理解的细节,确保你明白本书所要讲述的内容。
现在,关于数据有很多令人混淆的说法(只要有电脑就会存在这样的情况),而其中大部分是由技术供应商引起的。技术供应商并不会提出荒唐和毫无依据的说法,但是他们很容易渲染和夸大自己的案例。最糟糕的是,技术供应商还可能会有“近视”的毛病,并深受其害。在对数据的认识方面,技术供应商很容易管中窥豹。他们很可能向人们呈现这样一种对世界的看法:自己的技术在现在或者未来是唯一的;而这并不是现实。这种由技术供应商引起的严重“近视”会造成很大的混乱。
有关大数据的说法很容易让人们在理解大数据的现实性和可能性时迷失方向。本书着眼于大数据是如何适用于决策领域的。本书从如下几个重要的视角进行思考:当前企业是如何进行决策的,企业应该如何进行决策,以及在大数据条件下如何进行决策。
本书主要涵盖了以下几个主题。
? 企业数据
企业数据是指整个企业的信息全景。在企业中有很多种不同类型的数据。本书展示了一种数据视角,并且在很高的层次上阐述了如何在企业决策过程中使用(或者不使用)数据。
? 大数据
讲述了大数据是什么,以及它能够如何增强企业的决策。大数据有几种不同的定义。本书采用了一种非常务实的大数据观点,然后讨论了它的一些突出特点。大数据最明显却并未被技术供应商所提起的一个特征是重复型大数据和非重复型大数据之间的差异性。重复型大数据和非重复型大数据之间深刻的差别也称作“分界线”。本书之所以值得购买,正是因为通过阅读本书你可以很容易地理解这条“分界线”,而且本书对企业决策能力也有所启示。
? 数据仓库
数据仓库面向企业数据完整性方面的需求。总有一天,企业会开始领悟到这样的事实:拥有数据和拥有可信的数据并不是一回事。他们醒悟之后意识到了“数据完整性”的意义。这个时候,企业级数据仓库(enterprise data warehouse,EDW)诞生了。有了EDW,企业可以利用其中的基础数据制定重要、可信的决策。在EDW出现之前,企业已经有了大量的数据,但这些并不是可信的数据。
? Data Vault
Data Vault面向管理随时间推移而发生数据变更的需求。数据仓库会随着时间推移而不断演化,这最终形成了一种名为Data Vault的学科和结构。不论过去还是现在,都有多种原因采用Data Vault作为具有完整性需求的系统的主干。
媒体评论
——读者评论
“终于出现了一本在大数据领域中探讨数据架构基础知识和基本原则的书。作者描述了大数据的全景,它如何与传统非结构化数据相整合,以及如何集成二者从而获取对大数据的深刻见解。我强烈推荐这本书。”
——读者评论
“与其他数据仓库的书不同,这本书以宽泛的视角看待企业中的数据。它重要的特色是把业务价值与重复型和非重复型数据结合起来,然后解释了如何通过文本消歧实现非重复型数据中的业务价值。”
——读者评论
书摘
插图: