基本信息
编辑推荐
众多公司花费了大量的时间和金钱获取数据,并将大量的数据保存在一个叫做数据湖的数据容器中。但是,其中又能有多少公司把数据从数据湖中取回并加以利用呢?事实上,很少有公司能把数据湖当成信息的金矿来使用。多数公司zui终得到的仅仅是一个垃圾场。
本书将会告诉你如何去构建一个有用的数据湖,从而让数据科学家与数据分析师能够面对业务挑战并发现新的商机。
通过阅读本书,你将能够学习如何:
?构建数据湖并模拟数据;
?应用数据及基于文本的数据池,从而将业务价值zuida化;
?理解原始数据池的角色定位;
?掌握使用归档数据池的时机;
?利用4大核心组件:元数据、业务的整合对应,语境及元过程信息。
本书的作者曾经让我们放眼于数据仓库的架构与成效,如今他又将我们带入到数据湖架构的新高度。
内容简介
作译者
目录
1.1 大数据来了 2
1.2 数据湖来了 2
1.3 “单向”的数据湖 4
1.4 小结 7
第2章 改造数据湖 8
2.1 元数据 9
2.2 整合图谱 9
2.3 语境 11
2.4 元过程 11
2.5 数据科学家 13
2.6 通用性 14
2.7 小结 14
第3章 数据湖内部 16
3.1 模拟信号数据 17
3.2 应用程序数据 20
3.3 文本数据 21
3.4 另一个视角 23
3.5 小结 24
第4章 数据池 26