离线和实时大数据开发实战
庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术
基本信息


【插图】

编辑推荐
阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式”
庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询
与优化、建模、数仓开发、流计算开发等核心技术
内容简介
目录
第一篇 数据大图和数据平台大图
第1章 数据大图 2
1.1 数据流程 2
1.1.1 数据产生 3
1.1.2 数据采集和传输 5
1.1.3 数据存储处理 6
1.1.4 数据应用 7
1.2 数据技术 8
1.2.1 数据采集传输主要技术 9
1.2.2 数据处理主要技术 10
1.2.3 数据存储主要技术 12
1.2.4 数据应用主要技术 13
1.3 数据相关从业者和角色 14
1.3.1 数据平台开发、运维工程师 14
1.3.2 数据开发、运维工程师 15
1.3.3 数据分析工程师 15
1.3.4 算法工程师 16
1.3.5 业务人员 16
1.4 本章小结 17
前言
念念不忘,终有回响。
撰写一本数据开发相关书的念头始于笔者学习数据知识的早期,当时笔者遍寻市面上所有的数据书籍,却没有发现一本系统化且从项目实践角度突出重点的数据开发书籍。
笔者非常理解某领域初学者的苦衷,对于他们来说,最重要的不是具体的API、安装教程等,而是先找到该领域的知识图谱,有了它,就可按图索骥,有针对性地去学。
对于大数据技术来说,上述需求更甚。一方面,由于社区、商业甚至个人原因,大数据的技术可以说是五花八门、琳琅满目,初学者非常容易不知所措,不知从哪里下手。另一方面,从理论上来说,互联网上几乎可以查到所有的大数据技术,比如在百度上搜索、问知乎,但这些都是碎片化的知识,不成体系,初学者需要先建立自己的大数据知识架构,再进一步深入。
本书正是基于这样的初衷撰写的,旨在帮助和加快初学者建立大数据开发领域知识图谱的过程,带领初学者更快地了解这片领域,而无须花更长的时间自己去摸索。
当然,未来是DT(Data Technology)时代,随着人工智能、大数据、云计算的崛起,未来数据将起到关键的作用,数据将成为如同水、电、煤一样的基础设施。但是,实际上目前数据的价值还远远没有得到充分的挖掘,如医疗数据、生物基因数据、交通物流数据、零售数据等。所以笔者非常希望本书能够对各个业务领域的业务分析人员、分析师、算法工程师等有所帮助,让他们更快地熟悉和掌握数据的加工处理知识与技巧,从而能够更好、更快地分析、挖掘和应用数据,让数据产生更多、更大的价值。
通过阅读本书,读者能建立自己的大数据开发知识体系和图谱,掌握数据开发的各种技术(包括有关概念、原理、架构以及实际的开发和优化技巧等),并能对实际项目中的数据开发提供指导和参考。
大数据技术日新月异,由于篇幅和时间限制,书中仅讲述了当前主要和主流的数据相关技术,如果读者对大数据开发有兴趣,本书将是首选的入门读物。
本书特色
本书从实际项目实践出发,专注、完整、系统化地讲述数据开发技术,此处的数据开发技术包括离线数据处理技术、实时数据处理技术、数据开发优化、大数据建模、数据分层体系建设等。
我们处于一个信息过度的时代,互联网涵盖了人类有史以来的所有知识,浩如烟海。对大数据开发技术来说,更是如此。那么,大数据相关人员如何吸收、消化、应用和扩展自己的技术知识?如何把握相关的大数据技术深度和广度?深入到何种程度?涉猎到何种范围?
这是很有意思的问题。笔者认为最重要的是找到锚点,而本书的锚点就是数据开发技术。所以本书的另一个特点是以数据开发实战作为锚点,来组织、介绍各种数据开发技术,包括各种数据处理技术的深度和广度把握等。比如在离线数据处理中,目前事实的处理标准是Hive,实际项目中开发者已经很少自己写Hadoop MapReduce程序来进行大数据处理,那是不是说MapRedue和HDFS就不需要掌握了呢?如果不是,又需要掌握到何种程度呢?笔者的答案是,对于Hive要精深掌握,包括其开发技巧和优化技巧等。MapReduce要掌握执行原理和过程,而MapRedue和HDFS具体的读数据流程、写数据流程、错误处理、调度处理、I/O操作、各种API、管理运维等,站在数据开发的角度,这些都不是必须掌握的。
本书还有一个特点,就是专门讲述了实时数据处理的流计算SQL。笔者认为,未来的实时处理技术的事实标准将会是SQL,实际上这也是正在发生的现实。
读者对象
本书主要适合于以下读者,包含:
大数据开发工程师
大数据架构师
数据科学家
数据分析师
媒体评论
专家推荐
大数据技术一直是领先互联网公司的必备核心技术,阿里巴巴最近10年一直在持续加大投入,并将大数据处理技术用于大量的大规模业务场景。每年双十一对实时、离线技术也都是极限的考验,而作者就是在这样的环境下成长起来,基于真实业务场景钻研相关的技术,既有实战也有体系,相信这样的书一定会给行业的从业者带来帮助,尤其是正摩拳擦掌准备用大数据对传统公司进行改造升级的朋友。
——空无阿里巴巴资深总监
这是一本经过实践淬炼的大数据实操的书,作者在阿里经历了不同大数据平台(离线,实时)的演进与更迭,相同的技术,不同的历炼,得到的领悟与实践真经一定会不一样。同类书籍相信不少,而同作者这样基于实战提炼而成的书应该不多。如果你是一个真正想探究并从事大数据工作的人,相信这本书会给你莫大帮助。
——薛奎 阿里巴巴资深数据技术专家