基本信息

内容简介
计算机书籍
本书主要从理论和实践两个部分对大数据治理与安全技术展开详尽描述。其中理论篇主要从大数据治理的概念、作用、重要性,以及大数据治理的原则、范围及评估内容做出了详细介绍;之后从大数据安全、隐私和审计三个方面,探讨了大数据安全所面临的挑战,以及解决这些问题的技术与方案、作用与意义。开源实践篇分别从Apache的四个开源组件 Falcon、Atlas、Ranger和Sentry以及Kerberos软件框架与工具介绍其在大数据治理与安全方面的功能与实践应用方案。
本书适用于大数据应用技术爱好者以及具有一定开发经验的读者,也可以作为大数据相关课程的教学参考书,供云计算、大数据相关专业方向的本科生、研究生阅读,亦可作为相关从业人员与一线软件开发人员的参考资料。
目录
第一篇 理论篇
第1章 大数据治理技术2
1.1 概述2
1.1.1 大数据治理的基本概念2
1.1.2 大数据治理的意义和重要作用5
1.2 框架7
1.2.1 大数据治理框架概述7
1.2.2 大数据治理的原则9
1.2.3 大数据治理的范围11
1.2.4 大数据治理的实施与评估14
第2章 大数据安全、隐私保护和审计技术19
2.1 大数据安全19
2.1.1 大数据安全的意义和重要作用19
2.1.2 大数据安全面临的问题与挑战21
2.1.3 大数据安全防护技术23
2.2 大数据隐私保护26
2.2.1 大数据隐私保护的意义和重要作用26
2.2.2 大数据隐私保护面临的问题与挑战28
2.2.3 大数据隐私保护技术31
前言
为了解决这些问题,大数据治理与安全成为当下学术界与工业界最热门的研究领域之一。大数据治理主要在于建立一个统一标准化平台,从不同数据源中获取数据,在对数据进行生命周期管理的同时允许各方对数据进行相应操作(例如数据审计、数据筛选以及数据迁移等),从而实现数据价值最大化。而在数据业务流程中,这个统一标准化平台能够针对不同用户,根据不同的时间点以及IP地址,对不同的元数据进行权限设置,以保证数据使用的安全性。
本书总体分为两部分。第一篇:理论篇,包括第1章和第2章。第1章从大数据治理的概念以及作用两方面,阐述大数据治理的重要性,并对大数据治理的原则、范围及评估内容做了详尽介绍。第2章从大数据安全、隐私和审计三个方面出发,探讨了大数据安全所面临的挑战与问题,以及解决这些问题的技术与方案。
第二篇:开源实现篇,包括第3~7章。作者对开源社区中的大数据治理与安全相关的开源项目做了充分的介绍和实践,将内容根据不同组件分类,汇总成为该篇的主要内容。该篇全面介绍了Apache Falcon、Apache Atlas、Apache Ranger、Apache Sentry与Kerberos等大数据治理与安全开源组件的技术概况、配置与使用、场景设计与实现以及具体应用举例等多方面的内容。
第3章深入介绍建立在Hadoop环境下的数据过程及数据集管理系统Apache Falcon的技术概况与架构特点。在此基础上,对集群上进行数据保留、生命周期管理、数据血统及追踪等功能进行介绍。并且设计与实现了日常生产环境中可能用到的数据处理场景,可作为相关从业者的参考。最后作者举例说明了Falcon在数据流程管理领域的使用前景。
第4章全面介绍元数据管理框架Apache Atlas的技术概况、配置使用与具体使用场景等核心内容。本章首先介绍Apache Atlas在元数据管理方面的突出优势,进而对Hive、Sqoop、Storm及Falcon等多种元数据导入方式进行了介绍,并对元数据的管理做了十分深入的阐述。在此基础上,对Atlas的实时数据、非实时数据等元数据管理场景进行了设计与实现,可以作为类似场景下构建与使用的参考。
第5章讲述安全认证框架Apache Ranger的技术概况、发展近况、插件集成和功能验证等内容。本章首先介绍Apache Ranger在Hadoop生态系统中实施安全认证的优势和特点,并对Hadoop生态组件如HDFS、Hive、HBase等如何进行安全数据访问控制做出详细阐述。最后给出了Ranger四种不同策略的实际场景,对其安全功能进行了验证。
第6章对Cloudera公司发布的高度模块化的权限管理组件Apache Sentry做了深入的介绍,弥补了Hadoop文件系统HDFS缺乏对数据和元数据细粒度权限访问支持的问题。从Sentry的特点、优势、发展近况三个方面,对其架构中的Binding、Policy Engine和Policy Provider三大核心组件进行了详细的阐述。并介绍了Sentry的搭建与部署步骤,以及其与Impala的集成步骤和在各类场景下Sentry的设计与使用方法。
第7章除了对网络认证协议Kerberos的特点与组成、架构与应用等做了介绍以外,还对大数据应用下的诸多组件与Kerberos的集成做了详细的实践介绍,包括HDFS、Yarn、Zookeeper、Hive、HBase、Sqoop、Hue、Spark、Solr、Kafka、Storm与Impala,几乎涵盖了大部分学术界与工业界所涉及的各类组件,能够为高校科研人员与企业开发人员提供有效的参考与帮助。
作者认为大数据治理与安全理论部分已经有一些书籍进行了较好的阐述,而实践应用部分却十分匮乏。因此本书着重在实践部分使用大量篇幅进行详细的讲解描述。若读者想要查阅大数据治理与安全的相关理论内容,作者推荐桑尼尔·索雷斯的《大数据治理》和张邵华的《大数据治理与服务》两本书作为进一步的参考。
本书的作者除了封面和内封提到的六位之外,还有王文杰、段雄、吴琪、方久鑫、童楚云、陈超源、徐杰、陈喆、吴岳秋、吴成、张晶。
大数据发展迅速,而大数据治理与安全作为其分支,发展更是日新月异。由于作者水平有限,书中难免有不足与谬误之处,若读者发现问题并不吝告知,不胜感激。
本书讲述的相关组件,请读者到www.bitlinc.cn进行下载。
刘驰
lincbit@gmail.com