基本信息

编辑推荐
前腾讯优图实验室及WeTest研究员/现拼多多资深算法工程师力作
腾讯WeTest总监等5位技术大咖力荐
快速搭建Spark平台,从0到1动手实践Spark Streaming流式大数据处理
对Spark及Spark Streaming所涉及的大数据平台做了重点阐述
对涉及的知识点详细阐述了基本原理,并给出了大量的应用实践
每个章节之后基本上都安排了典型实例,手把手带领读者动手演练
详细介绍了3个项目实战案例,帮助读者提高实际的项目开发水平
给出了大量的真实工作经验总结,对相关从业者有较高的参考价值
业内5位大咖力荐:
方亮腾讯WeTest总监
张景龙上海场鲸科技有限公司CTO/19年老程序员
辛愿腾讯深海实验室创始人
余祖坤博士腾讯云人工智能产品负责人
刘绩刚腾讯WeTest舆情算法负责人
内容简介
计算机书籍
本书以翔实的原理讲解和充实的实战代码剖析,全面阐述了Spark Streaming流式处理平台,便于读者能够从入门开始了解搭建Spark平台,在此基础上学习流式处理框架,并动手实践,进行Spark Streaming流式大数据处理,包括与主流平台框架,如Kafka、Redis和ZooKeeper的对接应用等,并介绍了项目实战中的一些开发和调优策略。读者能够通过本书快速搭建Spark平台,并根据自己面临的使用场景快速搭建处理平台,同时能够了解背后的原理,对调优、开发都能起到一定的指导作用。本书适合大数据处理人员,尤其是基于流式大数据处理的人员阅读,本书也可以作为大数据处理人员的常备工具书随时翻阅。
目录
第1篇 Spark基础
第1章 初识Spark 2
1.1 Spark由来 3
1.2 流式处理与Spark Streaming 5
1.2.1 流式处理框架 5
1.2.2 Spark Streaming初识 7
1.2.3 Structed Streaming简述 8
1.3 本章小结 8
第2章 Spark运行与开发环境 9
2.1 Spark的下载与安装 9
2.2 Spark运行模式 10
2.2.1 本地模式 13
2.2.2 本地集群模式 13
2.2.3 Standalone模式 14
2.2.4 Spark On Yarn模式 15
2.2.5 Spark On Mesos模式 15
2.3 搭建开发环境 15
2.3.1 修改配置 16
2.3.2 启动集群 18
前言
对于计算机从业人员和在校大学生而言,多少都会接触到数据处理,如简单的信息管理系统和利用关系型数据库设计的存储系统等,这类系统通常涉及的数据量比较小。而随着互联网的发展,企业内部的数据量也呈现爆炸式增长,随之而来的大数据处理就会是一件非常棘手的事情。所以近年来随着大数据概念的火爆,也涌现出了越来越多的大数据处理平台,如Hadoop、Hive、HBase、Flume、Kafka、Storm和Spark等,让人眼花缭乱。开发人员需要针对具体的场景和任务特点,选择合适的工具,将它们组合起来以完成任务。
本书围绕大数据处理领域应用最广泛的Spark平台展开讲解,并对时下比较热门的大数据平台都有所介绍,以此为基础重点切入流式大数据处理这个比较垂直和常用的领域,对Spark Streaming、Kafka和ZooKeeper等大数据处理工具进行介绍,并给出多个实战案例,让读者能够从零到一学习如何构建一个大数据处理任务,掌握如何选择合适的处理工具,以及学习编程中一些常见的技巧。
本书特色
1.内容丰富,讲解详细
本书对大数据的相关知识体系做了详细阐述,并对Spark平台和Spark Streaming及其涉及的大数据平台做了重点阐述,以方便读者掌握常用的大数据架构平台。
2.原理分析与应用实践并重
本书对涉及的知识点详细地阐述了其背后的基本原理,并给出了大量的应用实践,便于读者更加透彻地理解所学知识,从而在调优和排查问题等具体实践时更加得心应手。
3.详解大量的应用实例和实战案例
本书中的每个章节都安排了实例,以方便读者动手演练。另外,第8~10章还给出了3个实战案例,以帮助读者提高实际的项目开发水平。这些案例改写自笔者和同事在工作中的真实应用案例,有较高的实用价值,读者在实践中可以进行借鉴。
4.提供详细的源代码
笔者对书中涉及的所有源代码都进行了整理并开源,供读者下载使用。读者可以对这些代码稍加修改,即可用于自己的项目中。
本书内容
第1篇 Spark基础(第1~3章)
本篇重点围绕Spark平台进行讲解,并具体就如何搭建一个自己的Spark集群进行了详细介绍,为后面的实战演练打下基础。
第1章初识Spark,从Spark的历史发展出发,重点介绍了流式处理任务,对比了不同流式处理框架,并介绍了Spark Streaming的特点。
第2章Spark运行与开发环境,主要介绍了如何搭建Spark集群,以及如何从零到一开始开发Spark应用程序,最后对从文件中进行词频统计的Spark应用做了介绍。
第3章Spark编程模型,对Spark的核心编程模型做了详细讲解,这对于开发Spark应用及Spark Streaming应用优化来说都是必要的。另外,本章还对RDD的各种操作做了讲解。
第2篇 Spark Streaming详解(第4~7章)
本篇重点阐述了Spark Streaming的编程模型和特点,并将一些常用的大数据平台与Spark Streaming相结合进行讲解,最后对Spark Streaming应用中常见的调优实践进行了总结。
媒体评论
Spark Streaming是面向海量数据实现高吞吐量、高容错的实时计算流式处理框架。本书理论结合实践,通过大数据平台项目,深入浅出地介绍了Spark Streaming在生产环境中的应用。书中详细介绍了大量的实战案例及开发心得,可为Spark Streaming开发者提供翔实的指导,是一本不可多得的诚意之作。
——腾讯WeTest总监方亮
本书围绕Spark Streaming流式处理框架展开讲解,从理论到实战,带领读者实现从零基础到动手实践项目的飞跃。书中还贯穿了作者总结的大量开发经验与实践思考,这对开发人员有很大的借鉴意义。
——上海场鲸科技有限公司CTO/19年老程序员张景龙
本书在实践层面介绍了Spark Streaming框架及重要的核心概念,这对新入门想要迅速了解如何搭建流计算应用的开发者提供了卓有成效的指导。作者基于实战经验,对必须掌握的内容进行了重点介绍,可以让读者少走弯路。
——腾讯深海实验室创始人辛愿
本书作者结合平时的工作经验,将实际案例融汇到了Spark Streaming的理论中,可以帮助读者快速上手。书中从理论讲起,逐步过渡到项目实战,内容系统,结构完整,讲述逻辑清晰,实用性强,值得相关开发人员阅读。
——腾讯云人工智能产品负责人/ 博士余祖坤
本书提供了Spark Streaming流式大数据处理从理论到实践落地的绝佳范本,涉及编程语言、Spark算子逻辑、资源利用、数据接口和使用场景等内容,是大数据处理及挖掘从业者不可多得的枕边书。
——腾讯WeTest舆情算法负责人刘绩刚