基本信息
编辑推荐
资 深大数据专家张良均领衔畅销书作者团队,教育部长江学者特聘教授、国家杰出青年基金获得者、IEEE Fellow、华南理工大学计算机与工程学院院长张军倾力推荐。
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案,后落实在任务实现环节。
全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Hadoop大数据技术。
书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。
内容简介
目录
任务1.1 认识Spark 1
1.1.1 Spark的发展 1
1.1.2 Spark的特点 2
1.1.3 Spark生态圈 4
1.1.4 Spark的应用场景 5
任务1.2 搭建Spark环境 5
1.2.1 搭建单机版环境 6
1.2.2 搭建单机伪分布式环境 6
1.2.3 搭建完全分布式环境 7
任务1.3 了解Spark运行架构与原理 10
1.3.1 Spark集群架构 11
1.3.2 Spark作业运行流程 11
1.3.3 Spark核心数据集RDD 15
1.3.4 Spark核心原理 17
小结 19
第 2章 Scala基础 20
任务2.1 Scala的简介与安装 21
2.1.1 Scala简介 21
2.1.2 Scala特性 21