基本信息
- 作者: 彼得·泽斯维奇(Petar Ze&#269 evi&#263 ) 马可·波纳奇(Marko Bona&#263 i)
- 出版社:机械工业出版社*
- ISBN:9787111617488
- 上架时间:2019-8-29
- 出版日期:2019 年8月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 数据库 > 综合
编辑推荐
本书完整系统地介绍Spark各模块的原理并兼顾使用实战及综合应用
从实战角度讲解Spark,实例丰富,容易理解,内容实用,适合学习
内容简介
计算机书籍
本书介绍了Spark应用程序及更高级应用的工作流程,主要从使用角度进行了描述,每个具体内容都有对应的代码。本书涵盖了Apache Spark和它丰富的API,构成Spark的组件(包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX),在Spark standalone、 Hadoop YARN以及 Mesos clusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。*后,还介绍了Spark的高级应用,包括Spark流应用程序及可扩展和快速的机器学习框架H2O。
本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料,可用于指导Spark编程实践,也可供相关技术人员参考使用。
目录
译者序
致谢
前言
关于本书
关于作者
关于封面
第1部分 第1步
第1章 Apache Spark介绍
1.1什么是Spark
1.1.1 Spark革命
1.1.2 MapReduce的缺点
1.1.3 Spark带来了什么有价值的东西
1.2 Spark组件
1.2.1 Spark核心
1.2.2 Spark SQL
1.2.3 Spark Streaming
1.2.4 Spark MLlib
1.2.5 Spark GraphX
1.3 Spark程序流
前言
如今,Spark是一个超热门的话题。它于2009年由Matei Zaharia在加利福尼亚州的伯克利设想的(最初是试图证明Mesos执行平台的可行性)。在2010年开源。在2013年Spark被捐赠给了Apache软件基金,从那以后它以闪电般的速度发展。2015年,Spark是最活跃的Apache项目之一,有超过1000个贡献者(投稿人、捐助人)。今天,Spark是所有主要Hadoop发行版的一部分,并被许多组织使用,广泛应用于或大或小的程序中。
写一本关于Spark的书的挑战在于它发展很快。自从笔者们开始写Spark in Action,笔者们看到了6个版本Spark,有许多新的、重要的功能需要覆盖。第一个主要版本(2.0版本)在笔者完成了大部分书的写作后推出的,笔者不得不延迟出版计划以涵盖它附带的新功能。
写Spark的另一个挑战是主题的广度:Spark更多的是一个平台,而不是一个框架。用户可以使用它来编写各种应用程序(用4种语言),包括批处理作业、实时处理系统和Web应用程序执行Spark作业、用SQL处理结构化数据和使用传统编程技术处理非结构化数据、各种机器学习和数据修改任务、与分布式文件系统交互、各种关系和无SQL数据库、实时系统等。安装、配置和运行Spark,这些运行时的工作也同样重要。
笔者详细地介绍了Spark中的重要内容并且是本书成为使用Spark的指南,希望用户能够喜欢本书。