颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用
本书为你进入大数据分析领域提供了专家指导,并热烈欢迎来到大数据分析的世界
- 定价:¥49.00
- 校园优惠价:¥41.65 (85折) (马上了解)
- 评分:




(已有0条评价)
- 促销活动:
- 此商品暂时缺货(可留下联系方式,到货将第一时间通知您)
-
如果您急需团购,可点击“团购急调”按钮将此书加入购物车,由客服人员为您协调调货!
>> 查看详细说明
信息提示
关闭
如果您急需团购,可点击“团购急调”按钮将此书加入购物车,由我们的客服人员为您协调调货!
- 团购订单标准如下:
- 单品满30册可选择团购服务。
- 提交团购订单后,服务人员会主动和您联系,并根据您的会员等级、购买数量、金额、时间、配送要求等情况和您协商,以促成最终的成交。
- 有关团体购书的任何问题请随时联系:(010)63970506
编辑推荐
本书适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。
内容简介
书籍 计算机书籍
《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》每章一个主题,介绍了各种大数据分析技术与机器学习算法。《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》能够让读者掌握大数据分析和机器学习的相关技术的大致脉络,为之后的进阶学习提供参考与指导。
《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。
作译者
Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的马德拉斯分校获得计算机科学与工程专业的学士学位,2001 年获取了印度理工学院马德拉斯分校的硕士学位(研究性质),2008年又获取了该校的博士学位。他曾在瑞士洛桑的联邦理工学院的分布式信息系统实验室(LSIR)担任过一年的博士后研究员。之前7 年先后就职于Oracle、Cognizant 及Impetus,对大数据及云领域的工程研发贡献颇多。目前担任Impetus 的大数据实验室的执行总监。他的研发团队在专利、论文、受邀的会议发言以及下一代产品创新方面都处于领导地位。他主要研究的领域包括大数据管理、批处理及实时分析,以及大数据的机器学习算法的实现范式。最近8 年来,他一直是计算机协会(ACM)以及电气和电子工程师协会(IEEE)的专家成员,并于2012年12 月被推选为IEEE 的资深成员。他在美国、欧洲以及印度的专利局都申请过专利(并持有美国的两项专利)。他在前沿的期刊及会议,包括IEEE transaction 上都发表过论文。他还是国内外多个会议的特邀发言人,譬如O'Reilly 的Strata 大数据系列会议。最近一次公开发表论文是在Liebertpub 的大数据期刊上。他与妻子及儿女一起居住在班加罗尔,对印度、埃及、巴比伦以及希腊古代的文化与哲学的研究非常感兴趣。
目录
前言 X
致谢 XIII
关于作者 XVII
1引言:为什么要超越 Hadoop Map-Reduce 1
Hadoop的适用范围 3
大数据分析之机器学习实现的革命 10
第一代机器学习工具 /范式 11
第二代机器学习工具 /范式 11
第三代机器学习工具 /范式 14
小结 18
参考文献 19
2何为伯克利数据分析栈(BDAS) 23
实现 BDAS的动机 24
Spark:动机 25
Shark:动机 26
Mesos:动机 28
BDAS的设计及架构 29
Spark:高效的集群数据处理的范式 34
Spark的弹性分布式数据集 36
Spark的实现 40
Spark VS 分布式共享内存系统 42
RDD的表达性 44
类似 Spark的系统 45
Shark:分布式系统上的 SQL接口 46
Spark为 Shark提供的扩展 47
列内存存储 49
分布式数据加载 50
完全分区智能连接 50
分区修剪 50
机器学习的支持 51
Mesos:集群调度及管理系统 51
Mesos组件 52
资源分配 54
隔离 55
容错性 57
小结 58
参考文献 59
使用 Spark实现机器学习算法 66
机器学习基础知识 66
机器学习:随机森林示例 68
逻辑回归:概述 72
二元形式的逻辑回归 73
逻辑回归估计 75
多元逻辑回归 76
Spark中的逻辑回归算法 77
支持向量机 80
复杂决策面 81
支持向量机背后的数学原理 82
Spark中的支持向量机 84
Spark对 PMML的支持 85
PMML结构 87
PMML的生产者及消费者 92
Spark对朴素贝叶斯的 PMML支持 94
Spark对线性回归的 PMML支持 95
在 Spark中使用 MLbase进行机器学习 97
参考文献 99
实现实时的机器学习算法 101
Storm简介 101
数据流 103
拓扑 104
Storm集群 105
简单的实时计算例子 106
数据流组 108
Storm的消息处理担保 109
基于 Storm的设计模式 111
分布式远程过程调用 111
Trident:基于 Storm的实时聚合 115
实现基于 Storm的逻辑回归算法 116
实现基于 Storm的支持向量机算法 120
Storm对朴素贝叶斯 PMML的支持 122
实时分析的应用 126
工业日志分类 126
互联网流量过滤器 130
Storm的替代品 131
Spark流 133
D-Streams的动机 133
参考文献 135
图处理范式 138
Pregel:基于 BSP的图处理框架 139
类似的做法 141
开源的 Pregel实现 143
Giraph 143
GoldenORB 145
Phoebus 145
Apache Hama 146
Stanford GPS 146
GraphLab 147
GraphLab:多核版本 148
分布式的 GraphLab 150
PowerGraph 152
通过 GraphLab实现网页排名算法 156
顶点程序 158
基于 GraphLab实现随机梯度下降算法 163
参考文献 167
结论:超越Hadoop Map-Reduce的大数据分析 171
Hadoop YARN概览 172
Hadoop YARN的动机 172
作为资源调度器的 YARN 174
YARN上的其他框架 175
大数据分析的未来是怎样的 177
参考文献 180
附录 A代码笔记 182
前言
我试图给人们学习大数据留下一点深刻的印象:尽管Apache Hadoop 很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑这样一条时间线:由谷歌实现的Map-Reduce 投入使用的时间可追溯到2002 年,发布于2004 年。Yahoo!于2006 年发起Hadoop 项目。MR 是基于十年前的数据中心的经济上的考虑。从那时起,已经有太多的东西发生了变化:多核处理器、大内存地址空间、10G 网络带宽、SSD 等,至今,这已经产生了足够的成本效益。这些极大地改变了在构建可容错分布式商用系统规模方面的取舍。
此外,我们对于可处理数据规模的观念也发生了变化。成功的公司,诸如亚马逊、eBay、谷歌,他们想要更上一层楼,也促使随后的商业领袖重新思考:数据可以用来做什么?举个例子,十年前是否有为大型图书出版商优化业务的大规模图论用例?不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎,这些也将在本书后续章节讲到。同样的,广告科技和社交网络应用驱动着开发技术,对于如今工业化的因特网,采用Hadoop 将显得捉襟见肘,也就是所谓的"物联网"--在某些情况下,会有几个数量级的差距。
自从MR 的商用硬件规模首次制定以来,底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外,应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。
Agneeswaran 博士认为,这些视图以及对它们的更多关注和系统方法,呈现了如今大数据环境的全景视图,甚至还有超越。本书引领我们看到了过去十年是如何通过Map-Reduce 做批处理数据分析的。这些章节介绍了理解它们的关键历史背景,并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析,并指出为什么Hadoop不是很适合应用于此--通过对例证的彻底研究、对可用开源技术的出色调查,以及对非开源项目的出版文献的回顾。
本书研究了在如今的商业需求中除Hadoop 以外的最佳实践以及数据访问方式的可用技术:迭代、流式处理、图论,以及其他技术。比如,一些企业的收入损失计算可精确到毫秒级,以至于"批处理窗口"这样的概念变得毫无意义。实时分析是唯一可以想到的可行方案。开源框架,诸如Apache Spark、Storm、Titan、GraphLab,还有Apache Mesos,可以满足这些需求。Agneeswaran 博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节,还有代码样例。
伴随着这些框架,本书也为开放标准预测模型标记语言提出了一个引人入胜的例子,使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN 以及下一代超越Map-Reduce的模型。
这正是当今业界的焦点--Hadoop 基于2002 年以来的IT经济,然而更新的框架与当代业界的用例更为密切。本书为你进入大数据分析领域提供了专家指导,并热烈欢迎来到大数据分析的世界。
Paco Nathan
Enterprise Data Workflows with Cascading 一书的作者
Zettacap 的顾问,Amplify 的合作伙伴
序言
.................................................................. 158
基于GraphLab 实现随机梯度下降算法 ................ 163
参考文献 .......................................................................... 167
6 结论:超越Hadoop Map-Reduce 的大数据分析 .......... 171
Hadoop YARN 概览 ........................................................ 172
Hadoop YARN 的动机 ............................................ 172
作为资源调度器的YARN ...................................... 174
YARN 上的其他框架 ...................................................... 175
大数据分析的未来是怎样的 .......................................... 177
参考文献 .......................................................................... 180
附录A 代码笔记 .......................................................... 182
书摘
2014 年的时候,因为要查找技术资料,我知道了并发编程网(www.ifeve.com,下文简称并发网),后来又加入了它的技术交流群。当时我刚好在学习Storm,由于相关资料太少,不得己买了一本英文版的Getting Started With Storm,很痛苦地研读。那时我想,既然不得不把英文书读一遍,为什么不把它翻译成中文呢,刚好并发网在招募翻译,要引进国外优秀的技术文章,我主动询问能不能把我翻译的内容发到并发网上。从此之后,便开始了我的技术文章翻译之路,利用业余时间完成了Getting Started With Storm 的翻译工作。后来,方腾飞又提供了这一本Big Data Analytics Beyond Hadoop : Real-Time Applications with Storm, Spark, and More Hadoop Alternatives,与支付宝公司的黄经业合作完成了这本书的翻译工作。
本书概述了各种大数据技术在不同领域的应用,可以为想要了解大数据技术的朋友提供必要的指引和概览。在读完本书之后再决定要继续深入学习哪些内容将会事半功倍。
本书的翻译也是互联网上本来互不相识的几人共同促成与努力的结果,又因为本书使我们几人相识。本书译本绝对是互联网精神的绝佳诠释。
感谢方腾飞和郭蕾提供了并发网这样一个技术交流平台。感谢黄经业与我一起完成本书的翻译工作。感谢刘舫对本书的审阅与指正。谢谢大家!
虽然这是本人的第二本译作,但经验与水平实在有限,书中很多专业术语和数学概念对于本人来说实在晦涩艰深,译文不妥之处还请读者海涵,并予以斧正。最后希望本书能为需要了解与学习大数据技术的朋友提供帮助。
吴京润
于2015.1.14 零点