基本信息
- 原书名:Big Data Analytics with R and Hadoop
- 原出版社: Packt Publishing

编辑推荐
首部全面讲解R语言与Hadoop技术结合应用于大数据分析的优秀著作。
系统阐释R与Hadoop集成的各种实用方法、工具盒最佳实践,深入剖析各种常见问题,包含大量实例,能为用户高效利用R语言与Hadoop技术进行大数据分析提供翔实指导。
内容简介
计算机书籍
本书全面而系统地讲解了如何将R语言与Hadoop技术结合并应用于大数据分析,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且通过大量实践案例深入剖析各种常见问题,能为用户高效利用R语言与Hadoop技术进行大数据分析提供翔实指导。
全书分为四部分,共7章:第一部分 (第1—2章)是基础知识,主要讲解R语言以及Hadoop的安装过程、计算原理和基本概念;第二部分(第3—4章)是初级应用,主要讲解RHIPE、RHadoop和Hadoop Streaming三种实现方案;第三部分(第5—6章)是高级实例,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(第7章)是数据库连接,主要讲解在RHadoop下如何与各类数据库进行连接。
作译者
李明 毕业于沈阳理工大学信息工程学院电子科技与技术系,曾就职于凡客诚品、居然之家等大型电子商务公司,目前就职于优酷土豆网。他的研究兴趣是用R语言进行互联网数据分析/挖掘,撰写过大量有关R语言基础和高级应用的文章,对互联网数据统汁系统的R语言实践有较深研究,撰写了《R语言与网站分析》一书。他的个人博客为www.bassary.com。
王威扬 2008年毕业于清华大学航天航空学院,同年获得清华大学经济学双学位,2010年获得芝加哥大学统计学硕士学位。毕业后曾先后任职于芝加哥大学汁算机系、文思海辉技术有限公司、京东世纪贸易集团有限公司及互联网初创企业,在科研、证券、银行、电商、O2O行业负责数据仓库建设及数据分析、挖掘工作,同时对高性能汁算与开源分布式技术架构有浓厚兴趣。
孙思栋 中南财经政法大学经济学、信息与计算科学双学土,现为清华大学中国应急管理研究基地助理研究员,参与了国家清史编撰委员会文献等3个省部级科研项目,对非结构化大数据处理有深入理解。
目录
译者序
前言
审校者简介
致谢
第1章 R和Hadoop入门 1
1.1 安装R 2
1.2 安装RStudio 3
1.3 R语言的功能特征 3
1.3.1 使用R程序包 3
1.3.2 执行数据操作 3
1.3.3 日渐增多的社区支持 4
1.3.4 R语言数据建模 4
1.4 Hadoop的安装 5
1.4.1 不同的Hadoop模式 6
1.4.2 Hadoop的安装步骤 6
1.5 Hadoop的特点 12
1.5.1 HDFS简介 13
1.5.2 MapReduce简介 13
1.6 HDFS和MapReduce架构 14
译者序
本书由10余位小伙伴共同翻译而成,整个翻译过程充分体现了当下互联网的合作精神。首先我在个人博客以及豆瓣同城上发布了想翻译此书的想法,并迅速得到了几十名同学的报名响应。之后我制定并发布了整套书籍的术语以及译稿的样式。在接下来的1个月中小伙伴们陆续完成翻译工作。最后由我挑选出较好的译稿,并进行后期整合以及校验工作。
当下互联网甚至整个社会都在谈论大数据概念,而大数据之所以可以为互联网企业所推崇,其中一个重要原因是提出了Hadoop技术。它使可处理的数据量不再局限于某台单机的性能,而是通过计算机集群的方式极大地提高了可处理的数据量。而R语言则是另一款算法全面、易学易用的数据统计开源语言。它使得数据分析师以及数据挖掘人员可以把精力更多地放在算法本身,而非程序语言的繁琐语法上。但是R语言较大的缺点就是它只能在单机上运行,这就使其数据处理能力受限于本机的内存。所以如何使R语言处理大数据就成了当下新的研究热点。而现阶段较好的方式就是把Hadoop同R语言结合,实现在集群上运行R语言。
本书的阐述主要围绕如何实现Hadoop与R语言的结合,主要分为4个部分。
第一部分(基础概念),包括第1~2章,主要讲解R语言以及Hadoop的计算原理以及概念。
第二部分(初级应用),包括第3~4章,主要讲解RHIPE、RHadoop以及streaming三种实现方案。
第三部分(高级实例),包括第5~6章,主要以RHadoop为技术背景,讲解多个实际应用案例。
第四部分(数据库连接),包括第7章,主要讲解在RHadoop下如何同各类数据库进行连接。
相信书中大量的实际案例以及作者的精妙阐述可以帮助各位读者把RHadoop这项技术真正应用到实际工作中。
最后我要感谢我的老婆刘慧,如果没有她,我将失去做任何事情的动力。并把此书送给我刚出生的侄女李沐瑶,愿她健康快乐成长。
除封面署名译者外,参与本书翻译的还有以下译者:
张粤磊:从事过各行业(制造、金融、互联网)业务及大数据技术实践工作,关注大数据架构及分析,目前在平安付担任大数据平台架构师。
扶至钦:SuccezBI商业智能研发工程师,对Hadoop平台下的BI数据分析挖掘有浓厚兴趣。
李学沧:致力于将Hadoop大数据技术应用于跨组织癌症的致癌机理、基于电子病历的医疗欺诈行为识别等医疗大数据研究工作。
游皓麟:在互联网、电信、电力领域拥有丰富建模经验,精通Clementine、R语言等数据挖掘工具,对Anomaly Detection、广告反作弊、推荐系统、客户及营销建模有一定研究。
龚君泰:毕业于中国人民大学统计学院,研究方向为数据挖掘,现任中电广通科技有限公司数据分析师,从事数据分析及数据挖掘在政府统计及企业中的应用产品研发工作。
张春强:毕业于哈尔滨工业大学机械电子工程专业。曾就职于中兴通讯,从事软件开发以及大数据相关工作,R语言爱好者。
齐舰:一直围绕着数据和数据库工作。精通Oracle、MySQL、PostgreSQL、MongoDB等各种数据库,在数据库设计、开发和管理上拥有丰富的经验,同时对数据分析和数据挖掘亦有心得。
志洪新:毕业于北京邮电大学,研究方向是基于ERP业务支持智能营销的高可用大电商平台。从事过大型电商平台(当当网等多个电商平台)的快速开发以及多个邮政物流和银行的大数据项目。
刘奔:长期关注R语言和Hadoop架构以及数据报表项目的搭建工作。
前言
如今这些组织面临的难题是如何处理这些数据以及如何从这些数据中获取关键的见解。于是R应运而生。R是一个令人惊讶的工具,它是一个在数据中能够运行先进统计模型的单元,它将原始模型翻译成丰富多彩的图形和可视化视图,而且它有很多和数据科学相关的功能。
然而,R的一个主要缺点是它的可扩展性较差。R的核心技术引擎可以加工和处理非常有限的数据量。正因为在大数据处理中Hadoop十分流行,所以为了可扩展性,下一步符合逻辑的方法将是把R和Hadoop结合起来。
本书介绍了R和Hadoop,以及如何通过使用一个平台(如Hadoop)进行R的数据分析操作以实现其可扩展性。
出于这样一个目标,本书将适合广大范围的读者,包括数据统计者、数据科学家、数据架构师和任何正在寻找使用R和Hadoop来处理和分析大量信息的解决方案工程师。
在Hadoop上使用R将提供一个弹性的数据分析平台,其规模取决于所需分析的数据集大小。富有经验的程序员可以用R语言编写Map/Reduce模块,并用Hadoop的Map/Reduce并行处理机制运行它以识别数据集的模式。
R简介
R是一个可以对数据进行统计分析的开源软件包。R是一种编程语言,它受到数据科学统计师以及其他需要进行数据统计分析和从数据使用机制中寻找关键因素的人所青睐,这些机制包括回归、聚类、分类和文本分析。R采用GNU(General Public License,通用公共许可证)。它是由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发,他们目前领导一个R语言开发核心团队。它可以看做是S语言的另一种实现,S语言由贝尔实验室的Johan Chambers开发。它们有一些重要的差异,但是大部分用S语言编写的代码可以直接在R编译器下使用。
R提供广泛的统计分析、机器学习(线性和非线性建模、经典的统计检验、时间序列分析、分类、聚类)和图形技术,并且高度可扩展。针对统计、机器学习和可视化R有多种内置的可扩展的功能,例如:
数据提取
数据清洗
数据加载
数据转换
统计分析
预测建模
数据可视化
它是一种当今市场上所提供的最流行的开放源代码统计分析软件包。它是跨平台的并具有广泛的社区支持,这意味着每天都会有数量庞大并不断增长的用户群体添加新的程序包。随着程序包数量的增加,R现在可以与其他数据存储,如MySQL、SQLite、MongoDB和Hadoop,相连接以进行数据存储。
R的特点
R不同的实用特点如下:
高效的编程语言