基本信息
编辑推荐
我们为什么需要自己动手做大数据系统?本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。
内容简介
计算机书籍
如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。
如果你有上述疑惑或遇到相似问题,《自己动手做大数据系统》正好比较适合你。《自己动手做大数据系统》从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。《自己动手做大数据系统》的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。
作译者
虚拟化工程师,Openstack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。先后在美企担任虚拟化应用运维、服务器集群开发运维工程师或系统开发架构师,高校信息中心云平台架构师,主要关注Openstack、Docker及分布式存储等。
张粤磊
DBA、大数据架构师,十余年一线数据处理数据分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。主要关注大数据基础平台、大数据模型构建和大数据分析。
刘未昕
从事IT研发和项目管理工作十余年以上。使用多种程序设计语言,目前研究方向主要是大数据生态系统,从事金融、数据仓库等领域研发。五年以上IT行业授课、培训经验,并在多所高校担任外聘讲师。
吴茂贵
运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。近期主要做复杂数据存储、清理、转换等工作,同时在大数据方面也很有兴趣并投入大量时间和精力,且将持续为之。
目录
1.1 大数据时代 1
1.2 实战大数据项目 2
1.3 大数据演练平台 2
第2章 项目背景及准备 4
2.1 项目背景 4
2.2 项目简介 4
2.3 项目架构 4
2.4 操作系统 5
2.5 数据存储 7
2.6 数据处理 8
2.7 开发工具 9
2.8 调试工具 10
2.9 版本管理 10
第3章 大数据环境搭建和配置 11
3.1 各组件功能说明 11
3.1.1 各种数据源的采集工具 12
3.1.2 企业大数据存储工具 12
3.1.3 企业大数据系统的数据仓库工具 12
3.1.4 企业大数据系统的分析计算工具 13
前言
"纸上得来终觉浅,绝知此事要躬行"。要掌握一门技术,尤其像大数据相关技术,涉及的内容多,范围广,对环境的要求高,如果只是看看书、看看视频,很难深入理解,更不用说融会贯通了。一些有条件的学生,他们可以搭几个节点,组成一个微型大数据群,照着书中的一些实例练习,但这些练习往往支离破碎,缺乏系统性、生产性,更不用说包含生产性项目中的版本控制、质量管理和流程规范等。而这些对实施生产项目来说很重要,有时其重要性超过了对技术的要求。本书,就是为弥补这些内容而写的。
除了实战性、生产性的课件外,我们还提供了随时随地可操作、可实践的大数据云平台--飞谷云,这是我们自主开发的大数据平台,该平台用户可通过外网登录,与论坛及门户实现无缝连接。此外,还有很多志同道合的大数据爱好者一起学习、一起做项目。
本书主要内容
第1章,介绍我们为什么需要自己动手做大数据系统。
第2章,介绍动手做大数据系统的项目背景、项目架构及相关基础知识。
第3章,介绍大数据系统环境的搭建和配置,主要包括如何搭建和配置Hadoop集群、Sqoop、Hive、HBase、ZooKeeper、Spark、MySQL等,图文并茂,内容翔实。
第4章,介绍大数据系统中数据获取相关技术,包括如何利用爬虫技术获取平面数据和使用Sqoop获取结构化数据。
第5章,介绍大数据系统中数据仓库工具Hive的使用方法及进行ETL的过程详解。
第6章,介绍大数据系统中数据库HBase的使用方法及和Hive之间的数据对接。
第7章,介绍如何使用数据展示利器R来展示HDFS中的数据。
第8章,介绍使用Spark计算模型来实时处理数据及SparkRHive组件的使用。
第9章,介绍如何搭建支撑大数据系统的云平台,以保证大数据系统的稳定性。
读者范围
对大数据感兴趣的院校师生。
对大数据有一定的基础,还想进一步熟悉整个生态系统的大数据爱好者。
勘误与支持
尽管我们仔细对待本书的写作,由于水平和能力有限,错误还是不可避免的。如果你在书中发现不妥或错误之处,请访问http://www.feiguyun.com/support,留下宝贵意见,我们将非常感谢你的支持和帮助。
致谢
首先要感谢大数据实战团队,参与飞谷云大数据公益项目(www.feiguyun.com)的所有大数据爱好者,正是有了大家的支持和积极参与,才使得从飞谷一期的四个人,发展到目前飞谷七期的近四百人,短短一年多的时间,让我们真正感受到了共同坚持、诚信进取、协同分享的飞谷价值观所带来的收获和快乐,每期的项目线下启动会、交流会、项目结束总结会总能感受到大家积极参与的热情!同时也要感谢苏州大学计算机科学与技术学院何书萍老师、上海理工大学管理学院张帆老师、上海交通大学大数据分析俱乐部蒋军杰同学、中国社科院研究生院孙思栋同学、上海华师大数据分析俱乐部罗玉雪同学、上海大学黄文成同学等。