基本信息

【插图】

编辑推荐
全面分析Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程
每个算法都辅之以实战案例,同时还包括4个系统级案例,实战性强
内容简介
计算机书籍
本书是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。
全书共11章分为三个部分:第一部分为基础篇(第1~2章),首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例,以及开发环境的搭建;第二部分为算法篇(第3~7章),分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程,同时在每章书末含有每个算法的实战,让读者可以自己运行程序,感受程序运行的各个流程;第三部分为实战篇(第8~11章),通过对4个不同系统案例的分析讲解,让读者了解一个完整的云平台系统的各个流程,从需求到系统框架到系统功能再到功能开发。
作译者
目录
第一部分 基础篇
第1章 Mahout简介
1.1 Mahout应用背景
1.2 Mahout算法库
1.2.1 聚类算法
1.2.2 分类算法
1.2.3 协同过滤算法
1.2.4 频繁项集挖掘算法
1.3 Mahout应用
1.4 本章小结
第2章 Mahout安装配置
2.1 Mahout安装前的准备
2.1.1 安装JDK
2.1.2 安装Hadoop
2.2 两种安装方式
2.2.1 使用Maven安装
2.2.2 下载发布版安装
2.3 测试安装
2.4 本章小结
前言
2010年以后,世界快速进入了大数据时代,Hadoop成为大数据分析的首选平台和开发标准,无数数据分析软件纷纷向Hadoop靠拢。在Hadoop原有技术基础之上,涌现了Hadoop家族产品,它们正在配合“大数据”概念不断创新,推动科技进步。因此,新一代IT精英也必须顺应潮流,抓住机遇,随着Hadoop一起发展和成长!
简而言之,Hadoop是由Apache基金会开发的一个优秀的云计算技术框架,用户在其基础上即使不了解分布式底层细节,也可以开发分布式程序。Hadoop家族成员中的诸多成员进一步利用了这一优势,拓展了云计算的应用领域,降低了相应的软件开发门槛,而Mahout就是其中最难掌握,也是最有竞争力且最值得学习的项目之一。
Mahout是一个基于Hadoop的机器学习和数据挖掘的分布式计算框架,在MapReduce模式下封装实现了大量数据挖掘经典算法,为Hadoop开发人员提供了数据建模的标准,从而大大降低了大数据应用中并行挖掘产品的开发难度。在掌握了Mahout之后,Hadoop开发人员可以直接调用相关算法模型的接口,方便、快捷地创建智能应用程序,从而大幅提升商业智能软件的大数据分析处理能力。
但是,目前关于Mahout的参考资料比较少,比较有名的是Sean Owen编写的《Mahout in Action》,更多时候开发者只能通过Mahout的官网或者网络上一些技术爱好者发布的博客内容来进行学习。《Mahout in Action》是一本全英文的书籍,而且出版年份比较早,对国内的一些Mahout爱好者来说,阅读此书有一定的难度,因此,笔者就有了结合自己的经验写一本与Mahout有关的书籍的想法。本书针对Mahout算法库目前收录的大多数算法进行了分析,同时收录了笔者开发的4个简单系统,作为读者学习和实践的实例。
读者对象
Hadoop用户和爱好者
云平台系统架构师
Mahout代码二次开发者
云平台系统开发者
使用Mahout、Hadoop的相关用户
开设相关课程的大专院校学生
如何阅读本书
本书分为三大部分:
第一部分为基础篇(第1~2章),首先对Mahout的应用背景以及Mahout算法库收录的算法进行了简单介绍,同时分析了Mahout的应用实例。接着介绍其开发环境并详细分析了它的配置,使读者可以搭建一个自己的开发环境,为后面实战做好准备。
第二部分为算法篇(第3~7章),分析了Mahout算法库中不同模块的各个算法的原理以及Mahout实现流程,同时在每章末尾都有算法实战,让读者自己运行程序,感受程序运行的各个流程。
第三部分为实战篇(第8~11章),通过对4个不同系统案例的分析讲解,让读者了解开发完整的云平台系统的各个流程,即需求分析→系统框架选择及构建→系统功能设计→功能开发和界面开发。
其中第三部分以接近实战的案例来讲解云平台算法和当前流行框架的结合,此部分内容需要读者有一定的Spring、Struts 2、Hibernate等框架的基础。第一、第二部分则是Mahout基础知识,如果读者对Mahout不熟悉,建议从第1章内容开始阅读。
勘误和支持
除封面署名外,还有很多人对本书的写作提供了帮助,分别为:张汉锐、张良均、刘名军、庄思待、曾祥柱、曾健荣等。由于作者的水平有限,加之编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,读者可以通过笔者微博(http://weibo.com/fansy1990)或CSDN地址(http://blog.csdn.net/fansy1990)反馈有关问题。如果你有更多的宝贵意见,也欢迎发送邮件至邮箱fansy1990@foxmail.com,期待能够得到你们的真挚反馈。
书摘
基础篇
第1章Mahout简介
第2章Mahout安装配置
第1章
Mahout简介
当今社会什么技术最牛?什么技术最火?也许很多人会说是云计算,它可以说是近几年来一直被热议的“高深莫测”的词汇。大家都在说云计算,但是很少人能把云计算说得彻底且明白,大多数人还是有“云里雾里”的感觉。虽然如此,但是随着最近几年云计算概念的普及,云计算神秘的面纱正在慢慢地被揭开。云计算的核心重点是云平台下算法的开发,有了算法的支撑才能发挥云计算的最大优势。Mahout开源项目就是一个Hadoop云平台的算法库,已经实现了多种经典算法,并一直在扩充中,其目标就是致力于创建一个可扩容的云平台算法库。
下面就让我们开始Mahout探索之旅吧。
1.1Mahout应用背景
随着互联网的发展,企业拥有的数据也越来越多,比如Facebook公司,从公司成立之初的100万用户数到2010年的1.34亿用户数,再到2014年的13.1亿用户数,其用户增长速度达到了令人惊叹的地步,单单用户数目的增长已经达到了如此地步,更不用说每个用户所产生的数据量了。很明显,面对如此庞大的数据量,企业再用以前的数据处理方式显然已经不能满足要求了。
正所谓,变则通,通则久。企业若想长久发展,面对日益增长的数据,在以前传统的数据处理方式显得力不从心的时候,就需要“变”。所谓“变”,其实就是对现有方式的创新。在此情况下,“云计算”便应运而生。所谓“云计算”是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备,这样可以最大限度、最大效率地利用计算机资源,达到快捷、高速地处理数据的目的。
但是,单单有云计算平台还不够,还需要有适合云平台的算法。云计算的核心就是计算,要研究可以在云平台上实现的算法,这样才能发挥云计算的最大威力。以前的数据挖掘算法是在单机上实现的,单机实现的算法其编程思路和模式与云平台下的编程思路和模式很不一样,如果还是按照以前的思路,那么肯定是行不通的。
目前开源的云平台有多种,本书所述的云平台是Hadoop云平台。Hadoop云平台是一个用于处理大数据的分布式应用的开源框架,提供分布式存储和高效计算能力。Hadoop具有以下优势:
同时提供分布式存储和计算能力。
具有极高的可扩展性。
其主要的组件之一HDFS具有很高的数据吞吐量。
具有软件和硬件容错性。
允许大数据的并行工作。
在Hadoop云平台下编程不仅要求用户对Hadoop云平台框架比较熟悉,还要对Hadoop云平台下底层数据流、Map和Reduce原理非常熟悉,这是基本的编程要求。此外,用户要编写某一个算法还需要对该算法的原理比较熟悉,即需要对算法原理理解透彻。总体来看,编写云平台下的算法程序是属于高难度的开发工作了。但是,如果使用Mahout,情况就会有很大的不同,用户再也不用自己编写复杂的算法,不需要掌握太高深的云平台的框架和数据流程的理论知识。用户所需要了解的只是算法的大概原理、算法实际应用环境和如何调用Mahout相关算法的程序接口。当然,在具体的项目中,用户还应该根据实际需求在Mahout源代码基础上进行二次开发以满足具体的实际应用情况。
Mahout是Apache基金会的开源项目之一。Apache Mahout起源于2008年,当时它是Apache Lucene的子项目。在使用Hadoop云平台的基础上,可以将其功能有效地扩展到Hadoop云平台中,提高其运算效率。2010年4月,Apache Mahout最终成为了Apache的顶级项目。创建此项目的用意是建立一个可扩容的云平台算法库。目前,Mahout已经实现了多种经典数据挖掘算法,算是比较完备的算法库了。Mahout目前还在扩充中,由世界上对这个项目感兴趣的云平台算法编程高手们一起进行开发、测试,然后进行算法扩充,任何对这个项目感兴趣的个人或者组织都可以加入到该项目的社区中,为该项目做出贡献。