基本信息

编辑推荐
用日进行数据分析已经成为各种机构的关注焦点。R让没有深厚的数学背景、仅对基本概念有一点直观理解的人们可以相当有效和仔细地考察他们的数据。
丘祐玮*的《机器学习与R语言实战/数据分析与决策技术丛书》通过展示各种使用日来生成专业分析报告的方法来使你*上一层楼。它提供了各类数据分析和机器学习示例,并且准备好了所需的数据供读者立即尝试。同时书中详细讲解了如何快速调整示例代码来适应自己的需求,这将大大节约从零开始构建代码所需要的时间。
内容简介
计算机书籍
现在,越来越多的人开始接触并考虑引入大数据技术来促进公司产品的销售以获得*多利润,而机器学习已经成为除统计以外一种新的分析方法,采用学习算法既能提高数据模型的预测精准度,又确保了对商务活动及其发展过程的预测能够摆脱人脑计算能力的局限,使面向大数据的分析处理依托计算机的大规模计算能力得以完成。
《机器学习与R语言实战/数据分析与决策技术丛书》由**数据科学家丘祐玮亲笔撰写,借助当前机器学习和数据分析领域*常用的工具R语言,深入浅出地介绍了采用R语言进行数据分析及构建预测模型的100多种实用方法,包括分类、回归、聚类、关联分析等常用机器学习算法的实现,每一个算法都通过具体案例详细说明构建模型、实现模型以及评价模型的过程。而且书中还系统讲解了相关的R语言基础知识,包括环境准备以及数据转換、分析和结果可视化的方法。此外,还详细展示了使用RHadoop处理和分析海量数据的过程。
本书融合了作者在实践机器学习算法来完成数据分析方面的诸多心得,并且书中所有源代码和实验数据在配套的网站上都可以免费下载,相信阅读完本书并亲自动手完成书中所有算法案例后,你将对机器学习和R语言都有*深入的了解,设计学习算法来发现隐藏在数据中有价值的模式也不再是遥不可及的目标。
作译者
2013年,Yu-Wei审读了《Bioinformatics with R Cookbook》(Packt出版社)。更多内容请参考他的个人网站www.ywchiu.com。
我要衷心感谢我的家人和朋友,是他们支持和鼓励我完成了本书。我要诚挚地向我母亲Ming-Yang Huang(Miranda Huang)、我的良师Man-Kwan Shan、本书的校对Brendan Fisher,中国台湾的R用户组,数据科学项目(Data Science Program,DSP),以及其他支持过我的朋友表示感谢。
目录
前言
作者简介
审校者简介
第1章 基于R实践机器学习 1
1.1 简介 1
1.2 下载和安装R 3
1.3 下载和安装RStudio 10
1.4 包的安装和加载 13
1.5 数据读写 15
1.6 使用R实现数据操作 18
1.7 应用简单统计 22
1.8 数据可视化 25
1.9 获取用于机器学习的数据集 28
第2章 挖掘RMS Titanic数据集 32
2.1 简介 32
2.2 从CSV文件中读取Titanic数据集 33
2.3 根据数据类型进行转换 36
2.4 检测缺失值 38
2.5 插补缺失值 40
译者序
本书内容全面,深入浅出地介绍了采用R语言实现包括分类、回归、聚类、关联分析等常用的机器学习算法的知识,每一个算法都通过案例详细说明了构建模型、实现模型以及评价模型的过程。同时,为了照顾初学者,本书也涵盖了R语言的基础知识,包括环境准备、数据转换、分析和结果可视化的方法。本书最后抛砖引玉,展示了使用RHadoop处理和分析海量数据的过程。
阅读完本书并亲自动手完成作者所有算法案例后,您将对机器学习和R语言都有更深入的了解,设计学习算法来发现隐藏在数据中有价值的模式也不再是遥不可及的目标。
本书能够得以出版,要感谢机械工业出版社的缪杰、佘洁编辑,他在翻译过程中给予了我们很多建设性的指导意见。其次,还要感谢吴怡编辑,是她让我们与机械工业出版社结缘。
由于教学科研需要,译者很早就已经接触了机器学习这一领域,但由于学科发展速度日新月异,在翻译过程中我们仍然遇到了一些问题,尽管我们在此期间查阅了大量的文献及网络资源,并逐字逐句地对译稿进行了反复推敲和琢磨,还是不可避免地存在错误和疏漏之处,还望各位读者不吝指正。
前言
大多数研究人员习惯依据历史样本数据进行统计分析,这种处理方法的弊端在于从统计分析中能够获得的信息十分有限。事实上,科学家们经常要解决从目标数据中发现被隐藏的模式以及探索未知关系的问题。目前,机器学习已经逐渐成为除统计分析以外的一种新的分析方法,它使用学习算法,结合输入的样本数据,能够得到更加精确的预测模型。通过机器学习,商业操作及其发展趋势的分析不再局限于人脑层面的思考,机器层面的分析使企业能够在大数据中发现潜在价值。
R语言是目前机器学习和数据分析领域最常用的工具,开源和免费的优势使得它成为最受数据科学家们欢迎的主流语言。R语言为用户提供了丰富的学习包和可视化函数,用户不需要掌握任何分析过程背后数学模型的细节就能很简单地通过R语言在数据集上执行机器学习算法,快捷地完成数据分析任务。
本书采取了务实的方法介绍如何使用R语言来实践机器学习。全书共12章,每章包含若干小节,当读者循序渐进地学习完每一小节后,将能够使用数目繁多的机器学习包构建自己的预测模型。
本书首先引导读者学会搭建一个R语言环境并使用简单的R命令来观察数据。接下来读者将学习利用机器学习算法进行统计分析并评价生成模型,以及如何使R语言与Hadoop结合以构建大型数据分析平台。本书所涉及的全部机器学习案例都附带了详细的说明。
我们相信,读完这本书你将发现机器学习从来没有这样容易。
章节内容
第1章介绍了如何创建一个可用的R环境和基本的R命令,包括数据读取、数据操纵、简单的统计分析以及数据的可视化。
第2章介绍了如何使用R语言进行探索性数据分析,以Titanic数据为例,探讨了数据的转换、分析以及结果的可视化。我们建立了一个预测模型,来判断泰坦尼克号可能的幸存者。
第3章首先重点探讨了数据采样和概率分布的概念,然后演示了对数据进行统计描述和统计推断性统计的过程。
第4章探讨一个因变量(响应变量)和一组或多组独立的(预测量)解释变量之间的线性关系。读者将学习使用各类回归模型来解释数值间的关联,同时还将学习运用合适的模型对连续变量进行预测。
第5章介绍基于树的分类器、k近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器。为了帮助读者们能够更好地理解分类器的工作方式,这一章提供了一个基于电信数据集的用户分类实例。
第6章介绍了两种复杂但功能强大的分类算法:神经网络和支持向量机。尽管这些方法从根本而言难度都较大,但通过这一章的学习,读者会发现在R语言里使用这些算法做出精确的预测是一件非常容易的事情。
第7章展示一些评估模型性能的方法,通过这些检验方法,我们能够从中挑选出最优化的模型应用于预测。
第8章探讨集成分类器,相对于单一分类器,集成分类器在分类和回归处理方面具有更多优势。而鉴于其在很多数据预测比赛中的良好表现,读者更应该了解在项目中如何使用集成分类器。
第9章讨论多种聚类算法。通过聚类,我们能够发现对象间的共性,该章使用聚类算法对顾客进行划分,同时比较了不同聚类算法之间的差异。
第10章讨论了如何发现事务数据中所隐含的常见模式和关联项。
第11章介绍如何从原始变量中选择和抽取特征。借助降维,我们能够消除冗余特征对分析结果的影响,并降低计算的代价以避免模型的过度适应。该章将借助一个具体的图像压缩和存储案例解释降维方法。
第12章介绍RHadoop处理和海量数据分析,以及如何使用RHadoop。该章依次介绍了RHadoop环境的构建,使用机器学习方法处理实际的海量数据集,最后该章探讨了使用亚马逊弹性计算云(Amazon EC2)服务来部署RHadoop集群。
附录A提供R和与机器学习相关的所有资源。