基本信息
- 原书名:R Machine Learning By Example
- 作者: (印度)拉格哈夫·巴利(Raghav Bali) (印度)迪潘简·撒卡尔(Dipanjan Sarkar)
- 译者: 李洪成 潘文捷
- 丛书名: 数据分析与决策技术丛书
- 出版社:机械工业出版社
- ISBN:9787111565901
- 上架时间:2017-10-23
- 出版日期:2017 年6月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 人工智能 > 综合

内容简介
计算机书籍
数据科学和机器学习是当今技术领域中的流行语。本书将带您进行一次数据驱动的旅程,从基础的R和机器学习开始,逐步建立用于解决实际问题的项目的概念。本书共8章。第1章介绍R及其相关的基础知识,并简单介绍了机器学习的概念。第2章深入研究机器学习,介绍各种类型的学习算法,以及一些现实世界的案例。第3章使用市场购物篮分析和关联规则挖掘进行电子商务产品推荐、预测和模式分析。第4章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如用户协同过滤器)设计一个推荐系统。第5章将机器学习应用于信用风险检测和预测中。第6章使用多种机器学习算法检测和预测哪些客户具有潜在信用风险,介绍了多种有监督学习算法并比较它们的性能。第7章介绍社交媒体和通过TwitterAPI收集数据的过程。第8章根据TwitterAPI的知识建立一个项目,基于该项目分析推文中的情感。
作译者
我要感谢Packt出版社提供了这次机会,感谢Kajal Thapar和Utkarsha S. Kadam完美的支持和编辑,感谢让生活变得更简单、让数据科学变得更有趣的R社区的每一个人。
最后,我要感谢我的家人,特别是我的父母和兄弟对我的信任,本书将是一个惊喜。我还要感谢一直鼓励我的导师、老师和朋友。最后同样重要的是,特别要感谢我的同事Dipanjan Sarkar,没有他这一切都没有可能。
迪潘简·撒卡尔(Dipanjan Sarkar)是世界上最大的芯片公司Intel的IT工程师,在该公司主要负责分析、商务智能和应用程序开发。他拥有印度班加罗尔国际信息技术学院信息技术硕士学位。他的专业领域包括软件工程、数据科学、机器学习和文本分析。Dipanjan的兴趣包括学习新的技术、颠覆性的初创企业和数据科学。在闲暇时间,他喜欢阅读、玩游戏以及看流行的情景喜剧。他还审阅了Packt出版的《Data Analysis with R》《Learning R for Geospatial Analysis》和《R Data Analysis Cookbook》。
我要感谢我的好朋友和同事Raghav Bali,谢谢他能够和我共同写作这本书。没有他的支持,这本书不可能完成。同时,我要感谢Kajal Thapar和Utkarsha S. Kadam及时向我提出修改建议,使整个写作过程充满了互动和愉快。非常感谢Packt出版社给我这个重要的机会,感谢他们让我能够分享机器学习的知识。还要感谢R爱好者,他们每天都在做了不起的事情。
最后同样重要的是,我要感谢我的家人、朋友、老师和同事,他们一直陪伴在我的身边,支持我所有的工作。他们的支持让我每天都能迎接新的挑战!
关于审稿人
Alexey Grigorev是一位熟练的数据科学家和软件工程师,拥有超过5年的专业经验。目前他正在Searchmetrics担任数据科学家。在日复一日的工作中,他使用R和Python进行数据清洗、分析和建模。在此之前,他已经是Packt出版的其他关于数据分析书籍的审稿人,例如《Test-Driven Machine Learning》《Mastering Data Analysis with R》。
目录
前言
关于作者
关于审稿人
第1章 开始使用R语言和机器学习 1
1.1 探究R的基本内容 2
1.1.1 使用R作为科学计算器 2
1.1.2 向量运算 3
1.1.3 特殊值 5
1.2 R的数据结构 5
1.2.1 向量 6
1.2.2 数组和矩阵 8
1.2.3 列表 13
1.2.4 数据框 16
1.3 使用函数 20
1.3.1 内置函数 20
1.3.2 用户自定义函数 20
1.3.3 以参数形式传递函数 21
1.4 控制代码流 22
1.4.1 使用if、if-else和ifelse语句 22
译者序
本书的作者Raghav Bali在机器学习领域具有丰富的实践经验。他在本书中介绍了多种机器学习算法,并且给出了机器学习最热门的3个领域(涵盖电子商务、金融和社交媒体领域)中的案例。对于每一个实际案例,从对案例数据的探索、整理,到模型的建立和评估,每一步都给出了详尽的步骤和R代码。读者从中可以掌握机器学习和R语言的应用与技巧,同时也可以学习相关的领域知识。
本书共分8章。第1章介绍了R语言和机器学习的基本概念与理论。第2章介绍了机器学习的核心概念和各种类型的机器学习算法与应用。第3章到第8章以现实世界中的3个典型机器学习案例为线索,介绍了应用R进行机器学习和数据分析的整个过程。它们分别是:市场购物篮分析和推荐系统、信用风险检测和预测的描述性分析与预测性分析、社交媒体数据分析。
R本身是一款十分优秀的数据分析和数据可视化软件,其中包含大量用于机器学习的添加包(package)。本书以实际的案例为主线,通过机器学习算法的学习来组织内容,脉络清晰。读者只需要具有R的一些基本知识即可,不需要具备机器学习的深厚基础。不管是R初学者,还是熟练的R用户,都能从书中找到对自己有用的内容。
我们有幸受机械工业出版社委托将此书译成中文,希望中文版的出版能够给国内读者学习R与机器学习带来方便。
在本书的翻译过程中,得到了王春华编辑的大力支持和帮助。本书的编辑盛思源老师具有丰富的经验,为本书的出版付出了大量的劳动,这里对她们的支持和帮助表示衷心的感谢。本书的翻译工作得到了许多机器学习和R软件专家的帮助与支持,在此表示感谢。
由于时间和水平所限,难免会有不当之处,希望同行和读者多加指正。
李洪成
前言
本书将带你踏上数据驱动的旅程,从最基础的R和机器学习开始,逐步学习如何解决实际问题。
本书内容
第1章概述本书的内容,帮助你熟悉R及其基础知识。该章还简短地介绍机器学习。
第2章通过解释机器学习的基本概念,深入研究机器学习。同时,还呈现各种类型的学习算法,以及现实世界中的一些示例。
第3章开始介绍第一个项目的第一部分,使用各种机器学习技术进行电子商务产品推荐、预测和模式分析。该章针对市场购物篮分析和关联规则挖掘,检测客户的购物模式和趋势,使用这些技术进行产品预测和推荐。这些技术在零售企业和电子商务商店(例如Target、Macy’s、Flipkart和Amazon)中广泛使用,用来进行产品推荐。
第4章介绍第一个项目(电子商务产品推荐、预测和模式分析)的第二部分。该章分析不同用户对电子商务产品的评论和评级,使用算法和技术(例如,用户协同过滤)设计一个推荐系统。
第5章开始介绍第二个项目,将机器学习应用到一个复杂的金融场景中,即处理信用风险检测和预测。该章介绍新的主题,研究1000名向银行申请贷款的用户的金融信用数据集。我们将使用机器学习技术检测具有潜在信用风险以及贷款后可能无法偿还的用户,同时对未来进行预测。该章还详细介绍数据集及其主要特征,讨论处理数据时将面临的主要挑战。最后总结适合解决这一问题的最佳机器学习技术。
第6章基于上一章的描述分析继续进行预测分析。这里,我们将使用几种机器学习算法来检测和预测哪些客户具有潜在信用风险,即贷款后可能无法偿还的用户。这最终将帮助银行做出数据驱动的决策,决定是否批准贷款申请。我们将涵盖几种有监督学习算法,并比较它们的性能。我们将讨论评估各种机器学习算法的性能和准确度的不同指标。
第7章介绍社交媒体分析。首先,我们将介绍社交媒体和通过Twitter的API收集数据的过程。该章将引导你从推文(tweet)中挖掘有用的信息(包括可视化实际案例的Twitter数据),推文的聚类和主题建模,解决这些问题面临的挑战、复杂度和策略。我们通过例子展示如何使用Twitter数据计算一些强大的度量指标。
第8章根据Twitter API的知识建立一个项目,基于该项目分析推文中的情感。这个项目呈现了多种机器学习算法,用于根据推文的情感进行分类。该章还对这些结果进行比较,帮助你理解这些算法的工作原理和运行结果之间的差异。
本书需要的软/硬件支持
以下软件适用于本书的所有章节:
Windows/Mac OS X/Linux
R 3.2.0(或以上)
RStudio Desktop 0.99(或以上)
对于硬件,没有特定的要求,因为R能在任何Mac、Linux或Windows系统的个人计算机上运行,但是物理内存最好不低于4GB,这样一些迭代算法可以更快地运行。
本书适用对象
如果你对使用先进的技术从数据中挖掘有用信息来进行数据驱动决策感兴趣,那么本书将指导你如何实现。虽然R的基本知识非常有用,但是在阅读本书时,不需要掌握数据科学的先验经验。掌握机器学习的先验知识十分有用,但这不是必要的。
本书约定