基本信息
- 作者: [美] 布雷特·兰茨(Brett Lantz)
- 丛书名: 数据科学与工程技术丛书
- 出版社:机械工业出版社
- ISBN:9787111684572
- 上架时间:2021-11-26
- 出版日期:2021 年6月
- 开本:16开
- 页码:304
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计

内容简介
计算机书籍
本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法;第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。
目录
前 言
第1章 机器学习简介 1
1.1 机器学习的起源 1
1.2 机器学习的使用与滥用 2
1.2.1 机器学习的成功应用 3
1.2.2 机器学习的限制 4
1.2.3 机器学习的伦理方面 5
1.3 机器如何学习 7
1.3.1 数据存储 8
1.3.2 抽象化 8
1.3.3 一般化 10
1.3.4 评估 11
1.4 实践中的机器学习 12
1.4.1 输入数据的类型 13
1.4.2 机器学习算法的类型 14
1.4.3 为输入数据匹配算法 15
1.5 使用R进行机器学习 16
1.5.1 安装R添加包 17
1.5.2 载入和卸载R添加包 18
前言
鉴于R的地位不断提高(R是一个跨平台、零成本的统计编程环境),现在是开始使用机器学习的最好时机。R提供了一套功能强大且易于学习的工具,这些工具可以帮助我们发现数据背后隐藏的信息。
通过把实践案例研究与基本理论(你需要理解这些理论在后台是如何运行的)相结合,本书提供了在工作中使用机器学习所需要的全部知识。
本书读者对象
本书适用于任何希望使用数据来采取行动的人。或许你已经对机器学习有些了解但从来没有使用过R,或许你已经对R有些了解,但机器学习对你来说是全新的。无论是哪种情况,本书都将让你快速上手。稍微熟悉一些基本的数学和编程概念将会有帮助,但并不需要先前有经验,你只需要有好奇心就行。
本书涵盖的内容
第1章介绍用来定义和区分机器学习算法的术语和概念,并给出将学习任务与适当算法相匹配的方法。
第2章提供一个在R中自己实际动手操作数据的机会,并讨论基本的数据结构以及用于载入、探索和理解数据的程序。
第3章教你如何将一个简单且功能强大的机器学习算法应用于你的第一个学习任务:识别癌症的恶性样本。
第4章揭示用于先进的垃圾邮件过滤系统的基本概率知识。在建立你自己的垃圾邮件过滤器的过程中,你将学习文本挖掘的基本知识。
第5章探索两种学习算法,它们的预测结果不仅精确而且容易解释。我们将把这两种算法应用于对透明度要求很高的任务中。
第6章介绍用于数值预测的机器学习算法。由于这些技术在很大程度上来源于统计领域,所以你还将通过学习必要的基本指标来理解数值之间的关系。
第7章包括两个极其复杂但功能强大的机器学习算法。尽管数学可能会让人望而生畏,但是我们将以简单的术语结合实际例子来说明它们内部的运作原理。
第8章揭示许多零售商使用的推荐系统的算法。如果你想知道零售商是如何比你自己更了解你的购物习惯的,本章将揭示他们的秘密。
第9章介绍k均值聚类。该算法用来查找相关个体的聚类。我们将使用该算法来确定一个网络社区内的分布。
第10章提供一些信息来度量机器学习项目是否成功,并得到学习器针对未来数据的性能的可靠估计。
第11章揭示在机器学习竞赛中排名最靠前的团队所采用的方法。如果你具有竞争意识,或者仅仅想获取数据中尽可能多的信息,那么你需要学习这些技术。
第12章探讨机器学习的前沿主题。从使用大数据到使R的运行速度更快,涉及的这些主题将帮助你拓展使用R进行数据挖掘的界限。
学习本书的知识准备
本书中的例子是基于Microsoft Windows和Mac OS X系统的R 3.5.2版本进行编写与测试的,当然,对于任意最新的R版本,这些例子都能运行。
媒体评论
本书通过清晰和实用的案例来探索机器学习在现实世界中的应用。无论你是经验丰富的R用户还是R初学者,都会从本书中学到如何发现关键信息、做出新的预测并进行可视化。
本书的第3版包含更新和更好的库、有关机器学习中的道德和偏差问题的建议,以及深度学习的简介。
通过阅读本书,你将学到:
通过示例发现机器学习的起源以及计算机的学习方式。
使用R语言为机器学习准备数据。
使用最近邻和贝叶斯方法对重要结果进行分类。
使用决策树、关联规则和支持向量机预测未来事件。
使用回归方法预测数值型数据和估计金融数据。
使用人工神经网络为复杂过程建模——深度学习的基础。
避免机器学习模型中的偏差。
评估模型并改善其性能。
将R连接到SQL数据库和新兴的大数据技术,例如Spark、H2O和TensorFlow。