基本信息
- 原书名:R Data Mining Blueprints
- 作者: (印)普拉迪帕塔·米什拉(Pradeepta Mishra)
- 译者: 黄芸
- 丛书名: 数据分析与决策技术丛书
- 出版社:机械工业出版社
- ISBN:9787111565208
- 上架时间:2017-10-23
- 出版日期:2017 年5月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 数据库 > 数据库存储与管理

内容简介
目录
前言
第1章 使用R内置数据进行数据处理 1
1.1 什么是数据挖掘 2
1.2 R语言引论 4
1.2.1 快速入门 4
1.2.2 数据类型、向量、数组与矩阵 4
1.2.3 列表管理、因子与序列 7
1.2.4 数据的导入与导出 8
1.3 数据类型转换 10
1.4 排序与合并数据框 11
1.5 索引或切分数据框 15
1.6 日期与时间格式化 16
1.7 创建新函数 17
1.7.1 用户自定义函数 17
1.7.2 内置函数 18
1.8 循环原理——for循环 18
1.9 循环原理——repeat循环 19
1.10 循环原理——while循环 19
1.11 apply原理 19
译者序
R语言凭借其健康的开源工具生态及简单易上手的语言特性,广泛应用于统计领域,并获得了数据分析爱好者们的青睐。R语言的主要用户群或许未曾想到,也正如数据挖掘人士未曾想到的是,用作统计分析工具的R语言也可以成为数据挖掘的利器。R语言的语言特性使其不仅适合数据分析人员使用,也适合所有试图从数据中获取个人在意的信息或者企业关注的业务价值的各行业人员使用。
本书是一本介绍使用R语言进行数据挖掘的指南书。既然是指南书,也就不要求读者有多么深厚的统计基础以及丰富的编程经验。本书将对所涉及的理论知识进行简单的介绍,清晰地列出相关公式与使用技术时的注意要点,还配有大量代码和图片,以帮助读者通过实践加深对概念的理解。为了给读者营造出一种清晰的数据挖掘项目流程感,本书按照“数据处理——数据探索——建立应用模型”这样的顺序组织编写,以求做到简洁而不失细节。此外,本书对数据处理中的棘手问题(譬如时间格式、缺失值的处理)均做出了详细指导,且由于数据探索在项目中的重要性,亦从统计角度到可视化角度给出了讲解。针对应用模型的建立,本书选取了现实中常见的模型进行介绍,由简单的回归模型开始,到应用广泛的购物篮分析、推荐系统构建,再到较复杂的神经网络模型。
本书的一大特色是结合了现实中广泛应用的数据案例,如零售业、制造业、信用评分、医疗业等的数据案例。通过本书的学习,读者不仅能够掌握一定的技术实战能力,也能从中得到一些有关业务应用的启发,最终学以致用。
黄芸
前言
本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理。R是一门免费的程序语言,同时也是一个提供统计计算、图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成。本书将结合R语言在示例数据集中的应用来阐释数据挖掘原理。
本书将阐述数据挖掘的一些主题,如数学表述、在软件环境中的实现,以及如何据此来解决商业问题。本书的设计理念是,读者可以从数据管理技术、探索性数据分析、数据可视化等内容着手学习,循序渐进,直至建立高级预测模型(如推荐系统、神经网络模型)。本书也从数据科学、分析学、统计建模以及可视化等角度对数据挖掘这一概念进行了综述。
本书内容
第1章带领读者初识R编程基础,借助真实的案例帮助读者了解如何读写数据,了解编程符号和语法指令。这一章还给出了供读者动手实践的R脚本,以更好地理解书中的原理、术语以及执行特定任务的深层原因。之所以这样设计,是为了让没有太多编程基础的读者也能使用R来执行各种数据挖掘任务。这一章将简述数据挖掘的意义以及它与其他领域(诸如数据科学、分析学和统计建模)的关系,除此之外,还将展开使用R进行数据管理的讨论。
第2章帮助读者理解探索性数据分析。探索数据包括数据集中变量的数值描述和可视化,这将使得数据集变得直观,并使我们能对其快速定论。对数据集有一个初步的理解很重要,比如选择怎样的变量进行分析、不同变量之间的关联,等等。创建交叉二维表有助于理解分类变量之间的关系,对数据集实施经典统计检验来验证对数据的种种假设。
第3章涵盖从基础的数据可视化到调用R语言中的库实现高级的数据可视化。观察数字和统计能从多个侧面“告诉”我们关于变量的“故事”,而当图形化地了解变量和因子之间的关系时,它将展示另一个“故事”。可见,数据可视化将揭示数值分析和统计无法展现的信息。
第4章帮助读者学习利用回归方法的预测分析基础,包括线性和非线性回归方法在R中的实现。读者不仅可以掌握所有回归方法的理论基础,也将通过R实践获得实际动手操作的经验。
第5章介绍了一种产品推荐方法——购物篮分析(MBA)。这种方法主要是将交易级的商品信息关联,从中找出购买了相似商品的客户分类,据此推荐产品。MBA还可以应用于向上销售和交叉销售中。
第6章介绍了什么是分类、聚类是如何应用到分类问题的、聚类用的是什么方法等内容,并对不同的分类方法进行了对比。在这一章,读者将了解使用聚类方法的分类基础知识。
第7章涵盖以下内容及相应的R语言实现:推荐系统是什么,实现推荐的工作原理、类型和方法,使用R语言实现商品推荐。
第8章使用R语言和一个实际数据集实现主成分分析(PCA)、奇异值分解(SVD)和迭代特征提取等降维技术。随着数据的量与类的增长,数据的维度也在随之增长。降维技术在不同领域都有很多应用,例如图像处理、语音识别、推荐系统、文本处理等。
第9章讲解了多种类型的神经网络、方法,以及通过不同的函数来控制人工神经网络训练的神经网络变体。这些神经网络执行标准的数据挖掘任务,例如:采用基于回归的方法预测连续型变量,利用基于分类的方法预测输出水平,利用历史数据来预测数值变量的未来值,以及压缩特征从而识别重要特征以执行预测或分类。
准备工作
为了学习本书附带的例子和代码,读者需要从https://cran.r-project.org/下载R软件(也可以从https://www.rstudio.com/下载R Studio),然后安装。没有特定的硬件要求,只需要一台至少2GB RAM的计算机,适用于任何操作系统,包括MAC、Linux和Windows。
读者对象
本书适用于刚开始从事数据挖掘、数据科学或者预测建模的读者,也适用于有中等统计与编程水平的读者。基本的统计知识对于理解数据挖掘是必需的。阅读前几章并不需要编程知识。本书将讲解如何使用R语言进行数据管理和基本的统计分析。本书亦适用于学生、专业人员及有志成为数据分析师的读者。
排版约定
在本书中,为了区分不同内容,字体风格也会随之变化。以下是字体风格示意:
书中的代码、文件名、文件扩展名、路径名、URL地址、用户输入、推特标签看起来会是这样:“在处理ArtPiece数据集时,我们将通过一些与业务相关的变量来预测一个艺术作品是否值得购买。”