基本信息

【插图】

编辑推荐
10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。
为零基础R语言与数据挖掘教学和自学量身打造,系统讲解R语言与数据挖掘的必备知识,配有大量的上机实验、源代码和教学PPT资源。
内容简介
作译者
资深大数据挖掘专家,高级信息项目管理师,有近20年的大数据挖掘应用、咨询和培训经验,被称为“中国大数据挖掘培训教父”。为电信、电力、政府、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业提供过数据挖掘应用与咨询服务,实践经验丰富。现任广东工业大学、华南师范大学、华南农业大学等6所高校兼职教授。著有《神经网络实用教程》《数据挖掘:实用案例分析》《R语言数据分析与挖掘实战》等畅销图书。
谢佳标
资深R语言专家,多次于中国R语言大会发表演讲,具有十余年的数据挖掘实战经验。目前于某上市互联网游戏公司,任高级数据分析师,负责大数据挖掘及可视化。培训过的精品课程有:《R语言基础培训》《数据分析之R语言实战》《机器学习与R语言实践》等。
万正勇
某国际投行VP,有超过10年的金融系统大数据挖掘及分析经验,超过15年的大型金融机构核心交易系统规划设计开发经验。数据库及中间件专家,先后获得中国首届十大杰出数据库工程师,Oracle 中间件 ACE Director以及 Oracle 数据库 ACE 等称号。曾为电信,电力,航空,银行,保险,互联网,交通,制造等等行业相关龙头企业提供过咨询服务。著有《衍生数学》,《Oracle数据库DBA专题技术精粹》等畅销书。
目录
第一部分 基础篇
第1章 R语言的安装与使用 2
1.1 R安装与升级 3
1.2 R使用入门 4
1.2.1 R操作界面 4
1.2.2 RStudio窗口介绍 5
1.2.3 R常用操作 6
1.3 R数据分析包 8
1.4 配套资源使用说明 10
1.5 小结 10
1.6 上机实验 10
第2章 数据对象与数据读写 12
2.1 数据类型 12
2.2 数据结构 16
2.2.1 向量 16
2.2.2 矩阵 19
2.2.3 数组 24
2.2.4 数据框 25
2.2.5 因子 28
前言
R语言是什么?
R是一种适用于统计分析计算和图像处理的语言,受S语言和Scheme语言影响发展而来。早期R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做任何修改地在R环境下运行。R的语法来自Scheme,作为一款诞生于20世纪90年代的语言,R已经成为S统计编程语言的一类实现方式。
R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器,该语言的人气也一路攀升。正如Tiobe、PyPL以及Redmonk等编程语言人气排名所指出,R语言所受到的关注程度正在快速提升。Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其作为主要工具。这些结果类似于 2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示正在使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。
R语言有一些明显的优势:
1)R语言作为一款开源软件,是完全免费的,对比昂贵的SPSS和SAS等统计软件,这无疑是一个巨大的优势。
2)R语言拥有一个庞大的社区来进行维护,庞大的软件包生态系统无疑是R语言最为突出的优势之一。
3)R语言具备可扩展能力且拥有丰富的功能选项,帮助开发人员构建自己的工具及方法,从而顺利实现数据分析。
4)R语言简单易学。虽与C语言之类的程序设计语言已差别很大(比如语言结构相对松散,使用变量前不需要明确正式定义变量类型等),但仍保留了程序设计语言的基础逻辑与自然的语言风格。
从R的普及来看,国外的普及度要明显好于国内,与盗版Windows的泛滥会影响Linux在中国的普及一样,破解的MATLAB与SPSS的存在也影响了R在中国的使用。但在国外高校的统计系,R几乎是一门必修的语言,具有统治性的地位。在工业界,作为互联网公司翘楚的Google内部也有不少工程使用R进行数据分析工作。随着数据挖掘在国内的发展,国内对R语言的需求必将随之一起发展。
总的来说,R语言是一款用于统计分析、数据可视化和预测建模的数据分析软件,它不单单只是一门语言,更是一个数据计算与分析的环境。R支持几乎所有数据分析所需的数据处理、统计模型和图表,支持大量的第三方功能包,涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型等内容。随着大数据时代的来临,数据挖掘将更加广泛地渗透到各行各业中去,而R语言作为数据挖掘里的热门工具,将会有更多其他行业的人加入到R语言的使用者行列中来。R语言的使用课程成为高校中数学与统计学专业的重要课程将是必然的趋势。
本书特色
本书从实际应用出发,结合实例及应用场景,深入浅出地介绍了R语言应用的相关知识:R语言的安装及使用、数据对象与数据读写、常用数据管理、图形探索、高级绘图工具及常用的建模算法在R语言中的实现方式。书中以R语言的函数应用为主,先介绍了函数的应用场景及使用格式,再给出函数的应用实例,最后对函数的运行结果做出了解释,将掌握函数应用的所需知识点按照实际使用的流程展示出来。
为方便理解R语言中相关函数的使用,本书提供示例代码及所用数据等相关资源下载,读者可以从“泰迪杯”全国数据挖掘挑战赛网站(http://www.tipdm.org/ts/747.jhtml)免费获取。也可以通过热线电话(40068-40020)、企业QQ(40068-40020)及以下微信公众号咨询获取。
TipDM 张良均〈大数据挖掘产品与服务〉
本书适用对象
开设有数据挖掘课程的高校教师和学生。
目前国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学工具仍然为SPSS、SAS等传统统计工具,并没有使用R语言作为挖掘工具。本书提供了有关R语言的从安装到使用的一系列知识,将能有效指导高校教师和学生使用R语言工具进行数据挖掘。
数据挖掘开发人员。
这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合书中提供的R语言的使用方法快速实现数据挖掘应用的编程。