基本信息

编辑推荐
资深数据专家凝炼数十年教学和实践经验,全面阐释如何使用R语言20%的功能完成80%的现代数据工作
内容简介
计算机书籍
本书借鉴数据科学家Jared P. Lander在R语言上丰富的教学经验,通过大量实例,详细讲解R语言的核心功能。对于刚接触统计程序和模型的人,本书的内容组织结构使得学习R语言相当简单和直观。本书主要介绍R语言中20%的核心功能,但是这20%的功能足以让你解决80%的现代数据分析。
书中每一章都是从基础知识开始,提供大量的实例和代码。你将学习下载和安装R语言;设置和使用R语言环境;掌握基本的程序编写,数据导入、操作和可视化;完成几个测验。然后在此基础上,你将构建几个完整的模型,包括线性和非线性模型,学习数据挖掘技术。接着你将在代码中学习使用LaTeX,RMarkdown和Shiny等R语言包。
目录
序
前言
致谢
第1章 获取R语言 1
1.1 下载R语言 1
1.2 R语言版本 2
1.3 32位与64位 2
1.4 安装R语言 2
1.4.1 在Windows系统上安装 2
1.4.2 在Mac OS X系统上安装 5
1.4.3 在Linux系统上安装 8
1.5 微软开源R语言 10
1.6 小结 10
第2章 R语言环境 11
2.1 命令行界面 12
2.2 RStudio 13
2.2.1 RStudio项目 14
2.2.2 RStudio工具 16
2.2.3 Git集成 20
前言
R语言是由奥克兰大学的Robert Gentleman教授和Ross Ihaka教授于1993年开发的,它源于贝尔实验室John Chambers所开发的S语言。这是一种高级语言,最初的目的是进行交互式运算,即使用者输入一个命令得到一个结果,然后再输入下一个命令。现在它已经发展成为一种可以嵌入系统和解决复杂问题的语言。
除了转换数据和分析数据之外,R语言还能很方便地产生令人惊喜的图形和报告。它现在已经成为一个完整的体系,可以用于数据分析、提取和转换、模型拟合、描述推断、预测,绘图以及给出报告结果。
自21世纪头10年后期以来,R语言的普及就像飞升的火箭一路飙升,它已经走出学术界,进入了银行业、销售业、制药业、政界、基因组学等其他许多领域。R语言的很多新用户以前都使用一些低级编译语言程序,比如C++和其他的统计包(例如SAS或SPSS),还有一些用户之前使用“800磅重的大猩猩”—Excel。这时期扩展软件包的数量飙升,这些软件包是预先写好的代码库,用于扩展R的功能。
尽管R有时会让初学者感到畏惧,特别是那些没有编程经验的人,但是我发现用编程分析来代替鼠标操作,学习过程很快就变得容易很多,而且更方便、更可靠。这正是我的目标:让学习变得更快、更容易。
本书内容的安排和布局是按照我在研究生院学习R时希望能够被教导的方式来设计的。综合来说,本书的内容是结合我在哥伦比亚大学所教的一门数据科学课程所形成的。这并不意味着覆盖R的每一个细枝末节,而在于用20%的功能去完成80%的工作。
第2版更新了许多第1版出版之后开发的工具。主要新增加的有:Tidyverse中做数据处理的包dplyr、tidyr和purrr,模型拟合中的boosted tree,以及模型参数调优的caret包。knitr章节拆分成两章,分别介绍knitr包和LaTeX、RMarkdown。它们在过去几年得到了显著的改进,包括创建允许JavaScript和文档混用的htmlwidgets。接着用整章介绍Shiny,它被开发用来在R语言中创建交互式Web dashboard。编写R语言包的章节更新了代码测试部分。读取数据的章节更新了部分读取数据的新方法,包括readr、readxl和jsonlite包。这些更新的内容都是R语言社区实践的结果。本书的内容包括如下章节。
第1章涉及从哪里下载R,如何安装不同的操作系统以及32位和64位版本的问题。该章还给出了安装R的路径的一些建议。
第2章涵盖如何整合RStudio和Git,比如RStudio的个人定制和导航。
第3章讲解如何定位、安装和加载R语言包。
第4章介绍R处理数学问题:变量类型(如numeric、character、Date)、向量、调用函数等,也介绍了函数调用和查看函数文档。
第5章涵盖常用数据结构,数据框(data.frame)、矩阵和列表。
第6章涉及读取数据到R中。在分析数据之前,需要先将数据读取到R中,有多种方式可以获取数据,包括从CSV和数据库读取。
第7章介绍直观的统计图形。图形是数据分析和交流结果的关键部分。R语言能用来绘制漂亮的图形。该章将详细介绍基本图形和ggplot2。
第8章涉及通过用户自定义函数使可重复分析变得更容易。该章讨论了结构、参数和返回规则。
第9章介绍流程控制,包括if、ifelse和复杂的控制流程。
第10章介绍R语言的循环迭代,包括for和while循环。通常推荐使用这些结构,所以需要了解清楚。
第11章介绍一种比循环更好的方式:向量化。向量化并没有去循环遍历数据,而是一次性操作所有元素。这种高效的操作方式被用在plyr包和apply函数中。
第12章涉及高效的分组操作:dplyr,介绍下一代分组操作。这些新包已通过data.frames进行了优化,并从用于使高效代码更易读的管道获益。
第13章介绍数据迭代,用purrr包来迭代列表和向量。
媒体评论
本书融合资深数据科学家Jared P. Lander在教授R语言上的丰富经验,通过大量实例,详细讲解R语言的核心功能。对刚接触统计程序和模型的人来说,本书是一套堪称完美的教程,其内容的组织结构使得学习R语言变得简单和直观。本书集中介绍R语言20%的功能,但这20%的功能足以完成80%的现代数据工作。
书中的每一章都自成体系,从基础知识开始,提供大量的实例和代码。你将下载和安装R语言,设置和使用R语言环境,掌握基本的程序控制、数据导入、操作和可视化,并完成几个测验。在此基础上,你将构建几个完整的模型,包括线性和非线性模型,学习数据挖掘技术。接着你将学习使用LaTeX、RMarkdown和Shiny等重新生成代码。
本书适合程序员、科学家、量化分析人员(宽客)、Excel用户和其他专业人士阅读。读完本书,你不仅能熟练使用R语言编程,也能处理遇到的统计问题。