基本信息
- 原书名:Learning Data Mining with R
- 作者: (哈)贝特·麦克哈贝尔(Bater Makhabel)
- 译者: 李洪成 许金炜 段力辉
- 丛书名: 数据分析与决策技术丛书
- 出版社:机械工业出版社
- ISBN:9787111547693
- 上架时间:2017-9-18
- 出版日期:2016 年11月
- 开本:16开
- 版次:1-1
- 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计

编辑推荐
《R语言数据挖掘》由机械工业出版社出版。
内容简介
作译者
Bater的生活开创性地在计算机科学和人文科学之间取得了平衡。在过去的12年中,他在应用多种先进计算机技术于文化创作方面获得了经验,其中一项是人机界面,通过哈萨克语与计算机系统进行交互。他一直和他工作领域中的其他作家有合作,但是本书是他的第一部正式作品。
审校者简介
Jason H.D. Cho在伊利诺伊大学香槟分校获得计算机硕士学位,现在在攻读博士。他对应用自然语言处理和大数据解决医学信息问题特别感兴趣。尤其是,他希望能在社交媒体上找到病人关心的健康需求。他曾带领一个学员小组在美国一项主要的保健竞赛(CIMIT)中跻身前10名。Jason也为自然语言处理和大数据研究领域的文章进行审稿。
Gururaghav Gopal现在在Paterson证券公司工作,其职位是量化分析员、开发人员、交易员和分析师。以前,他是一个和电商行业相关的数据科学咨询师。他曾经在印度韦洛尔的韦洛尔理工大学教授大学生和研究生模式识别课程。他曾经在一些研究机构做过研究助理,包括IFMR和NAL。
Gururaghav获得了电子工程的学士学位、计算机科学和工程的硕士学位,并在IFMR辅修金融工程和风险管理方面的课程。之后,他便在金融相关领域工作。他获得过多个奖项并以他的名字发表过多篇文章。他对编程、教学和咨询感兴趣。在闲暇时间,他会听
音乐。
Vibhav Kamath获得了位于孟买的印度理工学院工业工程和运筹学的硕士学位,并具有位于浦那的工学院的电子工程学士学位。大四期间,他对算法和数学模型产生了兴趣,从此便进入分析领域。Vibhav现在在班加罗尔的一家IT服务公司工作,其工作的一部分内容是应用R编程语言基于优化和线性回归技术来开发统计和数学模型。他曾经审阅过Packt出版社出版的两本R语言图书:R Graphs Cookbook, Second Edition和Social Media Mining with R,他曾经应用SAS、SQL和Excel/VBA做过数据可视化,为一家银行开发过仪表盘程序。
过去,Vibhav从事过离散时间仿真和语言处理(均基于MATLAB)等方面的学术工作。他涉猎过机器人领域,建立了一个浏览魔方的机器人Micromouse。除了分析和编程之外,Vibhav喜欢阅读小说类读物。空闲时,他打乒乓球、板球和网球,实在无聊时就玩田字格游戏(数独和数谜)。可以通过邮件vibhav.kamath@hotmail.com或者领英in.linkedin.com/in/vibhavkamath与他联系。
Hasan Kurban于2012年在布卢明顿的印度大学获得计算机硕士学位,现在在该校的信息与计算机学院攻读博士学位,专业为计算机科学同时辅修统计学。他的研究方向为数据挖掘、机器学习和统计学。
目录
作者简介
审校者简介
前言
致谢
第1章 预备知识 1
1.1 大数据 2
1.2 数据源 3
1.3 数据挖掘 4
1.3.1 特征提取 4
1.3.2 总结 4
1.3.3 数据挖掘过程 5
1.4 社交网络挖掘 7
1.5 文本挖掘 9
1.5.1 信息检索和文本挖掘 10
1.5.2 文本挖掘预测 10
1.6 网络数据挖掘 10
1.7 为什么选择R 12
1.8 统计学 12
1.8.1 统计学与数据挖掘 13
译者序
本书提供了应用最流行的数据挖掘算法解决预测模型问题的可行策略,读者可以从中更好地理解主流的预测模型,也可以学习数据挖掘的实际经验。
本书第1章介绍数据挖掘、机器学习和数据预处理的基本概念;第2章介绍频繁模式挖掘、关联规则和相关性;第3章和第4章分别介绍分类和高级分类技术;第5章和第6章分别介绍聚类分析算法和高级聚类分析算法;第7章讨论异常值检测;第8章介绍流数据、时间序列数据及序列数据挖掘;第9章讨论图挖掘和网络分析;第10章介绍文本和网络数据挖掘。
读者可以从书中给出的伪代码出发,构建适合自己需要的算法;或者直接应用随书提供的R语言实现的算法。本书适合对数据挖掘感兴趣的各类人士,不管你是数据挖掘算法的研究人员,还是数据挖掘工程师,本书都可以提供相应的帮助。
本书的翻译得到了广西高校数据分析与计算重点实验室的资助。在本书的翻译过程中,得到了王春华编辑的大力支持和帮助。本书责任编辑盛思源老师具有丰富的经验,为本书的出版付出了大量的劳动,这里对她们的支持和帮助表示衷心的感谢。
由于时间和水平所限,难免会有不当之处,希望同行和读者多加指正。
译者
前言
R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知。它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码。由于R语言开发团队和独立贡献者已经创建了良好的文档,所以使用R语言编程并不困难。
进而,你可以使用来自R语言官方网站的程序包。如果你想不断提高自己的专业水平,那么你可能需要阅读在过去几年中已经出版的书籍。你应该始终铭记:创建高水平、安全且国际兼容的代码比初始创建的第一个应用程序更加复杂。
本书的目的是帮助你处理在复杂的统计项目中遇到的一系列可能比较困难的问题。本书的主题包括:学习在运行R语言程序时,如何使用R代码段处理数据,挖掘频繁模式、关联规则和相关规则。本书还为那些具有R语言基础的读者提供了成功创建和自定义最常用数据挖掘算法的技能和知识。这将有助于克服困难,并确保在运用R语言公开可用的丰富程序包开发数据挖掘算法时,R编程语言能够得到最有效的使用。
本书的每一章是独立存在的,因此你可以自由地跳转到任何一章,学习你觉得自己需要对某个特定的话题进行更加深入了解的章节。如果你觉得自己遗漏了一些重要的知识,你可以回顾前面的章节。本书的组织方式有助于逐步拓展你的知识框架。
你需要了解如何编写不同的预测模型、流数据和时间序列数据的代码,同时你还会接触到基于MapReduce算法(一种编程模型)的解决方案。学完本书,你将会为自己所具备的能力(知道哪种数据挖掘算法应用于哪种情况)而感到自信。
我喜欢使用R编程语言进行多用途数据挖掘任务的开发与研究,我非常高兴能与大家分享我的热情和专业知识,帮助大家更有效地使用R语言,更舒适地使用数据挖掘算法的发展成果与应用。
本书主要内容
第1章阐述数据挖掘的概要知识,数据挖掘与机器学习、统计学的关系,介绍数据挖掘基本术语,如数据定义和预处理等。
第2章包含使用R语言编程时,学习挖掘频繁模式、关联规则和相关规则所需的高级且有趣的算法。
第3章帮助你学习使用R语言编写经典分类算法,涵盖了应用于不同类型数据集的多种分类算法。
第4章讲述更多的分类算法,如贝叶斯信念网络、支持向量机(SVM)和k近邻算法。
第5章讲述如何使用流行与经典的算法进行聚类,如k均值、CLARA和谱算法。
第6章介绍与当前行业热点话题相关的高级聚类算法的实现,如EM、CLIQUE和DBSCAN等。
第7章介绍如何应用经典和流行算法来检测现实世界案例中的异常值。
第8章运用最流行、最经典以及一流的算法来讲解流数据、时间序列和序列数据挖掘这3个热点话题。
第9章介绍图挖掘和社交挖掘算法的概要及其他有趣的话题。
第10章介绍应用领域中最流行算法的有趣应用。
附录包含算法和数据结构的列表以便帮助你学习数据挖掘。
学习本书的准备知识