数据挖掘导论:完整版(全面介绍数据挖掘的理论和方法)
基本信息
- 原书名: Introduction to Data Mining
- 原出版社: Addison Wesley
- 作者: (美)Pang-Ning Tan Michael Steinbach Vipin Kumar [作译者介绍]
- 译者: 范明 范宏建
- 丛书名: 图灵计算机科学
- 出版社:人民邮电出版社
- ISBN:9787115241009
- 上架时间:2010-12-16
- 出版日期:2011 年1月
- 开本:16开
- 页码:463
- 版次:2-1
- 所属分类:
计算机 > 数据库 > 数据库存储与管理
编辑推荐
《数据挖掘导论(完整版)》全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。
《数据挖掘导论(完整版)》是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。《数据挖掘导论(完整版)》特色
与许多其他同类图书不同,《数据挖掘导论(完整版)》将重点放在如何用数据挖掘知识解决各种实际问题。
只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。
书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接聚焦于数
据挖掘的主要概念。
教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集)、联机指南(使
用实际的数据集和数据分析软件,《数据挖掘导论(完整版)》介绍的部分数据挖掘技术提供例子讲解)。
推荐阅读
内容简介回到顶部↑
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量示例、图表和习题。
《数据挖掘导论(完整版)》适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为数据挖掘研究和应用开发人员的参考书。
《数据挖掘导论(完整版)》适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为数据挖掘研究和应用开发人员的参考书。
作译者回到顶部↑
本书提供作译者介绍
作者:(美国)陈封能(Pang-Ning Tan) (美国)斯坦巴赫(Michael Steinbach) (美国)库玛尔(Vipin Kumar) 译者:范明 范宏建 等
陈封能(Pang-Ning Tan)现为密歇根州立大学计算机与工程系助理教授,主要教授数据挖掘、数据库系统等课程。此前,他曾是明尼苏达大学美国陆军高性能计算研究中心副研究员(2002-2003)。
斯坦巴赫(Michael Steinbach)明尼苏达大学计算机与工程系研究员,在读博士。
库玛尔(Vipin Kumar)明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能.. << 查看详细
目录回到顶部↑
第1章 绪论 1
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
译者序回到顶部↑
自从我和孟小峰等人翻译J. Han和M. Kamber的《数据挖掘:概念与技术》以来,我们高兴地看到数据挖掘的研究正在我国蓬勃开展。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们之中不仅有来自数据库领域的专家,而且不乏统计学、人工智能和模式识别、机器学习等领域的研究者。国内的学者和研究者在数据挖掘方面的研究已经取得了一些令人鼓舞的成果,并且正在逐渐与国际学术界同步。
数据挖掘的产生和发展一直是分析和理解数据的实际需求推动的。数据挖掘研究的进展也正是在于一直重视与其他领域研究者的合作。数据挖掘从工业、农业、医疗卫生和商业的需求中获得动力,从统计学、机器学习等领域的长期研究与发展中汲取营养。我们相信,只要有理解数据的需求,就有推动数据挖掘研究与应用发展的动力;只要依靠多学科的团队,就能应对新的数据分析任务带来的挑战。
P. Tan、M. Steinbach和V. Kumar编写的这本《数据挖掘导论》是继《数据挖掘:概念与技术》一书之后的另一本重要的数据挖掘著作。三位作者都从事数据挖掘研究多年,其中Vipin Kumar教授是数据挖掘和高性能计算领域的国际知名学者。本书原版在正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。J. Han教授也高度评价该书:“这是一本全新数据挖掘的教材,值得大力推荐。它将成为我们的主要参考书。”
本书不需要读者具备数据库背景,只需要少量统计学或数学背景知识,而且取材涉及的学科和应用领域较多,实用性强,因此适合的读者面较广。本书强调如何用数据挖掘知识解决各种实际问题,强调所挖掘的知识模式的评估。例如,就像我们能够从天空中的白云想象出各种动物和物体一样,每个聚类算法能够从几乎所有的数据集中发现聚类。如果数据集合中根本不存在自然的簇,所产生的聚类很难说具有实际意义。
全书共分10章。范明负责第1~8章的翻译,范宏建负责第9章和第10章的翻译。蒋宏杰、贾玉祥、许红涛和温箐笛也参加本书的最初翻译工作。全书的译文由范明负责统一定稿。在翻译的过程中,对发现的错误进行了更正,并得到原书作者的确认。
感谢P. Tan、M. Steinbach和V. Kumar为中文版撰写序言。感谢人民邮电出版社图灵公司的编辑们,他们在第一时间内引进本书,并组织翻译,使得中文版能够如此之快地与读者见面。
译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzu.edu.cn。希望读者喜欢这本译著,希望这本译著有助于推动我国的数据挖掘研究与应用的深入开展。
范明
2006年2月于郑州大学
数据挖掘的产生和发展一直是分析和理解数据的实际需求推动的。数据挖掘研究的进展也正是在于一直重视与其他领域研究者的合作。数据挖掘从工业、农业、医疗卫生和商业的需求中获得动力,从统计学、机器学习等领域的长期研究与发展中汲取营养。我们相信,只要有理解数据的需求,就有推动数据挖掘研究与应用发展的动力;只要依靠多学科的团队,就能应对新的数据分析任务带来的挑战。
P. Tan、M. Steinbach和V. Kumar编写的这本《数据挖掘导论》是继《数据挖掘:概念与技术》一书之后的另一本重要的数据挖掘著作。三位作者都从事数据挖掘研究多年,其中Vipin Kumar教授是数据挖掘和高性能计算领域的国际知名学者。本书原版在正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。J. Han教授也高度评价该书:“这是一本全新数据挖掘的教材,值得大力推荐。它将成为我们的主要参考书。”
本书不需要读者具备数据库背景,只需要少量统计学或数学背景知识,而且取材涉及的学科和应用领域较多,实用性强,因此适合的读者面较广。本书强调如何用数据挖掘知识解决各种实际问题,强调所挖掘的知识模式的评估。例如,就像我们能够从天空中的白云想象出各种动物和物体一样,每个聚类算法能够从几乎所有的数据集中发现聚类。如果数据集合中根本不存在自然的簇,所产生的聚类很难说具有实际意义。
全书共分10章。范明负责第1~8章的翻译,范宏建负责第9章和第10章的翻译。蒋宏杰、贾玉祥、许红涛和温箐笛也参加本书的最初翻译工作。全书的译文由范明负责统一定稿。在翻译的过程中,对发现的错误进行了更正,并得到原书作者的确认。
感谢P. Tan、M. Steinbach和V. Kumar为中文版撰写序言。感谢人民邮电出版社图灵公司的编辑们,他们在第一时间内引进本书,并组织翻译,使得中文版能够如此之快地与读者见面。
译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzu.edu.cn。希望读者喜欢这本译著,希望这本译著有助于推动我国的数据挖掘研究与应用的深入开展。
范明
2006年2月于郑州大学
前言回到顶部↑
数据生成和收集技术的进步促使商业和科研领域产生了海量数据集。数据仓库能够存储多种数据,如:企业销售和运作的详细情况,地球轨道卫星发送回地球的高分辨率图像和遥感数据,对越来越多的有机体进行的基因组实验产生的序列、结构和机能数据。收集和存储数据变得轻松简便,已经完全改变了人们对数据分析的态度,人们开始尽可能地收集各个时期和各种来源的数据。人们相信收集的数据肯定会有价值,或者当初收集它就有明确的目的,或者只是先收集起来再说。
传统数据分析技术在应对这些新型数据集提出的挑战时存在种种局限性,而数据挖掘技术突破了这些局限。数据挖掘并不是要取代其他分析领域,而是以它们为基础。尽管数据挖掘的某些主题(如关联分析)是其独有的,但是,还有许多主题(如聚类、分类和异常检测)则建立在其他领域长期工作的基础之上。事实上,数据挖掘研究者们主动利用已有技术对增强和拓展这个领域以及推动它的快速发展起到了促进作用。
该领域一直强调与其他领域的研究者合作,因而充满了活力。要迎接新类型数据分析的挑战,抛开理解数据的人和数据所处的领域而简单地使用数据分析技术是不可行的。通常,能否组建好多学科研究团队,已经成为数据挖掘项目(如创建新的独创性算法)成败的决定因素。正如历史上统计学的许多进展都是由农业、工业、医疗卫生和商业需求推动的一样,今天,数据挖掘的许多进展也正在被这些领域的需求所推动。
自1998年春季开始,我们在明尼苏达大学为高年级本科生和研究生开设了数据挖掘课程。为这些课程准备的演示幻灯片和习题随着时间不断积累,成为本书的基础。数据挖掘的聚类技术综述最初是为该领域的某项研究而写的,它也成为本书第8章的雏形。随着时间的推移,又增加了关于数据、分类、关联分析和异常检测的几章。本书定稿后已在作者所在的学校(明尼苏达大学和密歇根州立大学)以及其他一些大学作为教材试用。
在此期间,出现了许多数据挖掘方面的书籍,但是都不能完全满足我们学生的需要——他们主要是计算机科学专业的研究生和本科生,也包括来自工科和其他专业的学生。他们的数学和计算机背景差异很大,但是都有一个共同目标:尽可能直接地学习数据挖掘,尽快地将其应用到各自的领域。因此,要求较多数学和统计学预备知识的书对他们中的许多人都没有吸引力,需要坚实的数据库背景的书也有同样的问题。为了满足这些学生需求而逐渐写成的本书,现在的完稿使用了大量例子、习题并用简洁的语言描述了关键算法,尽可能直接把重点放在数据挖掘的主要概念上。
概述
具体而言,本书全面介绍了数据挖掘,方便学生、教师、研究人员和专业人士理解有关概念和技术。本书所涵盖的领域包括数据预处理、可视化、预测建模、关联分析、聚类和异常检测。目标是讲述每个主题的基本概念和算法,从而为读者提供将数据挖掘应用于实际问题所需的必要背景。此外,本书也为有志于从事数据挖掘和相关领域研究的读者提供一个起点。
本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都分两章讲述。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,后面的一章深入讨论高级概念和算法。这样做的目的是使读者透彻地理解数据挖掘的基础,同时论述更多重要的高级主题。由于这种安排,本书既可用作为教材又可用作参考书。
为了帮助读者理解书中概念,我们提供大量示例、图表和习题。每一章的结尾给出了文献注释,是为那些对更高级的主题、重要的历史文献和当前趋势感兴趣的读者提供的。
致教师
作为一本教材,本书广泛适合于高年级本科生和研究生。由于学习这门课程的学生背景不同,他们可能不具备广博的统计学和数据库知识,因此本书只要求最低限度的预备知识——不需要数据库知识,并假定读者只有一般的统计学或数学背景。本书尽可能自成一体。统计学、线性代数和机器学习的必要基础知识或者已经融入正文,或者包含在附录中。
由于讨论主要数据挖掘主题的各章也是自成一体的,因此主题的讲授次序相当灵活。核心题材在第2、4、6、8和10章介绍。数据导论(第2章)应当最先讨论,基本的分类、关联分析和聚类(分别是第4、6、8章)可以以任意次序讲述。由于异常处理(第10章)与分类(第4章)和聚类(第8章)有一定的关系,这两章应当在第10章之前讲述。还可以根据课程安排和师生的兴趣从高级的分类、关联分析和聚类(分别为第5、7、9章)中选讲一些主题。我们也建议教师用数据挖掘的实际项目和练习强化课程的教学。尽管这样做很耗费时间,但是实践性的作业可以大大提高这门课程的价值。
支持材料
本书的教辅材料可以在Addison-Wesley的网站(www.aw-bc.com/cssupport)上找到 。提供给所有读者的支持材料如下。
课程幻灯片。
学生项目建议。
数据挖掘资源,如数据挖掘算法和数据集。
联机指南,使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解。
其他支持材料(包括习题答案)只向采纳本书做教材的教师提供。意见和建议以及勘误请通过dmbook@cs.unm.edu发给作者。
致谢
传统数据分析技术在应对这些新型数据集提出的挑战时存在种种局限性,而数据挖掘技术突破了这些局限。数据挖掘并不是要取代其他分析领域,而是以它们为基础。尽管数据挖掘的某些主题(如关联分析)是其独有的,但是,还有许多主题(如聚类、分类和异常检测)则建立在其他领域长期工作的基础之上。事实上,数据挖掘研究者们主动利用已有技术对增强和拓展这个领域以及推动它的快速发展起到了促进作用。
该领域一直强调与其他领域的研究者合作,因而充满了活力。要迎接新类型数据分析的挑战,抛开理解数据的人和数据所处的领域而简单地使用数据分析技术是不可行的。通常,能否组建好多学科研究团队,已经成为数据挖掘项目(如创建新的独创性算法)成败的决定因素。正如历史上统计学的许多进展都是由农业、工业、医疗卫生和商业需求推动的一样,今天,数据挖掘的许多进展也正在被这些领域的需求所推动。
自1998年春季开始,我们在明尼苏达大学为高年级本科生和研究生开设了数据挖掘课程。为这些课程准备的演示幻灯片和习题随着时间不断积累,成为本书的基础。数据挖掘的聚类技术综述最初是为该领域的某项研究而写的,它也成为本书第8章的雏形。随着时间的推移,又增加了关于数据、分类、关联分析和异常检测的几章。本书定稿后已在作者所在的学校(明尼苏达大学和密歇根州立大学)以及其他一些大学作为教材试用。
在此期间,出现了许多数据挖掘方面的书籍,但是都不能完全满足我们学生的需要——他们主要是计算机科学专业的研究生和本科生,也包括来自工科和其他专业的学生。他们的数学和计算机背景差异很大,但是都有一个共同目标:尽可能直接地学习数据挖掘,尽快地将其应用到各自的领域。因此,要求较多数学和统计学预备知识的书对他们中的许多人都没有吸引力,需要坚实的数据库背景的书也有同样的问题。为了满足这些学生需求而逐渐写成的本书,现在的完稿使用了大量例子、习题并用简洁的语言描述了关键算法,尽可能直接把重点放在数据挖掘的主要概念上。
概述
具体而言,本书全面介绍了数据挖掘,方便学生、教师、研究人员和专业人士理解有关概念和技术。本书所涵盖的领域包括数据预处理、可视化、预测建模、关联分析、聚类和异常检测。目标是讲述每个主题的基本概念和算法,从而为读者提供将数据挖掘应用于实际问题所需的必要背景。此外,本书也为有志于从事数据挖掘和相关领域研究的读者提供一个起点。
本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都分两章讲述。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,后面的一章深入讨论高级概念和算法。这样做的目的是使读者透彻地理解数据挖掘的基础,同时论述更多重要的高级主题。由于这种安排,本书既可用作为教材又可用作参考书。
为了帮助读者理解书中概念,我们提供大量示例、图表和习题。每一章的结尾给出了文献注释,是为那些对更高级的主题、重要的历史文献和当前趋势感兴趣的读者提供的。
致教师
作为一本教材,本书广泛适合于高年级本科生和研究生。由于学习这门课程的学生背景不同,他们可能不具备广博的统计学和数据库知识,因此本书只要求最低限度的预备知识——不需要数据库知识,并假定读者只有一般的统计学或数学背景。本书尽可能自成一体。统计学、线性代数和机器学习的必要基础知识或者已经融入正文,或者包含在附录中。
由于讨论主要数据挖掘主题的各章也是自成一体的,因此主题的讲授次序相当灵活。核心题材在第2、4、6、8和10章介绍。数据导论(第2章)应当最先讨论,基本的分类、关联分析和聚类(分别是第4、6、8章)可以以任意次序讲述。由于异常处理(第10章)与分类(第4章)和聚类(第8章)有一定的关系,这两章应当在第10章之前讲述。还可以根据课程安排和师生的兴趣从高级的分类、关联分析和聚类(分别为第5、7、9章)中选讲一些主题。我们也建议教师用数据挖掘的实际项目和练习强化课程的教学。尽管这样做很耗费时间,但是实践性的作业可以大大提高这门课程的价值。
支持材料
本书的教辅材料可以在Addison-Wesley的网站(www.aw-bc.com/cssupport)上找到 。提供给所有读者的支持材料如下。
课程幻灯片。
学生项目建议。
数据挖掘资源,如数据挖掘算法和数据集。
联机指南,使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解。
其他支持材料(包括习题答案)只向采纳本书做教材的教师提供。意见和建议以及勘误请通过dmbook@cs.unm.edu发给作者。
致谢
序言回到顶部↑
我们非常欢迎由范明教授和范宏建博士等人将我们的书翻译成中文,他们在此之前翻译了几本关于统计学和数据挖掘方面的著名教材。数据挖掘是计算机科学的一‘个领域,其目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益。我们已经目睹了这个领域的迅猛增长和发展,学者和研究人员大量涌入其中,他们不仅来自西方国家,而且来自远东地区。我们感谢范明教授和范宏建博士,他们的翻译成果使本书得以传播到更广的读者群,包括那些精通中文的学生和研究人员。我们期望读者会发现这是一部有用的和引人入胜的书籍。祝你们成功!
Pang-Ning Tan
Michael Steinbach
Vipin Kumar
2005年12月于密歇根州立大学和明尼苏达大学
Pang-Ning Tan
Michael Steinbach
Vipin Kumar
2005年12月于密歇根州立大学和明尼苏达大学
媒体评论回到顶部↑
“这是一本全新的数据挖掘教材,值得大力推荐。”
——Jiawei Han
——Jiawei Han
【插图】







点击看大图


加载中...

