数据挖掘导论(英文影印版)
基本信息
编辑推荐
“这是一本全新的数据挖掘教材,值得大力推荐。”——Jiawei Han,伊利诺伊大学教授.
本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。
内容简介回到顶部↑
本书对数据挖掘进行了全面介绍,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章:前面一章讲述基本概念、代表性算法和评估技术,而后面一章较深入地讨论高级概念和算法。目的是在使读者透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量例子、图表和习题。
本书适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为从事数据挖掘研究和应用开发工作的技术人员的参考书。
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章:前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。.
本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。
本书特色
·与许多其他同类图书不同,本书将重点放在如何用数据挖掘知识解决各种实际问题。..
·只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。
·书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接地聚焦于数据挖掘的主要概念。
·教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集l联机指南(使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解)。
·为采用本书作为教材的教师提供习题解答。...
本书适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为从事数据挖掘研究和应用开发工作的技术人员的参考书。
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章:前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。.
本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。
本书特色
·与许多其他同类图书不同,本书将重点放在如何用数据挖掘知识解决各种实际问题。..
·只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。
·书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接地聚焦于数据挖掘的主要概念。
·教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集l联机指南(使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解)。
·为采用本书作为教材的教师提供习题解答。...
作译者回到顶部↑
本书提供作译者介绍
Pang-Ning Tan 现为密歇根州立大学计算机与工程系助理教授,主要教授数据挖掘、数据库系统等课程。此前,他曾是明尼苏达大学美国陆军高性能计算研究中心副研究员(2002—2003)。.
Michael Steinbach 明尼苏达大学计算机与工程系研究员,在读博士。..
Vipin Kumar 明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位,是数据挖掘和高性能计算方面的国际权威,IEEE会士。...
.. << 查看详细
Michael Steinbach 明尼苏达大学计算机与工程系研究员,在读博士。..
Vipin Kumar 明尼苏达大学计算机科学与工程系主任,曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位,是数据挖掘和高性能计算方面的国际权威,IEEE会士。...
.. << 查看详细
目录回到顶部↑
1 introduction 1
1.1 what is data mining? 2
1.2 motivating challenges 3
1.3 the origins of data mining 4
1.4 data mining tasks 5
1.5 scope and organization of the book 8
1.6 bibliographic notes 9
1.7 exercises 12
2 data 13
2.1 types of data 15
2.1.1 attributes and measurement 15
2.1.2 types of data sets 20
2.2 data quality 25
2.2.1 measurement and data collection issues 26
2.2.2 issues related to applications 31
2.3 data preprocessing 32
2.3.1 aggregation 32
2.3.2 sampling 34
2.3.3 dimensionality reduction 36
2.3.4 feature subset selection 37
1.1 what is data mining? 2
1.2 motivating challenges 3
1.3 the origins of data mining 4
1.4 data mining tasks 5
1.5 scope and organization of the book 8
1.6 bibliographic notes 9
1.7 exercises 12
2 data 13
2.1 types of data 15
2.1.1 attributes and measurement 15
2.1.2 types of data sets 20
2.2 data quality 25
2.2.1 measurement and data collection issues 26
2.2.2 issues related to applications 31
2.3 data preprocessing 32
2.3.1 aggregation 32
2.3.2 sampling 34
2.3.3 dimensionality reduction 36
2.3.4 feature subset selection 37
前言回到顶部↑
随着数据生成和收集的不断发展,在商业和科研领域产生了海量的数据集。数据仓库能够用来存储这些形形色色的数据:企业销售和运作的详细情况,绕地卫星发送回地球的高分辨率图像和遥感数据,基因组实验对越来越多的有机体产生的序列、结构和机能数据。收集和存储数据的轻松简便,已经完全改变了人们对数据分析的态度:尽可能地收集各种数据。人们开始相信收集的数据肯定会有价值,不管当初收集的目的是否明确。.
数据挖掘领域兴起的根本原因,正是当前的数据分析技术在应对新的数据集所提出的挑战方面具有局限性。数据挖掘并不是要取代其他分析领域,而是将它们作为其工作的基础。尽管数据挖掘的某些主题(如关联分析)是其独有的,但是,另一些主题(如聚类、分类和异常检测)则建立在其他领域在这些主题长期工作的基础之上。事实上,数据挖掘研究者们利用已有技术的自发性已经对该领域的实力和广度以及它的快速成长贡献良多。
该领域的优势还表现在,一直强调与其他领域的研究者合作。要迎接分析新类型数据所面临的挑战,抛开理解数据的人和数据所处的领域而简单地使用数据分析技术是不可行的。通常,这种多学科研究团队既需要能够成功完成数据挖掘项目又需要能够开发新算法。正如统计学的许多发展历史上都是被农业、工业、医疗卫生和商业需求推动的一样,数据挖掘的许多发展也正在被这些领域的需求所推动。
本书源自1998年春季开始至今在明尼苏达大学为高年级学生和研究生开设的数据挖掘课程的讲义和教学幻灯片。在这些课程中开发的演示幻灯片和习题随着时间不断积累,成为本书的基础。数据挖掘的聚类技术综述最初是为准备该领域的研究而写的,它也成为本书一章的起点。随着时间的推移,又增加了关于数据、分类、关联分析和异常检测的几章。本书最终稿已经在作者所在的学校(明尼苏达大学和密歇根州立大学)以及其他一些大学的课堂作为教材试用了。
在此期间,出现了许多数据挖掘方面的书籍,但是都不能完全满足我们学生的需要——他们主要是计算机科学专业的研究生和本科生,也包括来自工业界和其他各学科的学生。他们的数学和计算机背景差异很大,但是都有一个共同目标:尽可能直接地学习数据挖掘,以便尽快地将其应用到各自的领域。因此,要求广泛数学和统计学预备知识的书对他们中的许多人都没有吸引力。需要坚实的数据库背景的书也有同样问题。本书根据这些学生的需求而不断发展,现在的完稿通过使用例子、关键算法的简洁描述和习题,已经尽可能直接地聚焦于数据挖掘的主要概念。
概述..
具体而言,本书提供了数据挖掘的全面介绍,目的是对学生、教师、研究人员和专业人士而言容易理解和有所帮助的。本书所涵盖的领域包括数据预处理、可视化、预测建模、关联分析、聚类和异常检测。目标是讲述每个主题的基本概念和算法,从而为读者提供将数据挖掘应用于实际问题所需的必要背景。此外,本书也为有志于从事数据挖掘和相关领域研究的读者提供了很好的起点。
本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,而后面较深入的一章讨论高级概念和算法。目的是在使读者能够透彻地理解数据挖掘基础的同时,涵盖许多重要的高级主题。由于这种安排,本书既可用作为学习工具又可用作参考书。
为了帮助读者理解书中概念,我们提供了大量例子、图表和习题。文献注释出现在每一章的结尾,是为那些对更高级的主题、重要的历史文献和当前趋势感兴趣的读者提供的。
致教师
作为一本教材,本书广泛适合于高年级本科生和研究生。对由于学习该课程的学生背景不同,可能不具有广泛的统计学和数据库知识,本书对预备知识的要求极少——不需要数据库知识,只需要适度的统计学或数学背景。本书尽可能自成一体。统计学、线性代数和机器学习的必要基础知识已经结合到正文中。
由于讨论主要数据挖掘主题的各章也是自成一体的,因此主题的讲授次序相当灵活。核心内容在第2、4、6、8和10章。尽管数据导论(第2章)应当最先讨论,但是基本的分类、关联分析和聚类(分别是第2、4、6章)可以以任意次序讲述。由于异常处理(第10章)与分类(第4章)和聚类(第8章)有一定的关系,这两章应当在第10章之前讲述。可以从高级的分类、关联分析和聚类章(分别为第5、7、9章)中挑选不同的主题,以适合课程安排和教师与学生的兴趣。我们建议教师用数据挖掘的实际项目和练习增强课程。尽管这样做很耗费时间,但是课外作业可以大大提高这门课程的价值。
支持材料
本书的辅助材料可以在Addison—Wesley的Wbb网站(www.aw-bc.com/cssuppport)上找到。提供给所有读者的支持材料如下:
·课程幻灯片。
·学生项目建议。
·数据挖掘资源,如数据挖掘算法和数据集。
·联机指南,使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供
例子讲解。...
其他支持材料(包括习题答案)只向采纳本书做教材的教师提供。评论和建议以及报告错误请通过dmbook@cs.unm.edu发给作者。
数据挖掘领域兴起的根本原因,正是当前的数据分析技术在应对新的数据集所提出的挑战方面具有局限性。数据挖掘并不是要取代其他分析领域,而是将它们作为其工作的基础。尽管数据挖掘的某些主题(如关联分析)是其独有的,但是,另一些主题(如聚类、分类和异常检测)则建立在其他领域在这些主题长期工作的基础之上。事实上,数据挖掘研究者们利用已有技术的自发性已经对该领域的实力和广度以及它的快速成长贡献良多。
该领域的优势还表现在,一直强调与其他领域的研究者合作。要迎接分析新类型数据所面临的挑战,抛开理解数据的人和数据所处的领域而简单地使用数据分析技术是不可行的。通常,这种多学科研究团队既需要能够成功完成数据挖掘项目又需要能够开发新算法。正如统计学的许多发展历史上都是被农业、工业、医疗卫生和商业需求推动的一样,数据挖掘的许多发展也正在被这些领域的需求所推动。
本书源自1998年春季开始至今在明尼苏达大学为高年级学生和研究生开设的数据挖掘课程的讲义和教学幻灯片。在这些课程中开发的演示幻灯片和习题随着时间不断积累,成为本书的基础。数据挖掘的聚类技术综述最初是为准备该领域的研究而写的,它也成为本书一章的起点。随着时间的推移,又增加了关于数据、分类、关联分析和异常检测的几章。本书最终稿已经在作者所在的学校(明尼苏达大学和密歇根州立大学)以及其他一些大学的课堂作为教材试用了。
在此期间,出现了许多数据挖掘方面的书籍,但是都不能完全满足我们学生的需要——他们主要是计算机科学专业的研究生和本科生,也包括来自工业界和其他各学科的学生。他们的数学和计算机背景差异很大,但是都有一个共同目标:尽可能直接地学习数据挖掘,以便尽快地将其应用到各自的领域。因此,要求广泛数学和统计学预备知识的书对他们中的许多人都没有吸引力。需要坚实的数据库背景的书也有同样问题。本书根据这些学生的需求而不断发展,现在的完稿通过使用例子、关键算法的简洁描述和习题,已经尽可能直接地聚焦于数据挖掘的主要概念。
概述..
具体而言,本书提供了数据挖掘的全面介绍,目的是对学生、教师、研究人员和专业人士而言容易理解和有所帮助的。本书所涵盖的领域包括数据预处理、可视化、预测建模、关联分析、聚类和异常检测。目标是讲述每个主题的基本概念和算法,从而为读者提供将数据挖掘应用于实际问题所需的必要背景。此外,本书也为有志于从事数据挖掘和相关领域研究的读者提供了很好的起点。
本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,而后面较深入的一章讨论高级概念和算法。目的是在使读者能够透彻地理解数据挖掘基础的同时,涵盖许多重要的高级主题。由于这种安排,本书既可用作为学习工具又可用作参考书。
为了帮助读者理解书中概念,我们提供了大量例子、图表和习题。文献注释出现在每一章的结尾,是为那些对更高级的主题、重要的历史文献和当前趋势感兴趣的读者提供的。
致教师
作为一本教材,本书广泛适合于高年级本科生和研究生。对由于学习该课程的学生背景不同,可能不具有广泛的统计学和数据库知识,本书对预备知识的要求极少——不需要数据库知识,只需要适度的统计学或数学背景。本书尽可能自成一体。统计学、线性代数和机器学习的必要基础知识已经结合到正文中。
由于讨论主要数据挖掘主题的各章也是自成一体的,因此主题的讲授次序相当灵活。核心内容在第2、4、6、8和10章。尽管数据导论(第2章)应当最先讨论,但是基本的分类、关联分析和聚类(分别是第2、4、6章)可以以任意次序讲述。由于异常处理(第10章)与分类(第4章)和聚类(第8章)有一定的关系,这两章应当在第10章之前讲述。可以从高级的分类、关联分析和聚类章(分别为第5、7、9章)中挑选不同的主题,以适合课程安排和教师与学生的兴趣。我们建议教师用数据挖掘的实际项目和练习增强课程。尽管这样做很耗费时间,但是课外作业可以大大提高这门课程的价值。
支持材料
本书的辅助材料可以在Addison—Wesley的Wbb网站(www.aw-bc.com/cssuppport)上找到。提供给所有读者的支持材料如下:
·课程幻灯片。
·学生项目建议。
·数据挖掘资源,如数据挖掘算法和数据集。
·联机指南,使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供
例子讲解。...
其他支持材料(包括习题答案)只向采纳本书做教材的教师提供。评论和建议以及报告错误请通过dmbook@cs.unm.edu发给作者。
评论交流
共有20人开贴评论 38人参与评论 15人参与打分 查看
评价等级:







发表于:2010-3-10 10:57:00
这本书的确有许多问题,但如果因为这些问题就不购买这本书,就似乎有些因噎废食了。这本书最大的好处是讲得深入浅出:没有用高深的数学公式把读者吓走,而是用丰富的例子一步一步地让读者明白作者所说的概念,算法;另外许多章节都很有启发意义,比如在讲Aprori算法的时候,对于如何通过连接生成新的candidate pattern,作者列出了所有可能的连接方法,并一一指出了其优劣,而不是像其他书籍那样断言就应该这么做。作者更像是一位老师,或是一位朋友,循循善诱,而不是一位高高在上的权威。因此,这本书无论对初学者,还是有一定经验的研究人员来说,都不失为一本好书。
p.s.我留学申请了MSU,申请的导师就是这本书的一作。希望自己能够梦想成真:)
p.s.我留学申请了MSU,申请的导师就是这本书的一作。希望自己能够梦想成真:)
评价等级:
发表于:2006-1-26 21:37:00
既然有出版社的朋友在,就多说两句,反映一下一个普通读者的看法:
首先说一下为什么只给了一颗星。这本书的作者是数据挖掘领域很活跃的学者、权威。这本书是这方面很重要的一本教科书和研究参考书(如同书的封面、封底的介绍所说)。然而作为一本教科书,附录中所介绍的基础知识和背景知识,对于学生是非常重要的。我自己教授研究生的数据挖掘课程,知道数据挖掘课的授课内容较多,一般课堂上不会有时间去复习数学知识。而国内大多数学校的数学教材都是中文的,附录有助于学生了解一些数学知识的英语表述(我们不能希望他们为学习数据挖掘再去购买一套数学原版教材),并对一些知识进行复习(大多数计算机专业的学生在大一、大二学习数学时,由于不了解应用,数学知识的应用能力有限)。
而索引(人名/论题),它对于一本研究参考书而言是非常重要的。读者(比如我,我的同事也是)经常需要查阅某个特定论题的内容,虽然目录(table of content)可以提供帮助,但是索引是我们常用的工具,一本没有索引的参考书的价值不超过原书的1/3 (参考文献的价值占1/3,内容占另1/3,对于做研究的读者而言)。
少了这两样必须的内容,这本书大概也就只配得一星了。
此外,是对于作者和读者的尊重问题。有些出版社在对一本书进行删节的时候,会在封面上进行标注,甚至使用另一个书号,有时还会出两个版本,所谓删节本和全本。选择权交给读者。而这本书没有进行任何说明。书的全部内容构成一个整体,包括序、前言、参考文献、附录、索引(我想面对出版社的朋友,这点应该不需要我提醒)。我不知道对书的删节是否得到了原出版社和作者的同意?从读者的角度看,轻点说,是考虑不周;重点说,是骗读者的钱(吸引读者买被“阉割”过的书籍,而未告知)。
此外,我理解重新排版(虽然我更喜欢原来接近于黄金分割长方形的版本,而不是现在接近于方形的排版,不便于书橱摆放,不过这是个人喜好的问题)。并提一个建议:附录和索引是否可以以电子版形式发布?(即使对于本书已经无能为力,以后的影印版是否可以这样做,如果出版社一定要删节的话,以供有需要的读者使用)由于这不是主要内容,版权方面出版社应该能够搞定(毕竟amazon上,很多书的附录和索引的电子版本身就是可以免费阅读的)。
希望能够听到出版社朋友的反馈!并祝新年快乐。
首先说一下为什么只给了一颗星。这本书的作者是数据挖掘领域很活跃的学者、权威。这本书是这方面很重要的一本教科书和研究参考书(如同书的封面、封底的介绍所说)。然而作为一本教科书,附录中所介绍的基础知识和背景知识,对于学生是非常重要的。我自己教授研究生的数据挖掘课程,知道数据挖掘课的授课内容较多,一般课堂上不会有时间去复习数学知识。而国内大多数学校的数学教材都是中文的,附录有助于学生了解一些数学知识的英语表述(我们不能希望他们为学习数据挖掘再去购买一套数学原版教材),并对一些知识进行复习(大多数计算机专业的学生在大一、大二学习数学时,由于不了解应用,数学知识的应用能力有限)。
而索引(人名/论题),它对于一本研究参考书而言是非常重要的。读者(比如我,我的同事也是)经常需要查阅某个特定论题的内容,虽然目录(table of content)可以提供帮助,但是索引是我们常用的工具,一本没有索引的参考书的价值不超过原书的1/3 (参考文献的价值占1/3,内容占另1/3,对于做研究的读者而言)。
少了这两样必须的内容,这本书大概也就只配得一星了。
此外,是对于作者和读者的尊重问题。有些出版社在对一本书进行删节的时候,会在封面上进行标注,甚至使用另一个书号,有时还会出两个版本,所谓删节本和全本。选择权交给读者。而这本书没有进行任何说明。书的全部内容构成一个整体,包括序、前言、参考文献、附录、索引(我想面对出版社的朋友,这点应该不需要我提醒)。我不知道对书的删节是否得到了原出版社和作者的同意?从读者的角度看,轻点说,是考虑不周;重点说,是骗读者的钱(吸引读者买被“阉割”过的书籍,而未告知)。
此外,我理解重新排版(虽然我更喜欢原来接近于黄金分割长方形的版本,而不是现在接近于方形的排版,不便于书橱摆放,不过这是个人喜好的问题)。并提一个建议:附录和索引是否可以以电子版形式发布?(即使对于本书已经无能为力,以后的影印版是否可以这样做,如果出版社一定要删节的话,以供有需要的读者使用)由于这不是主要内容,版权方面出版社应该能够搞定(毕竟amazon上,很多书的附录和索引的电子版本身就是可以免费阅读的)。
希望能够听到出版社朋友的反馈!并祝新年快乐。
发表于:2008-12-24 13:58:00
关于这本书的书评我想再说几句。我不反对楼下朋友对出版社的一些意见,而且确实出版社这么做是不对的。但是关于这本书本身的质量还是很不错的,个人觉得比韩老师那本书更容易让初学者上手。
这本书将分类、关联规则和聚类这数据挖掘三大主题的每一个都用两章来介绍,这两章又分为基础和提高。我个人觉得这种思路十分替初学者考虑,如果读者不是想从事专门研究的人,可以只读读基础部分;打算深入研究的可以在每个主题提高部分那章选择自己感兴趣的问题。
我之所以希望给本书写个评论,是希望初学者别因为看到了这本书给出的等级低就不去选择读它了。确实是本较易于让初学者上手的书籍,这是我的真实感受!
这本书将分类、关联规则和聚类这数据挖掘三大主题的每一个都用两章来介绍,这两章又分为基础和提高。我个人觉得这种思路十分替初学者考虑,如果读者不是想从事专门研究的人,可以只读读基础部分;打算深入研究的可以在每个主题提高部分那章选择自己感兴趣的问题。
我之所以希望给本书写个评论,是希望初学者别因为看到了这本书给出的等级低就不去选择读它了。确实是本较易于让初学者上手的书籍,这是我的真实感受!
| 我要写评论 |
| 查看所有评论交流(共20条) |








点击看大图




加载中...

