基本信息
- 原书名:Data Mining: Concepts and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems)
- 原出版社: Morgan Kaufmann; 3 edition
- 作者: (美)Jiawei Han (加)Micheline Kamber (加)Jian Pei
- 译者: 范明 孟小峰
- 丛书名: 计算机科学丛书
- 出版社:机械工业出版社
- ISBN:9787111391401
- 上架时间:2012-11-26
- 出版日期:2012 年8月
- 开本:16开
- 页码:468
- 版次:1-1
- 所属分类:计算机 > 数据库 > 数据库存储与管理
教材

编辑推荐
数据挖掘领域最具里程碑意义的经典著作
完整全面阐述该领域的重要知识和技术创新
内容简介
作译者
Micheline Kamber由加拿大魁北克蒙特利尔Concordia大学获计算机科学(人工智能专业)硕士学位。她曾是NSERC学者,作为研究者在McGill大学、西蒙-弗雷泽大学和瑞士工作。她的数据挖掘背景和以易于理解的形式写作的热情使得本书更受专业人员、教师和学生的欢迎。
Jian Pei(裴健)现在是西蒙-弗雷泽大学计算机科学学院教授。他在Jiawei Han的指导下,于2002年获西蒙-弗雷泽大学计算科学博士学位。他在数据挖掘、数据库、Web搜索和信息检索的主要学术论坛发表了大量文章,并积极服务于学术团体。他的文章被引用数千次,并获多次荣誉奖。他是多种数据挖掘和数据分析杂志的助理编辑。
范明 郑州大学信息工程学院教授,博士生导师。现为中国计算机学会数据库专业委员会委员、人工智能与模式识别专业委员会委员。长期从事计算机软件与理论教学和研究。主要讲授的课程包括程序设计、计算机操作系统、数据库系统原理、知识库系统原理、数据挖掘与数据仓库等。1989—1990年曾访问加拿大Simon Fraser大学计算机科学系,从事演绎数据库研究。1999年曾访问美国Wright State大学计算机科学与工程系,从事数据挖掘研究。当前感兴趣的研究方向包括数据挖掘和机器学习。先后发表论文60余篇。除本书外,还主持翻译了Pang-Ning Tan、Michael Steinbach和Vipin Kumar的《数据挖掘导论》。
孟小峰 博士,中国人民大学信息学院教授,博士生导师。现为中国计算机学会常务理事、中国计算机学会数据库专委会秘书长,《Journal of Computer Science and Technology》、《Frontiers of Computer Science》、《软件学报》、《计算机研究与发展》等编委。主持或参加过二十多项国家科技攻关项目、国家自然科学基金项目以及国家863项目、973项目,先后获电子部科技进步特等奖(1996)、北京市科技进步二等奖(1998、2001)、中国计算机学会“王选奖”一等奖(2009)、北京市科学技术奖二等奖(2011)等奖励,入选“中创软件人才奖”(2002)、“教育部新世纪优秀人才支持计划”(2004)、“第三届北京市高校名师奖”(2005)。近5年在国内外杂志及国际会议发表论文120多篇,出版学术专著《Moving Objects Management: Models,Techniques,and Applications》(Springer)、《XML数据管理:概念与技术》、《移动数据管理:概念与技术》(中国计算机学会学术著作丛书)等。获国家发明专利授权8项。近期主要研究领域为互联网络与移动数据管理,包括Web数据集成、XML数据库系统、云数据管理、闪存数据库系统、隐私保护等。
目录
出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章引论1
1.1为什么进行数据挖掘1
1.1.1迈向信息时代1
1.1.2数据挖掘是信息技术的进化2
1.2什么是数据挖掘4
1.3可以挖掘什么类型的数据6
1.3.1数据库数据6
1.3.2数据仓库7
1.3.3事务数据9
1.3.4其他类型的数据9
译者序
2001年,Jiawei Han(韩家炜)和Micheline Kamber出版了数据挖掘领域具有里程碑意义的著作——本书的第1版。2006年,他们又推出了本书的第2版。在这个龙年(2012年),我们看到了本书的第3版,并且欣喜地看到该书增加了一位新的、年青的华人合著者Jian Pei(裴健)。
数据挖掘是数据库研究、开发和应用最活跃的分支之一。这是很自然的事。数据库系统,特别是关系数据库系统的成功,使得我们有了强有力的事务处理工具。在计算机的帮助下,人们可以把传统的事务处理做得更好。不满足现状是社会前进的动力。人类当然不会仅仅满足于让计算机做事务处理。从信息处理的角度,人们更希望计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘(从大量数据中以非平凡的方法发现有用的知识)就成为一种自然的需求。正是这种需求引起了人们的关注,导致了数据挖掘研究和应用的蓬勃发展。
数据挖掘是一个多学科的交叉领域。这也是很自然的事。一方面,想要以非平凡的方法发现蕴藏在大型数据集中的有用知识,数据挖掘必须从统计学、机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科领域汲取营养。另一方面,这些学科领域也需要从不同角度关注数据的分析与理解;数据挖掘也为这些学科领域的发展提供了新的机遇和挑战。今天,数据挖掘已经不再仅仅是数据库的研究者和开发者关注的问题,它已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一。这种学科交叉融合带来的良性互动,无疑促进了包括数据挖掘在内的诸学科的发展与繁荣。
自本书第1版问世已经过去了11年。在过去的11年中,Jiawei Han教授多次来华讲学,我们先后翻译了本书的第1版和第2版。国内许多大学都纷纷开设数据挖掘课程,其中大部分学校都使用本书的英文版或中文版。我们高兴地看到数据挖掘的研究与应用在我国的蓬勃开展。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们不仅来自数据库领域,而且包括统计学、人工智能、模式识别、机器学习等领域的研究人员。国内的学者和开发者在数据挖掘方面的研究与应用方面已经取得了许多令人鼓舞的成果。特别值得一提的是,近年来,数据库的顶级学术会议SIGMOD、ICDE和数据挖掘的顶级学术会议KDD都相继在国内举办。
过去的11年是数据挖掘研究与应用迅猛发展的11年:新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。虽然所挖掘的基本知识类型并未增加很多,但是新的应用需要我们处理更加丰富的数据类型,如流、序列、图、时间序列、符号序列、生物学序列、空间、音频、图像和视频数据,因此需要新的技术。例如,流数据的关联、分类和聚类需要处理可能无限的数据,需要考虑数据的分布随时间的演变。Web页面的分类不仅需要考虑页面本身的特征,而且还需要考虑页面的链接和被链接的页面的特征。
第3版对本书的前两版进行了全面修订,突出和加强了数据挖掘的核心内容,以足够的广度和深度涵盖该领域的核心内容。认识数据和数据预处理、数据仓库和OLAP技术、模式挖掘与关联分析、分类、聚类都分成两章。其中,前一章介绍基本概念和技术,后一章进一步讨论更高级的概念和方法。离群点检测单独成为一章,进行更深入的讨论。最后一章对数据挖掘研究与应用发展趋势进行了概述,把读者引向更深入的主题。与前两版相比,第3版的组织更有利于教学。
如果说11年前本书的问世标志数据挖掘领域已见雏形,5年前该书第2版的出版预示数据挖掘开始进入了成熟期,那么第3版的出版表明数据挖掘已经在向纵深发展,其最基本层面的内容已经趋于稳定,在计算学科的高年级本科生和研究生中广泛开展数据挖掘课程的教学已经是万事俱备。
Jiawei Han教授早年就读于郑州大学,后赴美国留学,在威斯康辛大学获硕士和博士学位。他曾先后在美国西北大学、加拿大西蒙-弗雷泽大学任教,现在是美国伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系的Bliss教授。Jiawei Han教授是数据挖掘和数据库系统领域国际知名学者,ACM和IEEE会士。他曾因在该领域的杰出贡献多次获奖,包括ACM SIGKDD创新奖(2004)、IEEE计算机学会技术成就奖(2005)和IEEE W.Wallace McDowell奖(2009)。
徐华、叶阳东、姬安明、王静、李盛恩、李翠萍等参加了第1版的部分翻译工作,马玉书、董云海对第1版的部分译稿提出了很好的修改意见。第2版由范明和孟小峰翻译;译者的许多同事、朋友和学生,如昝红英博士和范宏建博士,阅读了第2版的部分译稿,并提出了一些建议和意见。第3版由范明和孟小峰翻译。译者的学生郭华平、李嘉、张亚亚和李晓燕参加了第3版的校对工作。
感谢本书的作者Jiawei Han教授。无论是第1版、第2版,还是第3版的翻译都得到了他的大力支持,他提供的方便使得本书的翻译工作能够在第一时间进行。Jiawei Han教授还专门为第2版和第3版的中文版撰写了序言。
感谢机械工业出版社华章公司的编辑们,是他们的远见使得本书能够尽快与读者见面。
在第3版的翻译中,我们重新调整了部分术语的翻译。读过第1版、第2版的读者不难发现,第3版出现了许多的新术语,尚无固定译法。尽管我们力图为它们选择简洁、达意的中文术语,但仍然难免出现词不达意之处。译文中的错误和不当之处,敬请读者朋友指正。意见请发往mfan@zzu.edu.cn,我们将不胜感激。
我们将尽快向采用本书的教师提供讲稿和其他辅助支持。希望读者喜欢这本译著,希望这本译著有助于进一步推动我国的数据挖掘教学、研究和应用的深入开展。
范明孟小峰
2012年6月
前言
本书考察知识发现和数据挖掘的基本概念和技术。作为一个多学科领域,数据挖掘从多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题。因此,本书不打算作为数据库系统、机器学习、统计学或其他某领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍。对于计算科学的学生、应用开发人员、行业专业人员以及涉及以上列举的学科的研究人员,本书应当是有用的。
数据挖掘出现于20世纪80年代后期,20世纪90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书全面展示该领域,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写本书的重要动机是需要建立一个学习数据挖掘的有组织的框架——由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人交换关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
本书的组织
自本书第1版、第2版出版以来,数据挖掘领域已经取得了重大进展,开发出了许多新的数据挖掘方法、系统和应用,特别是对于处理包括信息网络、图、复杂结构和数据流,以及文本、Web、多媒体、时间序列、时间空间数据在内的新的数据类型。这种快速发展、新技术不断涌现使得在一本书中涵盖整个领域的广泛内容非常困难。因此,我们决定与其继续扩大本书的涵盖面,还不如让本书以足够的广度和深度涵盖该领域的核心内容,而把复杂数据类型的处理留给另一本即将面世的书。
第3版对本书的前两版做了全面修订,加强和重新组织了全书的技术内容,显著地扩充和加强处理一般数据类型挖掘的核心技术。第2版中讨论特定主题的章节(例如,数据预处理、频繁模式挖掘、分类和聚类)在这一版都被扩充,每章都分成两章。对于这些主题,一章囊括基本概念和技术,而另一章提供高级概念和方法。
第2版关于复杂数据类型的章节(例如,流数据、序列数据、图结构数据、社会网络数据和多重关系数据,以及文本、Web、多媒体和时间空间数据)现在保留给专门介绍数据挖掘的高级课题的新书。为了支持读者学习这些高级课题,我们把第2版的相关章节的电子版放在本书的网站上,作为第3版的配套材料。
第3版各章的简要内容如下(重点介绍新的内容):
第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展历程和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系的、事务的和数据仓库数据,以及复杂的数据类型,如时间序列、序列、数据流、时间空间数据、多媒体数据、文本数据、图、社会网络和Web数据。该章根据所挖掘的知识类型、所使用的技术以及目标应用的类型,对数据挖掘任务进行了一般分类。最后讨论该领域的主要挑战。
第2章介绍一般数据特征。该章首先讨论数据对象和属性类型,然后介绍基本统计数据描述的典型度量。该章概述各种类型数据的数据可视化技术。除了数值数据的可视化方法外,还介绍文本、标签、图和多维数据的可视化方法。第2章还介绍度量各种类型数据的相似性和相异性的方法。
第3章介绍数据预处理技术。该章首先介绍数据质量的概念,然后讨论数据清理、数据集成、数据归约、数据变换和数据离散化的方法。
第4章和第5章是数据仓库、OLAP(联机分析处理)和数据立方体技术的引论。第4章介绍数据仓库和OLAP的基本概念、建模、结构、一般实现,以及数据仓库和其他数据泛化的关系。第5章更深入地考察数据立方体技术,详细地研究数据立方体的计算方法,包括Star-Cubing和高维OLAP方法。该章还讨论数据立方体和OLAP技术的进一步研究,如抽样立方体、排序立方体、预测立方体、用于复杂数据挖掘查询的多特征立方体和发现驱动的数据立方体的探查。
第6章和第7章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第6章介绍基本概念,如购物篮分析,还有条理地提供了许多频繁项集挖掘技术。这些涵盖从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据的垂直形式的频繁模式挖掘,挖掘闭频繁项集和极大频繁项集。该章还讨论模式评估方法并介绍挖掘相关模式的度量。第7章介绍高级模式挖掘方法。该章讨论多层和多维空间中的模式挖掘,挖掘稀有和负模式,挖掘巨型模式和高维空间数据,基于约束的模式挖掘和挖掘压缩或近似模式。该章还介绍模式探查和应用的方法,包括频繁模式的语义注解。
第8章和第9章介绍数据分类方法。由于分类方法的重要性和多样性,内容被划分成两章。第8章介绍分类的基本概念和方法,包括决策树归纳、贝叶斯分类和基于规则的分类。该章还讨论模型评估和选择方法,以及提高分类准确率的方法,包括组合方法和处理不平衡数据。第9章讨论分类的高级方法,包括贝叶斯信念网络、后向传播的神经网络技术、支持向量机、使用频繁模式的分类、k-最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集方法。附加的主题包括多类分类、半监督分类、主动学习和迁移学习。
聚类分析是第10章和第11章的主题。第10章介绍数据聚类的基本概念和方法,包括基本聚类分析方法的概述、划分方法、层次方法、基于密度的方法和基于网格的方法。该章还介绍聚类评估方法。第11章讨论聚类的高级方法,包括基于概率模型的聚类、聚类高维数据、聚类图和网络数据,以及基于约束的聚类。
第12章专门讨论离群点检测。本章介绍离群点的基本概念和离群点分析,并从各种监督力度(监督的、半监督的和无监督的)以及方法角度(统计学方法、基于邻近性的方法、基于聚类的方法和基于分类的方法)讨论离群点检测方法。该章还讨论挖掘情境离群点和集体离群点,以及高维数据中的离群点检测。
最后,在第13章我们讨论数据挖掘的趋势、应用和研究前沿。我们简略地介绍挖掘复杂数据类型,包括挖掘序列数据(例如,时间序列、符号序列和生物学序列),挖掘图和网络,以及挖掘空间、多媒体、文本和Web数据。这些数据挖掘方法的深入讨论留给正在撰写的数据挖掘高级课题一书。然后,该章转向讨论其他数据挖掘方法学,包括统计学数据挖掘、数据挖掘基础、可视和听觉数据挖掘,以及数据挖掘的应用。讨论数据挖掘在金融数据分析、零售和电信产业、科学与工程,以及入侵检测和预防方面的应用。该章还讨论数据挖掘与推荐系统的联系。由于数据挖掘出现在我们日常生活的方方面面,所以我们讨论数据挖掘与社会,包括无处不在和无形的数据挖掘,以及隐私、安全和数据挖掘对社会的影响。我们用考察数据挖掘的发展趋势结束本书。
书中楷体字用于强调定义的术语,而黑体字用于突出主要思想。
本书与其他数据挖掘教材相比具有一些显著特点:它广泛、深入地讨论了数据挖掘原理。各章尽可能是自包含的,使得读者可以按自己感兴趣的次序阅读。高级章节提供了更大的视野,感兴趣的读者可以选读。本书提供了数据挖掘的所有主要方法,还提供了关于多维OLAP分析等数据挖掘的重要主题,这些主题在其他书中常常被忽略或很少提及。本书还维护了一个网站,其中包含大量在线资源,为教师、学生和该领域的专业人员提供支持。这些将在下面介绍。
致教师
序言
We are pleased to see that our third edition has been translated into Chinese by Professor Fan and Meng.The first two editions were translated by them several years ago and have been well received among Chinese readers.In recent years,we have witnessed tremendous progress in the field of data mining research and applications internationally.As a promising new technology,data mining has attracted tremendous interest in the Far East as well.Numerous international and regional conferences on data mining and applications have appeared or held in this region.Many Chinese researchers have been playing an active role,contributing in both research and applications to the advances of this young field.
In this third edition,we have carefully selected and tailored the technical materials to be covered for the courses on data mining at both the undergraduate level and the first-year graduate level.We have updated and enhanced the existing chapters substantially with many new topics.Thus,we expect the publication of this edition in Chinese will help Chinese readers to learn and master the latest technology and put them into promising new applications.
With best regards,
(非常高兴地看到本书的第3版由范明和孟小峰教授翻译成中文。几年前,他们翻译了本书的前两版并被中文读者广泛接受。近年来,我们见证了数据挖掘研究和应用领域在世界范围内的巨大进展。作为一种具有良好发展势头的新技术,数据挖掘在远东也引起了极大兴趣。许多国际或地区性的数据挖掘和应用会议已经在该地区出现或召开。许多中国的研究者一直起着积极作用,为推动这个年轻领域的研究和应用做出了贡献。
在第3版中,我们对所包含的技术内容进行了精心挑选和剪裁,以便用于本科生和一年级研究生的“数据挖掘”课程。我们用许多新的主题,大幅度地更新和加强了已有的章节。因而,我们期望这个中文版将帮助中文读者学习和掌握这些最新技术,并将它们用于有希望的新应用。
谨致良好祝愿!)
Jiawei Han,Micheline Kamber,and Jian Pei
June 2012
第3版序Data Mining:Concepts and Techniques,Third Edition
分析大量数据是必要的。甚至像“super crunchers”(超级电脑)这样流行的科技书也给出了从大量数据发现和得到直觉知识的非常好的事例。每个企业都从收集和分析数据中获益:医院可以从患者记录中识别趋势和异常,搜索引擎可以进行更好的秩评定和广告投放,环境和公共卫生部门可以识别数据中的模式和异常。这样的例子还有很多,如计算机安全和计算网络入侵检测、家用电器的能源消耗、生物信息学和药物数据的模式分析、财经和商务智能数据、识别博客中的趋势、唧喳(Twitter)等,不一而足。与数据传感器一样,存储设备价格越来越低,因此收集和存储数据比以前更加容易。
于是,问题变成如何分析数据。这恰是第3版的关注点。Jiawei、Micheline、Jian的教材全景式地讨论了数据挖掘的所有相关方法,从经典的分类和聚类主题,到数据库方法(例如,关联规则和数据立方体),到更新和更高级的主题(例如,SVD/PCA、小波、支持向量机)。
对于初学者来说,书中的阐述极其容易理解,对于高端读者也是如此。本书首先介绍基本概念,更高级的内容在随后的章节中。书中还使用了一些修辞疑问,这样做非常有助于吸引读者注意力。
我们已经使用前两版作为卡内基-梅隆大学数据挖掘课程的教材,并且准备继续使用第3版。新版内容有显著增加:值得注意的是,超过100篇引文引用2006年以来的工作,关注更近的研究,如图和社会网络、传感器网络,以及离群点检测。对于可视化,本书新增了一节;离群点检测扩充为一整章;而有些章被分开,以便介绍高级方法。例如,top-k模式等模式挖掘以及双聚类和图聚类。
总之,这是一本关于经典和现代数据挖掘方法的优秀专著,它不仅是一本理想的教材,而且也是一本理想的参考书。
Christos Faloutsos
卡内基-梅隆大学
第2版序Data Mining:Concepts and Techniques,Third Edition
我们被数据(科学数据、医疗数据、人口统计数据、金融数据和销售数据)所淹没。人们没有时间查看这些数据。人们的关注已经转到可贵的应付手段上。因此,我们必须找到有效方法,自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。这是数据库研究最活跃、最令人激动的领域之一。统计学、可视化、人工智能和机器学习方面的研究人员正在为该领域做出贡献。由于该领域非常广阔,很难把握它过去几十年的非凡进展。
六年前,Jiawei Han和Micheline Kamber的原创性教科书将数据挖掘的内容组织在一起并呈现给读者。它预示了数据挖掘领域的创新黄金时代的到来。他们的书的新版反映了该领域的进展,一半以上的参考文献和历史注释都涉及当前的研究。该领域已经成熟,出现了许多新的、改进的算法;该领域已经拓宽,包含了更多数据类型,如流、序列、图、时间序列、地理空间、音频、图像和视频。我们不仅可以肯定这个黄金时代尚未结束(数据挖掘研究和商业兴趣正在继续增长),而且,这本数据挖掘的现代著作的面世是我们所庆幸的。
媒体评论
本书是一个导论,介绍一个年青并且快速成长的领域——数据挖掘(又称从数据中发现知识,简称KDD)。本书关注从各种各样的应用数据中发现有趣数据模式的数据挖掘基本概念和技术,特别是那些开发有效的、可伸缩的数据挖掘工具的卓越技术。
本章组织如下:在1.1节,我们将学习为什么需要数据挖掘和数据挖掘如何成为信息技术自然进化的一部分。1.2节从知识发现过程定义数据挖掘。之后,我们将从各种角度学习数据挖掘,如可供挖掘的数据(1.3节),可以发现的模式(1.4节),所使用的技术(1.5节),以及应用(1.6节)。这样,你将获得数据挖掘的多维视图。最后,1.7节概述数据挖掘研究和发展的主要问题。
1.1为什么进行数据挖掘
需要是发明之母。——柏拉图
我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1.1节考察数据挖掘如何通过提供从数据中发现知识的工具来满足这种需求。在1.1.2节,我们观察数据挖掘为何被视为信息技术的自然进化的结果。
1.1.1迈向信息时代
一种流行的说法是“我们生活在信息时代”。然而,实际上我们生活在数据时代。每天,来自商业、社会、科学和工程、医学以及我们日常生活的方方面面的数兆兆字节(Tera-Byte,TB)或数千兆兆字节(Peta-Byte,PB)的数据注入我们的计算机网络、万维网和各种数据存储设备。1可用数据的爆炸式增长是我们的社会计算机化和功能强大的数据收集和存储工具快速发展的结果。世界范围的商业活动产生了巨大的数据集,包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。例如,像沃尔玛这样的大型商场遍及世界各地的数以千计的超市每周都要处理数亿交易。科学和工程实践持续不断地从遥感、过程测量、科学实验、系统实施、工程观测和环境监测中产生多达数千兆兆字节的数据。
……
书摘
本书是一个导论,介绍一个年青并且快速成长的领域——数据挖掘(又称从数据中发现知识,简称KDD)。本书关注从各种各样的应用数据中发现有趣数据模式的数据挖掘基本概念和技术,特别是那些开发有效的、可伸缩的数据挖掘工具的卓越技术。
本章组织如下:在1.1节,我们将学习为什么需要数据挖掘和数据挖掘如何成为信息技术自然进化的一部分。1.2节从知识发现过程定义数据挖掘。之后,我们将从各种角度学习数据挖掘,如可供挖掘的数据(1.3节),可以发现的模式(1.4节),所使用的技术(1.5节),以及应用(1.6节)。这样,你将获得数据挖掘的多维视图。最后,1.7节概述数据挖掘研究和发展的主要问题。
1.1为什么进行数据挖掘
需要是发明之母。——柏拉图
我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1.1节考察数据挖掘如何通过提供从数据中发现知识的工具来满足这种需求。在1.1.2节,我们观察数据挖掘为何被视为信息技术的自然进化的结果。
1.1.1迈向信息时代
一种流行的说法是“我们生活在信息时代”。然而,实际上我们生活在数据时代。每天,来自商业、社会、科学和工程、医学以及我们日常生活的方方面面的数兆兆字节(Tera-Byte,TB)或数千兆兆字节(Peta-Byte,PB)?的数据注入我们的计算机网络、万维网(WWW)和各种数据存储设备。1可用数据的爆炸式增长是我们的社会计算机化和功能强大的数据收集和存储工具快速发展的结果。世界范围的商业活动产生了巨大的数据集,包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。例如,像沃尔玛这样的大型商场遍及世界各地的数以千计的超市每周都要处理数亿交易。科学和工程实践持续不断地从遥感、过程测量、科学实验、系统实施、工程观测和环境监测中产生多达数千兆兆字节的数据。
……