数据挖掘:概念与技术(原书第2版) (08年度畅销榜TOP50)
基本信息
内容简介回到顶部↑
本书第2版在十分丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书将是一本适用于数据挖掘和知识发现课程的优秀教材。.
——Gregory Piatetsky-Shapiro, KDnuggets的总裁
科学的飞速发展使产生和收集数据的能力快速增长。大多数商业、科学和政府事务的日益计算机化,数码相机、发布工具和条码的广泛应用都产生着大量的数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和互联网已经使我们生活在海量的数据之中。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具,以帮助我们将这些数据转换为有用的信息和知识。..
本书第1版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这方面进行了充实,增加了多个章节讲述最新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也适宜作为数据挖掘研究人员和相关专业人士的参考书。
本书特点:
● 全面实用地论述了从实际业务数据中抽取出读者需要的概念和技术。
● 结合读者的反馈,反映数据挖掘领域的技术变化以及统计和机器学习方面的进展。
● 引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。...
——Gregory Piatetsky-Shapiro, KDnuggets的总裁
科学的飞速发展使产生和收集数据的能力快速增长。大多数商业、科学和政府事务的日益计算机化,数码相机、发布工具和条码的广泛应用都产生着大量的数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和互联网已经使我们生活在海量的数据之中。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具,以帮助我们将这些数据转换为有用的信息和知识。..
本书第1版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这方面进行了充实,增加了多个章节讲述最新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也适宜作为数据挖掘研究人员和相关专业人士的参考书。
本书特点:
● 全面实用地论述了从实际业务数据中抽取出读者需要的概念和技术。
● 结合读者的反馈,反映数据挖掘领域的技术变化以及统计和机器学习方面的进展。
● 引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。...
作译者回到顶部↑
本书提供作译者介绍
伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,其中包括2004年ACM SIGKDD颁发的创新奖。同时,他还是《ACM Transactions on Knowledge Discovery from Data》杂志的主编,以及《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》杂志的编委会成员。.
Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位,现在加拿大西蒙-弗雷泽大学从事博士后研究.. << 查看详细
Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位,现在加拿大西蒙-弗雷泽大学从事博士后研究.. << 查看详细
目录回到顶部↑
出版者的话.
专家指导委员会
中文版序
译者序
序
前言
第1章 引言 1
1.1 什么激发了数据挖掘,为什么它是重要的 1
1.2 什么是数据挖掘 3
1.3 对何种数据进行数据挖掘 6
1.3.1 关系数据库 6
1.3.2 数据仓库 8
1.3.3 事务数据库 10
1.3.4 高级数据和信息系统与高级应用 10
1.4 数据挖掘功能—可以挖掘什么类型的模式 14
1.4.1 概念/类描述:特征化和区分 14
1.4.2 挖掘频繁模式、关联和相关 15
1.4.3 分类和预测 15
1.4.4 聚类分析 17
1.4.5 离群点分析 17
专家指导委员会
中文版序
译者序
序
前言
第1章 引言 1
1.1 什么激发了数据挖掘,为什么它是重要的 1
1.2 什么是数据挖掘 3
1.3 对何种数据进行数据挖掘 6
1.3.1 关系数据库 6
1.3.2 数据仓库 8
1.3.3 事务数据库 10
1.3.4 高级数据和信息系统与高级应用 10
1.4 数据挖掘功能—可以挖掘什么类型的模式 14
1.4.1 概念/类描述:特征化和区分 14
1.4.2 挖掘频繁模式、关联和相关 15
1.4.3 分类和预测 15
1.4.4 聚类分析 17
1.4.5 离群点分析 17
译者序回到顶部↑
数据挖掘是数据库研究、开发和应用最活跃的分支之一。这是很自然的事。数据库系统特别是关系数据库系统的成功,使得我们有了强有力的事务处理工具。在计算机的帮助下,人们可以把传统的事务处理做得更好。不满足现状是社会前进的动力。人类当然不会仅仅满足于让计算机做事务处理。从信息处理的角度,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘—从大量数据中以非平凡的方法发现有用的知识—就成为一种自然的需求。正是这种需求引起了人们的关注,导致了数据挖掘研究的蓬勃发展。.
数据挖掘是一个多学科的交叉领域。这也是很自然的事。一方面,想要以非平凡的方法发现蕴藏在大型数据集中的有用知识,数据挖掘必须从数据库技术、统计学、机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科领域汲取营养。另一方面,这些学科领域也要发展,也需要从不同角度关注数据的分析与理解;数据挖掘也为这些学科领域的发展带来了新的机遇和挑战。今天,数据挖掘已经不再仅仅是数据库的研究者和开发者关注的问题,它已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一,就连“数据挖掘”术语本身也已经成为这些学科领域的流行词汇。这种学科交叉融合引起的良性互动无疑会进一步促进诸学科的发展与繁荣。
六年前,Jiawei Han和Micheline Kamber出版了数据挖掘领域具有里程碑意义的著作《数据挖掘:概念与技术》的第1版。随后,我们把该书翻译成中文版。六年以来,Jiawei Han教授多次来华讲学,国内许多大学也都纷纷开始开设数据挖掘课程,其中大部分学校使用该书的英文原版或中文版。我们高兴地看到数据挖掘的研究与应用在我国蓬勃兴起。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们不仅来自数据库领域,而且包括统计学、人工智能和模式识别、机器学习等领域的研究者。国内的学者和研究者在数据挖掘方面的研究已经取得了一些令人鼓舞的成果,并且正在逐渐与国际学术界同步。
过去的六年是数据挖掘研究与应用迅猛发展的六年:新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。虽然所挖掘的基本知识类型并未增加很多,但是新的应用需要我们处理更加丰富的数据类型,如流、序列、图、时间序列、地理空间、音频、图像和视频,因此需要新的技术。例如,流数据的关联、分类和聚类需要处理可能无限的数据,需要考虑数据的分布随时间的演变。Web页面的分类不仅需要考虑页面本身的特征,而且需要考虑页面的链接和被链接的页面的特征。在第2版,作者压缩了不太重要的章节,用许多新的主题、概念、算法和技术更新和加强了第1版,以反映近年来数据挖掘研究与应用的最新进展。一半以上的内容是新增加的或被更新的,一半以上的参考文献和历史注释都涉及当前的研究。..
正如Jim Gray所指出的,六年前Jiawei Han和Micheline Kamber的原创著作的出版“预示了数据挖掘领域的创新黄金时代的到来。”今天,“我们不仅可以肯定这个黄金时代尚未结束—数据挖掘研究和商业兴趣确实在继续增长—而且我们都幸运地有了这本数据挖掘的现代著作。”
Jiawei Han(韩家炜)教授早年就读于郑州大学,后赴美国留学,在威斯康辛大学获硕士和博士学位。他曾先后在美国西北大学、加拿大西蒙·弗雷泽大学任教,现在是美国伊利诺伊大学Urbana-Champaign分校计算机科学系教授。Jiawei Han教授是数据挖掘和数据库系统领域的国际知名学者,ACM会士。他曾因在该领域的杰出贡献多次获奖,包括2004 ACM SIGKDD创新奖,2005 IEEE 计算机学会技术成就奖。他是国际著名杂志ACM Transactions on Knowledge Discovery from Data的主编,包括IEEE Transactions on Knowledge and Data Enginerring和Data Mining and Knowledge Discovery在内的多种国际著名杂志的编委。
第2版包括11章和一个附录。第1~6章、附录和索引由范明翻译,第7~11章由孟小峰和范明合作翻译。全书的译文由范明负责统一定稿。
徐华、叶阳东、姬安明、王静、李盛恩、李翠萍等参加了第1版的部分翻译工作,马玉书、董云海对第1版的部分译稿提出了很好的修改意见;第1版的许多读者都提出了许多宝贵的意见和建议;译者的许多同事、朋友和学生阅读了第2版的部分译稿,并提出了一些建议和意见,在此一并表示感谢。特别感谢昝红英博士和范宏建博士,他们仔细阅读了第2版的部分译稿,并提出了许多很好的建议,订正了部分翻译错误。
感谢本书的作者韩家炜教授。无论是第1版还是第2版的翻译都得到了他的大力支持,他提供的方便使得本书的翻译工作能够在第一时间进行。韩家炜教授还专门为第2版的中文版撰写了序言。
感谢机械工业出版社华章公司的编辑们,是他们的远见使得本书能够尽快与读者见面。
在第2版的翻译中,我们重新调整了部分术语的翻译。由于本书是从数据库角度介绍数据挖掘的概念与技术,因此大部分术语采用数据库文献的习惯译法。然而,数据挖掘是一个多学科的交叉领域,其中许多研究都建立在统计学、机器学习等学科领域的长期工作的基础之上,因此,凡是在统计学和机器学习有习惯译法的术语,都沿用习惯译法。读过第1版的读者不难发现,第2版出现了许多新术语,这些术语尚无固定译法。尽管我们力图为它们选择简洁、达义的中文用语,但仍然难免出现词不达义之处。译文中的错误和不当之处,敬请读者朋友指正。意见请发往mfan@zzu.edu.cn,我们将不胜感激。
我们将尽快向采用本书的教师提供讲稿和其他辅助支持。希望读者喜欢这本译著,希望这本译著有助于进一步推动我国的数据挖掘研究与应用的深入开展。...
范明,孟小峰
2006年9月
数据挖掘是一个多学科的交叉领域。这也是很自然的事。一方面,想要以非平凡的方法发现蕴藏在大型数据集中的有用知识,数据挖掘必须从数据库技术、统计学、机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科领域汲取营养。另一方面,这些学科领域也要发展,也需要从不同角度关注数据的分析与理解;数据挖掘也为这些学科领域的发展带来了新的机遇和挑战。今天,数据挖掘已经不再仅仅是数据库的研究者和开发者关注的问题,它已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一,就连“数据挖掘”术语本身也已经成为这些学科领域的流行词汇。这种学科交叉融合引起的良性互动无疑会进一步促进诸学科的发展与繁荣。
六年前,Jiawei Han和Micheline Kamber出版了数据挖掘领域具有里程碑意义的著作《数据挖掘:概念与技术》的第1版。随后,我们把该书翻译成中文版。六年以来,Jiawei Han教授多次来华讲学,国内许多大学也都纷纷开始开设数据挖掘课程,其中大部分学校使用该书的英文原版或中文版。我们高兴地看到数据挖掘的研究与应用在我国蓬勃兴起。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们不仅来自数据库领域,而且包括统计学、人工智能和模式识别、机器学习等领域的研究者。国内的学者和研究者在数据挖掘方面的研究已经取得了一些令人鼓舞的成果,并且正在逐渐与国际学术界同步。
过去的六年是数据挖掘研究与应用迅猛发展的六年:新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。虽然所挖掘的基本知识类型并未增加很多,但是新的应用需要我们处理更加丰富的数据类型,如流、序列、图、时间序列、地理空间、音频、图像和视频,因此需要新的技术。例如,流数据的关联、分类和聚类需要处理可能无限的数据,需要考虑数据的分布随时间的演变。Web页面的分类不仅需要考虑页面本身的特征,而且需要考虑页面的链接和被链接的页面的特征。在第2版,作者压缩了不太重要的章节,用许多新的主题、概念、算法和技术更新和加强了第1版,以反映近年来数据挖掘研究与应用的最新进展。一半以上的内容是新增加的或被更新的,一半以上的参考文献和历史注释都涉及当前的研究。..
正如Jim Gray所指出的,六年前Jiawei Han和Micheline Kamber的原创著作的出版“预示了数据挖掘领域的创新黄金时代的到来。”今天,“我们不仅可以肯定这个黄金时代尚未结束—数据挖掘研究和商业兴趣确实在继续增长—而且我们都幸运地有了这本数据挖掘的现代著作。”
Jiawei Han(韩家炜)教授早年就读于郑州大学,后赴美国留学,在威斯康辛大学获硕士和博士学位。他曾先后在美国西北大学、加拿大西蒙·弗雷泽大学任教,现在是美国伊利诺伊大学Urbana-Champaign分校计算机科学系教授。Jiawei Han教授是数据挖掘和数据库系统领域的国际知名学者,ACM会士。他曾因在该领域的杰出贡献多次获奖,包括2004 ACM SIGKDD创新奖,2005 IEEE 计算机学会技术成就奖。他是国际著名杂志ACM Transactions on Knowledge Discovery from Data的主编,包括IEEE Transactions on Knowledge and Data Enginerring和Data Mining and Knowledge Discovery在内的多种国际著名杂志的编委。
第2版包括11章和一个附录。第1~6章、附录和索引由范明翻译,第7~11章由孟小峰和范明合作翻译。全书的译文由范明负责统一定稿。
徐华、叶阳东、姬安明、王静、李盛恩、李翠萍等参加了第1版的部分翻译工作,马玉书、董云海对第1版的部分译稿提出了很好的修改意见;第1版的许多读者都提出了许多宝贵的意见和建议;译者的许多同事、朋友和学生阅读了第2版的部分译稿,并提出了一些建议和意见,在此一并表示感谢。特别感谢昝红英博士和范宏建博士,他们仔细阅读了第2版的部分译稿,并提出了许多很好的建议,订正了部分翻译错误。
感谢本书的作者韩家炜教授。无论是第1版还是第2版的翻译都得到了他的大力支持,他提供的方便使得本书的翻译工作能够在第一时间进行。韩家炜教授还专门为第2版的中文版撰写了序言。
感谢机械工业出版社华章公司的编辑们,是他们的远见使得本书能够尽快与读者见面。
在第2版的翻译中,我们重新调整了部分术语的翻译。由于本书是从数据库角度介绍数据挖掘的概念与技术,因此大部分术语采用数据库文献的习惯译法。然而,数据挖掘是一个多学科的交叉领域,其中许多研究都建立在统计学、机器学习等学科领域的长期工作的基础之上,因此,凡是在统计学和机器学习有习惯译法的术语,都沿用习惯译法。读过第1版的读者不难发现,第2版出现了许多新术语,这些术语尚无固定译法。尽管我们力图为它们选择简洁、达义的中文用语,但仍然难免出现词不达义之处。译文中的错误和不当之处,敬请读者朋友指正。意见请发往mfan@zzu.edu.cn,我们将不胜感激。
我们将尽快向采用本书的教师提供讲稿和其他辅助支持。希望读者喜欢这本译著,希望这本译著有助于进一步推动我国的数据挖掘研究与应用的深入开展。...
范明,孟小峰
2006年9月
前言回到顶部↑
我们产生和收集数据的能力正在迅速提高。起作用的因素包括商务、科学技术和政府部门在内的事务处理的计算机化;数码相机、出版工具和用于大部分商用产品的条码的广泛使用;由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。此外,作为全球信息系统的万维网的流行,已经将我们淹没在数据和信息的汪洋大海中。存储数据或瞬态数据的爆炸性增长业已激发对新技术和自动工具的需求,这些技术和工具能够以智能方式将海量数据转换成有用的信息和知识。.
本书考察数据挖掘的概念和技术。数据挖掘是数据和信息系统及其应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式;这些模式隐藏或记录在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注涉及可行性、实用性、有效性和可伸缩性的问题。这样,本书不打算作为数据库系统、机器学习、统计学或其他类似领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍,同时关注有效性和可伸缩性问题。对于计算科学的学生、应用开发者、行业专业人员以及涉及以上列举的学科的研究者,本书应当是有用的。
数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书提供该领域的全面情况,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写这本书的重要动机是需要建立一个研究数据挖掘的有组织的框架—由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人们交流关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
本书的组织
自本书第1版出版以来,数据挖掘领域已经取得重大进展。开发出了许多新的数据挖掘方法、系统和应用。这个新版对本书第1版做了重大修订,加强和重新组织了全书的技术内容。此外,新添了几章,描述复杂数据类型挖掘方面的进展,其中包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
各章的简要内容如下,重点介绍新的内容。
第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展道路和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系、事务和数据仓库数据,以及复杂数据类型,如像数据流、时间序列、序列、图形、社会网络和多重关系数据,时空数据,多媒体数据,文本数据以及Web数据。该章根据所挖掘的知识类型,对数据挖掘任务进行一般分类。与第1版相比,新增加了两节:1.7节介绍数据挖掘原语,这些原语能够使用户与数据挖掘系统相互通信,以便指导挖掘过程,而1.8节讨论数据挖掘系统与数据库或数据仓库系统的集成问题。这两节是第1版第4章的浓缩。最后讨论该领域的主要挑战。
第2章介绍挖掘之前的数据预处理技术。这对应于第1版的第3章。由于数据预处理先于数据仓库的构建,我们在该章讨论预处理,然后在下一章介绍数据仓库。该章介绍描述性数据汇总的各种统计方法,包括数据的中心趋势和散布的度量。加强了数据清理方法的介绍,讨论了数据集成和变换、数据归约的方法,包括动态和静态离散化概念分层的使用。该章还介绍了概念分层的自动产生。
第3、4章是数据仓库、OLAP(联机分析处理)和数据泛化的引论。这两章对应于第1版的第2章和第5章,但是显著加强了数据仓库的实现方法。第3章介绍了数据仓库和联机分析处理的基本概念、系统结构和一般实现,以及数据仓库和数据挖掘的关系。第4章更深入地考察数据仓库和OLAP技术,详细地研究数据立方体的计算方法,包括最近开发的star-cubing方法和高维OLAP方法。该章还讨论数据仓库和OALP的进一步探查,如发现驱动的立方体探查,复杂数据挖掘查询的多特征立方体和立方体梯度分析。该章还讨论另一种数据泛化和概念描述方法—面向属性的归纳。
第5章介绍挖掘事务数据库、关系数据库和数据仓库中的频繁模式、关联和相关性的方法。除介绍诸如购物篮分析等基本概念之外,还以有条理的方式提供许多频繁项集挖掘技术。这些技术领域从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据垂直格式的频繁模式挖掘和挖掘闭频繁项集。该章还介绍挖掘多层关联规则、多维关联规则和量化关联规则的技术。与上一版相比,该章更强调产生有意义的关联规则和相关规则。该章还讨论基于约束的挖掘和使用兴趣度度量对规则搜索聚焦的策略。
第6章介绍数据分类和预测方法,包括决策树归纳、贝叶斯分类、基于规则的分类、后向传播的神经网络技术、支持向量机、关联分类、k最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集合方法。该章还介绍了回归方法,讨论了关于准确率和如何选择最佳的分类和预测方法问题。与第1版的对应章相比,新增加了基于规则的分类和支持向量机这两节,并且大幅度地扩充了度量和加强分类和预测的准确率的讨论。
聚类分析构成第7章的主题。该章介绍了主要的数据聚类方法,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。本版新增加了几节,介绍高维数据聚类技术,以及基于约束的聚类分析。该章还讨论了离群点分析。
第8~10章讨论数据挖掘的高级课题,涵盖了学科前沿最新进展的大量材料。这三章取代了前一版关于高级课题的一章。第8章主要讨论流数据、时间序列数据和序列数据(包括事务序列和生物学序列)的挖掘。基本数据挖掘技术(如频繁模式挖掘、分类、聚类和基于约束的挖掘)都扩展到这些类型的数据。第9章讨论图和结构模式挖掘方法、社会网络分析和多重关系数据挖掘。第10章介绍对象、空间、多媒体、文本和Web数据挖掘方法,涵盖了这些领域的大量新进展。
最后,在第11章,我们总结本书提供的概念,并讨论数据挖掘的应用和发展趋势。添加了一些新的数据挖掘材料,涉及生物学和生物医学数据分析、其他科学应用、入侵检测和协同过滤。除了具有挑战性的研究问题之外,还讨论了数据挖掘对社会的影响,如隐私和数据安全问题。新版还增加了无处不在的数据挖掘的进一步讨论。
附录提供了微软用于数据挖掘的OLE DB(用于DM的OLE DB)。
全书用楷体字强调定义的术语,黑体字突出主要思想。
本书具有一些显著特点,不同于其他数据挖掘教材。本书广泛、深入地讨论了整个数据挖掘领域,特别是关于数据流挖掘、图挖掘、社会网络分析和多重关系数据挖掘的一些最新研究课题。在讨论高级主题之前的各章尽可能是独立的,读者可以按自己的兴趣选择阅读顺序。本书提供了数据挖掘的所有主要方法。由于我们从数据库的角度来处理数据挖掘,本书还提供了许多诸如可伸缩的算法和多维OLAP分析等数据挖掘中的重要主题。这些主题在其他书中常被忽略或很少提及。
致教师
本书旨在提供数据挖掘领域的一个广泛而深入的概览。本书可以用作高年级本科生或一年级研究生的数据挖掘导论。此外,本书也可以用来讲授数据挖掘的高级课程。
本书考察数据挖掘的概念和技术。数据挖掘是数据和信息系统及其应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式;这些模式隐藏或记录在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注涉及可行性、实用性、有效性和可伸缩性的问题。这样,本书不打算作为数据库系统、机器学习、统计学或其他类似领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍,同时关注有效性和可伸缩性问题。对于计算科学的学生、应用开发者、行业专业人员以及涉及以上列举的学科的研究者,本书应当是有用的。
数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书提供该领域的全面情况,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写这本书的重要动机是需要建立一个研究数据挖掘的有组织的框架—由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人们交流关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
本书的组织
自本书第1版出版以来,数据挖掘领域已经取得重大进展。开发出了许多新的数据挖掘方法、系统和应用。这个新版对本书第1版做了重大修订,加强和重新组织了全书的技术内容。此外,新添了几章,描述复杂数据类型挖掘方面的进展,其中包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
各章的简要内容如下,重点介绍新的内容。
第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展道路和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系、事务和数据仓库数据,以及复杂数据类型,如像数据流、时间序列、序列、图形、社会网络和多重关系数据,时空数据,多媒体数据,文本数据以及Web数据。该章根据所挖掘的知识类型,对数据挖掘任务进行一般分类。与第1版相比,新增加了两节:1.7节介绍数据挖掘原语,这些原语能够使用户与数据挖掘系统相互通信,以便指导挖掘过程,而1.8节讨论数据挖掘系统与数据库或数据仓库系统的集成问题。这两节是第1版第4章的浓缩。最后讨论该领域的主要挑战。
第2章介绍挖掘之前的数据预处理技术。这对应于第1版的第3章。由于数据预处理先于数据仓库的构建,我们在该章讨论预处理,然后在下一章介绍数据仓库。该章介绍描述性数据汇总的各种统计方法,包括数据的中心趋势和散布的度量。加强了数据清理方法的介绍,讨论了数据集成和变换、数据归约的方法,包括动态和静态离散化概念分层的使用。该章还介绍了概念分层的自动产生。
第3、4章是数据仓库、OLAP(联机分析处理)和数据泛化的引论。这两章对应于第1版的第2章和第5章,但是显著加强了数据仓库的实现方法。第3章介绍了数据仓库和联机分析处理的基本概念、系统结构和一般实现,以及数据仓库和数据挖掘的关系。第4章更深入地考察数据仓库和OLAP技术,详细地研究数据立方体的计算方法,包括最近开发的star-cubing方法和高维OLAP方法。该章还讨论数据仓库和OALP的进一步探查,如发现驱动的立方体探查,复杂数据挖掘查询的多特征立方体和立方体梯度分析。该章还讨论另一种数据泛化和概念描述方法—面向属性的归纳。
第5章介绍挖掘事务数据库、关系数据库和数据仓库中的频繁模式、关联和相关性的方法。除介绍诸如购物篮分析等基本概念之外,还以有条理的方式提供许多频繁项集挖掘技术。这些技术领域从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据垂直格式的频繁模式挖掘和挖掘闭频繁项集。该章还介绍挖掘多层关联规则、多维关联规则和量化关联规则的技术。与上一版相比,该章更强调产生有意义的关联规则和相关规则。该章还讨论基于约束的挖掘和使用兴趣度度量对规则搜索聚焦的策略。
第6章介绍数据分类和预测方法,包括决策树归纳、贝叶斯分类、基于规则的分类、后向传播的神经网络技术、支持向量机、关联分类、k最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集合方法。该章还介绍了回归方法,讨论了关于准确率和如何选择最佳的分类和预测方法问题。与第1版的对应章相比,新增加了基于规则的分类和支持向量机这两节,并且大幅度地扩充了度量和加强分类和预测的准确率的讨论。
聚类分析构成第7章的主题。该章介绍了主要的数据聚类方法,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。本版新增加了几节,介绍高维数据聚类技术,以及基于约束的聚类分析。该章还讨论了离群点分析。
第8~10章讨论数据挖掘的高级课题,涵盖了学科前沿最新进展的大量材料。这三章取代了前一版关于高级课题的一章。第8章主要讨论流数据、时间序列数据和序列数据(包括事务序列和生物学序列)的挖掘。基本数据挖掘技术(如频繁模式挖掘、分类、聚类和基于约束的挖掘)都扩展到这些类型的数据。第9章讨论图和结构模式挖掘方法、社会网络分析和多重关系数据挖掘。第10章介绍对象、空间、多媒体、文本和Web数据挖掘方法,涵盖了这些领域的大量新进展。
最后,在第11章,我们总结本书提供的概念,并讨论数据挖掘的应用和发展趋势。添加了一些新的数据挖掘材料,涉及生物学和生物医学数据分析、其他科学应用、入侵检测和协同过滤。除了具有挑战性的研究问题之外,还讨论了数据挖掘对社会的影响,如隐私和数据安全问题。新版还增加了无处不在的数据挖掘的进一步讨论。
附录提供了微软用于数据挖掘的OLE DB(用于DM的OLE DB)。
全书用楷体字强调定义的术语,黑体字突出主要思想。
本书具有一些显著特点,不同于其他数据挖掘教材。本书广泛、深入地讨论了整个数据挖掘领域,特别是关于数据流挖掘、图挖掘、社会网络分析和多重关系数据挖掘的一些最新研究课题。在讨论高级主题之前的各章尽可能是独立的,读者可以按自己的兴趣选择阅读顺序。本书提供了数据挖掘的所有主要方法。由于我们从数据库的角度来处理数据挖掘,本书还提供了许多诸如可伸缩的算法和多维OLAP分析等数据挖掘中的重要主题。这些主题在其他书中常被忽略或很少提及。
致教师
本书旨在提供数据挖掘领域的一个广泛而深入的概览。本书可以用作高年级本科生或一年级研究生的数据挖掘导论。此外,本书也可以用来讲授数据挖掘的高级课程。
序言回到顶部↑
我们被数据—科学数据、医疗数据、人口统计数据、金融数据和销售数据—所淹没。人们没有时间查看这些数据。人们的关注已经转到可贵的应付手段上。因此,我们必须找到有效方法,自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。这是数据库研究最活跃、最令人激动的领域之一。诸如统计学、可视化、人工智能和机器学习方面的研究者正在为开拓这个领域做出贡献。由于该领域非常广阔,很难把握它过去几十年的非凡进展。.
六年前,Jiawei Han和Micheline Kamber的原创性教科书将数据挖掘的内容组织在一起并呈现给读者。它预示了数据挖掘领域的创新黄金时代的到来。他们的书的新版反映了该领域的进展;一半以上的参考文献和历史注释都涉及当前的研究。这个领域已趋于成熟,出现了许多新的和改进的算法;该领域已经拓宽,融入了更多的数据类型:流、序列、图、时间序列、地理空间、音频、图像和视频。我们不仅可以肯定这个黄金时代尚未结束—实际上,数据挖掘研究和商业兴趣正在继续增长—而且,这本数据挖掘的现代著作的面世是我们所庆幸的。..
这本书首先提供数据库和数据挖掘概念的简略介绍,特别强调数据分析。然后,逐章介绍分类、预测、关联和聚类等概念和技术。这些主题辅以实例,对每类问题均提供代表性算法,并对每种技术应用给出注重实效的规则。这种苏格拉底式的表达风格具有很好的可读性,并且内容丰富。我已通过阅读第1版学到了许多,并且在阅读第2版时再次受益并更新了知识。
Jiawei Han和Micheline Kamber在数据挖掘研究方面一直处于领先地位。这是一本他们用于培养自己的学生,以加快这个领域发展的教材。该领域发展非常迅速,这本书提供了一条学习基本思想和了解发展现状的快捷之路。我认为该书内容丰富、刺激,相信读者也会有同样的感触。...
Jim Gray
Microsoft Research
于美国加利福尼亚旧金山
六年前,Jiawei Han和Micheline Kamber的原创性教科书将数据挖掘的内容组织在一起并呈现给读者。它预示了数据挖掘领域的创新黄金时代的到来。他们的书的新版反映了该领域的进展;一半以上的参考文献和历史注释都涉及当前的研究。这个领域已趋于成熟,出现了许多新的和改进的算法;该领域已经拓宽,融入了更多的数据类型:流、序列、图、时间序列、地理空间、音频、图像和视频。我们不仅可以肯定这个黄金时代尚未结束—实际上,数据挖掘研究和商业兴趣正在继续增长—而且,这本数据挖掘的现代著作的面世是我们所庆幸的。..
这本书首先提供数据库和数据挖掘概念的简略介绍,特别强调数据分析。然后,逐章介绍分类、预测、关联和聚类等概念和技术。这些主题辅以实例,对每类问题均提供代表性算法,并对每种技术应用给出注重实效的规则。这种苏格拉底式的表达风格具有很好的可读性,并且内容丰富。我已通过阅读第1版学到了许多,并且在阅读第2版时再次受益并更新了知识。
Jiawei Han和Micheline Kamber在数据挖掘研究方面一直处于领先地位。这是一本他们用于培养自己的学生,以加快这个领域发展的教材。该领域发展非常迅速,这本书提供了一条学习基本思想和了解发展现状的快捷之路。我认为该书内容丰富、刺激,相信读者也会有同样的感触。...
Jim Gray
Microsoft Research
于美国加利福尼亚旧金山


点击看大图






加载中...
