数据挖掘原理与算法
基本信息
编辑推荐
数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、统计学、人工智能与机器学习等多个领域。本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。
内容简介回到顶部↑
本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性教材。
第1章从不同的角度对数据挖掘进行了介绍。第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据挖掘的数据预处理所涉及到的概念及算法。第4章~第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。
本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。
第1章从不同的角度对数据挖掘进行了介绍。第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据挖掘的数据预处理所涉及到的概念及算法。第4章~第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。
本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。
作译者回到顶部↑
目录回到顶部↑
前言
第1章 导论
1.1 数据挖掘的社会需求
1.2 什么是数据挖掘
1.3 数据挖掘的数据来源
1.4 数据挖掘的分类
1.4.1 分类分析(classification analysis)
1.4.2 聚类分析(clustering analysis)
1.4.3 关联分析(association analysis)
1.4.4 序列分析及时间序列(sequence analysis and time sequence)
1.4.5 孤立点分析(outlier analysis)
1.4.6 其他分析
1.5 数据挖掘的体系结构与运行过程
1.5.1 数据挖掘的体系结构
1.5.2 数据挖掘的步骤
1.5.3 实例
1.6 数据挖掘与其他相关技术
1.6.1 数据挖掘与数据库中的知识发现
1.6.2 数据挖掘与olap
1.6.3 数据挖掘与人工智能和机器学习
第1章 导论
1.1 数据挖掘的社会需求
1.2 什么是数据挖掘
1.3 数据挖掘的数据来源
1.4 数据挖掘的分类
1.4.1 分类分析(classification analysis)
1.4.2 聚类分析(clustering analysis)
1.4.3 关联分析(association analysis)
1.4.4 序列分析及时间序列(sequence analysis and time sequence)
1.4.5 孤立点分析(outlier analysis)
1.4.6 其他分析
1.5 数据挖掘的体系结构与运行过程
1.5.1 数据挖掘的体系结构
1.5.2 数据挖掘的步骤
1.5.3 实例
1.6 数据挖掘与其他相关技术
1.6.1 数据挖掘与数据库中的知识发现
1.6.2 数据挖掘与olap
1.6.3 数据挖掘与人工智能和机器学习
前言回到顶部↑
数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、统计学、人工智能与机器学习等多个领域。计算机的应用普及产生了大量的数据,数据挖掘就是利用上述学科的技术进行大数据量的处理。数据挖掘的应用领域非常宽广,从农业生产的预测到基因分类,从化学分子结构的识别到NBA教练临场更换队员,从信用卡欺诈到税务稽查,数据挖掘技术对未来社会的各个领域将起到越来越主要的作用。
我国的数据挖掘技术一方面是科研机构停留在学术研究上,另一方面是利用国外公司的软件产品解决具体问题。为了提高学术水平,科研人员只得进行高水平但很难实用的算法研究:为了提高经济效益,销售国外软件公司的产品最稳健。但是,数据挖掘技术在解决实际问题的过程中需要的是成熟技术加针对具体问题的修正,因此,国内迫切需要对国外十余年的数据挖掘具体技术进行剖析,在掌握核心技术的前提下才能真正赶超。本书的背景是在我们三年前开始开发数据仓库产品及对数据挖掘技术进行了将近两年的跟踪的基础上,根据大量参考文献及内部技术报告,结合研究生的教学工作完成的。目前,我们已完成了开放式的数据挖掘平台及部分算法的实现。
本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员,书中介绍了大量的数据挖掘算法,各个算法具有很强的实用性。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性书籍。
本书共分9章。第1章对数据挖掘从各个角度进行了剖析,从社会需求开始对数据挖掘的概念、数据挖掘的数据来源、数据挖掘的分类、体系结构、运行过程、数据挖掘与其他领域之间的关系、评价标准及未来的发展方向进行了全面的介绍。
第2章对数据挖掘的孪生兄弟——数据仓库技术进行了简单的介绍,由于数据挖掘技术的一个重要发展方向就是嵌入到数据仓库中,即数据挖掘所使用的大数据集直接来自于数据仓库。在简单地回顾了数据仓库技术之后,给出了一种多维数据的模型,这是实施联机分析处理(OLAP)的一种关键技术,同时简单介绍了我们自行开发的OLAP展示工具的体系结构,并介绍了数据仓库在银行的应用案例。
第3章讲述的是数据挖掘的数据预处理所涉及到的概念及算法。干净而合乎要求的数据是数据挖掘成功应用的基础,对数据进行整理是一项枯燥而艰苦的工作。本章在介绍了数据挖掘的数据准备工作之后,给出了一种常用的数字属性的离散化及属性选择算法。数据挖掘虽然可以解决大数据集的问题,但在分布完全相同的前提下,算法处理十万条记录与百万条记录的时间代价是完全不同的。数据采样技术同样有多种方法,每种方法适合解决的问题是不同的。本章最后一部分介绍了数据抽象问题,即如何将大量的数据进行概念提升。
第4章对关联分析给出了详细的算法。无论是在国内还是在国外,关联分析是数据挖掘发展的先行者,并且几乎与其他学科没有交叉。Apriori算法是关联分析的基础,多值属性的关联分析所关心的问题是如何将连续数值的关联分析转化为布尔值,多层关联分析与约束性的关联分析都是解决实用问题的算法,本章最后给出了增量的关联分析解决算法。
第5章讲述了数据分类,给出了分类的各种基本算法,包括国外数据挖掘最早的ID3算法及C4.5算法。对来自统计学的CART算法给出了详细的描述,同时对如何解决大数据集问题的SLIQ算法及并行问题的SPRINT分类器也给出了详细的说明。
第6章讲述了多维方向与数据可视化。它虽然不是数据挖掘的直接内容,但聚类的多种算法都用到了多维数据访问的技术。而空间数据挖掘的基础则是多维访问。数据可视化技术中对数据的观察进行了阐述。
第7章给出了聚类的多种实用算法及基础算法。聚类算法采用了多种技术,用途非常广泛,本章给出了大量的详细的算法。分层的聚类来自于统计学,虽然不能解决大数据量问题,但作为基础还是进行了详细的说明。分区算法介绍了PAM、CLARA及CLARANS算法,其中对CLARANS算法进行扩充,可以用于空间数据挖掘。k-means算法是最常见也是最实用的算法,特别介绍了处理离散数据的聚类算法k-modes。OPTICS是一种复杂的算法,用途也最广泛。BIRCH的特色是只需访问一次数据库,对该算法给出了详细的描述。最后,对用途广泛的孤立点问题给出了最先进的算法。
第8章介绍了序列模式及时间序列。序列模式给出了最早也是最实用的算法。时间序列只是介绍了概貌,没有给出具体的算法,因为时间序列本身就是一门交叉学科。
第9章介绍了我们开发的开放式的数据挖掘平台,限于篇幅只是给出了体系结构,对数据挖掘平台中所用的OLE DB For DataMining及可预测模型描述语言PMML也进行了简单的介绍。
书中的第1章、第2章和第7章由邵峰晶教授编写,其余章节由于忠清研究员编写。在本书的编写过程中得到了南京大学徐洁磐教授、北京大学的邵维忠教授及青岛市副市长马论业教授的多次指导,在此表示感谢。青岛海尔青大海威软件公司的刘志强、林永及贾胜中三位工程师在海威数据仓库与数据挖掘软件及资料方面给予了大力支持,李洁小姐在文字及图形的整理方面做了大量的工作,在此一并表示谢意。
由于时间仓促,书中的错误与不足之处在所难免,敬请读者批评指正。
作者
2003年6月
我国的数据挖掘技术一方面是科研机构停留在学术研究上,另一方面是利用国外公司的软件产品解决具体问题。为了提高学术水平,科研人员只得进行高水平但很难实用的算法研究:为了提高经济效益,销售国外软件公司的产品最稳健。但是,数据挖掘技术在解决实际问题的过程中需要的是成熟技术加针对具体问题的修正,因此,国内迫切需要对国外十余年的数据挖掘具体技术进行剖析,在掌握核心技术的前提下才能真正赶超。本书的背景是在我们三年前开始开发数据仓库产品及对数据挖掘技术进行了将近两年的跟踪的基础上,根据大量参考文献及内部技术报告,结合研究生的教学工作完成的。目前,我们已完成了开放式的数据挖掘平台及部分算法的实现。
本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员,书中介绍了大量的数据挖掘算法,各个算法具有很强的实用性。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性书籍。
本书共分9章。第1章对数据挖掘从各个角度进行了剖析,从社会需求开始对数据挖掘的概念、数据挖掘的数据来源、数据挖掘的分类、体系结构、运行过程、数据挖掘与其他领域之间的关系、评价标准及未来的发展方向进行了全面的介绍。
第2章对数据挖掘的孪生兄弟——数据仓库技术进行了简单的介绍,由于数据挖掘技术的一个重要发展方向就是嵌入到数据仓库中,即数据挖掘所使用的大数据集直接来自于数据仓库。在简单地回顾了数据仓库技术之后,给出了一种多维数据的模型,这是实施联机分析处理(OLAP)的一种关键技术,同时简单介绍了我们自行开发的OLAP展示工具的体系结构,并介绍了数据仓库在银行的应用案例。
第3章讲述的是数据挖掘的数据预处理所涉及到的概念及算法。干净而合乎要求的数据是数据挖掘成功应用的基础,对数据进行整理是一项枯燥而艰苦的工作。本章在介绍了数据挖掘的数据准备工作之后,给出了一种常用的数字属性的离散化及属性选择算法。数据挖掘虽然可以解决大数据集的问题,但在分布完全相同的前提下,算法处理十万条记录与百万条记录的时间代价是完全不同的。数据采样技术同样有多种方法,每种方法适合解决的问题是不同的。本章最后一部分介绍了数据抽象问题,即如何将大量的数据进行概念提升。
第4章对关联分析给出了详细的算法。无论是在国内还是在国外,关联分析是数据挖掘发展的先行者,并且几乎与其他学科没有交叉。Apriori算法是关联分析的基础,多值属性的关联分析所关心的问题是如何将连续数值的关联分析转化为布尔值,多层关联分析与约束性的关联分析都是解决实用问题的算法,本章最后给出了增量的关联分析解决算法。
第5章讲述了数据分类,给出了分类的各种基本算法,包括国外数据挖掘最早的ID3算法及C4.5算法。对来自统计学的CART算法给出了详细的描述,同时对如何解决大数据集问题的SLIQ算法及并行问题的SPRINT分类器也给出了详细的说明。
第6章讲述了多维方向与数据可视化。它虽然不是数据挖掘的直接内容,但聚类的多种算法都用到了多维数据访问的技术。而空间数据挖掘的基础则是多维访问。数据可视化技术中对数据的观察进行了阐述。
第7章给出了聚类的多种实用算法及基础算法。聚类算法采用了多种技术,用途非常广泛,本章给出了大量的详细的算法。分层的聚类来自于统计学,虽然不能解决大数据量问题,但作为基础还是进行了详细的说明。分区算法介绍了PAM、CLARA及CLARANS算法,其中对CLARANS算法进行扩充,可以用于空间数据挖掘。k-means算法是最常见也是最实用的算法,特别介绍了处理离散数据的聚类算法k-modes。OPTICS是一种复杂的算法,用途也最广泛。BIRCH的特色是只需访问一次数据库,对该算法给出了详细的描述。最后,对用途广泛的孤立点问题给出了最先进的算法。
第8章介绍了序列模式及时间序列。序列模式给出了最早也是最实用的算法。时间序列只是介绍了概貌,没有给出具体的算法,因为时间序列本身就是一门交叉学科。
第9章介绍了我们开发的开放式的数据挖掘平台,限于篇幅只是给出了体系结构,对数据挖掘平台中所用的OLE DB For DataMining及可预测模型描述语言PMML也进行了简单的介绍。
书中的第1章、第2章和第7章由邵峰晶教授编写,其余章节由于忠清研究员编写。在本书的编写过程中得到了南京大学徐洁磐教授、北京大学的邵维忠教授及青岛市副市长马论业教授的多次指导,在此表示感谢。青岛海尔青大海威软件公司的刘志强、林永及贾胜中三位工程师在海威数据仓库与数据挖掘软件及资料方面给予了大力支持,李洁小姐在文字及图形的整理方面做了大量的工作,在此一并表示谢意。
由于时间仓促,书中的错误与不足之处在所难免,敬请读者批评指正。
作者
2003年6月







点击看大图






加载中...
