基本信息
- 作者: [波]伍拉迪斯罗·霍曼达(W&#322 adys&#322 aw Homenda) [加]维托德·派提兹 (Witold Pedrycz)
- 丛书名: 智能科学与技术丛书
- 出版社:机械工业出版社
- ISBN:9787111646754
- 上架时间:2020-3-27
- 出版日期:2020 年3月
- 开本:16开
- 页码:242
- 版次:1-1
- 所属分类:计算机 > 人工智能 > 模式识别

内容简介
作译者
伍拉迪斯罗·霍曼达(Władysław Homenda) 波兰华沙理工大学数学与信息科学学院教授,主要研究兴趣包括知识表示与处理、智能计算、模糊建模、粒度计算和数据挖掘等。
维托德·派提兹(Witold Pedrycz) 波兰科学院系统研究所教授,兼任加拿大阿尔伯塔大学电子与计算机工程系教授。IEEE会士,加拿大皇家学会会士。主要研究兴趣包括智能计算、信息处理、人工智能等。
---译者简介---
张轶,四川大学计算机学院副教授,研究方向为模式识别、视觉计算和机器智能,担任“模式识别”课程的主讲教师。
目录
前言
第一部分 基础知识
第1章 模式识别:特征空间的构建2
1.1 概念2
1.2 从样本到特征5
1.2.1 向量型特征7
1.2.2 特征变换:从向量型到向量型8
1.2.3 特征变换:从向量型到数值型9
1.2.4 数值型特征10
1.3 特征尺度化12
1.3.1 特征归一化13
1.3.2 标准化14
1.3.3 特征尺度的经验评价15
1.4 特征评估和选择18
1.4.1 相关性18
1.4.2 特征评估:两种方法20
1.4.3 基于指数的特征评估:单特征与特征集21
1.4.4 特征评估指数21
1.4.5 基于指数的方法和基于包装的方法23
前言
随着数据的丰富,它们的数量和多样性带来了明显的挑战。我们需要认真解决这些挑战,以促进该领域的进一步发展,从而满足不断增长的应用的需要。简言之,这些都涉及数据质量(data quality)的问题。这个名词开始出现在很多领域,故而得到了广泛的关注。数据缺失、噪声、异类样本(foreign pattern)、有限精度、信息粒度以及不平衡数据都是在构建模式分类器和进行综合数据分析时经常碰到且必须充分考虑的因素。特别是,在进行分析、分类和解析前,我们必须进行适当的数据(样本)变换(或预处理)。
数据质量影响着模式识别的本质,因此需要对该领域的原理进行详尽的研究。数据质量可对分类器开发方案和架构产生直接影响。本书旨在从一个全新的角度(数据质量)来覆盖模式识别的精髓,本质上我们主张建立新的模式识别框架及其方法和算法,以应对数据质量的挑战。比如,本书中讲述的所谓异类样本(奇异样本)就是一个极具代表性的有趣示例。这里提到的异类样本指的是不属于已知类别中的任意一类。模式识别技术不断发展的现状使得辨识异类样本尤为重要。例如,在印刷体文本的识别问题上,奇异样本(比如墨渍、油污或损坏的符号)出现的频率极低。而在处理其他诸如测绘地图或音乐符号等识别问题时,异类样本则经常出现,这不能被忽略。与印刷体文本不同,此类文档包含不规则位置、不同尺寸、重叠或形状复杂的对象,过于严格的字符分割会导致很多可识别字符被拒绝。由于识别模式的可分离性较弱,因此分割准则需要制定得宽松一些,而与可识别样本相近的异类样本则需要仔细审查甚至拒绝。
本书的内容分为两大部分:第一部分是“基础知识”,第二部分是“高级主题:粒度计算框架”。这样安排反映了本书覆盖的主要内容的本质。
第一部分探讨带拒绝的模式识别问题的原理。其中,将拒绝异类样本的任务作为模式识别标准方案和实践的扩展和加强。本书重温并详细阐述了模式识别最基本的概念,以便解释如何通过添加拒绝项来增强现有分类器,从而更好地处理所讨论的问题。正如前文强调的那样,本书内容齐备,介绍了众多知名方法和算法,并全面回顾了模式识别学科的主要目的和研究阶段。关键主题涉及对问题的公式化和理解,特征空间构成、选择、变换和降维,模式分类,以及性能评估。重点分析带拒绝的模式识别领域的研究进展,包括历史及展望。同时,当前和未来的一些解决方案也被提出来,以帮助读者了解该领域未来的发展,特别是针对现有一些挑战所诞生的新技术的发展趋势。相应章节重温了重要技术环节,详述了带拒绝的模式识别问题的解决方法。第1章讨论特征空间构成的基本概念,特征空间在很大程度上决定了分类器的质量。这一章的重点是分析和比较用于特征构建、变换和降维的主要方法。第2章讲述一系列基本分类器的设计方法,包括著名的k-NN(k最近邻)算法、朴素贝叶斯分类器(nave Bayesian classifier)、决策树(decision tree)、随机森林(random forest)和支持向量机(SVM),此章提供了一系列案例以进行比较学习。第3章详尽阐述关于带拒绝的识别问题,附带有大量实例,并且详细介绍了现在在这一领域进行的研究。第4章讲述一套实现带拒绝的模式识别任务所需的评估方法以及经典的性能评估途径,从多方面对模式识别评估机制进行深入的探讨。同时,在平衡和不平衡数据集上进行扩展分析。从标准模式识别问题的评估开始讨论,接下来进入带拒绝的模式识别问题。当不平衡数据的存在使问题进一步恶化时,我们将讨论如何对带拒绝的模式识别问题进行评估。这一章讨论了广泛的解决方法,并将其应用到实验当中,包括那些实验数据的对比。在第5章中,对不同的拒绝架构进行实证评估。我们以一组手写数字和印刷体音乐符号的数据集为例来进行经验验证。另外,我们还提出一种基于几何区域概念的带拒绝的识别方法。不同于拒绝架构,这是一种独立的方法,可用于区分原始和异类样本。我们研究了基本几何区域的用法,特别是超矩形和超椭球体。
第二部分集中讨论信息粒(information granule)和信息粒度(information granularity)的基本概念。信息粒开创了粒度计算这一领域——一个集生成、处理和解析信息粒于一体的典范。信息粒度与数据质量的关键概念紧密相连,有助于对特定质量的模式进行辨识、定量分析和处理。该部分针对这些内容做了自顶向下的组织安排。第6章介绍信息粒的基础知识,给出了关键的激励因素,阐述了其基本形式(包括集合、模糊集、概率),以及操作、变换机理和信息粒的特征描述。第7章介绍信息粒的设计。第8章将聚类放在新环境下,揭示其作为构建信息粒机制的角色。同样,结果表明,将信息粒度引入最初构造的数字集群的描述中,可以显著增强聚类结果(主要是数值性质的)。这一章谈到了关于信息粒聚类的问题,并将其转化为现有聚类方法的扩充。第9章进一步研究了数据质量及其量化和处理。这里我们集中讨论数据(价值)填补和不平衡数据——数据质量起关键作用的两种主要表现形式。在这两种情况下,随着数据质量的量化和分类方案的丰富,相关问题会通过信息粒显现出来。
本书具有一系列吸引读者的重要特点:
●系统地剖析了概念、设计方法和算法。在材料的组织上,我们遵循自顶向下的策略,从概念和动机出发,然后讨论设计细节(尤其是实际算法)并举出一系列具有代表性的应用。
●大量精细构造和组织的说明性内容。本书涵盖了一系列说明性的简要数值实验、细节方案和更高级的问题。
●内容完整独立。我们旨在通过提供所有必要的先决条件来传递内容完整的学习材料。如果必要的话,书中的某些部分将逐步增加对更高级概念的解释,并由精心挑选的说明材料加以支持。
●基于本书的中心主题,我们希望所涉及的内容能受到模式识别和数据分析领域广大研究人员和实践者的喜爱。它可以被看作该领域实际方法的纲领,提供了良好的算法框架。
如果没有各机构和个人的支持,本书是无法完成的。
特别鸣谢国家科学中心为本书提供的经费支持(基金号2012/07/B/ST6/01501, 决策号UMO-2012/07/B/ST6/01501)。
Agnieszka Jastrzebska博士对实验和图表的绘制做了细致入微的工作。感谢John Wiley团队成员Kshitija Iyer 和 Grace Paulin Jeeva S 在本项目开始阶段给予我们的鼓励以及持续的技术支持。
媒体评论
书中首先介绍相关基础知识,探讨带拒绝的模式识别问题的原理,涉及特征空间构成、基本分类器设计,以及实例研究、任务评估、架构评估等。之后集中讨论信息粒和信息粒度,涉及信息粒的概念、设计和聚类,以及数据质量的量化和处理等。
本书特色
引入全新的研究视角,关注数据质量的问题,通过建立新的模式识别框架来应对复杂数据的挑战。
遵循自顶向下的策略,从概念和动机出发,讨论设计细节,并通过实例帮助读者理解具体算法。
内容完整且相对独立,提供必要的预备知识,通过精心挑选和组织的章节逐步加深对概念的阐释。
作者简介
伍拉迪斯罗·霍曼达(W?adys?aw Homenda) 波兰华沙理工大学数学与信息科学学院教授,主要研究兴趣包括知识表示与处理、智能计算、模糊建模、粒度计算和数据挖掘等。
维托德·派提兹(Witold Pedrycz) 波兰科学院系统研究所教授,兼任加拿大阿尔伯塔大学电子与计算机工程系教授。IEEE会士,加拿大皇家学会会士。主要研究兴趣包括智能计算、信息处理、人工智能等。
译者简介
张轶四川大学计算机学院副教授,研究方向为模式识别、视觉计算和机器智能,担任“模式识别”课程的主讲教师。