基于机器学习的数据缺失值填补:理论与方法
创新性提出基于神经网络的填补方法和基于TS模型的填补方法,大幅提升缺失值填补效率
基本信息

编辑推荐
资深专家多年研究和实践成果总结,内容系统、循序渐进,具备创新性、易用性和工程性
创新性提出基于神经网络的填补方法和基于TS模型的填补方法,大幅提升缺失值填补效率
内容简介
计算机书籍
内容介绍
这是一部讲解如何基于机器学习技术实现数据缺失值填补的专著,与传统的基于统计学的缺失值填补方法相比,效率上得到了较大的提升。作者基于多年的研究和实践成果,创新性地提出了基于神经网络的缺失值填补方法和基于TS模型的缺失值填补方法。
全书共8章,可分为4个部分。
第一部分(第1~3章):首先介绍缺失值填补领域的缺失数据机制、基本概念、性能度量等基础知识,随后详细阐述目前基于统计学、机器学习的缺失值填补理论与方法。
第二部分(第4~5章):对目前神经网络在缺失值填补领域的研究成果进行归纳总结,并从网络模型、填补方案角度阐述神经网络填补方法的设计及应用。
第三部分(第6~7章):详细介绍面向不完整数据的TS建模过程,随后通过特征选择算法处理TS建模中的特征冗余问题,并从前提参数优化和结论参数优化两个角度改进TS模型。
第四部分(第8章):以缺失值填补方法在我国贫困问题研究中的应用为例,展现缺失值填补方法的现实意义。
作译者
赖晓晨
大连理工大学软件学院副教授、博士、硕士生导师,“宝钢教育”优秀教师奖获得者,中国计算机学会会员。主要科研方向为人工智能、嵌入式系统,参与多项国家自然科学基金、国家重大研发计划、科技部973项目、863项目研究,发表SCI/EI收录学术论文20余篇,获得辽宁省技术发明三等奖1次。先后主持国家级教改与课程建设项目3项、省部级项目14项、主持国家金课一门。与Google、Intel、ARM、Xilinx等国际著名公司有长期教学合作关系。
张立勇
大连理工大学控制科学与工程学院讲师、博士、硕士生导师。主要科研方向为数据挖掘与机器学习,参与多项国家自然科学基金、国家重点研发计划、科技部973项目、863项目研究。发表学术论文60多篇,被SCI/EI收录50余篇;出版学术专著2部。获得辽宁省科技进步二等奖1次、三等奖2次,辽宁省自然科学学术成果一等奖1次,获授权国家发明专利5项。
刘辉
大连理工大学讲师,主要研究方向为基于人工智能的数字化驱动教学模式研究,主讲多门线上课程。先后获得“教学之星”大赛全国一等奖、辽宁省微课教学比赛一等奖、辽宁省教育教学信息化大赛一等奖。教学经验丰富,善于用浅显的语言刻画复杂概念。
吴霞
大连理工大学软件学院硕士研究生,主要研究方向是机器学习与不完整数据分析,在SCI核心期刊、国际会议上发表多篇不完整数据分析相关论文,对基于机器学习的缺失值填补有充足的知识储备及见解。
目录
第1章 绪论 1
1.1 缺失值填补的背景与意义 1
1.2 缺失值填补方法的研究现状概述 3
1.2.1 基于统计学的缺失值填补方法 3
1.2.2 基于机器学习的缺失值填补方法 4
1.3 缺失值填补的应用 7
1.4 本章小结 10
参考文献 11
第2章 缺失数据的处理方法 14
2.1 数据缺失机制 14
2.1.1 完全随机缺失 15
2.1.2 随机缺失 15
2.1.3 非随机缺失 16
2.2 缺失数据的处理 17
2.2.1 不做处理 17
2.2.2 不完整样本删除 19
2.2.3 缺失值填补 20
2.3 缺失值填补概述 22
2.3.1 基本概念 22
前言
近年来,以机器学习、深度学习为代表的人工智能技术已经逐步应用到医学、金融、交通等领域,由此掀起了一场大规模的科技与产业革新。人工智能是一门基于数据的科学技术,高质量的数据是推动其发展与应用的重要驱动力。然而,由于现实生活中机器或人为等干扰,数据缺失经常发生甚至不可避免。数据缺失可理解为不完整数据集中的“漏洞”,若不对其进行合理“弥补”,则无法正常开展数据挖掘等数据分析任务。由此可见,在数据质量难以保障而人工智能不断深化的今天,缺失数据已成为从业或科研人员经常面临的问题。
结合缺失数据处理这一现实需求,以及笔者多年的研究和工程经验,本书将全方位、多角度、深层次地呈现目前主流的数据缺失值填补方法,以对缺失值填补领域的研究成果和个人见解进行系统的论述。
缺失值填补是缺失数据处理的有效手段,其核心思想是为每个缺失值计算合理的替换值,以构造完整数据集。此类方法既可以保持原始数据集的规模,又能够保留不完整样本中现有数据所携带的信息,逐渐受到众多研究学者和开发人员的广泛关注。缺失值填补方法众多,应用范围基本覆盖基于数据的科学研究与工业应用领域。诸如均值填补、热平台填补等传统方法主要基于统计学理论实现,随着人工智能的发展,以机器学习为代表的人工智能技术在缺失值填补领域逐渐盛行。一方面,缺失值填补能够改善数据质量,进而改进机器学习的应用成效;另一方面,机器学习能够反哺缺失值填补方法的设计与创新。基于机器学习的缺失值填补理论与方法研究逐渐成为主要的发展趋势。
尽管填补方法众多,但无论是哪种方法均不具备普适性,故需从全局视角建立对缺失值填补的全面认知,以在实际应用中结合具体场景和数据集特性选取适宜的填补方法。目前,缺失值填补领域的研究成果以学术论文为主,少有系统性的图书。由于内容分散且繁杂,研究者需要耗费大量时间查阅论文,且难以形成系统且全面的认知。为了方便读者从全局视角掌握不同的填补方法,深入理解其意义及相互之间的区别,本书对当下缺失值填补领域的研究成果与应用情况进行系统概括和提炼,并重点突出基于神经网络和TS模型等机器学习理论的缺失值填补方法,为读者在科研或工作中遇到的缺失值问题提供全面而有效的解决思路。
总体而言,本书涉及的理论和方法能解决数据处理所面临的缺失值问题,从而有效提高数据质量,为后续人工智能技术的应用与发展建立坚实的基础。
读者对象
本书专注于采用机器学习方法解决数据缺失问题,目标明确、特点鲜明,内容循序渐进、由浅入深,尤其强调论述的系统性和完备性。本书适用人群包括:
人工智能,尤其是机器学习相关领域的研究者;
有相关项目开发需求的软件工程师;
高校信息学科或相关交叉学科的教师;
高校计算机、软件、电子、自动化相关专业的三、四年级本科生及研究生;
其他了解一定人工智能基础的学习者和对此感兴趣的爱好者。
阅读本书,应具备如下基础:
了解人工智能的基础知识和概念;
具有人工智能基本工具的使用经验,如Python、TensorFlow。
本书特色
本书专注于采用机器学习方法进行缺失数据的填补,相比于传统的基于统计学的方法,基于机器学习方法的模型更简单,不需要读者具有很强的数学功底,并且填补效果优于传统方法。以机器学习为代表的人工智能方法引领了目前技术发展的潮流,为社会生活的方方面面带来了彻底的变化。
目前图书市场中,关于缺失值填补的图书少之又少。现存的几类图书,要么基于统计学的方法,要么直接调用函数库讲解应用,对于基于机器学习方法的缺失值填补方法的论述基本是空白状态,这与大量数据集需要完成缺失值填补这一现实需求存在巨大的鸿沟。
本书的主要特点如下。
媒体评论
—— 吴国伟大连理工大学软件学院院长/教育部新世纪优秀人才
作者将机器学习算法引入缺失值填补领域,在对现有缺失值填补算法充分、详尽研究的基础上,深入探究了基于神经网络、TS模型的缺失值填补方法,针对各模型的不足之处提供了改进方法,并对缺失值填补中面临的诸多问题提供了解决方案。本书是缺失值填补领域极具时代性的著作。
—— 卢湖川大连理工大学创新学院院长/国家杰出青年基金获得者
近年来,数据缺失已成为困扰各领域从业者的一大问题。作者多年来致力于研究基于机器学习的缺失值填补方法,并将取得的研究成果引入我国贫困问题分析的实际应用。本书理论与应用联系紧密,体现了研究工作的现实意义与实用价值。
—— 刘日升大连理工大学几何计算与智能媒体技术研究所所长