统计学习方法
- 定价:¥38.00
- 评分:
(已有25条评价)
基本信息
编辑推荐
微软亚洲研究院高级研究员李航博士
历时七年著作而成
内容简介
数学书籍
统计学习是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。
《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。
作译者
目录
第1章统计学习方法概论
1.1统计学习
1.2监督学习
1.2.1基本概念
1.2.2问题的形式化
1.3统计学习三要素
1.3.1模型
1.3.2策略
1.3.3算法
1.4模型评估与模型选择
1.4.1训练误差与测试误差
1.4.2过拟合与模型选择
1.5正则化与交叉验证
1.5.1正则化
1.5.2交叉验证
1.6泛化能力
1.6.1泛化误差
1.6.2泛化误差上界
1.7生成模型与判别模型
前言
作者在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做过关于统计学习的报告和演讲.在这一过程中,同学们学习热情很高,希望得到指导,这使作者产生了撰写本书的想法.国内外已出版了多本关于统计机器学习的书籍,比如,Hastie 等人的《统计学习基础》.
该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深奥.统计学习范围甚广,一两本书很难覆盖所有问题.本书主要是面向将统计学习方法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘及相关领域的研究与开发的科研人员与学生.
本书力求系统而详细地介绍统计学习的方法.在内容选取上,侧重介绍那些最重要、最常用的方法,特别是关于分类与标注问题的方法.对其他问题及方法,如聚类等,计划在今后的写作中再加以介绍.在叙述方式上,每一章讲述一种方法,各章内容相对独立、完整;同时力图用统一框架来论述所有方法,使全书整体不失系统性.读者可以从头到尾通读,也可以选择单个章节细读.对每一方法的讲述力求深入浅出,给出必要的推导证明,提供简单的实例,使初学者易于掌握方法的基本内容,领会方法的本质,并准确地使用方法.对相关的深层理论,则仅予以简述.在每章后面,给出一些习题,介绍一些相关的研究动向和阅读材料,列出参考文献,以满足读者进一步学习的需求.本书第1 章简要叙述统计学习方法的基本概念,最后一章对统计学习方法进行比较与总结.
此外,在附录中简要介绍一些共用的最优化理论与方法.本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语言处理等专业的大学生、研究生.本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶宇等人分别审阅了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮助.在此向他们表示衷心的感谢.在本书写作和出版过程中,清华大学出版社的责任编辑薛慧给予了很多帮助,在此特向她致谢.
由于作者水平所限,书中难免有错误和不当之处,欢迎专家和读者给予批评指正.来函请发至ml-book-hangli@hotmail.com.
李 航
2011 年4 月23 日
书摘
第1章 统计学习方法概论
本章简要叙述统计学习方法的一些基本概念.这是对全书内容的概括,也是全书内容的基础.首先叙述统计学习的定义、研究对象与方法;然后叙述监督学习,这是本书的主要内容;接着提出统计学习方法的三要素:模型、策略和算法;介绍模型选择,包括正则化、交叉验证与学习的泛化能力;介绍生成模型与判别模型;最后介绍监督学习方法的应用:分类问题、标注问题与回归问题.
1.1 统计学习
1.统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习(statistical machine learning).
统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论.
赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习.”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习.现在,当人们提及机器学习时,往往是指统计机器学习.
2.统计学习的对象
统计学习的对象是数据(data).它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合.
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提.这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等.由于它们具有统计规律性,所以可以用概率统计方法来加以处理.比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律.
在统计学习过程中,以变量或变量组表示数据.数据分为由连续变量和离散变量表示的类型.本书以讨论离散变量的方法为主.另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。