高维概率及其在数据科学中的应用
基本信息

内容简介
作译者
目录
序言
前言
第0章 预备知识:用概率覆盖一个几何集1
0.1 后注3
第1章 随机变量的预备知识4
1.1 随机变量的数字特征4
1.2 一些经典不等式5
1.3 极限理论7
1.4 后注8
第2章 独立随机变量和的集中9
2.1 集中不等式的由来9
2.2 霍夫丁不等式11
2.3 切尔诺夫不等式14
2.4 应用:随机图的度数16
2.5 次高斯分布17
2.6 广义霍夫丁不等式和辛钦不等式22
2.7 次指数分布24
2.8 伯恩斯坦不等式28
2.9 后注30
前言
这是一本着眼于数据科学应用的高维概率论教材,它面向数学、统计学、电气工程、计算生物学及相关领域的博士生和高年级硕士生以及初级研究人员,为扩展他们在现代数据科学研究中使用的理论方法而写.
关于本书
数据科学正在快速发展,概率方法经常为其提供基础和灵感. 如今,一门经典的研究生概率论课程已经不足以达到数据科学研究人员所期望的数学复杂程度. 本书旨在部分地填补这一空白. 它提出了一些关键的概率方法和结果,这些方法和结果为数学数据科学家提供了必要的理论工具. 它可以作为概率论第二门课程的教材,以使学生对数据科学的应用有所了解. 本书也适合自学.
本书内容
高维概率是概率论中一个研究Rn中的随机对象的分支,其中维数n可能非常大. 本书重点介绍随机向量、随机矩阵和随机投影. 它讲授分析这些对象的基本理论技能,包括集中不等式、覆盖与填充理论、解耦和对称化技巧、随机过程的链和比较技术、基于VC维数的组合推理等.
高维概率的研究为数据科学应用提供了重要的理论工具. 本书将理论与协方差估计、半正定规划、网络、统计学习要素、纠错码、聚类、矩阵补全、降维、稀疏信号恢复和稀疏回归等应用结合起来.
预备知识
阅读本书的基本前提是具备扎实的概率论基础(硕士或博士水平),对本科阶段的线性代数有很好的掌握,对度量空间、赋范空间和希尔伯特空间以及线性算子的基本概念有全面的了解. 对测度论是否了解并不重要,但会有所帮助.
关于练习
练习穿插在正文中. 对文中所提的问题,读者可以立即进行验证,以检验对该问题的理解,并为接下来的应用做更好的准备. 练习的难度用咖啡杯的数量来表示,排列顺序由易()到难(). 带指向的手()意味着该练习在本书末尾有提示.
相关阅读
本书只涵盖了高维概率理论内容的一小部分,并且其应用仅限于数据科学中的一些例子. 本书的每章结尾都有一个后注,给出与本章内容相关的其他文献,也给出了一些特别有用的信息. 现代经典的文献\[8\]全面介绍了概率方法在离散数学和计算机科学中的应用. 文献\[19\]呈现了数学数据科学的全景图,其重点在计算机科学中的应用上. 研究生和高年级本科生都可以阅读这两本书. 文献\[206\]是面向研究生的,更多地介绍了高维概率的理论.
致谢
许多同事的反馈对准备本书很有帮助. 特别感谢Florent Benaych-Georges、Jennifer Bryson、Lukas Grtz、Rémi Gribonval、Ping Hsu、Mike Izbicki、George Linderman Cong Ma、Galyna Livshyts、Jelani Nelson、Ekkehard Schnoor、Martin Spingler、Dominik Stger、Tim Sullivan、Terence Tao、Joel Tropp、Katarzyna Wyczesany、Yifei Shen和 Haoshu Xu提出的许多有价值的建议和更正,特别是Sjoerd Dirksen、Larry Goldstein、Wu Han、Han Wu和Mahdi Soltanolkotabi对本书的详细校对. 很感谢Can Le、Jennifer Bryson和我的儿子Ivan Vershynin在许多图片上的帮助.
序言
在展示了必要的背景材料后,第3章直接进入了本书的核心部分:以一种具有启发性的方法处理高维集中问题. 例如,注3.1.2中公式n±O(n)=n±O(1)的表述很简洁. 同样在图3.6中,一个高斯点云在高维中表出:它集中在一个半径为
n的球面上. 这种形状与二维或三维中的钟形形状几乎没有任何共同之处——我们的低维直觉是无用的!作为概率论可以让生活更容易的另一个例子,本书给出了Grothendieck不等式的富有洞察力的证明. 要理解该不等式的任何其他形式(带有“好”的常数)的证明,我们可能需要几年时间.
再提及一个本书处理得很好的主题:等周不等式以及它如何导致放大. 如果球面的一个子集覆盖了至少50%的球面,那么它的覆盖范围指数地接近于100%. 本书还介绍了一些扩展到其他度量空间的内容,例如,格拉斯曼流形上的集中. 通过这种方式,为读者提供了这个领域的一个进入点,如果读者对这个领域感兴趣,可参考各章后注中提供的丰富材料.
本书读起来很有趣. 作者把材料当作激动人心的故事来讲述,使人欲罢不能. 许多分散在书中的练习鼓励读者参与故事情节的发展.
本书中讨论的其他主题包括随机矩阵、经验过程理论和稀疏恢复等,这些结果对数据科学的研究很重要,其本身也很漂亮. 许多学生和研究人员可能已经听出了话外音,这是一本他们苦苦寻求的书.
Sara van de Geer,ETH Zürich
媒体评论
—— 陶哲轩,加州大学洛杉矶分校
只要具备概率论和线性代数第一门课程的知识就可阅读本书。韦尔希宁指导读者贯穿主题并始终如一地通过现代数据科学应用来说明书中理论的实用性。这本书应该是概率论、数据科学及相关领域的学生和研究人员必备之书。
—— Ramon van Handel,普林斯顿大学
这本书因对与当代统计科学和机器学习特别相关的几个主题的简洁介绍而广受欢迎。 作者在呈现深刻的理论与保持非专业读者的可读性之间做到了很好的平衡。
—— Richard Nickl,剑桥大学
韦尔希宁是高维概率领域的世界领先专家之一,他的这本书为该领域的许多关键工具及其在数据科学领域中的应用进行了优美且全面的介绍。本书涉及的主题对于任何想在这个领域做数学研究,包括从事机器学习、算法和理论计算机科学、信号处理和应用数学工作的人来说都是必需的。
—— Jelani Nelson,哈佛大学
本书无论是对新人还是熟悉该领域的人都提供了优质的资源。 我相信,正如作者所希望的,本书所涵盖的内容确实是数据科学发展中必不可少的。
—— Santosh Vempala,佐治亚理工学院
在本书中,罗曼·韦尔希宁对该领域的重要概念、工具和技术进行了循序渐进、清晰的阐述。高年级学生及对数据科学的数学基础感兴趣的实际工作者将在本书中看到许多相关的工作实例和有趣的练习。
—— Rémi Gribonval,法国国家信息与自动化研究所研究室主任/高级研究员
罗曼·韦尔希宁是高维概率研究中的领军人物,且是一位语言表达大师,在本书中,他提供了一些基本的工具和高维概率的主要结果及应用。
—— Elchanan Mosse,麻省理工学院
高维概率的基本知识对应用数学、统计学和计算机科学交叉领域的研究人员来说是必不可少的。广泛的内容和循序渐进的介绍将使得这本书成为经典,基础数据科学领域的每个人都应该阅读它。
—— Alfred Hero,密歇根大学
韦尔希宁的这本书是对现代信号处理和数据科学所需的核心数学知识的精彩介绍。 重点是测度集中及其在随机矩阵、随机图、降维和随机过程的界等方面的应用。
—— Andrea Montanari,斯坦福大学