读者对象
本书适合于统计学、数学、自然科学和工程专业的低年级和高年级本科生,或一年级研究生,以及具有一定统计学基础的社会科学和经济学专业的学生阅读. 读者必须修读了包含泰勒级数和多元微积分在内的一年微积分课程,以及初级的线性代数课程.
本书的目标
这本书反映了我对第一门统计学课程的认识,而这对很多学生来说可能是最后的统计课程.
这样的课程应该包括数理统计的一些经典内容(如似然法),以及描述统计学和数据分析的一些内容,特别是图形显示、试验设计和复杂的实际应用. 它还应该体现出计算机在统计学中所起的不可或缺的作用. 这些主题适当地交织在一起,可以将现代统计学的本质展示给学生. 分别讲授两个主题的课程一个是理论,一个是数据分析,对我来讲似乎有点造作. 此外,很多学生仅学习一门统计学课程,而没有时间学习两门或两门以上这方面的课程.
数据分析与统计实践
为了将上述主题融合在一起,我一直在努力地撰写一本能够紧密结合统计实践的教科书. 只有分析实际数据,才能使我们明白形式理论和通俗数据分析方法所扮演的角色. 我围绕着各种问题组织了这本书,这些问题都需要使用统计方法来解决,此外书中包含很多实际例子,借此引入和介绍理论内容. 这样安排的优点是理论构建在寓意深刻的背景内容下,对其逐步补充和加强,与通俗的分析方法结合在一起. 我认为,这种方法是适合于统计学的,其历史发展主要是由实践需要来促进的,而不是抽象或美学的思考. 同时,我也没有回避学生应该知道的数学内容.
第 3 版
本书第 1 版于 1988 年问世,第 2 版于 1994 年出版. 尽管本书基本的目的和结构没有改变,但是新的版本反映了统计学科的发展,尤其是计算方面的革新.
这一版最显著的变动是对贝叶斯推断的处理. 我将最后一章的材料做了迁移,分散于之前的各章中,这是由于很多老师很难讲授到这一章. 现在贝叶斯推断首先出现在第 3 章的条件分布中. 然后,在第 8 章与频率学派方法同步讲解,那里的贝叶斯方法可以非常自然地解决最大似然估计量. 第 9 章假设检验的引言部分现在以贝叶斯公式作为开端,然后再转向奈曼{皮尔逊范式.
这样做的一个好处是似然比的至关重要性更突出. 在应用中,我强调无信息先验,说明频率学派和贝叶斯学派得出的定性结论具有相似性.
概率论章节新增了基因组学和金融统计的例子. 这些材料除了与相应的主题相关外,还可以很自然地强化基本概念. 例如,连接函数 (copulas) 强调了边际分布和联合分布之间的关系. 其他变动包括第 10 章探索性数据分析中散点图和相关系数的介绍,以及第 14 章中利用局部线性最小二乘进行非参数平滑的简介. 本版新增了将近 100 道习题,主要集中在第 7 .14 章,同时还包括几个新的数据集,有些数据集完全可以用于计算机实验室上机操作. 此外, 还修改了前面版本中解释含糊不清的一些段落.
概要
当然,我们可以从目录中找到完整的大纲,这里,我仅仅强调几点,并指出教师讲授课程时需要取舍的章节内容.
前 6 章包含概率论的内容,特别是与统计学密切相关的内容. 第 1 章以非测度论的观点介绍概率论的基本内容,以及初等组合方法. 在这一章和其他概率章节中,我尽可能地利用现实世界的例子,而不是使用球与盒子的抽样模型.
第 2 章介绍了随机变量的概念. 我选择将离散型和连续型随机变量放在一起讨论,而不是把连续情形推迟到以后再进行介绍. 本章介绍了几个常见分布. 这样安排的好处是它能为后面的章节提供一些讨论和介绍的内容.
第 3 章继续讨论随机变量,但是转向联合分布. 教师可以跳过雅可比行列式,这不会有损课程的连续性,因为它们很少在本书的其余部分出现. 如果教师乐意之后做些回溯工作,可以在讲解时跳过 3.7 节极值和顺序统计量的内容.
期望、方差、协方差、条件期望和矩生成函数共同构成第 4 章. 教师可以跳过条件期望和预测,尤其是没有计划讲解稍后的充分统计量时. 这一章之后的部分介绍了 ± 方法 (误差传播方法),这个方法多次出现在统计学的章节中.
第 5 章在非常严格的假设条件下证明了大数定律和中心极限定理.
第 6 章汇编了与正态分布有关的常用分布,以及利用通常的正态随机样本计算所得统计量的抽样分布. 我没有在此浪费过多的时间,但确实介绍了统计学章节所必需的知识点, 学生很有必要学习这些分布.
. 第 7 章是有关抽样调查的内容,以非常规但比较自然的方式导入统计学的研究议题. 很多学生在学习抽样调查内容时感到比较模糊,而恰恰在抽样调查中很自然地提出了一系列比较特殊的具体统计问题. 从历史上看,抽样调查涉及了很多重要的统计概念,并可以将其用作传播介质引入在后面的章节中深入介绍的概念和技术,例如:
2 作为随机变量的估计量的思想,具有与之相关联的抽样分布.
2 偏倚、标准误差和均方误差的概念.
2 置信区间和中心极限定理的应用.
2 通过研究分层估计量揭示试验设计的概念以及相对效率的概念.
2 期望、方差和协方差的计算.
抽样调查不受欢迎的原因之一是其计算十分令人讨厌. 然而,这种讨厌也有其长处,学生可以在这样的计算中得到锻炼. 教师可以灵活地掌握介绍本章概念的深度. 比率估计和分层部分是可选的,初次讲授时完全可以跳过,或稍后再讲这些概念,这并不影响课程的连续性.
第 8 章介绍参数估计,它是由拟合数据的概率律问题引起的,其中介绍了矩方法、最大似然方法和贝叶斯推断方法,同时还介绍了效率的概念,证明了克拉默{拉奥不等式. 8.8 节介绍了充分性的概念及其一些衍生问题. 可以跳过克拉默{拉奥下界和充分性的内容. 在我看来,充分性的重要性通常被过度强调了. 负二项分布的内容也可以跳过.
第 9 章介绍了假设检验及其拟合优度检验的应用,这配合第 8 章的内容.(这个内容还会在第 11 章深入讨论. )这里还简要展示了图方法. 如果课时有限,教师可以跳过本章最后的 9.6 节(泊松散布度检验)、9.7 节(悬挂根图)和 9.9 节(正态性检验).
第 10 章介绍了几种描述性方法,其中的很多技术都会在后面的章节中出现. 本章强调了图方法的重要性,并介绍了稳健性的概念. 将描述性方法放在本书的后面似乎有点怪异, 这样做是因为描述性方法通常有其随机性的一面,三章之后再介绍之可以使学生有足够的基础知识去研究各种汇总统计量的统计行为(例如,中位数的置信区间). 我在讲授课程时,会较早地介绍这部分内容. 例如,在抽样调查实验中,我让学生制作抽取样本的箱形图和直方图. 教师可以跳过生存函数和危险函数.
第 11 章介绍了两样本问题的经典分析方法和非参数方法. 假设检验的概念第一次出现在第9 章,在此做了更深一步的介绍. 本章的末尾讨论了试验设计并解释了观测研究的一些内容.
前面 11 章是初级课程的核心,涵盖了估计和假设检验的构造理论、图和描述性方法以及试验设计的内容.
教师可以自由地选择第 12 章到第 14 章的内容. 特别地,没有必要按照书中给定的顺序讲解这些章节.
第 12 章利用方差分析和非参数技术讨论了单因子和二因子试验设计问题. 多重比较问题第一次出现在第 11 章末,在此进行了深入讨论.
第 13 章简单讨论了分类数据分析, 介绍了齐性和独立性的似然比检验, 并叙述了麦克尼马尔检验. 最后,通过前瞻性和回顾性研究的讨论引入了优势比的估计问题.
第 14 章讨论了线性最小二乘. 首先介绍了简单线性回归,接着利用线性代数讨论了更一般的情形. 我选择运用矩阵代数,但尽可能地将其维持在简单和具体层面上,没有超过初级一学期(每学年分为四学期制度中的一学期) 课程所讲授的内容. 特别地,我没有介绍一般线性模型的几何分析内容,也没有试图将回归和方差分析统一起来. 在这一整章中,理论结果伴随着更多基于残差分析的定性数据分析步骤. 在本章末,我通过局部线性最小二乘介绍了非参数回归.
计算机使用和习题解答
计算是现代统计不可或缺的一部分. 它是数据分析的本质,可以帮助我们理清基本概念. 我的学生使用开源软件包 R,将其安装在自己的计算机上就可以使用. 也可以使用其他的软件包,但在这本书中,我没有讨论其他的软件程序. 原书配套的 CD 内容可从华章网站 (www.hzbook.com)下载,其中包括书中涉及的数据.
这本书包含大量的习题,从例行的基本概念强化题到具有一定难度的分析题. 我认为习题解答,特别是非常规的习题,是非常重要的.
致谢
我要感谢很多人,他们直接和间接地促成了第 1 版面世. Richard Olshen、Yosi Rinnot、Donald Vlvisaker、Len Ha. 和 David Lane 在教学中使用了早期版本,他们提出很多有益的意见. 他们和我自己课堂中的学生提供了很多建设性的意见. 助教,尤其是 Joan Staniswalis、Roger John-son、Terri Bittner 和 Peter Kim,解答了很多习题,发现其中的很多错误. 很多审稿人给出了有益的建议:Rollin Brant,多伦多大学;George Casella,康奈尔大学;Howard B. Christensen,杨百翰大学;David Fairley,俄亥俄州立大学;Peter Guttorp,华盛顿大学;Hari Iyer,科罗拉多州立大学;Douglas G. Kelly,北卡罗来纳大学;Thomas Leonard,威斯康星大学;Albert S. Paul-son,伦斯勒理工学院;Charles Peters,休斯敦大学;Andrew Rukhin,马萨诸塞大学安默斯特校区;Robert Schaefer,迈阿密大学;Ruth Williams,加州大学圣地亚哥分校. Richard Royall 和 W.G. Cumberland 热心地提供了第 7 章抽样调查所使用的数据集. 我在休假时有幸在国家标准局度过了愉快的一年,那里的统计学家让我留意到书中其他几个数据集. 我深深地感激编辑 John Kimmel,他的耐心、毅力和信念促成这本书的出版.
使用过本书第 1 版的很多学生和教员给出了坦诚的评论,这极大地影响了第 2 版的修订. 我要特别感谢 Ian Abramson、Edward Bedrick、Jon Frank、Richard Gill、Roger Johnson、Torgny Lindvall、Michael Martin、Deb Nolan、Roger Pinkham、Yosi Rinott、Philip Stark 和 Bin Yu. 我要向无意间遗漏的同仁表示道歉. 最后,我要感谢 Alex Kugushev 在进行修订时所提供的鼓励和支持,感谢 Terri Bittner 在校正和解答新的习题时所做的细致工作.
很多人促成了第 3 版的问世. 我想感谢如下这些审稿专家:Marten Wegkamp,耶鲁大学;
Aparna Huzurbazar,新墨西哥大学;Laura Bernhofen,克拉克大学;Joe Glaz,康涅狄格大学;Michael Minnotte,犹他州立大学. 我深深地感激很多读者,他们慷慨地花费大量时间指出书中的错误,并提出了很多改善结构安排之类的良好建议. 特别地,Roger Pinkham 发送了很多有益的电子邮件信息,Nick Cox 指出了大量的语法错误. Alice Hsiaw 详细评述了第 7.14 章. 我还想感谢 Ani Adhikari、Paulo Berata、Patrick Brewer、Sang-Hoon Cho Gier Eide、John Einmahl、David Freedman、Roger Johnson、Paul van der Laan、Patrick Lee、Yi Lin、Jim Linnemann、Rasaan Moshesh、Eugene Schuster、Dylan Small、Luis Tenorio、Richard De Veaux 和 Ping Zhang. Bob Stine 贡献了金融数据; Diane Cook 提供了意大利橄榄油的数据; Jim Albert 提供了篮球数据集,很漂亮地解释了回归向均值的问题; Rainer Sachs 提供了可爱的染色质分离数据. 我要感谢编辑Carolyn Crockett 坚强的毅力和耐心,使这一版修订的愿望得以实现,还要感谢这个充满活力且高效的工作团队. 我要向无意间遗漏其姓名的其他人表示道歉.
John A. Rice