基本信息
- 原书名:Statistical Models: Theory and Practice
- 原出版社: Cambridge University Press

【插图】

编辑推荐
David A. Freedman(1938—2008) 是加州大学伯克利分校的统计学教授。他是杰出的数理统计学家,其研究范围包括鞅不等式分析、Markov过程、抽样、自助法等。他是美国科学院院士。在2003年,他获得了美国科学院授予的John J. Carty科学进步奖,以表彰他对统计理论和实践做出的贡献。
作者简介
“统计的第二门课是严肃的、正确的和有趣的。本书讲授了回归、因果建模、最大似然和自助法。分析现实数据的每个人都应该阅读本书,并且我们也很荣幸现在能有第2版。”
——Persi Diaconis,斯坦福大学数学与统计学教授
“在本书中,作者解释了因果建模中主要使用的统计方法,通过有趣的实例,清晰而生动地描述了复杂的统计思想。初学者和实践者都将从本书中获益。”
——Alan Krueger,普林斯顿大学经济与公共政策学教授
“回归方法经常应用于观测数据,目的是获得因果结论。在什么环境下这是合理的?分析背后的假定是什么?本书回答了这些问题。对于不仅仅使用回归来总结数据的任何人,本书都是必读的。本书的写作风格非常好,对于社会科学中相关研究论文的讨论极具洞察力。对于从事统计建模或者讲授回归的每个人,我强烈推荐此书。”
——Aad van der Vaart,阿姆斯特丹自由大学统计学教授
“本书是该学科的一个现代导论,讨论了图形模型和联立方程等主题。书中有许多富有启发性的练习和计算机实验。特别有价值的是关于应用统计中主要‘哲人石’的关键评论。这是一本鼓舞人心而又易读的书,无论是老师还是学生都会从中受益。”
——Gesine Reinert,牛津大学统计学教授
内容简介
作译者
目录
引言
第2版序
前言
第1章观测研究和实验1
1.1引言1
1.2HIP试验2
1.3关于霍乱的研究4
1.4Yule关于贫困原因的研究6
1.5札记9
第2章回归线12
2.1引言12
2.2回归线12
2.3胡克定律14
2.4复杂性15
2.5比较简单回归和多元回归17
2.6札记19
第3章矩阵代数20
3.1引言20
3.2行列式及逆21
译者序
通常的回归或统计模型教材,无论标以理论或是应用的标签,往往对模型附加了很多假定,但又从来不解释如果这些假定不满足,则会发生什么问题或灾难。这本书不但不回避这些一般教师避之唯恐不及的关于模型的设置和假定等敏感问题,而且专门对各个领域最著名的、最有影响的文章的模型设置及各种假定进行认真的剖析。读这本书对于教师、学生,特别是实际工作者皆是一种心灵的震撼。我相信,任何有心人读了这本书之后,都会在未来涉及回归的课题上倍加小心,避免发生各种根本意想不到的错误。这本书会使许多人受益不浅,功德无量。
我对这本书的翻译是在2009年David Freedman去世之后,当时还不知道他在去世前已经定稿了修订版。因此,我先翻译了初版,后来又翻译了这一版。我恐怕是本书最忠实的中国读者之一。我希望那些在中国大学教本科生或者研究生回归模型课程的教师,能够以本书作为教材或者主要参考书,使得学生能够直接受益于国际一流统计大师的经验与智慧。
吴喜之
2010年4月
前言
恰当地说,要想开始阅读利用统计模型的经验性文章,本书的内容是必须知道的.全书所强调的是在模型和实际现象之间的联系或缺乏联系.多数讨论是围绕着已发表的研究成果进行的,为了易于参考,关键的文章重新印在书后.一些读者可能发现作者以怀疑的态度作为本书讨论的基调.若您也在这部分读者之中,那么我会做出一个不同寻常的建议,即在您读完本书之前,请保持这种怀疑态度.(一般来说,作者都要求读者暂时相信书中的结论,但本书不做如此要求.)
第1章对比了观测研究和实验研究,并引进了回归方法,这种方法有助于理清观测研究中的繁杂关系.本书中,有一章用来解释回归线,而另一章快速地复习了矩阵代数(在伯克利,半数主修统计的学生需要学习这些章节),知道这些内容,学生们会轻松很多.另外一个重要的附加课程是坚实的概率论和统计基础知识.
方法是通过实践来发展的.在伯克利,我们有实验室上机环节,在那里,学生利用计算机来分析数据.书后面有13个这样的实验(lab),一些我们给出了要点,此外,还附上了几个计算机程序样例.若想获取数据以及程序代码,教师可发邮件至solutions@cambridge.org索取.
好课本应该有好的练习,书中有大量的课后练习.这些练习题中有些是关于数学的,有些是假想的,它们是对一些引理和传统方法中的反例的模拟练习.另一方面,许多练习题都是基于实际研究.这里有数据的概括和分析,还有特别的一点:你如何下手?多数练习题的答案附在本书后.除了做练习和实验外,伯克利的学生在学期中还要完成一些课题的研究报告.
作为教材,一方面要确定选择什么来讨论,而另一方面要确定选择什么来忽略.无论一本书有多厚,都无法覆盖所有感兴趣的内容.我的目标是解释实际工作者如何从关联中推断出因果关系,而自助法则用来替代通常使用的渐近方法.检查该领域的逻辑性是至关重要的,而且需要时间.如果我们忽视了一种广受欢迎的方法,或许这种检查可以对比做出修正.
本书的内容足够用于本科生15~20周或研究生10~15周的课程和讨论.对大学期的本科生课程,我讲授第1~7章,并同时介绍9.1~9.4节.这通常需要13周.如果时间允许,我还会讲自助法(第8章)和第9章的例子.在10周的小学期,我将跳过学生的演示和第8~9章,以及第7章中二分变量的probit模型.
在学期的最后两周,学生展示他们的课程,或者在答疑时间和我讨论这些课题.我常常在最后一次课中总结一下.对于研究生课程,我增加了附加的案例分析和方法讨论.
本版的内容在安排上与前版稍有不同,这样使得教学更容易.我已经以某些其他方式对内容讲解做出了改进,(希望)没有引进新的困难.本版增加了许多新的例子和练习.
致谢
多年来,基于本书内容,我在伯克利,也在斯坦福和雅典教授过研究生和本科生课程.这些课上的学生给予了我很大的帮助和支持.我还要感谢Dick Berk、M'aire N'Bhrolch'ain、Taylor Boas、Derek Briggs、David Collier、Persi Diaconis、Thad Dunning、Mike Finkelstein、Paul Humphreys、Jon McAuliffe、Doug Rivers、Mike Roberts、Don Ylvisaker、Peng Zhao及多位匿名的评审人的非常有益的意见.Ross Lyons和Roger Purves是本书的合作者.David Tranah是位出色的编辑.
序言
这本书清楚地介绍了应用统计中最常用的6种工具,这里没有难懂的行话及夸张之言。它解剖实际应用:该书的四分之一篇幅重印了依赖于统计模型的社会和生命科学的文章。它清楚地阐明了使这些工具正常运作所必需的假定,并且确定了这些假定的作用。这种清楚的表达使得学生及实际工作者可以较容易地看到:这些方法在什么情况下会是可靠的;在什么情况下有可能失败,并且有多么糟糕;在什么情况下另一种方法可能行得通;在什么情况下,无论用何种被人试图推销的工具,都不可能做出推断。
很多这个层次的教科书比“方法大全”好不到哪里,展示了几十种工具,缺乏说明及见解,像一本菜谱,是一种数目仅仅是数目的方式。“如果左边是连续的,利用线性模型,用最小二乘法来拟合。如果左边是离散的,利用logit或probit模型,用最大似然法来拟合。”以这种方式来教统计,诱使学生相信得到的参数估计、标准误差及显著性检验是有意义的,甚至可能揭开复杂的因果关系。他们教导学生把科学推断看成纯粹的运算法则。代人数字,就是科学了。这既低估了实体知识,也低估了统计知识。
选择一个适当的统计方法实际上需要认真思考数据收集的方法及其所度量的对象。数据并不“仅仅是数目”。在背后的假定是错误的情况下使用统计方法,既能产生金子,也能产生渣滓,但多半是渣滓。
本书通过展示有重大影响的研究所使用的好的和有问题的统计工具来给出上面的信息。这些研究包括:关于麦卡锡(McCarthy)时代的政治不容忍性的研究,就学于天主教学校对完成中学学业和进人大学的影响,生育力和教育之间的关系,政府机构在重组社会资产中的角色。其他例子来源于医学和流行病学,包括JohnSnow的关于霍乱病因的经典之作,这是简单统计工具加上实质性的知识及脚踏实地的工作而获得成功的闪闪发光的例子。这些实际应用给予理论以活力并给练习以动力。
高年级本科生和低年级研究生均能读懂本书。高年级研究生和成熟的研究工作者还会得到新的收获。我们三个人从阅读和教授这本书的过程中确实学到了不少东西。
仅仅读这本书并不能完全覆盖Freedman在这个领域的所有可以找到的研究。他的许多研究文章收集在《Statistical Models and Causal Inference:A Dialogue with the Social Sciences》(Cambridge University Press,2009)之中,它是本书有用的补充。该文集对本书提到的某些应用进行了更深入的探讨,比如霍乱病因以及激素替代疗法的健康效果等。此外,还涵盖从调整不足的普查到量化地震的风险等应用。有些文章涉及本书提到的一些理论问题。比如,实验中的随机分配不足以说明回归是正当的:没有更进一步的假定,处理效果的多元回归估计是有偏的。该文集还包括了统计的哲学基础和本书没有的一些方法,比如生存分析。
本书展示了重要应用和背后的理论,但没有丧失掉清晰易懂的特点。Freedman以其智慧和明白的表述说明了统计分析如何能够揭示知识以及如何能够行骗。这本书与众不同,它是一个宝藏:它是一本人门的书,具有做出可靠统计推断所要求的某些智慧。它是Freedman传奇的一个重要部分。
David Collier,Jasjeet Singh Sekhon,Philip B.Stark
加利福尼亚大学,伯克利
媒体评论
——Persi Diaconis,斯坦福大学数学与统计学教授
“在本书中,作者解释了因果建模中主要使用的统计方法,通过有趣的实例,清晰而生动地描述了复杂的统计思想。初学者和实践者都将从本书中获益。”
——Alan Krueger,普林斯顿大学经济与公共政策学教授
“回归方法经常应用于观测数据,目的是获得因果结论。在什么环境下这是合理的?分析背后的假定是什么?本书回答了这些问题。对于不仅仅使用回归来总结数据的任何人,本书都是必读的。本书的写作风格非常好,对于社会科学中相关研究论文的讨论极具洞察力。对于从事统计建模或者讲授回归的每个人,我强烈推荐此书。”
——Aad van der Vaart,阿姆斯特丹自由大学统计学教授
“本书是该学科的一个现代导论,讨论了图形模型和联立方程等主题。书中有许多富有启发性的练习和计算机实验。特别有价值的是关于应用统计中主要‘哲人石’的关键评论。这是一本鼓舞人心而又易读的书,无论是老师还是学生都会从中受益。”
——Gesine Reinert,牛津大学统计学教授
书摘
(1)控制是没有得到处理的对象。
(2)控制试验是研究人员决定谁将在处理组的研究。
和非吸烟者比较,吸烟者结果很糟糕。心脏病、肺癌等疾病在吸烟者中要更加常见。在吸烟和疾病之间有很强的关联(association)。如果香烟造成疾病,这就解释了这个关联,即吸烟者死亡率高是因为香烟有害。一般来说,关联是因果关系的情况证据(circumstance evi-dence)。然而,证明是不完全的。可能会有某种隐藏的混杂因素,使得人们又吸烟又得病。如果是这样,没有必要停止研究:这不会改变隐藏的因素。关联和因果关系不同。