「罗素、怀特海和其他人能够建立许多符号的组合,用来描述数字和算术,似乎还能描述各类的推理过程。 在所有的推理过程中,只有一种例外。人们似乎还无法创造出一套符号,用以表示“A引致B”(A causes B)。原因和结果的概念躲过了逻辑学家所作的各努力,总是无法套进符号逻辑的规则之中。」
书籍名称:《女士品茶》
基础信息:David Salsburg 萨尔斯伯格 / 2004 / 中国统计出版社
豆瓣评分:8.3/10
豆瓣链接:https://book.douban.com/subject/1626392/
读完时间:2019-12-02 20:53:30
我的评分:3.0/5.0
我的标签:#2019,kindle_pw
免责声明:本页面所发布的笔记仅用于分享我在阅读过程中的摘录、总结和反思。内容大多为书中原文或书中观点的简要提炼,并不代表我个人的立场、意见或价值观。书中观点仅供参考,如需深入了解或采纳,请参考书籍的原始内容。
阅读笔记:
大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。
那位女士竟然正确地分辨出了每一杯茶!
尽管拿的是政治学博士学位,K?皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学的法则》。
皮尔逊感受到了英国科学家弗朗西斯?高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。
很明显,高个子父母很容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将有多高呢?
“向平均回归”(regression to the mean)
不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))。
“适者生存”(survival of the fittest)
K?皮尔逊说,假如存在着某种环境力量,通过提供优越的生存能力,使得某一物种产生某种特定的随机变化,我们也许不能生存得那么久,以看到新物种的出现,但我们能够看到分布的上个参数的变化。在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据,以确定这些分布的参数。最终期望表明,样本参数的变化与环境变化相关。 他们将新期刊定名为《生物统计》(Biometrika)。
其中一些涉及理论数学,以处理发展概率分布时遇到的问题。比如在1908年,一个不知姓名的作者,以“学生”(“student”)为笔名发表了论文,提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。
K?皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论。
戈塞特检验了数据,确定酵母细胞的数量可以用所知的泊松分布(Poisson distribution )来描述,这并不是K?皮尔逊偏斜分布家族中的一种概率分布。事实上,它是一种只有1个(而不是4个)参数的特殊分布。
K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差。戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差?
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。
由于不允许他使用电灯,他的数学导师在晚上教他时,不用铅笔、纸和任何其它视觉辅助品。久而久之,费歇尔发展了一种很强的几何直觉能力。
产量变化是实验科学家的大忌,但却是统计方法研究的基本素材。在现代科学文献中,“变动”(variation)这个词已经很少被用到了,它已经被其它术语代替,比方说“方差”(variance),这个术语与特定的参数分布有关。
在精心设计的科学实验中,如何分解各种不同处理的效应?费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中,方差分析第一次面世。 《研究工作者的统计方法》列出了方差分析某些例子的计算公式,但在这篇论文中,他给出了公式的数学推导,不过推导过程还没有详尽到学院派数学家满意的程度。
作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance),这是一种因素分解的方法,存在着并非由实验设计而来的条件,它们的效应是可以测量的。
自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问题置于多维几何空间的能力。
果说现代科学有统计模型能用来处理观测数据的分布,那么,对这种未曾发生过,或者即便发生,也是百年才发生一次的大洪灾,又该如何用统计模型来分析呢?
知道极值分布有什么用处?如果我们知道极值分布与正常值的分布之间的关系,就可以记录每年洪峰的高度,并预测百年不遇的洪灾发生时最有可能的洪峰高度。能够这样做的原因是,每年的灌水测量值给我们提供了足够的信息,用它就可以蒂皮特分布的参数。因此,美军工兵署(USACE)就能计算出在河上究竟该筑起多高的堤防,环保署就能规定气体排放标准来控制工业烟囱废气突然排放的极值,棉纺工业就能确定在棉线生产中究竟有哪些因素会对最脆弱的纤维强度的分布参数产生影响。
极大似然估计只存在一个问题,就是在试图求解MLE时所涉及的数学问题,其难以对付的程度确实令人望而生畏。
对一台任劳任怨的电脑,区区几百万次的迭代又算得了什么呢?
他之所以使用“概率单位”(probit)这个词,是因为他的模型建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。他的模型中生成的最重要的参数谓之“半数致死剂量”(50 percent lethal does),通常用“LD-50”来表示,是指杀虫剂能以50%的概率杀死虫子的剂量。或者说,如果施用这种杀虫剂来对付大量的虫子,那么用“LD-50”的剂量,将有50%的虫子被杀死。布利斯模型的另一个推论则是:对一只特定的用做实验标本的虫子,要确定杀死它所需要的剂量是不可能的。
之所以会有那么多愚蠢的吸毒者,在古柯硷、海洛因或安非他命的作用下,或已毙命于街头,或变得极度虚弱,原因之一就在于,他们看到其他人同样服用这些毒品却没有死于中毒。
我们根本没有任何办法能够预见某一独特个体对药物剂量的反应。
大量数据集合的平均数都有一个统计分布,而中心极限定理则阐明,无论初始数据是怎么来的,这个分布都可以用正态概率分布来逼近。
正态分布具备某些非常优良的性质:如果有两个随机变量服从正态分布,那么两变量之和也同样服从正态分布。
在数学研究过程中太容易出错,或者太容易在研究中隐含着自己毫无察觉而在别人看来却是显而易见的假设。
纳粹的这种反理智主义、反犹太主义倒行逆施的结果之一,就是让第二次世界大战的同盟国因此而丰收了许多才华横溢的科学家与数学家,在他们的鼎立相助下打赢了这场战争。
蝴蝶效应”(butterfly effect)的观念,已经被那些混沌理论的普及者们当作一个深邃而睿智的真理接受下来了。 然而,没有任何科学的证明揭示了这样一种因果关系的存在,也没有任何数学模型有准确的依据表明客观现实中存在着这一效应。它只是一种信念的表述而已。
假设检验(或者说显著性检验)是一种正规的统计方法,是在“待检验的假设为真”的假设前提下,用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时,我们得出原假设不成立的结论。重要的一点是,假设检验提供了一种拒绝某个假设的工具。
在这个普遍被接受的概念发展的早期,“significant”(显著的)这个词只是用来指“概率低到足以拒绝的程度”,数据如果可以用来拒绝某个分布,则它就是显著的。在19世纪后期的英语里,这个词仅仅是指计算结果意味着或表明了什么意思。进入20世纪之后,英语“significant”这个词在原有含义的基础上又扩展了其他的解释意义,也指某些事情是非常重要的。在某个待检验的假设条件下,统计分析仍沿用“significant”这个词“显著的”含义来表示计算结果发生的概率很低,在这个层面上,“significant”这个词有一个精确的数学涵义。但令人遗憾的是,使用统计分析的人常把显著性检验统计量理解为某种更接近这个词的现代语意的东西。
在显著性检验中,如果得到的是一个不显著的结果,那么它的涵义是什么呢?如果我们找不到拒绝一个假设的证据,我们能做结论说这个假设为真吗?
费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的P值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。
你不可能检验一组数据是否服从正态分布,除非你认为该组数据也可能会被其它的一些分布或分布集来拟合。这些备择假设的选择,决定了显著性检验的执行方式。当一个备择假设为真时,该备择假设被接受的概率奈曼称之为该检验的效力(power)。
了区别被用来计算费歇尔P值的假设与其它可能的一个或多个假设,奈曼和E?皮尔逊把被检验的假设称为“零假设”(null hypothesis),称其它可能的假设为“备择假设”(alternative hypothesis)。
在很多情况下,假设检验的目的是用来推翻零假设的,而这个零假设就好比我们所要攻击的稻草人。举例来说,当我们比较两种药的临床效果时,待检验的零假设是两种药的效果一样。但是,如果真是如此,研究工作就永远不必进行了。所以,“两种处理的效果相同”这一零假设,就是我们所要攻击的稻草人,应该被我们研究的结果来推翻。因此,根据奈曼的思想,该项研究的设计必须使最终数据有最大的检验效力,这样才能推倒这个稻草人,即表明这两种药的效果有多大的不同。
从更一般的意义讲,这个问题可以这样来概括:在现实生活中,概率的意义是什么?
就所用到的数学而言,概率的定义很明确。但这种抽象的概念怎样和现实相联系呢?当科学家试图决定什么为真、什么不为真时,他该如何解释统计分析的概率陈述呢?
费歇尔利用显著性检验产生了一个他称为P值的数字。这是一个计算出来的概率,是在零假设为真假定下,与观测数据有关联的一个概率。例如,假定我们要检验一种新药,对做过乳房切除手术的妇女来说,这种药可以防止乳腺癌的复发。我们把这种药的效果与一种安慰剂作比较。此时的零假设(那个稻草人)就是,该新药不比安慰剂好。现在,假定5年之后,用安慰剂的妇女有一半乳腺癌复发,但用新药的完全没有复发,这样能证明新药“有效”吗?答案当然得看这个50%代表多少病人。 如果在这项研究中,两组各仅有4名病人,也就是总共有8名病人,而其中2人在5年后复发。假定我们任选一个8人团体,把其中两人做上标记,接着把人随机分成两组,每组4人,那么做标记的两个被分在同一组的概率大约是0.30.因此,如果每组只有4名妇女,“所有复发的妇女都落在安慰剂组”是不显著的。如果该项研究中每一组包含500名妇女,且乳腺癌复发的所有250名妇女都落在安慰剂姐,这是极度不可能的,除非新药真的有效。如果新药并不比安慰剂有效,这250名妇女都落在同一组的概率就是P值,计算出来的结果将小于0.0001.
P值是一个概率,它就是这样被计算出来的。既然P值被用来表明一个假设(P值就是在该假设下计算出来的)为假的概率,那它的实际意义又是什么呢?答案是,P值是在极可能为假的条件下,与观测值相关联的一个理论概率。P值与现实没什么联系,它是一种对似是而非问题的间接测量。它不是我们错误理解的新药有效的概率,它也不是出现任何一种类型误差的概率。
他需要将假设检验的P值与现实生活联系起来。
萨维奇认为,世界上并没有“已被证明的科学事实”这样的事情。有的只是一些陈述,而那些自认为是科学家的人对这些陈述持有很高的赞成概率。
大部分数据并不是彼此独立的。费歇尔在《研究工作者的统计方法》一书中所举的第一个例子,是他的新生儿子每周的体重。显然,若小孩在一星期内增加很多体重,下一周的数据当然会反映这种结果;如果小孩此周生了病,体重没有增加,下周的体重数据也会把这个结果反映出来。在现实生活中,一个长时间搜集上来的数据序列很难被认为是真正独立的。
例如,假设我们进行一项临床实验,以检验一种艾滋病新疗法的功效。假定统计分析显示,旧的疗法和新的疗法之间的功效差异是显著的。那么这是否意味着,医学界可以确信这一新的疗法能治愈下一个艾滋病病人呢?或者是否意味着,这个新疗法对一定百分比的艾滋病病人有效?或者仅仅是表示,只有对实验中经过高度筛选的这群艾滋病病人,新的疗法才会有效?
她带着一系列令人瞩目的资料与图表出现在皇家委员会面前。在这些资料和图表中,她指出在克里米亚战役(Crimean War)期间,英军死亡的主要原因是在战场外染上疾病,以及战场上受伤之后没有得到及时的照料所致。为了展示她的相关数据与资料,她还发明了饼图(pid chart)。和这些愚钝而又不学无术的军事将领打交道,南丁格尔感到很疲惫。
当进行一项化学实验时,常常碰到,在实验程序之初反应发生器(即化学反应进行的地方)并未充分预热,也会碰到某种特殊酶的反应力开始发生变化,结果使得实验结果似乎有误,常常是某个数据要么过大,要么过小。有时可以找到产生异常结果的原因,而有时虽然结果是一个异常值(outlier),显著地不同于其它结果,但又找不到明确的原因。 威尔科克森考察了t检验和方差分析的计算公式,意识到这些极端的异常值显著地影响了结果,导致“学生”t检验统计量的数值比正常情形下的数值更小(一般而言,大的t检验统计量对应着小的P值)。这诱使他从观测值的集合中剔除异常值,用剩下的观测值计算t检验统计。这样一来,假设检验中的数学推导便出了问题。化学家如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,化学家还能继续使用那些基于标准检验统计量的概率图表吗?
他的发现令人惊讶,甚至当原来的假设为真时,非参数检验也几乎与参数检验一样的棒。皮特曼成功地回答了第一个问题:当我们知道参数模型和本应使用特定的参数检验时,如果还使用非参数检验,结果会有多差呢?皮特曼的答案时,根本不差。
第二个问题的答案更让人吃惊。如果数据不适合用参数模型,得差多远时使用非参数检验才会更好呢?皮特曼的计算表明,只需稍稍偏离参数模型,则非参数检验将远远地胜过参数检验。
他获得的数据现在被称为“便利样本”(opportunity sample),都属于那些最容易得到的数据,并不能真正代表总体分布。他们测定的颅腔大小,都只是来自那些碰巧被他们发现而打开了墓穴,那些没有被发现的可能会与之大相径庭。
20世纪30年代的早期,印度发现了一个便利抽样的典型案例。大包大包的黄麻堆到了孟买(Bombay)的码头上,准备装船运往英国。为了估计黄麻的价值,便从每包中抽取一些,黄麻的质量就由样本来确定。抽样是将一把中空的圆形刀片插入包中,再拔出来,刀片中央的空处便带出了少量的黄麻。在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天的时候常常冻得结得一块。取样员将空心刀片插入包中时,由于中央更硬而发生偏离,所取的样品更多的是外层已经变质的黄麻。这种使得样本就会产生偏差,样本的质量偏低,实际上整包黄麻的质量要高出许多。
马哈拉诺比斯的解决办法是采用随机样本(random sample)。我们采用随机原则从大总体中抽取个体,由随机样本得到的数据很可能会错,但是我们可以用数理统计学的理论确定该如何最优地抽取样本并测定数值,以确保长期来看我们的数据将比其它数据更接近真值。并且,我们知道随机抽样概率分布的数学形式,可以计算总体那些待估参数的置信区间。
那时候,计算机并不普及,用手动式的计算器求逆矩阵非常的困难和繁琐。在我上研究生的时候,每个学生都必须练习求逆矩阵——我怀疑那简直是“净化灵魂”的一场仪式,记得当时求一个5*5阶矩阵,要花上好几天,大部分时间我是用来找错和改错。
科恩菲尔德估计,计算一个24*24阶矩阵的逆矩阵,即使是一周工作7天,也要花上几百年的时间。
在这几篇论文中,费歇尔(照片中的他常常是叼着一只烟斗)坚持认为,吸烟会导致肺癌的证据存在着严重的不足。
费歇尔的反对,难道仅仅是一个想安安静静地吸烟斗的老头在无理取闹呢,还是有着一定的道理?我读过他有关吸烟和癌症的论文,还将它们与他以前写的有关归纳推理(inductive reasoning)的性质、以及统计模型与科学结论之间关系的论文作了比较,发现了一条前后一致的理论脉络。费歇尔所研究的是一个艰深的哲学问题——一个由英国哲学家伯特兰?罗素(Bertrand Russell)在20世纪30年代早期就提出来了的问题,这一问题抓住了科学思想的内核,但对许多人来说也许这并不算什么问题,即究竟何为“因果关系”?这一问题的答案绝对不那么简单。
罗素、怀特海和其他人能够建立许多符号的组合,用来描述数字和算术,似乎还能描述各类的推理过程。 在所有的推理过程中,只有一种例外!人们似乎还无法创造出一套符号,用以表示“A引致B”(A causes B)。原因和结果的概念躲过了逻辑学家所作的各努力,总是无法套进符号逻辑的规则之中。
如果一名妇女在怀孕前3个月服用催眠药(thalidomide),那这一举动将导致所生婴儿手足萎缩。
正如罗素在20世纪30年代早期所明确指出的,通常意义上的因果关系是一种相互矛盾的观念。不同的因果关系实例不能套用相同的推理程序,实际上,根本不存在所谓的因果关系,这只是一种流行的妄想,一个含糊的想法,它经不起纯粹理性(pure reason)的攻击。因果关系包含了一套互相矛盾的观念,在科学论述中几乎或根本没有价值。
就在进攻日本本土的日子越来越近的时候,美国陆军得知日本已经开发出一种非金属地雷,已知的探测工具无法测到它。日本人将在海岸线上,以随机形态在可能的入侵路线上布满这种地雷。仅这种地雷造成的死伤人数据估计将高达数十万,因此,亟需一种可以毁坏这种地雷的方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但没有成功。安德森与研究小组的其他成员曾组织在一起,设计利用引爆绳索来毁坏这种地雷的试验。依据安德森的说法,实验数据计算的结果显示,这种方法不可能有效毁坏地雷,这也是导致美国在日本投下原子弹的原因之一。
因为被迫在床上静养,古德开始用心算的方法开2的平方根。他发现计算好像可以一直延续下去,而且当他把已计算部分的结果再平方时,得数只比2小一点点。他继续心算下去,想看看能否找到某些模式或规律,但没有找到。他认识到整个过程可以看成一个数的平方与另一个数的平方的两倍之差,因此,只有当一定的模式存在时,这个数才可以用两数的比来表示。躺在床上,只靠心算,10岁的古德就发现了2的平方根是无理数。与此同时,他也发现了“丢番图”(Diophantine)的问题的解,即“佩尔方程式”(Pell’s equation)。虽然早在古希腊时代,毕达哥拉斯学派(Pythagorean Brotherhood)就发现了2的平方根是无理数,佩尔议程式也在16世纪就解出来了,但这些都不影响一个10岁孩子在心算上的惊人成就。
在其专门为管理者所著的《走出危机》一书中,戴明力图以最有限的数学知识,讲解有关的管理理念。他指出了制造业中普遍存在着的糊涂观念。一个汽车活塞应该是圆的。然而,除非你有办法测量出这个活塞的具体圆度,否则这句话没有任何意义。因此,要改善一个产品的质量,产品的质量就得是可测的。而要测定某产口的性质。就要做这个具体产品的性质做出很好的定义(如上述汽车活塞的例子)。由于所有这些测量就其本质而言都是可变的,因此在生产过程中需要定出这些测量的参数分布。正如K?皮尔逊通过对数的变化去寻求事物演进的证据,戴明坚持:管理层有责任监控这些测量分布的参数,改变生产过程的基本方面,以改进这些参数。
- 变异是有界的,因此个别值不可能是无穷大的,也不可能是无穷小的。 2.下一个数字的最佳估计值必是它的前一个数值。 利维称这样的数列为鞅(martingale)。
统计分析方法可以看作是一个连续过程,一端是高度依赖模型的方法,如科克伦和鲁宾的方法;另外一端则是一些非参数方法,采用最普通的方式检查数据。正如计算机的出现使模型模拟的方法得以实现一样,在使用非参数方法时,也发起了一场计算机革命,这种方法极少或根本不用设计数学结构,数据不必放在一个预想的模型中就可以展现它们的含义。这些方法在使用中都有一些奇怪的名字,像“解靴带”(“boot-strap”,我们称为“自助法”——译者注)。这是下一章要叙述的内容。
深邃未及的这个世界是一个集情感、事件与骚动的复杂混合体。我同意库恩的观点,我不相信人类的头脑能够构造一个理想的结构去解释、甚至不能挖地描述这个世界的真实情况。任何这种努力都存在根本的缺陷,最终,这些缺陷会变得非常明显,以至于科学模型必须不断地被修正,最终将走到它的终点,取而代之的是其它的什么东西。
人们真的懂得什么是概率吗?