411.「在职业生涯早期,大多数社会学家就开始痴迷于形式化的显著性检验,以至于他们忘记了实验的实际逻辑。在与理论语言学家简·格里姆肖(Jane Grimshaw)合作时,我意识到了这一点。格里姆肖自学了统计学,她对我说:“我就开门见山了。这些检验唯一能告诉我们的是,当某种效应并不存在时,20个寻找这种效应的研究人员中就会有1个人错误地宣称它存在。你凭什么确定不是你?”最诚实的回答是:什么也凭借不了。她的怀疑预示着对可复制性乱象的另一种解释。就像刘易斯·卡罗尔笔下的蛇鲨猎人一样,20个科学家去研究一个并不存在的事物。19个人把他们的“零效应”(null result)文档放在一个抽屉中,只有1个犯了第一类错误的幸运者(或倒霉蛋)发表了他的“发现”。」
书籍名称:《理性》
基础信息:[美] 史蒂芬·平克(Steven Pinker) / 2023 / 浙江教育出版社
豆瓣评分:8.1/10
豆瓣链接:https://book.douban.com/subject/36427751/
读完时间:2025-04-12 15:07:38
我的评分:4.0/5.0
我的标签:微信读书,#2025
免责声明:本页面所发布的笔记仅用于分享我在阅读过程中的摘录、总结和反思。内容大多为书中原文或书中观点的简要提炼,并不代表我个人的立场、意见或价值观。书中观点仅供参考,如需深入了解或采纳,请参考书籍的原始内容。
阅读笔记:
《理性》
[美]史蒂芬·平克
57个笔记
一个充满敌意的世界需要理性思考
◆ 试着和你的健康保险公司争取一下被拒绝的医疗赔付吧。在这种情况下,我们总是会发现我们的个人经历、情感反应、关于社会公平的系统1直觉——全部都是毫无价值的。当我们通过电话与保险公司代表交谈时,该代表在计算机屏幕上展示的电子表格中有着一系列的分支选择和需要满足的条件。当现代技术服务的代表试图“应用规则”时,社会背景、个人经历的特异性、个人叙述——所有这些“自然”的系统1处理方式都被抽象化了。不幸的是,现代世界往往创造出一些情境,在这些情境中,通过进化而获得适应性的认知系统默认值无法发挥作用。这就要求使用系统2来覆盖系统1的反应。
◆ 现代技术社会不断产生这样的情况,人们必须将信息去语境化,以抽象和非人格化的方式处理信息,而不是像系统1那样在特定背景下处理信息。
模因和我方偏差
◆ 这句话让人不舒服地想起了心理医生斯科特·亚历山大(Scott Alexander)的一句妙语:卡尼曼、特沃斯基及其追随者发现的50多个偏差中,有49个是可爱的怪癖,而有一个正在摧毁我们的文明。这最后一个就是确认偏差——我们倾向于将证据解释为证实我们已有的信念,而不是根据证据来改变我们的想法。
◆ 人们需要对自己已经获得的文化基因具有更强的怀疑精神。借鉴平克讨论的一些思维倾向,如积极开明式思维,我们需要学会更多地将我们的信念看成临时假设,而不是我们的所有物。人们还需要对早年获得的文化模因(那些由父母、亲戚和同龄人传递的文化模因)持有更强的怀疑态度。这些文化模因很可能没有经过选择性测试,因为它们是在主人缺乏反思能力的成长时期获得的。
为什么要遵循理性
◆ 人们使用“理性”这个词时所赋予它的含义,就是对理性的一个定义:利用知识实现目标的能力。知识的标准定义是“确证的真信念”。[插图]如果一个人依照明知道是错误的信念行动,比如在明知道钥匙不可能在的地方寻找钥匙,或者他所依据的信念不能被确证(这些信念可能来自幻视或者幻听,而不是对现实世界的观察或是根据某个真信念所进行的推理),我们就不相信他是理性的。
形式逻辑与形式谬误
◆ 逻辑之所以被称为“形式的”,是因为它关注的不是陈述的内容,而是陈述的形式。
◆ 日常用语中的“如果”和逻辑意义上的“如果”之间的区别,就是以下事实的案例之一:形式逻辑中起连接作用的逻辑连接符在逻辑中的使用方式与日常交谈中的使用方式是不一样的。在日常生活中,一个词可能有多种含义,只有通过上下文才能知道其确切的含义。[插图]当我们听到“他坐下来并给我讲他的生活故事”这句话时,我们会把“并”这个词理解成他先做了第一个动作,然后又做了第二个动作。尽管从逻辑意义上来说,顺序也可能是反过来的。比如,曾流传过这样一个俏皮话:“他们结婚了,并生了个孩子,但顺序不是这样的。”当抢劫犯说“你要钱还是要命”时,从技术层面来说,这两样东西你都可以要,因为“P或Q”包含了“P为真且Q为真”这种情况。不过,你硬要跟他争论这个问题是不明智的。每个人都会将上下文中的“或”理解为逻辑连接符“异或”,也就是P或Q,但不包括“P且Q”。这也是为什么当菜单上写着“汤或沙拉”时,我们并不会与服务员争论,坚称从逻辑上说我们有权同时享用这两种食物。从技术层面来说,像“男孩就是男孩”“交易就是交易”“情况就是这么个情况”“有时雪茄就是雪茄”这样的命题都是空洞的重言式[插图],它们的形式虽然正确,但缺乏内容。但是,我们会将其解读成具有某种意义。比如,“有时雪茄就是雪茄”这个例子(源于西格蒙德·弗洛伊德)可以理解为:雪茄并不总是男性生殖器的象征。
逻辑真理与经验真理
◆ 莱布尼茨的乌托邦无法成真的第一个原因,也是逻辑永远不会统治世界的一个原因是,逻辑命题和经验命题有根本区别,休谟将二者分别称为“观念的关系”(relations of ideas)和“事实”(matters of fact),还有不少哲学家称之为分析命题和综合命题。
◆ 公元1432年,发生了一场关于马有多少颗牙齿的激烈争论,该争论持续了13天。所有古书和编年史都被搬了出来,这一领域过去从未听说过的奇妙而又沉重的学问被展现在了人们面前。第14天一早,一位风度翩翩的年轻修士请求学识渊博的师长允许他说两句,这让争论者大为惊讶。由于实在受不了他们的“高深智慧”,该修士恳求他们以一种从未听说过的粗鲁方式伸出脖子,朝一匹马张开的嘴巴里看一看,来找出问题的答案。这些学识渊博的人的尊严受到了极大伤害,怒吼着上前把他痛打了一顿,并把他赶了出去。他们说,一定是撒旦诱惑了这个胆大包天的新信徒,让他宣扬不守教规的、从未听说过的寻求真理的方法,违背了祖先们的教导。现在,我们几乎可以肯定这件事从未发生过,培根是否讲过这个故事也值得怀疑。[插图]但是这个故事告诉了我们一个道理:我们永远不可能仅仅通过坐在那里算一算就解决不确定的问题。
逻辑计算与模式关联
◆ 人的理性是一个混合系统。[插图]大脑里有若干模式关联器,吸收着家族相似性并聚合大量的统计线索。不过,大脑还有一个逻辑符号操纵器,可以将概念组装成命题,并得出它们的含义。人们称之为系统2,或递归认知(recursive cognition),或基于规则的推理(rule-based reasoning)。形式逻辑是可以净化和扩展这种思维模式的一种工具,避免社会性和情感性动物易犯的那些错误。命题推理将我们从相似性和刻板印象中解放出来,这让人类理性取得巨大成就成为可能,比如科学、道德和法律。[插图]
什么是随机性,它来自何处
◆ “随机”这个词通常有两个含义:数据缺乏模式,以及过程的不可预测性。
什么是概率
◆ 当电视上的气象学家说一个地区明天有30%的可能会下雨时,所表达的是什么意思呢?大多数人其实并不清楚。一些人认为这意味着30%的区域将会下雨;一些人认为这意味着30%的时间会下雨;一些人认为这意味着30%的气象学家认为会下雨;还有一些人则认为这意味着在做出下雨预报的所有天数里,该区域有30%的天数会下雨。实际上,最后一种理解最接近气象学家的想法。[插图]对此感到困惑的不只是大众。1929年,伯特兰·罗素指出:“概率是现代科学中最重要的概念,尤其是在没有人知道它到底是什么意思的情况下。”
◆ 根据主观主义解释,我可以给自己的“无知”加上一个数字。这激怒了一些统计学家,他们想把概率的概念保留在一系列事件的相对频率上,这些事件是真实的、可以计算的。有人打趣说,单事件概率不属于数学,而属于精神分析。[插图]
概率与可得性
◆ 心理学家罗伊·鲍迈斯特(Roy Baumeister)提出了“受害者叙事”(victim narrative)这个概念:在一种道德化的寓言中,有害的行为被神圣化,而造成的伤害被神圣化为不可弥补、不可原谅的。[插图]这种叙事不以准确为目标,让大家齐心协力才是它的真正目的。追究实际发生事情的细节,不仅无关紧要,而且被视为大逆不道。[插图]
◆ 正如经济学家马克斯·罗泽(Max Roser)所指出的那样,新闻网站在过去25年里每天都可以用“137000人脱离了极端贫困”这样的标题。[插图]但是他们从来没有刊登过这样的头条,因为这样的事情不可能在某一天突然发生。因此,“12.5亿人逃离了肮脏的环境”这一人类历史上的最伟大成就,却没有引起人们的注意。
合取概率、析取概率与条件概率
◆ 在法律领域,错误地使用合取概率就不只是数学上的差错,而是会导致冤假错案的发生。一个广为人知的例子就是貌似正确的“梅多定律”(Meadow’s Law)。这个定律以一位英国儿科医生的名字命名。梅多定律告诉我们,在调查家庭婴儿死亡案件时,“一个死婴是悲剧,两个死婴很可疑,三个死婴就是谋杀,除非能够证明事实并非如此”。律师萨莉·克拉克(Sally Clark)的案件发生于1999年,她的两个孩子均在婴儿期死亡。医生报告说,在家境优越而又不吸烟的家庭,一个婴儿死亡的概率是1/8500,两个婴儿死亡的概率是这个数字的平方,约1/73000000。克拉克随后因谋杀罪而被判处终身监禁。震惊的统计学家指出了其中的错误,家庭中婴儿死亡事件不是独立的:兄弟姐妹可能拥有相同的遗传易感性(genetic predisposition);这个家庭可能经受着较高的风险因素;或者,父母因为经历了第一场悲剧而采取了错误的预防措施,从而增加了第二场悲剧发生的概率。克拉克的第二次上诉使用了不同的理由,随后被释放。在接下来的几年里,数百起基于类似错误的案件不得不重审。[插图]
◆ 错误计算合取概率的另一个例子是,唐纳德·特朗普和他的支持者无端指控选票造假,试图推翻2020年的美国总统大选结果。在向美国最高法院提出的一项动议中,得州司法部长肯·帕克斯顿(Ken Paxton)写道:“考虑到特朗普总统在2020年11月4日凌晨3点时在佐治亚州、密歇根州、宾夕法尼亚州和威斯康星州等4个被告州还处于领先位置,前副总统拜登在这些州赢得普选的概率将小于一千万亿分之一,也就是1/1000000000000000。对于前副总统拜登来说,在4州全部胜选这一事件发生的概率将下降到1/10000000000000004。”帕克斯顿令人瞠目结舌的数学假设是,在计数过程中得到的选票是统计上独立的,就像重复掷骰子一样。但是城市居民的投票方式与郊区居民的投票方式不同;郊区居民的投票方式与乡下人的投票方式不同;亲自投票的选民与邮寄投票的选民也不同,尤其是在2020年,特朗普不鼓励他的支持者邮寄投票。在每个部门内,投票不是独立的,而且各个部门的基础比率也不同。由于每个选区的结果是当局一掌握就公布的,邮寄选票是在之后统计的,然后随着不同部分的累加,有利于每个候选人的计数可能上升或下降,所以最终的结果不能从临时的结果中推断出来。
先验概率与后验概率
◆ 卡尔·荣格(Carl Jung)提出了一种叫作“共时性”的神秘力量来解释不需要解释的精髓,即世界上普遍存在着巧合。
05 信念与证据:贝叶斯推理
◆ 贝叶斯定理的一个典型应用场景是医疗诊断。假设女性的乳腺癌患病率为1%。再假设乳腺癌检测的敏感性(真阳性率)为90%,假阳性率为9%。如果一个女人的检测呈阳性,她得这种病的概率有多大?
◆ 这个公式可以用文字来描述:我们在查看“证据”后对“假设”的相信程度,等于我们事先对“假设”的相信程度,乘以“假设”为“真”条件下“证据”出现的可能性,再根据“证据”的普遍程度做出适当调整。
◆ 该如何利用这些数据进行计算呢?在诊断乳腺癌这个例子中,人口的总体患病率是1%,于是我们设定先验概率:P(假设)=1%。该检测的敏感性,也就是“患者患病”条件下检测结果为阳性的或然率:P(数据|假设)=90%。测试结果为阳性的总体边际概率,是患病者确诊的概率(90%的1%,0.9%)和健康者被误诊的概率(99%的9%,8.91%)之和,结果为9.81%,非常接近10%。把这三个数值代入贝叶斯定理,得到1%乘以90%,再除以10%,即9%。
基础比率忽视和代表性启发式
◆ 人们对基础比率的忽视,很容易表现在疑病症上。在部分记忆缺失后,谁不担心自己患上了阿尔茨海默病呢?谁在感到疼痛时不会担心自己患上某种癌症呢?基础比率忽视还会导致医学上的危言耸听。我有个朋友曾经经历了一段恐慌时期。当医生发现她的学龄前女儿抽搐后,跟她说可能患上了图雷特综合征(Tourette’s syndrome)[插图]。她像贝叶斯主义者一样镇定地把事情想了一遍,意识到抽搐是很常见的,而图雷特综合征是罕见的,于是她的心又安定下来了。关于医生在统计方面的无知表现,她也坦率地跟医生聊了几句。
◆ 对一个罕见特质的不完美检测往往会出现假阳性。毕竟,小偷、自杀者、恐怖分子或持枪暴徒在人群中只占很小比例,即基础比率很小。只有当社会科学家能像天文学家预测月食一样准确地预测危险行为,他们的检测才不会让无辜者蒙冤。
科学中的先验概率和“教科书”的复仇
◆ 大多数心理学发现都是可重复的。和许许多多的心理学教授一样,每年我都会给学生演示一些关于记忆、感知和判断的经典实验,每年都会得到相同的结果。你可能没有听说过这些可重复的发现,因为它们都是不足为奇的。比如,在一列清单中,相对于清单中间的内容来说,人们更容易记住清单末尾的内容;人们在大脑中旋转一个倒立的字母,要比旋转一个侧立的字母花费更长的时间。那些声名狼藉的重复失败,来自因为极端反直觉而引人关注的研究:拿一个温暖的水杯会让你显得更友好,“温暖”,你明白它的意思吧?看到快餐标志会让你不耐烦;用牙衔着笔作画会让你的卡通画看起来更好笑,因为它迫使你的嘴唇露出了一丝微笑;被要求以书面形式撒谎的人会对洗手液有好感,被要求大声说谎的人对漱口水有好感。[插图]任何一位科普读者都知道一些其他有趣的发现,事实证明,这些发现都适合发表在讽刺刊物《不可复制的结果》(Journal of Irreproducible Results)上。这些研究之所以成为可复制性狙击者的靶子,是因为它们的贝叶斯先验概率较小。当然,没有超感知力那么小,但如果情绪和行为可以轻易地被对环境的微小操纵所左右,这将是一个了不起的发现。毕竟,说服和心理治疗的整个行业都在以巨大的成本努力做到这一点,却收效甚微。[插图]正是这些发现的不同寻常之处,为它们在报纸的科学版面和电视节日上赢得了一席之地,这也是为什么基于贝叶斯定理,我们在相信它们之前应该要求不寻常的证据。的确,对“古怪发现”的偏向,让科学新闻传播了大量的错误。编辑知道他们可以通过下列封面标题来提高读者数量:达尔文错了吗?爱因斯坦错了吗?年轻科学家改变了世界。X领域的一场科学革命。关于Y你所知道的一切都是错的。问题是,“惊人的”与“先验概率小”是同一个意思,我们累积的科学理解不会轻易被推翻。这意味着,即使证据的质量没有变化,我们也应该对那些惊人的主张赋予较低的信任度。
做个贝叶斯主义者吧
◆ [插图]
◆ 资料来源:Adapted from Presh Talwalkar’s blog Mind Your Decisions, https://mindyourdecisions.com/blog/2013/09/05/the-taxi-cab-problem。
理性选择究竟意味着什么
◆ 在认知科学和行为经济学中,展示人们违背理性选择公理的种种表现,已经成为一种风潮。而且不仅仅是风潮,目前为止已经有5项诺贝尔奖都颁给了那些公理违背行为的发现者。[插图]这种风潮的乐趣在于它展示了:一方面,人类是多么的非理性;另一方面,古典经济学家和决策理论家是多么糟糕的心理学家。
◆ 吉仁泽喜欢讲述下面这个真实的故事:两位决策理论家在同一所大学共事。其中一位正在为是否接受另一所大学的诱人工作而苦恼。[插图]他的同事说:“你为什么不计算一下留在当前职位和接受新工作的效用,并分别乘以对应的概率,然后,哪个数值大就选哪个呢?毕竟,你的专业工作就是这样建议的。”他不高兴地说:“哥们儿,我是认真的!”
信号与噪声,“是”还是“否”
◆ 钟形曲线是现实世界中可以经常看到的,包括单峰的、对称的和细尾的。只要你测量的是众多小原因的总和,比如受环境影响的众多基因,钟形曲线就会出现。[插图]
成本、收益及标准设定
◆ 当我们的决定涉及生与死、疼痛与外表损伤,以及文明的毁灭或拯救等问题时,估算成本显然是有问题的。然而,如果我们不估算成本,这些困境同样会让人感到痛苦。
信号检测与统计显著性
◆ 任何基于不完善证据的决策,都必须在正确反应和误报之间做取舍,这意味着人们的每一个判断都要受到这种取舍的影响。下面再举一个例子,它涉及的是实证发现是否应该得出某个假设为真的结论。在这一领域,信号检测论以统计决策理论的面目展现在大家面前。
◆ 大多数在科学上见多识广的人都听说过“统计显著性”(statistical significance)这个术语,它经常在医学、流行病学和社会科学的新发现故事中出现。它的数学基础跟统计学家耶日·奈曼(Jerzy Neyman)和埃贡·皮尔逊(Egon Pearson)创立的信号检测论基本相同。注意到两者之间的关系将有助于你避免犯错,这种错误甚至连大多数科学家也无法避免。每个统计学学生都被警告,“统计显著性”是一个技术概念,不要跟日常生活中的“重要性”(significance)混淆。但大多数人都被误导了。
◆ 临界值应该多大为好呢?研究人员必须在两种错误之间做取舍。他可能在零假设为真时拒绝零假设,这就是误报,或者用统计决策理论的专业术语来说,是第一类错误。他也可能在零假设为假时没有拒绝零假设,这就是漏报,或者用专业术语来说,是第二类错误。两类错误都不好:第一类错误将谬误引入科学记录,第二类错误就是浪费时间和金钱。当设计的方法没有足够的“能力”(正确反应率,或1减去第二类错误率)来检测效果时,就会发生这种情况。历史告诉我们:第一类错误(没效应的时候宣称有效应)对科学事业损害巨大,这种错误只能容许少量存在:确切地说,当零假设为真时,仅能允许5%的第一类错误。因此,作为一个惯例,研究人员所采用的临界水平,应确保零假设为真时拒绝零假设的概率小于5%:梦寐以求的P<0.05。虽然人们可能会认为跟信号检测论中的情形类似,第二类错误的代价也应该考虑在内,但由于历史原因,人们从未这样做过。
◆ 这就是“统计显著性”的含义:它是一种将发现的误报比例控制在人为制定的界线之下的方法。
◆ 因此,如果你在P <0 .05的情况下取得了具有统计显著性的结果,就意味着你可以得出以下结论,是吗?· 零假设为真的概率小于0.05;· 存在效应的概率大于0.95;· 如果拒绝零假设,你做出错误决策的概率小于0.05;· 如果重复这项研究,你成功的概率大于0.95。90%的心理学教授,包括其中80%讲授统计学课程的教授,都这么认为。[插图]但他们是错的,大错特错!如果你已熟知了本章和第5章的讨论,你就会明白为什么。统计显著性就是贝叶斯定理的或然率:在给定假设(在本例中为零假设)条件下得到数据的概率。[插图]但是每个陈述句都是一个贝叶斯后验概率:数据出现条件下假设为真的概率。这才是我们最终想要的,也是我们做研究的目的,但显著性实验给不了我们这些。如果你还记得为什么欧文没有患肝病、为什么私人住宅未必危险、为什么教皇不是外星人,你就知道这两个条件概率不能互换。研究人员不能使用显著性检验来判断零假设是真还是假,除非他在做实验之前还考虑了先验概率:对零假设为真的概率的最好猜测。但在零假设显著性检验的数学计算中,根本看不到贝叶斯先验概率的存在。在职业生涯早期,大多数社会学家就开始痴迷于形式化的显著性检验,以至于他们忘记了实验的实际逻辑。在与理论语言学家简·格里姆肖(Jane Grimshaw)合作时,我意识到了这一点。格里姆肖自学了统计学,她对我说:“我就开门见山了。这些检验唯一能告诉我们的是,当某种效应并不存在时,20个寻找这种效应的研究人员中就会有1个人错误地宣称它存在。你凭什么确定不是你?”最诚实的回答是:什么也凭借不了。她的怀疑预示着对可复制性乱象的另一种解释。就像刘易斯·卡罗尔笔下的蛇鲨猎人[插图]一样,20个科学家去研究一个并不存在的事物。19个人把他们的“零效应”(null result)文档放在一个抽屉中,只有1个犯了第一类错误的幸运者(或倒霉蛋)发表了他的“发现”。[插图]在《XKCD漫画》中,两位科学家对软心豆粒糖与痤疮之间的相关关系进行了实验研究,研究是针对20种颜色的软心豆粒糖分别进行的,广为人知的研究结果是绿色软心豆粒糖与痤疮在P<0.05条件下相关。科学家终于明白,这个笑话就是在讽刺“零效应”的发表,并研究出了解决“文档抽屉问题”[插图]的元分析(研究的研究)方法。“零效应”因其缺席而引人注目,但分析人员既可以探测到不存在的“无”,也可以探测到存在的“无”。[插图]
◆ 对显著性检验的严重误解展现了人类的渴求。休谟之后的哲学家们已经注意到,归纳法(通过大量观察得出一般性结论)原本就是一种不确定的推理。[插图]有限的点集可以画出无数条曲线,从逻辑上说可以有无数的理论与某组数据相一致。前面介绍的这些理性工具,可以避免这种重大灾难。统计决策理论虽然不能揭示真相,但可以限制这两种错误所造成的损害。贝叶斯定理可以改变我们对真相的信任程度,但必须从先验概率起步,包括各种各样的主观判断。不过,两者都不能提供人人渴望的东西:一个确定真相的万能算法。
08 自我与他人:博弈论
◆ 博弈论,也就是对“当收益取决于他人的理性选择时,我该如何做出理性选择”这个问题进行分析。
博弈论是冯·诺伊曼和摩根斯特恩在一本讨论预期效用和理性选择的书中提出来的。在玩轮盘赌时,我们计算输赢的概率,最佳策略也与直觉高度一致;但是,博弈论所处理的困境与我们面对轮盘赌时的处境完全不同,因为在这些困境中,不仅有需要做决策的我们,还有跟我们同样聪明的其他决策者,决策结果可能是非常反直觉的。
囚徒困境与公地悲剧
◆ 尽管不受约束的自由具有永恒的吸引力,但囚徒困境博弈和公共物品博弈的逻辑对无政府主义和激进的自由主义是一种打击。这种逻辑,让“应该有一部禁止我做什么的法律”之说成为合理的。正如托马斯·霍布斯所说,社会的基本原则是“当别人也愿意这样做的条件下,一个人愿意……放弃这种对一切事物的权利;而自己对他人的自由权利,也恰好相当于自己让他人对自己所具有的自由权利”。这种社会契约不仅仅体现了公正的道德逻辑,还消除了邪恶的诱惑、傻瓜的回报和相互背叛的悲剧。
什么是相关关系
◆ 虽然人们在相关关系与因果关系上犯错,通常是把相关关系看成因果关系,但更基本的问题是:连相关关系都没有被建立起来。亚马逊创始人杰夫·贝佐斯曾吹嘘说:“我在商业和生活中所有最好的决策都是凭内心、直觉和勇气做出的……而不是分析。”这句话的意思是,与分析相比,心和勇气能带来更好的决策。但他没有告诉我们,他在商业和生活中做出的所有最糟糕的决策,是否也出于内心、直觉和勇气,也没有告诉我们,好的直觉决策和糟糕的分析决策的数量,是否多于坏的直觉决策和好的分析决策。
“错觉相关关系”(illusory correlation)谬误,最初是由心理学家洛伦·查普曼(Loren Chapman)和琼·查普曼(Jean Chapman)的一系列著名实验证明的。这两位心理学家想知道,为什么那么多的心理治疗师还在使用“罗夏墨迹测验”(Rorschach inkblot test)和“绘人测验”(Draw-a-Person test),尽管每一项试图验证它们的研究都表明,测试的答案和心理症状之间没有相关关系。
◆ 泰勒是个法律系的学生,他用自己编写的程序在网上搜索没什么意义的相关数据集,只是为了证明它们的普遍性。例如,用水蒸气或热物品谋杀的案件数量与现任美国小姐的年龄高度相关、美国缅因州的离婚率与全美国人造黄油的消费量密切相关。
回归均值
◆ 回归均值纯粹是一种统计现象。在钟形分布中,一个值越极端,出现的可能性就越小,于是就有了“回归均值”。也就是说,当一个值非常极端时,另一个与其配对的变量(超常夫妇的孩子)不太可能更极端,比如复制连胜纪录、碰到同样的好运或遭受同样的厄运、经历同样的疾风暴雨等,而是会退回到普通状态。在身高或智商的例子中,认为极端案例的起因是父母方存在由基因、经历和生物学意外所构成的不同寻常的组合,这都是不可思议的臆断。没错,这种组合的许多成分会被孩子继承,但这种组合本身不会被完美地复制。反之亦然:因为回归是一种统计现象,而不是因果关系,所以父母也会回归到子女的均值。
◆ 人们往往会被不寻常的事件所吸引,却没有料到,与这个事件相关的所有事情可能都不会像这个事件那样不寻常。相反,他们对统计上的必然性做出了错误的因果关系解释。一个影响不太好的错觉是,人们认为批评比表扬管用,惩罚比奖励管用。[插图]当学生表现不好时,我们总会批评他们。不管你这一次经历了怎样的厄运,下一次的表现都不太可能还是那么糟糕吧,所以你肯定会进步,这让我们误以为批评有效。当学生做得很好时,我们会表扬他们,但闪电不会两次击中同一个目标,所以他们未必能在下一次取得同样好的成绩,这让我们误以为表扬会起反作用。
◆ 不明白回归均值的真正含义,给人们带来了许多其他错觉。在体育迷的心里,年度最佳新秀注定要经历第二年的低谷,美国刊物《体育画报》(Sports Illustrated)的封面人物摆脱不了魔咒。这是因为过度自信、不现实的预期,还是因为名望的干扰?如果仅取一名运动员在某个出彩的一周或一年的数据,他们不太可能还连续取得同样的好成绩,在下一个阶段通常会显得战绩平平。
什么是因果关系
◆ 在铺设从相关关系到因果关系的桥梁之前,让我们先来了解一下什么是因果关系。这是一个难以理解的概念。[插图]休谟为几百年来如何分析因果关系定下了基调,他大胆地认为因果关系只是一种期望:期望我们过去经历的相关关系在未来可以一直保持下去。[插图]如果我们看过足够多台球的运动轨迹,那么,当看到一颗台球接近另一颗台球时,我们就会预知第二颗台球将向前运动,就像我们以前所看到的那样。这样思考的依据,是一个我们默认但又无法证明的假设:自然规律会随着时间的推移而持续存在。不难发现,因果论中的“恒常连接”(constant conjunction)是错的。公鸡总是在天亮前打鸣,但我们并不认为是公鸡使太阳升了起来。与之类似,打雷常常引发森林火灾,但我们不能说打雷导致火灾。这些都是副现象,也被称为混杂变量或干扰变量:它们与事件相伴而来,但不是导致事件发生的原因。在流行病学领域,副现象给人们带来了很多迷惑。多年来,人们认为咖啡会导致心脏病,因为喝咖啡的人心脏病发作的概率更高。事实证明,喝咖啡的人往往也会吸烟,也会疏于锻炼,喝咖啡只是副现象。
◆ 休谟注意到了这个问题,并详细阐述了他的理论:不仅原因要经常地发生在结果之前,而且“如果第一个对象不存在,第二个对象也就绝不可能存在”。关键的“如果不存在”条款是反事实的,这就是一个“将会怎样”假设。它是指在一个可能的世界会发生什么,比如,在一个平行的宇宙或者一个假想的实验中。在平行宇宙中,原因不发生,结果也不会发生。这种对因果关系的反事实定义,解决了副现象问题。我们说公鸡不是日出的原因,是因为:如果公鸡在前一天晚上成了小鸡炖蘑菇的主要食材,那么太阳仍然会升起。我们说闪电会引起森林火灾而雷声不会,是因为:如果有闪电而没有雷声,森林仍会着火,反之则不然。
◆ 因此,可以把因果关系看成是一个事件(原因)发生与不发生时的结果差异。[插图]统计学家所称的“因果推理的基本问题”,是说我们被困在这样一个宇宙中:要么推定的因果事件发生,要么推定的因果事件没有发生。我们无法窥视另一个宇宙,因此不能看到那里的结果。毫无疑问,我们可以在不同场景中一个事件发生或不发生时,比较我们所在宇宙中的结果。但这恰恰是古希腊哲学家赫拉克利特指出的问题:你不能两次踏进同一条河流。
◆ 即使我们根据不同结果以及产生这些结果的机制掌握了因果关系,但任何试图确定某个结果的“唯一原因”的努力都会引发一系列困惑。第一个困惑是原因和条件之间的区别难以捉摸。我们说划火柴产生了火,因为不划火柴就不会有火。但如果没有氧气、没有干燥的纸、没有无风的房间,也就不会有火。那我们为什么不说“氧气产生了火”?第二个困惑是“先发制人”(preemption)。为了方便讨论,假设1963年李·哈维·奥斯瓦尔德在达拉斯的草堆上与一名同谋密谋,谁先获得较好的开枪机会谁就开第一枪,另一个人则混进人群中。在奥斯瓦尔德没有开枪的反事实世界里,肯尼迪仍然会死——然而,在奥斯瓦尔德比他的同伙先开枪的世界里,否认是他导致了肯尼迪的死亡就显得古怪了。第三个困惑是过度决定(overdetermination)。如果一名死刑犯是由行刑队而不是刽子手射杀的,那么这样一来,就没有一名枪手要承受致人死亡的可怕负担:如果他没有开枪,囚犯仍然会死。但是,根据这个反事实的逻辑,没有人导致他的死亡。第四个困惑是概率因果关系(probabilistic causation)。很多人都知道有个90多岁的老人,她一生每天抽一包烟。但现在几乎没人会说她的高龄证明了吸烟不会致癌,不过在人们认识到吸烟与癌症有密切关系之前,这是一个常见的“反驳”。即使在今天,混淆不完全因果关系和无因果关系依然是普遍现象。2020年《纽约时报》的一篇社论主张废除警察制度,因为“目前的做法无法‘消灭’强奸,大多数强奸犯都没有被告上法庭”。[插图]但这篇文章的作者没有考虑到的是,如果没有警察,被告上法庭的强奸犯是否会更少,或者根本就没有?只有放弃台球撞击思维,并认识到没有任何事件拥有单一的原因,我们才能理解这些复杂的因果关系。事件被镶嵌在一个由原因组成的网络中,这些原因在链接和分支路径中相互触发、激活、抑制、阻止和增压。当我们在每种情况下都画出因果关系路线图时,第四个因果困惑就不再那么令人费解了。
◆ 因果分叉结构我们已经很熟悉了,它描述的是一种混杂变量或副现象,会带来错误识别真正原因的危险。年龄(B)影响词汇量(A)和鞋码(C),因为年龄较大的孩子脚更大,认识的单词更多。这意味着词汇量与鞋码有关。但是,让孩子穿大号运动鞋去上学是不明智的。
◆ 对撞结构也有同样的危险。在对撞结构中,不相关的原因汇聚成单一结果。实际上,这种结构更加危险,因为大多数人都能在直觉上感受到混杂谬误,但对“对撞分层选择偏差”(collider stratification selection bias)几乎一无所知。因果对撞结构陷阱,指的是当你专注于一个有限的效应范围时,你在原因之间引入一种人为的负相关关系,这样,一个原因就成为另一个原因的补充。很多约会老手都想知道为什么长得好看的男人都是混蛋。但这可能是对帅哥的中伤,编造理论来解释这一现象纯粹是浪费时间,比如,长得好看的男人会被一辈子讨好他们的人宠坏。很多女性在如下条件下才会跟某个男人约会(B):要么他有吸引力(A),要么他很和善(C)。尽管和善与容貌并不相关,但普通男人必须和善,否则女人永远不会跟他们约会,因而心肠不好的人就没了机会。析取性挑剔(disjunctive choosiness)带来了一个并不存在的负相关关系。对撞谬误还让标准化考试的批评者们误以为考试分数无关紧要,因为他们注意到,许多以较高分数被录取的研究生大多没有完成学业。问题是,那些考分不高但被录取的学生,肯定有其他方面的优势。[插图]如果你没有意识到这种偏差,你甚至可能得出这样的结论:母亲吸烟对婴儿有益,因为在出生体重轻的婴儿中,母亲吸烟的婴儿更健康。出生体重轻一定有其他一些原因,比如母亲酗酒或药物滥用,这可能对孩子的危害更大。[插图]对撞结构谬误也解释了为什么《爱情故事》电影中的哈佛大学生詹妮弗固执地认为“有钱的男孩都很蠢”:要想进入哈佛(B),你要么有钱(A),要么聪明(C)。
从相关关系到因果关系:现实与自然实验
◆ 更富有的国家也往往更健康、更幸福、更安全、教育水平更高、污染更少、更和平、更民主、更自由、更世俗、性别更平等。[插图]更富有的人往往更健康、受教育程度更高、人脉更广、更有可能锻炼身体、吃得更好,也更有可能属于特权阶层。[插图]这就意味着,你从跨国家或跨人群的相关关系中得出的几乎任何因果结论都可能是错误的,至少是未经证实的。
◆ 有一种完美的方法可以解决这些问题:随机试验,通常也被称为随机对照试验。
◆ “断点回归”(regression discontinuity)就是一个例子。假设你想确定的是:上大学是否让人更富有?或者,有富贵命的青少年是否更有可能上大学?虽然你不可能随机抽取一个青少年的样本,强迫一所大学录取一个群体,拒绝另一个群体,但是,名校对接近录取分数线的学生会这样做。没有人真的相信一个1720分的学生比一个1710分[插图]的学生更聪明。差别来源于噪声,而且可能是随机噪声,成绩和推荐信等其他资格证明也是如此。假设你对这两组人进行了10年的跟踪调查,并将他们的收入与考试分数进行对比。如果你在录取分数边界处看到明显的工资差别,比其他类似大小的间隔处的工资差别更大,那么你可能会得出这样的结论:工资差别来源于录取政策。对渴望因果关系的社会科学家来说,送给他们的另外一个礼物是:偶然的随机性。是《福克斯新闻》(Fox News)让美国人变得更保守,还是美国保守派更喜欢看《福克斯新闻》?《福克斯新闻》于1996年首次亮相,在接下来的5年时间里,各家有线电视公司随意地把它添加到自己的节目列表中。经济学家在这5年关注了这一偶然事件,并发现:与有线电视节目中没有《福克斯新闻》的城镇相比,有线电视节目中有《福克斯新闻》的城镇的共和党支持率高0.4~0.7个百分点。[插图]这么大的差距足以改变一场势均力敌的选举,而且这种影响可能会在随后的几十年里积累起来。《福克斯新闻》在电视市场的遍地开花,使这一效应虽然更难以证明,但效力不减。虽然难,但也并非不可能。另一个天才之举是“工具变量回归”(instrumental variable regression)。假设你想知道是否A导致了B,但又担心可能出现的反向因果关系(B导致A)和混杂因素(C导致A和B)。现在假设你发现了某个第4变量“I”(工具),它与假定的原因A相关,但不可能由它导致。比如,第4变量发生的时间更早些,而未来无法影响过去。再假设,变量I与混杂变量C不相关,因此不能直接导致B,只有通过A才行。尽管A不能被随机分配,但我们有另一个宝物,工具变量I。变量I是变量A的有效替代变量,如果能证明I与B相关,那就意味着A导致B。这和《福克斯新闻》有什么关系呢?社会科学家收到的另一个礼物是美国人的懒惰。美国人喜欢待在车里,连往汤里加水这样的事情都懒得做,选择电视频道时也不愿意通过输入某个具体数字找到那个频道。于是,频道号越小,看的人就越多。今天,《福克斯新闻》被不同的有线电视公司随机分配了不同的频道号(频道号只取决于该网络与每个有线电视公司达成协议的时间,与观众的人口统计数据无关)。虽然频道号小(I)会导致人们收看《福克斯新闻》(A),看《福克斯新闻》可能会导致也可能不会导致人们投票给共和党(B),但无论是持有保守观念(C)还是投票给共和党,都不会导致人们最喜欢的电视台把频道号改为更小的数字。因此,纵观整个有线电视市场并进行比较,我们可以得出结论:《福克斯新闻》频道的频道号越小,共和党的选票就越多。[插图]
因果网络与人
◆ 复杂程度上看,相对于第3章介绍的深度学习网络,回归方程差远了。深度学习网络包含数百万个变量,这些变量又构建了一系列彼此关联的复杂公式。回归方程只是对一些变量做加法处理。然而,尽管回归方程简单,20世纪心理学的一个惊人发现是:简单的回归方程通常能战胜人类专家。心理学家保罗·米尔(Paul Meehl)最先注意到这一发现,并将其命名为“临床判断VS精算判断”(clinical versus actuarial judgment)。
假设你想预测一些可量化的结果,比如:癌症患者还能活多久,精神病患者最终被诊断为轻度神经症还是严重精神病,刑事被告是否会在保释中逃走、取消假释或再次犯罪,学生在研究生院的表现如何,企业将会成功还是破产,股票基金能带来多大回报。你有一组预报因子:一套症状自评量表,一组人口统计数据,一份过去行为记录,一份本科成绩单,总之,一切与做预测相关的东西。现在,将这些数据展示给专家,比如精神病医生、法官、投资分析师等。同时,用这些数据进行标准回归分析,最后得到预测方程。谁做的预测更准确,专家还是方程式?
几乎每一次的赢家都是方程式。实际上,如果把这个方程给专家,允许他用来补充自己的判断,他的表现往往比仅仅使用方程式还差。原因是,专家们很快就能发现一些特殊情况,他们认为这些情况使得这个方程式不适用。这个问题有时被称作“断腿问题”(broken-leg problem)。之所以起这个名字,是因为人类专家有直觉,而算法没有。一个人刚断了腿,人类专家凭直觉判断那天晚上那个人不会去跳舞,即便方程式预测他每周都会去跳舞。回归方程已经把“特殊情况会改变结果”的可能性考虑进来了,也考虑了其他影响因素,而人类专家总是相信自己眼睛捕捉到的细节,也根本不把基础比率当回事儿。事实上,一些人类专家最依赖的预测因素,如面对面访谈,已被回归分析证明是完全没有价值的。
两种信念:现实与神话
◆ 在21世纪的第一个10年,“新无神论者”萨姆·哈里斯(Sam Harris)[插图]、丹尼尔·丹尼特、克里斯托弗·希钦斯(Christopher Hitchens)和理查德·道金斯(Richard Dawkins)[插图],不仅成为福音传道者的攻击目标,也成为主流知识分子的攻击目标。
重申理性
◆ 有一种认知风格叫“积极的开明”(active open-mindedness),它是理性的立足点,尤其是它的构成要素“对证据开放”(openness to evidence)至关重要。[插图]这就是罗素的信条:信念应该建立在充分的证据之上。这是对动机推理的否定,承诺将所有信念置于现实之地。约翰·梅纳德·凯恩斯(John Maynard Keynes)说过:“当事实发生了变化,我的思想也随之发生了变化。你会怎样,先生?”
11 理性为什么如此重要
◆ 开始思考,就像踏上了通向看不见的高处的升降机。一旦迈出了第一步,要走的路程就不由我们的意志决定了,也无法提前知道终点在哪里。彼得·辛格(Peter Singer)[插图]澳大利亚伦理学家
理性与道德进步
◆ 我们是天生就具备基本理性能力的物种,可以通过规则和制度设计让理性的影响范围不断扩大。这些规则和制度,让我们产生新思想,让我们面对现实。这些现实会扰乱我们的直觉,但不管怎么说,它们都是真实的存在。
— 来自微信读书