318.「研究人员可用于观测数据的第二个主要策略是预测。预测未来是出了名的难,也许正因为如此,预测并不是目前社会研究的重要组成部分(尽管它是人口学、经济学、流行病学和政治学的一个小却重要的组成部分)。」
书籍名称:《计算社会学》
基础信息:[美]马修·萨尔加尼克(Matthew J. Salganik) / 2019 / 中信出版集团
豆瓣评分:8.0/10
豆瓣链接:https://book.douban.com/subject/33416858/
读完时间:2021-07-11 15:48:18
我的评分:4.0/5.0
我的标签:#2021,微信读书
免责声明:本页面所发布的笔记仅用于分享我在阅读过程中的摘录、总结和反思。内容大多为书中原文或书中观点的简要提炼,并不代表我个人的立场、意见或价值观。书中观点仅供参考,如需深入了解或采纳,请参考书籍的原始内容。
阅读笔记:
《计算社会学》马修·萨尔加尼克
计算社会学
马修·萨尔加尼克
20个笔记
2.3 大数据的10个共同特征
大数据通常缺少以下三种对社会研究有用的信息:有关参与者的统计信息、在其他平台上的行为以及使理论构念[插图]具有可操作性所需的数据。
粗略地说,理论构念就是社会科学家所研究的抽象概念,而使一个理论构念具有可操作性则意味着想办法用可观测的数据捕获这一构念。
社会科学家将理论构念和数据之间的匹配程度称为构念效度(Cronbach and Meehl 1955)。正如上述几个构念所示,构念效度问题是社会科学家长期以来一直在努力解决的问题。但以我的经验来看,当使用不是为研究而创建的数据时,构念效度问题就会变得更加难以解决(Lazer 2015)。
研究结果通常是用构念来表述的,而利用研究所使用的数据对其进行重新表述则是评估一项研究结果构念效度的快速且有效的方法。例如,假设有两个旨在证明“越聪明的人挣钱越多”的研究:在第一个研究中,研究人员发现,在一项成熟的、测量分析性智力的瑞文推理测验[插图](Carpenter, Just, and Shell 1990)中得分高的人,其纳税申报单中填报的个人收入也较高;在第二项研究中,研究人员发现,在推特上使用更长的单词的人更有可能提到奢侈品牌。就这两项研究而言,研究人员均声称他们已经证明了“越聪明的人挣钱越多”。但在第一项研究中,研究人员通过相关数据对理论构念进行了充分的测量,而第二项研究没有。此外,正如上述事例所示,更多的数据并不意味着构念效度问题就能迎刃而解。也就是说,无论第二个研究是基于100万条推文,1000万条推文,还是1万亿条推文,我们对其结果都应持怀疑态度。
许多大数据资源都存在漂移现象,因为使用它们的用户在变,使用方式在变,系统本身也在变。这些变化有时能成为非常有趣的研究问题,但也让使用大数据资源追踪长期变化变得更加复杂。
根据我的经验,政府大数据的代表性往往强一些,算法干扰和漂移也少一些,而企业的行政记录在不间断运行方面往往更突出。
2.4 研究策略
研究人员可用于观测数据的第二个主要策略是预测。预测未来是出了名的难,也许正因为如此,预测并不是目前社会研究的重要组成部分(尽管它是人口学、经济学、流行病学和政治学的一个小却重要的组成部分)。
临近预测(nowcasting),这个术语来源于“现在”和“预测”的结合。与预测未来不同的是,临近预测试图利用预测出的观点了解世界的现状:它试图“预测现在”(Choi and Varian 2012)。临近预测有可能在及时准确地了解政府和公司方面特别有用。一个明显需要进行及时准确测量的例子是流行病学。以流感为例,季节性流感每年会导致全球数百万人患病,成千上万人死亡,而且每年都可能出现新的、可导致数百万人死亡的流感病毒。例如,1918年的流感暴发估计造成了5000万~1亿人死亡(Morens and Fauci 2007)。由于需要追踪流感并采取可能的应对措施,世界各国政府都建立了流感监测系统。例如,美国疾病控制与预防中心会定期系统地从全国各地仔细筛选的医生那里搜集信息。尽管这一系统能生成高质量的数据,却存在报告时滞的问题。也就是说,由于从医生那里得到的信息数据需要时间来清洗、处理和发布,美国疾病控制与预防中心的系统发布的都是两周前流感患者的估计数量。但在应对一场新的流行病暴发时,公共卫生官员想知道的是现在有多少流感患者,而不是两周前有多少流感患者。
随着时间的推移,研究人员发现了两个重要的局限,这使谷歌流感趋势不再像最初那样出色了。第一个局限是,与对最新测得的两次流感患病率数据进行线性外插法的简单模型相比,谷歌流感趋势的表现并没有好很多(Goel et al. 2010)。而且在某些时间段,谷歌流感趋势实际上还不如上述简单模型(Lazer et al. 2014)。换句话说,拥有大量数据、机器学习和强大计算能力的谷歌流感趋势,其表现并没有明显超过一个简单的、更易于理解的、具有启发作用的模型。这表明,评估任何预测或临近预测时,找一个基准与其进行比较是很重要的。
2.5 结论
大数据资源无处不在,但利用它们进行社会研究可能会遇到很多问题。根据我的经验,“天上不会掉馅饼”这类规则也适用于社会研究的数据:如果你不投入大量工作来搜集数据,那么你可能需要投入大量工作去思考和分析数据。
3.3 调查误差总框架
除了代表性的相关问题之外,调查误差总框架表明,误差的第二个主要来源是测量,即我们如何基于受访者给出的答案进行推断。事实证明,我们所得到的答案以及在此基础上进行的推断,在很大程度上取决于我们的提问方式。也许最能说明这一重要问题的就是诺曼·布拉德伯恩(Norman Bradburn)、西摩·祖德曼(Seymour Sudman)以及布赖恩·万辛克(Brian Wansink)所著佳作中的一个笑话:有两个教士,一个是多明我会的,一个是耶稣会的。两人正在讨论一边抽烟一边祈祷是不是一种罪过,但没能达成共识,于是各自去请教自己的神父。然后多明我会的教士问道:“你的神父怎么说?”耶稣会的回答道:“他说是没问题的。”“这就有趣了,”多明我会的教士说道,“我的神父说那是一种罪过。”耶稣会的教士说:“你是怎么问他的?”多明我会的教士回答道:“我问他祈祷时能不能抽烟。”“哦,”耶稣会的教士说道,“我问他抽烟时能不能祈祷。”
3.4 向谁提问
事后分层的主要思想是利用关于目标总体的辅助信息,帮助改善源于样本的评估结论。在利用事后分层从他们的非概率样本中得出评估结论的过程中,王伟和同事将抽样总体分为不同的小组并评估每组对奥巴马的支持情况,然后利用各组的评估结果计算出加权平均数,进而得出最终的评估结论。例如,他们可以把抽样总体分为两组(男性和女性),分别评估男性和女性对奥巴马的支持情况,然后在考虑选民中女性比例为53%、男性比例为47%这一事实的基础上,计算出加权平均数,进而得出有关奥巴马支持情况的最后评估。粗略地说,通过引入关于小组规模的辅助信息,事后分层有助于修正不平衡样本。
第4章 开展实验
本书目前为止所介绍的方法——观察行为(第2章)和提问(第3章),都是研究人员在并非有意地、系统地改变世界的情况下搜集数据的方法。而本章所要介绍的方法——开展实验,则是完全不同的。当研究人员开展实验时,他们会系统性地干预世界,以创造出最适合因果关系问题的数据。
4.6 建议
当你要开展一项研究时,我的第一条建议是,在搜集数据前应尽可能多地思考。对习惯于开展实验的研究人员来说,这似乎是显而易见的,但对习惯于利用大数据资源的研究人员来说,这是非常值得注意的(参见第2章)。利用大数据资源时,大多数工作需要在搜集到数据后才能完成,但开展实验是相反的,大多数的工作应该在数据采集前完成。迫使你自己在搜集数据前仔细思考的最好的方法之一是为你的研究创建一个预分析计划,基本描述一下你将进行的分析。
我的第二条适用于所有实验的建议是,没有一个单一的实验是完美的,因此,你应该考虑设计一系列相辅相成的实验。有人将这一策略称为无敌舰队策略。也就是说,与其努力打造一艘庞大的战舰,不如建造许多优势互补的小型战舰。这类多实验研究在心理学领域是很常见的,在其他领域却很少见。
就克雷默和同事的实验而言,因为没有原始数据,所以我们很难确切地知道双重差分估计量法的效率比原来方法的效率具体高出了多少,但可以通过其他相关的实验获得一个大致的概念。邓(Deng)等人报告称,通过采用其中一种双重差分估计量法,他们将三个不同在线实验的估计量的方差减少了约50%。谢(Xie)和奥里塞(Aurisset)也报告了类似的结果。50%的方差缩减意味着如果克雷默和同事采用一种稍微不同的分析方法,那么他们所需的样本量可能就能减少一半。换句话说,稍微改变一下分析方法或许就能减少35万名参与者了。
5.2 人本计算
班纳吉和同事的工作让星系动物园变成了我所说的计算机辅助人本计算系统。对这类混合系统最好的解读方式是,它们不是让人来解决问题,而是让人构建一个数据集,然后用这个数据集训练计算机来解决问题。
5.3 公开征集
公众专利评审设计的巧妙之处,在于它为有许多利益冲突的相关方提供了一个和谐协作的平台。发明者之所以参与是因为通过公众专利评审所提交的申请,要比走传统的秘密审查程序的申请更快获得专利局的审查。公众审查人员之所以参与是为了防止低质量专利产生,而且许多人似乎觉得这个过程很有趣。最后,专利局和专利审查员之所以参与是因为这个方法只会改善他们的审查结果。也就是说,如果评审小组发现的是10个无用的现有技术文献,那么专利审查员将它们忽略掉即可。换句话说,有公众审查人员与专利审查员一起合作,应该比专利审查员独自奋战要好,这至少也应该能达到与专利审查员独自奋战相同的效果。因此,公开征集并不总是代替专家解决问题,有时是帮助专家把他们的工作做得更好。
尽管公众专利评审与网飞奖和蛋白质折叠游戏不太一样,但它们都有一个相似的结构,即“检验解决方案比想出解决方案更容易”。
5.5 设计你自己的大规模协作项目
一旦成功激励了很多人来研究一个真正的科学问题,你会发现参与者主要在以下两个方面存在着异质性:技能和努力程度。对此,许多社会研究人员的第一反应是试图将低质量的参与者排除在外,然后从剩下的参与者那里搜集固定数量的信息,以此对抗这种异质性。这是一种错误的设计大规模协作项目的方式。你应该利用异质性而不是对抗异质性。
首先,我们没有理由将低技能的参与者排除在外。在公开征集中,低技能的参与者不会造成任何问题,他们的贡献不会伤害任何人,也不需要很多时间来评估。在人本计算和分布式数据采集项目中,控制质量的最好方式是通过冗余,而不是给参与者设置一个高门槛。事实上,更好的方法是帮助低技能的参与者做出更好的贡献,而不是将他们排除在外,就像观鸟数据库的研究人员所做的那样。
历史附录
该历史附录简要回顾了美国研究伦理方面的历史。
任何关于研究伦理的讨论都需要承认,在过去,某些研究人员以科学的名义做了可怕的事情。这其中最糟糕的就是塔斯基吉梅毒实验(表6.4)。1932年,来自美国公共卫生局的研究人员在一项研究中招募了约400名感染梅毒的黑人男性,以监测该疾病的影响。这些男性来自亚拉巴马州的塔斯基吉。从一开始,这项研究就是非治疗性的,它的目的仅仅是记录黑人男性的疾病史。参与者被隐瞒了研究的性质,他们被告知这是一项败血症研究,并且被提供了虚假的和无效的治疗,而梅毒本身是一种致命疾病。随着研究的深入,人们开发出了安全有效的梅毒治疗方法,但该实验的研究人员积极干预以防止参与者在其他地方接受治疗。例如,在第二次世界大战期间,该研究小组在研究中确保所有人在研究期间缓服兵役,以防止这些男性进入部队时获得治疗。研究人员40年中持续欺骗参与者并拒绝治疗他们。
更进一步,这项研究造成的伤害在其结束后也持续了很长时间。该研究在法理上减弱了非裔美国人对医学界的信任,这种信任的崩塌可能导致非裔美国人拒绝医疗护理而损害他们的健康(Alsan and Wanamaker 2016)