acm-header
登录

ACM通信

BLOG@CACM

避免坏科学的兔子洞


朱迪·罗伯逊

我喜欢关注其他领域的丑闻:干细胞生物学家的克隆骗局物理学家和他们的时间旅行粒子.心理学家在超感官知觉方面也有自己的丑闻。人们能预见未来吗?实验参与者在他们即将练习记忆的单词的记忆测试中表现更好吗?对情色刺激的前认知反应存在吗?达里尔·本和他的九个实验说“是”(Bem, 2011)。的其他心理学家奥卡姆剃刀,我说“不”。Bem劝告他的同事们追随《爱丽丝梦游仙境》中的白皇后,在早餐前相信六件不可能的事情(Bem, 2011)。他的同事更喜欢避免掉进兔子洞(Ritchie et al., 2012)。

除了纯粹的娱乐价值,其他领域的这种辩论也值得我们研究,因为它们可以帮助我们研究我们自己领域的实践。让我们来看看使用实验方法的计算机科学的子领域(比如我自己在教育技术和HCI方面的研究)可以从伟大的Bem vs .合理性辩论中学到什么。我们是否也有陷入糟糕科学的兔子洞的危险?

不要滥用数据
Wagenmakers等人(2011)对探索性研究和验证性研究进行了区分。探索性研究的目的是发展新的理论,所以你可以随意用你最喜欢的任何统计检验来戳戳你的数据。正如本本人(在我看来相当不明智)之前所写的那样,“如果你看到了一些有趣模式的模糊痕迹,试着重新组织数据,让它们变得更加醒目。如果有你不喜欢的参与者,或者试验、观察员或面试官给了你不正常的结果,把他们暂时放在一边,看看是否有任何一致的模式出现。去调查一些有趣的东西——任何有趣的东西。”(2000年本)。但如果你试图进行一项验证性研究,乐趣就会停止,你必须在数据分析方面成熟起来。不再把参与者藏在地毯下。没有更多的运行后特设子组分析,直到你得到一些-任何!——结果。 The purpose of a confirmatory study is hypothesis testing; searching for evidence to support a theory which you have perhaps developed through an exploratory study. Here you're meant to declare推进你的假设是什么(给出一些理论证明),你预期的效果的方向和大小,数据收集的停止规则,以及你将进行什么测试。

在我工作的领域,研究人员经常开发一个新的系统,然后运行一个小型探索性用户评估。这是完全合理的。不合理的是把探索性分析的结果表现得好像它们是证实性的。

本的裸体图片研究是一个很好的例子,说明什么是不能做的。他使用探索性的数据分析方法,但随后声称结果,好像这是一个验证性的研究。他不仅测试了对色情图片的前认知反应,还测试了正面和负面图片。但他只在色情方面得到了显著的结果,所以他抓住它们,屏住呼吸报告它们。同样地,他在没有预先存在的证据或理论表明应该存在差异或为什么存在差异的情况下,检查了性别差异。这个缺陷离我们很近。HCI/教育技术人员总是在没有明显原因的情况下检查性别差异。我以前也这么做过,但我发誓从现在起要改过自新。

你对那些糟糕的数据进行的统计测试越多,你就越有可能偶然发现一个显著的效应。如果你执行20个测试,你的alpha水平是。05,你会发现某物,对吧?因此,在进行多次测试时,您需要更正p值。本没有。HCI研究者在这方面也不是完美的(凯恩斯,2007)。

复制
Bem的故事之所以再次成为新闻,是因为另一组心理学家发表了一篇论文,讲述了他们试图复制Bem的研究(Ritchie et al 2012)。你猜怎么着?他们没有复制他的结果,所以如果你指望前认知唤醒是真实的,你会失望的。有5注册复制正在进行中,这只是表明心理学家是认真的,把这种媒体友好的无稽之谈显示为垃圾。有趣的是,Ritchie的复制论文被发表Bem原始文章的杂志拒绝了,理由是他们根本不发表复制论文。我的第一个想法是:“这真的很傻。期刊应该支持科学的进步吗?他们当然应该出版副本。这些心理学家在想什么?”然后我突然想到,在HCI或教育技术期刊上的复制也是极其罕见的。事实上,这是一个主题CHI 2011的论文和小组会议((Wilson et al, 2011)。作者观察到,“作为一个社区,我们不是鼓励先复制,然后扩展。相反,我们被鼓励去区分新奇的空间,设计新颖的界面,进行新颖的实验创造对人类行为的新见解。”如果你认为人机交互是一种艺术追求,复制并不重要。但是如果你把它看作是一个科学的甚至是一个工程的企业,那么它确实很重要,我们应该做得更多。如果我们的目标是设计对社会有用的系统(例如在教育或医疗保健领域),那么我们应该确定它们是否真的适用于预期的用户群体。这意味着我们不能止步于第一次探索性研究。这意味着我们需要继续进行验证性的研究,开源该系统,并鼓励其他团队进行复制。这反过来又会影响到我们研究的资助方式和期刊会接受的文章种类。

参考文献
本,D. J.(2000)。写一篇实证文章。在R. J. Sternberg (Ed.),心理学期刊出版指南(pp. 3-16)。剑桥:剑桥大学出版社。

本D.J.(2011)感知未来:对认知和情感的反常追溯影响的实验证据。心理学报100:407-425。doi:10.1037 / a0021524

凯恩斯(2007)。人机交互……而不应该是:人机交互研究中的推理统计学。第21届英国人机交互小组年会论文集但不是我们所知道的——第一卷(页195 - 201)。英国计算机协会。从http://portal.acm.org/citation.cfm?id=1531321获取

Wagenmakers E.-J。,Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: the case of psi: comment on Bem (2011).人格与社会心理学杂志One hundred.(3), 426 - 32。doi: 10.1037 / a0022790

马克斯·l·威尔逊,温迪·麦凯,艾德·奇,迈克尔·伯恩斯坦,丹·拉塞尔,哈罗德·廷布尔比,2011。RepliCHI - CHI应该复制和验证结果更多:讨论。在PART 2 ----------- 2011年年会论文集,计算系统中的人为因素扩展摘要(CHI EA的11)。ACM,纽约,纽约,美国,463-466。DOI = 10.1145/1979482.1979491 http://doi.acm.org/10.1145/1979482.1979491

R伊奇SJ,怀斯曼R,法国CC(2012)失败的未来:三次不成功的尝试复制本姆的“追溯促进回忆”效应。《公共科学图书馆•综合》7 (3):e33423。doi: 10.1371 / journal.pone.0033423


评论


匿名

我还没有读过第一句话,我觉得有必要写这句评论:物理学家的时间旅行粒子绝对是糟糕科学和丑闻的反面。他们发现了与已被接受的理论不相符的结果,并请他们的同事检查并试图重现。如果有丑闻发生,我看着媒体试图解释,就好像这是某个重要人物的不忠行为,而不是正常的同行审查过程。


匿名

“有趣的是,Ritchie的复制论文被发表Bem原始文章的杂志拒绝了,理由是他们根本不发表复制论文。”

实际上情况远比这糟糕。在大多数学术科学分支中(与那些被提交到工程领域的分支相反),如果你想复制别人的工作,资助机构是不会给你拨款的。如果你想要尝试复制它,那么你必须写一个拨款申请,包含两个部分的交付物,其中第一部分复制了其他工作,而第2部分建立在复制(或缺乏复制)的基础上。不用说,有很多情况下,第二部分得到了资金,而第一部分没有。


马丁Schmettow

我完全不同意“意义测试是关键时刻”的观点。许多研究都是以这种方式进行的,尽管这是完全不合适的。
当某件事在统计上是显著的,这只告诉信噪比,但没有影响的相关性。一种风险是放弃高影响变量,仅仅因为有很强的测量误差。
或者:较差的信噪比由于用户群体的强烈变化而发生。用户之间的差异是HCI研究人员应该致力于理解的东西,而不是作为噪音(或讨厌的东西)丢弃。
反过来说,没有什么比增加样本容量更容易的了。或者:做20项研究,然后发表那项超过5%的研究。
在应用研究中,主要问题是因素的影响(“美学设计在多大程度上让用户快乐?”)和可靠的预测。零假设检验与这些目标不相容。
我完全同意复制的问题。这是一种更有力的方法来证明某些影响不是偶然的,而且发生在不同的情况下。


显示3评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map