ACM

ACM通信

首页 / 杂志存档 / 2020年1月(第63卷第1期) / 2020年1月(第63卷第1期) /全文

研究突出了

计算机科学成绩不是双峰的证据

作者:伊丽莎白·帕蒂萨斯，杰西·伯林，米歇尔·克雷格，史蒂夫·伊斯特布鲁克
ACM通信，2020年1月，第63卷第1期，91-98页
10.1145 / 3372161
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit上分享在StumbleUpon上分享在黑客新闻上分享在推特上分享在Facebook上分享

尽管从未得到过严格的论证，但人们普遍认为计算机科学课程的成绩是双峰的。我们统计分析了一所大型研究型大学的778份期末课程成绩分布，发现只有5.8%的分布通过了多模态测试。然后我们设计了一个心理学实验来理解为什么CS教育者相信他们的成绩是双峰的。我们向53位计算机科学教授展示了一系列显示模糊分布的直方图，我们要求他们对这些分布进行分类。随机抽取一半参与者，让他们思考CS成绩通常被认为是双峰的事实;这些参与者更有可能将模糊的分布标记为“双峰”。如果参与者认为有些学生天生就倾向于在CS方面做得更好，他们也更有可能将分布标记为双峰分布。这些结果表明双峰成绩是CS教学的民间传说，是由确认偏误和教师对学生的信念引起的。

回到顶部

1.简介

计算机科学教育界普遍认为CS成绩是双峰的，人们花了很多时间来推测和探索为什么会是这样(有关评论，请参阅Ahadi和Lister¹)。这些讨论通常不包括统计检验是否CS等级是双峰放在首位。从我们所看到的情况来看，人们会快速地观察他们的等级分布，如果他们看到两个峰值，他们就会得出结论，这是双峰分布。但目测一个分布是不可靠的;例如，如果您期望数据具有某种分布，那么您就更有可能看到它。

有趣的是，我们看到新的老师和助教(和学生)展示了成绩的直方图，并告诉他们成绩是“双峰”的。双模态感知因此成为一种组织信念，而那些进入CS教育实践社区的人也被灌输了这种信念。

1.1.双峰等级的解释

对于为什么CS等级是双峰的，已经提出了许多解释，所有的解释都始于这样的假设。

之前的经历。双峰分布通常表明两个不同的种群一起抽样。⁵对双峰成绩的一种解释是，CS1班有两类学生:有经验的和没有经验的。¹

在许多地方，高中计算机科学并不普遍或标准化，因此学生进入大学计算机科学之前的经验是不同的。然而，这种解释只把学生分为两类。以前的经验并不像“有”和“没有”那么简单——学生们可能有多少以前的编程经验是有很大差别的，实践非编程语言，如HTML/CSS也可能是有益的。¹⁸

学习的优势势头，障碍点和阈值概念。一种解释认为，有些CS概念对学生来说更难学，如果他们错过了这些概念，他们就会落后，而他们的同龄人则会领先于他们。正如通常教导的那样，CS1在很大程度上依赖于自身。所以一旦学生落后了，他们就会越来越落后。¹有些概念可能是理解的关键(“阈值概念”)，这可能会加剧这种情况。有人可能会认为这种解释是先前经验解释的变体，即学习技能较好的学生成功，而技能较弱的学生落后。

极客基因假说。相反，有些人会认为CS1课程中的两类人是那些具有某些“天赋”、天赋或倾向于在计算方面取得成功的人。Guzdial将这种观点称为“极客基因假说”。⁶这种观点似乎相当普遍。在一项对计算机系教员的调查中，Lewis发现77%的教员强烈反对“如果他们努力学习，几乎每个人都有能力在计算机科学课程中取得成功”这一说法。¹⁴然而，似乎很少有证据表明确实存在“极客基因”，而大量证据表明有效的教学方法可以让所有学生都获得成功。⁸

粗的评估。另一种解释暗示教师的评估工具是双模分布分数的来源。^28，20.计算机科学考试的一个普遍趋势是问一系列长答案的编码问题。Zingaro等人发现，这些问题只能给老师提供粗略的评估信息:学生们要么把所有的信息拼凑在一起，要么就做不到。教师不能充分确定学生什么时候有部分理解，也不能量化学生对一个概念的理解程度。

作为一种替代方案，Zingaro等人通过实验比较了使用彼此构建的简答问题，从而得到一个同构的长答问题。当问题的不同概念部分被分解时，得到的分数呈正态分布。长答案问题要么全有要么全无的性质可能导致成绩更有可能是(或出现)双峰式的。²⁸

或者也许CS成绩不是双峰的?李斯特提出的CS成绩的另一种竞争性观点是，分数实际上不是双峰的。¹⁵Lister观察到CS等级分布通常是嘈杂的，并且符合统计学家所接受的正态分布。Lister认为，教师对双模态成绩的看法源于他们对极客基因假说的信仰，因此，教师在没有双模态的地方看到了双模态。¹⁵李斯特的论点是理论性的，基于统计理论;在本文中，我们通过统计分析实际的年级分布来检验他的论点。

回到顶部

2.什么是双峰分布?

要解决好“CS等级是否双峰”的问题，首先要明确双峰的含义。关于这个问题，我们建议读者咨询²⁵；我们在本节中总结了这篇文章的一些要点。

大多数标准连续概率分布都有平均值、中位数、众数和分布宽度的某种度量(方差)。标准分布包括正态分布(高斯分布)、帕累托分布、泊松分布、柯西分布、学生t分布和逻辑分布。当我们用直方图绘制它们(或者很可能是它们的样本)时，我们可以看到它们的概率密度。所有这些分布都有一个单一的模态，并且有一个可以用一个单一项的函数来建模的概率密度。例如，正态分布的PDF是

在这个函数中，a表示曲线峰值的高度，b是峰的中心位置，和c表示曲线的宽度。²⁷

相反，双峰分布有两个截然不同的模式。“多模态”分布是任何具有多个不同模态(两个或两个以上)的分布。例如，考虑以下例子。²⁵两者都是由两个三角形分布(实线)相等混合而成。总和用虚线表示:

如我们所见，当两个子分布相距较远时

(例子一个)，我们得到一个有两个峰的分布。但当两个子分布很接近时(例如b)，它们加在一起形成一个平台，只有一个峰值。例a被认为是双峰的;例子b不是。

正态分布也是如此(也来自Schilling等。²⁵)：

对于双峰分布，子分布

不能重叠太多。如Schilling等人所示。²⁵，对于两个分布足够远的距离，两个分布的均值之间的距离需要超过2。然而，这假设两个分布有相同的方差。更正式地说，如果两个子分布没有相同的方差，那么它们的和是双峰的，下面必须成立²⁶：

2.1.直方图具有欺骗性

考虑这张鸢尾物种萼片宽度的直方图多色的，摘自维基百科“正态分布”页面。²⁷：

数据有两个峰值，但数据被认为是

从正态分布中抽样。如果我们试图将这些数据建模为两个正态分布的混合，这两个子分布将靠得太近，无法产生两个不同的峰值。对这些数据建模的最简单的方法是正态分布，特别是当这与生物学理论相一致时。

记住，我们在直方图中看到的是我们如何选择箱子的结果。可以用一种没有两个“峰值”的方式对数据进行分类(例如，通过使用更大的分类间隔，或改变分类边界)。对于等级分布，天花板效应很常见:如果你使用正态分布数据，然后将高于100%的值降低到100%，你可能会在直方图的顶部看到第二个“峰值”。有关说明，请参见发行版6中的图1．

图1。向参与者展示的六个直方图，都是使用GNU的R生成的rnorm函数。使用了100%的上限，这在分布6中最为明显。每个生成的分布都有100个点，生成的平均值为60，标准差为5，并显示为大小为10的直方图。

回到顶部

3.研究一:成绩分析

CS等级是双峰式还是单峰式?为了验证这一点，我们获取了英属哥伦比亚大学(UBC)从1996年到2013年每个本科生CS班的最终成绩分布。这代表了778个不同的课程部分，包含30214个最终分数(平均班级人数:75)。我们分析了这些数据，看看它最有可能来自哪个分布。频率零假设检验是计算机科学教育研究的标准适合不熟悉口译的读者p值，我们建议咨询Goodman。⁴

3.1.测试多模态

我们开始计算每个类的峰度。峰度是对数据尾部情况的一种度量:高峰度意味着分布具有尖峰和短尾，而低峰度意味着低峰和长尾。

如果你回头看看把两个正态分布加在一起的例子，对于双峰的例子，分布在水平方向上相当分散。该分布峰度较低。事实上，如果一个分布水平分布的足够远以允许多模态，那么它必然会有较低的峰度。

正态分布的峰度为3。峰度大于3的分布不可能是双峰分布。²⁶我们发现778个类中有323个类的峰度小于3。这意味着455个(58%)的类不是双峰的，并且最多323个(42%)类可以是双峰的。

哈蒂根浸渍试验。Hartigan's Dip Test是一种测试数据是否为多模态(双峰式、三模式等)的测试。它考察的是在可能的均值之间是否有“下降”，以及“下降”的深度(本质上:分布中是否有凹进部分)。我们对峰度小于3的323个类应用了Hartigan's Dip Test。为了减少误报的可能性，我们选择只对这323个类而不是全部778个类应用测试。对于Hartigan's Dip Test，零假设是种群是单峰的。因此,我们对323个测试中的每一个的零假设都是给定的类是单峰的。

浸渍试验结果。在峰度低于3的323个类别中，有45个类别的峰度为apHartigan's Dip Test中的值低于我们的0.05。这占我们进行Hartigan's Dip Test的所有班级的13.9%，或我们数据集中所有班级的5.8%。

我们选择了0.05的标准值。这意味着如果零假设为真(单峰)，零假设被拒绝的概率为5%。⁴如果原假设为假(多模态)，则原假设被拒绝的概率为0%，因为我们不能错误地拒绝原假设。⁴在知道零假设是否正确之前，假阳性的几率在0%到5%之间。^一个4

我们可以拒绝零假设的所有45个类都是多模态的。但考虑到评分、上限效应和小样本量的干扰，这45个类别仍然有可能确实是单峰的。⁴

虽然我们不能对给定的零假设检验给出结论性的决定，但这里的结果确实提供了信息。即使在不太可能的情况下，这45种类型确实是多模式的，我们看到多模式分布远不是典型的。^b

3.2.正常性测试

各种各样的零假设检验，如Anderson-Darling、Shapiro-Wilk和Pearson的卡方检验确定数据集是否正常。我们选择夏皮罗-威尔克，因为它被发现具有最高的统计效力。²¹

Shapiro-Wilk测试。在夏皮罗-威尔克测试中，零假设是总体服从正态分布。所以,如果p <，我们可以拒绝零假设，并有证据表明总体不是正态分布的。我们可以拒绝106个类的零假设。这表明数据集中13.6%的类是不正态分布。与Hartigan's Dip Test的结果一样，这并不意味着零假设在这些情况下一定是错误的。一个分布不可能是正态分布的原因有很多:例如，它可能过于倾斜，它可能是错误的形状(例如，三角形和均匀)，或者它可能是多模态分布。

值得注意的是，在我们拒绝了单峰零假设的45个类中，我们也拒绝了其中44个类的非正态零假设。因此，106个被测试为非正常的类中的44个(41.5%)也被测试为多模态。

对于我们未能拒绝零假设的86.4%的类，我们不能保证它们实际上是正常的(第二类错误)。为了估计有多少是正常的，我们启动了一个可能的beta值。这产生了估计的假阴性率为1.48%。

根据我们的数据，我们估计在UBC的CS课程中85.1%的最终成绩是正态分布的。这表明计算机科学课程的成绩通常是正常的，而不是双峰式的。

偏态。尽管大多数分布似乎是正态分布，但值得注意的是，所有分布的平均偏度为-0.33，而正态分布的偏度应为0。如果只考虑检验结果显示正态分布，平均偏度为-0.13。这为我们的正态性测试提供了一些理智的检查:“正态”分布不是特别倾斜的。对于我们拒绝正态性零假设(即，可能不是正态)的类，平均偏度更高。很可能，这就是为什么很多这样的类被Shapiro-Wilk指出是不正常的。较高的偏度也可能是等级分布的天花板效应的结果。

3.3.讨论

我们只检查了期末成绩:我们的分析不包括学期成绩。由于成绩只来自一个机构，人们可能会怀疑是否具有普遍性。我们试图从其他机构获得等级分布，但通常发现很难收集相同规模的数据。让我们注意到的是，我们的同事(无论是在UBC还是其他地方)会例行公事地断言他们的CS成绩是双峰的，而我们的分析给出了相反的证据。尽管我们不能从这一分析中断言每一所大学都有与UBC相同的分布，但大规模的数据在数量和时间跨度上都是令人信服的。我们的解释也不是唯一的:我们的结果支持Lister的论点，即CS成绩通常不是双峰的。

我们邀请读者在其他机构复制我们的发现。^c复制分析的代码可以在网上找到https://github.com/patitsas/bimodality．

回到顶部

4.研究2:人对分布的解释

那么，如果CS等级很少是双模态的，为什么对双模态的信念仍然存在呢?有一天，当在R中生成一些随机正态分布时，我有了一个深刻的认识:在只有100个数据点的情况下，得到的直方图往往有多个峰值，很容易被错误地认为是“双峰”。典型的“大类”没有足够大的样本量来持续提供平滑的曲线。事实上，很多分布都是由R产生的rnorm看起来很像我们在课堂上看到的年级分布，被称为“双峰分布”。

为了弄清教师的感知是否会影响对噪声分布的解释，我们设计了一个实验，在这个实验中，参与者被展示了由R产生的分布直方图rnorm函数，并要求对分布进行分类(正态、双峰、均匀等)。我们最初有两个研究问题:

相信先天能力的CS教师是否将更多的噪声分布归类为双峰分布?
如果我们让参与者认为CS分布通常被认为是双峰的，那么他们是否更有可能在噪声中看到双峰分布?

一旦我们分析了这两个研究问题的数据，第三个研究问题就出现了:

如果教师将噪声分布标记为双峰，他们是否更可能同意先天CS能力的观点?(例如，在观察分布和教师的信念之间是否可能存在反馈循环?)

4.1.实验设计

研究启动效应的一个难点是你不能在同意书中说明研究的目的。如果你这样做了，那么你就是在启动参与者，即使是你想要在控制组中的参与者。为了掩盖我们的研究，我们把它描述成一项询问人们在自己的班级中看到各种分布形状的频率的研究。

我们向每个参与者展示了6个直方图，如图1，所有这些都是用R生成的rnorm函数。我们生成了几十个直方图，并从其中选择了6个直方图:一个是明显正态的(分布1)，一个是轻微倾斜的，就好像不及格的学生被推到了50%(分布5)，一个是天花板效应可见的(分布6)，以及三个有多个峰值的噪声分布(分布24)。

我们询问每位参与者，他们是否在自己的班级中看到了这种形状的分布(李克特量表中“经常”到“从未”)，以及他们如何对这种分布进行分类(正态分布、双峰分布、多峰分布、均匀分布和其他)。我们将参与者随机分配到两种治疗方案中:

治疗0:参与者被问及他们是否同意CS能力是天生的，然后被要求对分布进行分类，并且没有被启动去思考双模态。

治疗方法1:在看到CS等级分布之前，参与者被引导去思考关于CS等级分布的共同信念;之后，我们询问他们是否同意CS能力是天生的。

该调查的五页描述在表1．对于每个问题，我们都创建了一个速记标签，如sans-serif所示，以便在分析中使用。

表1。调查的页数。

因为很多潜在的参与者都是我们的同事，所以我们故意不收集参与者的姓名和身份信息。我们不想知道谁是或不是参与者，也不想知道他们对调查的反应。

作为一种礼貌，我们为参与者提供了一个选择，如果他们希望我们跟踪他们的研究结果，我们可以将他们的电子邮件记录在一个单独的平台上。

直到我们的分析完成后，我们才查看这个电子邮件列表。

4.2.参与者

我们招募了60名CS教师，大部分来自SIGCSE成员名单。一些参与者是从其他在线CS教育社区招募的，还有一些是在2015年的ICER上招募的。53名参与者完成了调查中的所有问题;28人在治疗0(非启动组)，25人在治疗1(启动组)。为后续工作提供电子邮件的参与者接受了询问。由于只有不到一半的参与者提供了他们的电子邮件，我们在招募参与者的在线社区发布了公开的汇报声明。

4.3.结果

对于每个参与者，我们计算了一个我们称为“见双态”的值，这是参与者将六个分布分类为双态或多态的数量。在我们的数据中，视觉-双模性的范围从0到5。

视觉双模态回归。我们想知道是否可以通过参与者对我们问题的回答来预测双态性。我们所做的回归是将视双模态建模为先天倾向、全部成功、外貌histo和外貌字母(简称从表1）.

当我们将结果可视化时，我们注意到在两种处理中，看到双模态和李克特问题之间的关系是不同的。作为ANCOVA的非参数等量物，我们对两种处理分别使用polr从R的函数质量库，然后使用方差分析函数来自车包来比较两者。这让我们不仅可以测试看到双模态和李克特问题之间是否存在关系，还可以看看这两种治疗方法之间的关系是否不同。这种方法需要计算p值。为了减少由于使用多个统计检验而产生的假阳性的机会，我们应用了idák修正，这将我们的分析的这一部分的水平降低到0.002。

在我们对治疗0和治疗1的回归分析中，我们发现双模态和参与者对先天能力(全成功和先天易感性)相关问题的回答之间存在显著关系。^d

然后我们观察这种关系是否在一种治疗中比另一种更强。在关于先天能力的两个问题中，当受试者被启动思考CS等级是双峰式时，效果明显更强表2．

表2。两种处理回归的方差分析结果;也就是说，在两种治疗方法中，某一特定因素与双模性视力之间的关系是否不同?

这两种回归还揭示了双模态观看和参与者报告观看成绩直方图的频率之间的统计学显著关系(查看histo)。这一关系在两个治疗组之间没有统计学上的显著差异。

也许并不令人意外的是，在所有成功和天生易感性之间有很强的负相关。那些认为自己天生就有在计算机科学领域取得好成绩的倾向的人也认为，不是每个人都能在这个领域取得成功。

上回归都成功。在发现分数感知和先天信念之间的单向关系后，我们想看看是否有证据表明两者之间存在反馈循环。因为“全部成功”和“天生易感性”的相关性如此之高，我们发现它们作为衡量天生能力的标准是可以互换的。由于逻辑回归只涉及一个因变量，我们必须从两个因变量中选择一个来使用。我们选择在所有成功的情况下进行分析，因为这个问题项目已经在另一项研究中使用过。¹⁴

回想一下，我们的研究是这样设置的:随机抽取一半参与者对分布进行分类，然后询问先天能力(治疗1)，而另一半参与者询问先天能力，然后对分布进行分类(治疗0)。如果这里有一个反馈循环，我们可以预期在治疗1中看到双模态会预测所有成功，但在治疗0中不会。

逻辑回归中统计能力的指导方针表明，在模型中，0.05水平的每个自变量需要1020个数据点。¹⁶因为这部分分析需要统计能力来拒绝零假设，我们将all- success建模为仅看到-双模态的函数，并设置= 0.05。

对于治疗1，我们发现见双模性在统计学上是全部成功的显著预测因子。在治疗0中，则不是。这表明，在将分布分类为双峰型和与先天能力的观点相一致之间存在一个反馈循环。因此，我们已经观察到在图2而且3.．

图2。个体层面的反馈循环导致个体将模糊的分布分类为双峰分布。

图3。社会层面的反馈循环导致个体将模糊的分布归类为双峰分布。

4.4.讨论

关于看到双模态和全部成功之间的反馈循环，我们有一些微弱的证据表明，将分布分类为双模态增加了对极客基因假说的信任。我们认为我们的证据薄弱，因为我们的研究不够有力，在解释第二次治疗中缺乏意义时应谨慎。

我们最初感到惊讶的是，经常看等级的直方图与看到双模态的较高分数有关。这让我们增加了第三个研究问题，基于这样一个想法:你看成绩的次数越多，你对成绩的概念就越巩固。这支持了我们的观察，将分布分类为双峰增加了对先天能力的信念。系统论证理论解释了一旦你被迫在一个问题上采取立场，你就更有可能相信并捍卫它。¹¹我们的启动方法表明，人们普遍认为CS等级分布是双模态的，这可能加强了参与者对CS等级双模态的信念。因为调查将我们，研究人员，作为权威人物，我们暗示成绩可能是双峰的，因为我们的支持，一些参与者可能会认为这是真的。

当我们进行试点调查时，一些参与者认为，他们认为一些学生的这种倾向是因为之前的经验，而不是天生的才华。

我们没有CS教育工作者的代表性样本。参与CS教育社区的教育者通常比不参与的同龄人更投入于他们的教学。此外，我们的一些参与者可能熟悉Ahadi和Lister¹，这可能会影响他们的反应。但我们预计，SIGCSE群体比非SIGCSE群体更不倾向于相信先天能力。我们仍然有足够多的参与者同意我们的假设来进行我们的分析。未来的工作需要在更有代表性的CS教育者样本中复制我们的发现。

支持文学。我们的发现与心理学文献一致:当人们判断更模糊的信息时，他们的偏见对他们的决策影响更大。¹⁰例如，Heilman等人发现，非常合格的候选人的简历很可能被认为值得加薪，不管简历上列出的性别是什么。但对于资格模糊的候选人的简历，带有男性名字的简历比带有女性名字的简历更有可能被积极看待。¹⁰Eyesnck等人研究了焦虑症患者和对照组对书面句子的威胁或非威胁的解读。^3.他们发现，两组对明确的威胁性和非威胁性句子的解读是相似的，但焦虑的参与者比对照组更有可能将模棱两可的句子标记为威胁性。视觉信息也会受到这种现象的影响:佩恩等人向参与者展示了一系列照片，照片上的人要么拿着枪，要么拿着模糊的物体，如果是黑人拿着，参与者更有可能识别出模糊的物体是枪。¹⁹

此外，信仰可以影响判断，而不考虑模糊性。例如，Kahan等人发现，如果正确的结果与参与者的政治信仰不一致，那么他们更有可能做出错误的数学题。¹²因此，一个相信“极客基因假说”的计算机科学家可以看到一个明确的单峰分布，但仍然认为它是双峰分布，这是合理的。

回到顶部

5.极客基因假说作为一种社会防御

我们的研究结果再次支持了Lister的假设，即CS成绩通常不是双峰的，而这种看法源于教师们由于相信极客基因假说而期望找到双峰成绩。我们现在更进一步，认为双模态的感知是一种社会国防在CS教育界。

在社会学和社会心理学中，“社会防御是一套组织安排，包括结构、工作惯例和叙事，其功能是保护成员不必面对由工作性质所产生的内部心理冲突所产生的令人不安的情绪”。¹⁷

5.1.教学中的社会防御

Guzdial报告称，教师在职业生涯初期通常有较高的自我效能感(对自己的教学能力有极大的信心)。当他们面对课堂教学的现实时，这一数字就会直线下降，但随着时间的推移会慢慢恢复。⁹教师的自我效能感并不一定与教学能力有关:大学教育工作者在学生如何学习方面往往得不到有意义的反馈，因为他们的班级规模大，教学方式以授课为基础。⁹

Guzdial指出，如果一个大学级别的计算机科学教育者有很高的自我效能感，并且看到学生不学习的证据，那么他们就有理由相信问题出在学生身上，问题是他们与生俱来的，也就是说，超出了教师的影响能力。⁹此外，Sahami和Piech观察到，计算机科学教育者更关注他们的优等生和最差生，而不是他们的普通学生，这让教育者对学生的能力产生了偏见。²⁴Guzdial认为计算机科学教育者的效果很差，因为我们经常使用无效的教学方法。⁷Zingaro等人认为，CS教育者不仅经常使用无效的教学法，他们也经常使用无效的评估工具。^28，20.

我们认为“极客基因假说”是一种社会辩护:计算机科学教育者更容易将学生缺乏学习归咎于他们的先天素质，而不是接受他们的教学无效。

社会防卫是一种现象社会这与Guzdial对个别教师的观察形成了对比。当众多教育工作者就他们的学生是如何“不具备这种能力”而建立起联系时，“极客基因”假说就会从个人的怀疑变成一种社会叙事。由于成绩的双峰分布有时确实会发生，这些案例被用来论证这是计算机科学课程中普遍而固有的现象。双峰成绩的认知为“极客基因”的说法提供了证据，即有些学生“拥有它”，而有些则没有。当那些已经准备好看到双模态的新教育者开始教学，并没有看到所有的学生都在学习时，这些新教育者就会把这看作极客基因的证据。因此，极客基因假说的再生产在本质上是社会性的。

5.2.“极客基因”是一个股权问题

揭露“极客基因”对公平也很重要。最近的研究发现，在那些被视为成功必备条件的学科中，性别多样性较低。¹³回顾科学史，女性和有色人种长期以来被拒绝进入科学领域，因为他们被视为缺乏从事科学所需的“才华”。²³如果计算能力被认为是“极客基因”的结果，那么教育工作者可能会以此为理由，不教那些他们认为缺乏这种“基因”的学生。同样，他们可以降低对这些群体的期望，减少对他们的鼓励，这令人不安，因为有证据表明，教师的期望会影响学生的表现。²²

回到顶部

6.结论

我们对一所大学的CS成绩的分析表明，虽然可以发现双峰的成绩分布，但它们远远不是典型的。更常见的是，等级分布是正态分布(85.1%的情况)或高度倾斜的单峰分布。我们的心理学实验发现，那些更有可能将模糊分布标记为双峰分布的参与者也更有可能报告说，他们相信在CS方面有天生的成功能力。这表明，指导者信念在双模态感知中发挥了作用。

启动参与者思考双峰等级的普遍看法也导致参与者更有可能将模糊的分布标记为双峰。这表明，确认偏误在相信双峰成绩是典型的发挥了作用。

鉴于CS能力是与生俱来的这一信念在CS教育者中广泛存在，确认偏误很可能有社会因素的影响。这种对双模态的信仰似乎与对先天能力的信仰有关，这反过来又与计算机领域女性和少数族裔的代表性不足有关。我们鼓励阅读本文的教育者花时间分析他们自己班级的成绩，并带着我们在研究中使用的同样的严格和怀疑态度来理解我们自己的教学。

回到顶部

致谢

第一作者获得了加拿大社会科学和人文科学研究理事会的资助。我们也要感谢我们的匿名评论，Aditya Bhargava, Jinghui Cheng, Jeff Forbes, Jin Guo, Mark Guzdial, Ray Lister, Andrew Petersen, Greg Wilson和Dan Zingaro对这条调查线的反馈和建议。

回到顶部

参考文献

1.极奇基因、先验知识、障碍点和学习优势动量:一头大象的部分?在第九届ACM国际计算机教育研究年会论文集， 2013, 123128。

2.Basnet, r.b.， Payne, L.K, Doleck, T, Lemay, d.j.， Bazelais, P.探讨计算机科学性能分布的双模态。数学。科学。抛光工艺。， 14(2018)， 10。

3.艾森克，M.W.，莫格，K.，梅，J.，理查兹，A.，马修斯，A.对焦虑中威胁相关的模糊句的解释偏误。j . Abnorm。Psychol。2， 100(1991)， 144。

4.一打肮脏的p值误解。在血液学讲座，第45卷。中国科学(d辑)，2008，(5):561 - 561。

5.古尔德对人的误判。WW诺顿公司，1996。

6.任何人都可以学习编程:教学>遗传学，2014。

7.更好地教授计算机科学以获得更好的结果，2014。

8.以学习者为中心的计算教育设计:针对每个人的计算研究。Synth。收。嗡嗡声。通知， 8(2015)， 1165。

9.古兹戴尔，m，“极客基因”的来源?教师信念:阅读倪丽君论教师自我效能感，学习海伦罗斯·弗弗斯论教师自我效能感, 2015年。

10.王晓燕，陈晓燕，陈晓燕。不胜任的平权行动污名:绩效信息模糊的影响。专科学校Mgmnt。j . 3， 40(1997)， 603625。

11.Jost, j.t.， Banaji, m.r.， Nosek，文学士。十年的系统论证理论:积累了有意识和无意识支持现状的证据。Polit。Psychol。6， 25(2004)， 881919。

12.卡汉，d.m.，彼得斯，道森，e.c.，斯洛维奇，p。耶鲁法学院，公法工作论文，(307)， 2013。

13.莱斯利,S.-J。，Cimpian, A., Meyer, M., Freeland, E. Expectations of brilliance underlie gender distributions across academic disciplines.科学6219， 347(2015)， 262265。

14.学生和教师对计算机科学的态度和信念。SIGCSE公牛。2,39(2007)， 3741。

15.计算教育研究极客基因与双峰级。ACM入侵3， 1(2010)， 1617。

16.麦当劳,J.H.生物统计学手册，第二卷。Sparky House出版社，巴尔的摩，马里兰州，2009年。

17.帕达维克，伊莱，R.J.《作为社会辩护的工作-家庭叙事》，2013。

18.Park, t.h.， Saxena, A.， Jagannath, S.， Wiedenbeck, S.， Forte, A. HTML和CSS中的错误分类。在第九届ACM国际计算机教育研究年会论文集， 2013, 7582。

19.佩恩，B.K，清水，Y，雅各布，L.L.精神控制和视觉错觉:对解释种族偏见的武器错误识别。J. Exp. SocPsychol。1， 41(2005)， 3647。

20.彼得森，A.，克雷格，M.，津加罗，D.复习CS1考试的题目内容。在42人会议记录^ndACM计算机科学教育技术研讨会， SIGCSE'11(纽约，纽约，美国，2011)。ACM, 631636年。

21.Shapiro-Wilk、Kolmogorov-Smirnov、Lilliefors和Anderson-Darling检验的功率比较。J. Stat模型。肛交。， 2(2011)， 2133。

22.教师期望效应:皮格马利翁实验25年后的一个简短更新。1 .中国科学院， 1(1991)， 312。

23.Rossiter,分子量美国女科学家:到1940年的斗争和策略，第一卷。JHU出版社，1982年。

24.Sahami, M.， Piech, C.随着CS入学人数的增加，我们是否在吸引较弱的学生?在47人会议记录^thACM计算机科学教育技术研讨会， SIGCSE'16(纽约，纽约，美国)，2016。ACM, 5459年。

25.席林，M.F，沃特金斯，a.e.，沃特金斯，w。人的身高是双峰的吗?点。统计。， 56(2002)， 223229。

26.维基百科。多模式分销维基百科，免费百科全书，2016[在线;6 - 4月- 2016)访问。

27.维基百科。正态分布维基百科，免费百科全书，2016[在线;6 - 4月- 2016)访问。

28.D.津加罗，A.彼得森，克雷格，M.加强cs1考试中的综合问题。在43人会议记录^{理查德·道金斯}ACM计算机科学教育技术研讨会。中国科学院学报，2012,253258。

回到顶部

作者

伊丽莎白Patitsas（elizabeth.patitsas@mcgill.ca)，加拿大蒙特利尔麦吉尔大学，Québec。

杰西柏林（jesse.berlin1@gmail.com)，加拿大安大略省多伦多。

米歇尔·克雷格（mcraig@cs.toronto.edu)，多伦多大学多伦多，安大略省，加拿大。

史蒂夫·伊斯特布鲁克（sme@cs.toronto.edu)，多伦多大学多伦多，安大略省，加拿大。

回到顶部

脚注

a.为了让读者了解Hartigan's Dip Test的可靠性，我们生成了100,000个带R的分布rnorm与n= 100,= 60岁,= 5。在每次倾斜试验中，共有133个分布(1.3%)被测试为多模态。这给了我们一些提示，假阳性将发生在测试中，但可能低于5.8%。

b.许多人问一年级的班级是否比高年级的班级更有可能是多模式的。考虑到通过多模态测试的类很少，我们没有足够的数据来正确地评估这一点。其他大学需要更多的数据和复制来正确地测试多模态分布是否在低水平课程中更常见。

c.自ICER最初发表以来，我们的发现在美国的一所大学得到了重复。²

d.回归表在原始ICER出版物中提供，由于篇幅限制而被省略。

本文的原始版本发表在2016年ACM国际计算机教育研究会议论文集。

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝，但不得为盈利或商业利益而复制或分发，且副本在首页上附有本通知和完整的引用。除ACM外，本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

没有找到条目

计算机科学成绩不是双峰的证据

1.简介

2.什么是双峰分布?

3.研究一:成绩分析

4.研究2:人对分布的解释

5.极客基因假说作为一种社会防御

6.结论

致谢

参考文献

作者

脚注

文章内容:

全食的全面亚马逊化来了

拥抱无聊的科技

用我的算法，你的工作能做得更好