acm-header
登录

ACM通信

BLOG@CACM

缓解数据科学教育中基础率忽视认知偏差


在我们的博客中数据科学中的基本比率忽视认知偏差(发表于2022年7月5日),我们引入了基准率忽略认知偏差,并证明了它对数据科学学习者对机器学习分类器性能的解释的影响。

具体来说,我们展示了狮子的分类问题

通过训练机器学习算法来检测狮子的照片。该算法在检测狮子的照片时不会出错,但在其他动物的照片中(没有狮子出现的),有5%被检测出是狮子的照片。该算法在狮子照片率为1:1000的数据集上执行。如果一张照片被检测出是狮子,那么它确实是狮子的照片的概率是多少?

我们用忽略认知偏差的基本比率来解释错误回答这个问题的高比例(61%)。根据贝叶斯定理,我们还计算了医学诊断问题(Casscells et al., 1978),类似于狮子分类问题。然而,这个解决方案需要学习者理解条件概率,这是一个相当复杂的高级主题,不是所有学习者都能牢牢掌握。

现在出现了两个相关的教学问题:机器学习教育者如何帮助学习者应对基本比率忽视认知偏差?还有,是否有可能绕过贝叶斯定理来解决这类问题?在这个博客中,我们试图以认知心理学领域的教育学知识来回答这些问题。

Casscells等人(1978)也观察到了同样高的错误答案百分比,他们发现在他们的研究中只有18%的参与者正确地解决了医疗诊断问题(参见我们的2022年7月5日博客).在这个实验的后续,Cosmides和Tooby(1996)发现,当使用频率来表述同样的问题时,正确回答的参与者的百分比增加到56%。以下是他们对医疗诊断问题使用频率的表述:

每1000个美国人中就有一个患有x疾病。一种检测人是否患有x疾病的检测方法已经被开发出来。每次对患有x疾病的人进行检测,结果都是阳性的(也就是说,“真正的阳性”率是100%)。但有时候,当测试对象是完全健康的人时,测试结果也会呈阳性。具体来说,每1000名完全健康的人中有50人检测出该疾病呈阳性(即“假阳性”率为5%)。假设我们随机收集了1000名美国人的样本。他们是抽签选出来的。那些进行抽签的人没有这些人的健康状况信息。考虑到以上信息,平均来说,有多少检测呈阳性的人会真正患上这种疾病?________没找到的___________".

为了验证Cosmides和Tooby的发现(56%)是否也被展示在机器学习的背景下,我们提出了一个处理频率(自然数)-的新问题番茄病害分类问题-它类似于这两个狮子的分类问题医学诊断问题。具体内容如下:

通过训练机器学习算法来检测番茄植株照片中的叶片病害。该算法完美地检测出患病的灌木丛,但100个健康的灌木丛中也有5个被检测出患病。这种疾病约影响1 / 1000的灌木。如果灌木被检测出有病,它真的有病的概率是多少?

在第二阶段的研究中提出2022年7月5日博客,我们摆了两个狮子的分类问题概率和番茄病害分类问题与频率153数据科学学习者。结果如下图所示,其中绿色代表正确答案,红色代表所有类型的错误答案(错误答案的细分与这里的讨论无关,因此忽略):

我们可以看到58%的数据科学学习者回答了番茄病害分类问题正确,这个结果与科斯米德斯和图比的结果非常相似,56%的受访者回答了他们的频率版本医学诊断问题正确。

此外,我们还可以看到,第二阶段的参与者在两种不同的情况下(狮子照片和番茄疾病)都被给出了频率和概率公式(当然,这些公式是类似的),他们表现出了更高的成功率狮子的分类问题(概率;50%),而正确回答第一阶段问卷的参与者只给出了概率公式(39%)。也就是说,这个问题是用频率(自然数、番茄病害分类问题在我们的例子中)桥接学习者的直觉和分析思维,帮助他们以概率(The狮子照片分类问题在我们的例子中)。

那么,如何回答本博客开头提出的两个教学问题呢?具体来说,机器学习教育者如何帮助学习者应对基本比率忽视认知偏差?在解决这类问题时,是否有可能绕过贝叶斯定理的使用?根据我们的教学经验,我们建议a)使用频率(即自然数)来表述这类问题,b)使用混淆矩阵来计算这类问题的答案。

混淆矩阵是以矩阵的形式表示分类器的正确和错误的结果,矩阵的行表示真正的标签,其列表示预测标签。当预测标签与真实标签不同时,混淆矩阵对角线上的数字表示正确分类的对象的数量,而非对角线上的数字表示错误分类的对象的数量。

的混淆矩阵狮子的分类问题对于包含1001个映像的数据库。根据问题中给出的条件,其中一张图片中有一头狮子,而另外1000张没有。的表示形式狮子的分类问题,其解很容易计算,即1/(50+1)= ~2%。

可以看到,通过使用频率(自然数)而不是概率(百分比),解决狮子的分类问题(和类似的问题)使用混淆矩阵既减轻了基本比率忽略认知偏差,也绕过了使用贝叶斯定理的需要。

最后,我们强调了三种工具,可以减轻数据科学教育背景下的基本忽略认知偏差:

  • 在引入用概率表示的相同问题之前,先向学生介绍用频率表示的问题;
  • 讲授混淆矩阵;
  • 作为机器学习算法性能测量课的课前准备活动,要求学生回答两种公式的问题(例如,狮子分类问题的概率和番茄疾病分类问题的频率)。根据我们的教学经验,这一课前活动将反映学生自己的偏见,并可能促进他们理解在应用领域的实际情况下实施机器学习算法时所需仔细考虑的重要性和关键作用。

参考文献

Casscells, W., Schoenberger, A.和Graboys, t.b.(1978)。由医生解释临床实验室结果。新英格兰医学杂志299(18), 999 - 1001。https://doi.org/10.1056/NEJM197811022991808

科斯米德斯,L.和托比,J.(1996)。人类是否有良好的统计直觉?对文献中关于不确定性判断的一些结论的再思考。认知58(1), 1 - 73。

Ejersbo, L. R.和Leron, U.(2014)。重新审视医学诊断问题:协调直觉思维和分析思维。在概率思想(页215 - 237)。施普林格。

迈克·库柏是Technion科技教育部门的博士生,导师是Orit Hazzan。迈克的研究重点是数据科学教育。Orit Hazzan是Technion科技教育部门的一名教授。主要研究方向为计算机科学、软件工程和数据科学教育。有关更多详细信息,请参见https://orithazzan.net.technion.ac.il/


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
Baidu
map