ACM

ACM通信

首页 / 杂志存档 / 2014年9月(第57卷第9期) / 社会科学中的隐私、匿名和大数据 /全文

实践

社会科学中的隐私、匿名和大数据

作者:Jon P. Daries, Justin Reich, Jim Waldo, Elise M. Young, Jonathan Whittinghill, Andrew Dean Ho, Daniel Thomas Seaton, Isaac Chuang
ACM通信，2014年9月，第57卷第9期，56-63页
10.1145 / 2643132
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享在黑客新闻上分享在推特上分享在Facebook上分享

开放数据对科学有巨大的潜力，但是，在人类受试者研究中，隐私和发布高质量的开放数据之间存在矛盾。管理学生隐私和学生记录发布的联邦法律表明，匿名化学生数据可以保护学生隐私。在此标准的指导下，我们在edX平台上对MITx和HarvardX的16门大型公开在线课程(MOOCs)进行了去识别并发布了数据集。在本文中，我们展示了这些和其他去识别过程需要对数据集进行更改，这威胁到基线分析的复制和扩展。为了平衡学生隐私和开放数据的好处，我们建议重点保护隐私没有通过扩大政策，迫使研究人员维护开放数据集中受试者的隐私，来匿名化数据。如果我们想要进行高质量的社会科学研究，同时也要保护人类被试的隐私，我们最终必须信任研究人员。否则，我们将永远在匿名和科学之间进行严格的权衡。

“大规模开放网络课程”中的“开放”有多种解释。一些mooc托管在开源平台上，一些只使用公开授权的内容，而大多数mooc对任何学习者开放，无需付费或先决条件。我们想再增加一个开放的概念:开放获取mooc产生的数据。我们认为，这是mooc责任的一部分，而履行这一责任会威胁到现行政策和公众认知中的匿名传统。

本着开放数据的精神，2014年5月30日，作为一个来自哈佛和麻省理工学院的研究团队(包括本作者团队)，我们宣布发布一个开放数据集，其中包含edX平台第一年开设的16门课程的学生记录。(2012年5月，麻省理工学院(MIT)和哈佛大学(Harvard)推出了edX，这是一个举办和营销mooc的非营利性平台。MITx和HarvardX是两家专注于mooc的机构。)⁶该数据集是用于发布的数据集的去标识版本HarvardX和MITx:开放在线课程的第一年该报告披露了有关学生人口统计、课程学习模式、认证率和其他学生行为指标的调查结果。⁶发布这些数据有两个目的:首先，允许其他研究人员复制分析结果;第二，允许研究人员在原著的基础上进行新颖的分析，为在线开放课程的文献体系增添新的内容。

数据发布几小时后，Twitter上开始出现对数据的原始分析，包括数据和源代码。发布两周后，数据新闻团队在高等教育编年史发表了《关于mooc你应该知道的8件事》，这篇文章探索了该数据集的新维度，包括课程的性别平衡。¹³在发布的第一个月里，这些数据被下载了650多次。该数据集以惊人的速度开始实现其目的:允许研究界使用来自在线学习平台的开放数据来推进科学进步。

基于这些数据的新研究的迅速传播令人兴奋，但这种兴奋被发布的数据的一个必要限制所缓和:它们只是完整数据的一个子集。为了遵守联邦政府关于学生隐私的规定，发布的数据集必须被删除。在这篇文章中，我们展示了我们一方面需要满足联邦学生隐私法规的要求，另一方面我们有责任发布数据用于复制和下游分析，这两者之间的权衡。例如，最初的分析发现，大约5%的课程注册者获得了证书。一些去识别的方法将这个比例减少了一半。

在不以某种方式影响未来分析的情况下，匿名化可识别数据是不可能的。可以量化从去识别的数据复制和原始发现之间的差异;然而，很难完全预测来自新分析的结果是否会导致有效的洞见或去识别的工件。去识别标准越高，去识别数据的值就越低。这可能会对社会科学研究人员的动机产生寒蝉效应。如果研究结果很可能因去识别过程而产生偏差，那么研究人员为什么要把宝贵的时间花在去识别的数据上呢?

在2012年5月edX的发布会上，麻省理工学院和哈佛大学的校长谈到了edX平台，以及由它产生的数据，作为一种公共产品。如果学术研究人员和独立研究人员都能从mooc获取数据，在线教育研究的进展将会更快，结果也会进一步、完善和测试。然而，如果保护学生隐私意味着开放数据集与原始数据明显不同，这些开放MOOC数据的理想就会遭到破坏。隐私和开放数据之间的矛盾需要一种比匿名数据集更好的解决方案。事实上，我们当前监管框架的根本问题可能是对隐私和匿名的不幸和不必要的合并。Skopek¹⁷两者的区别概述如下:

．.．在隐私条件下，我们知道一个人的身份，但不知道相关的个人事实，而在匿名条件下，我们知道个人事实，但不知道相关的人的身份。从这个意义上说，隐私和匿名是彼此的对立面。为此,原因是，它们通常会以相反的方式发挥作用:隐私通常会隐藏关于某人的事实，而此人的信息和其他物品会从公共流通中删除，而匿名通常会隐藏某人的身份，而此人的事实是已知的，目的是让这些物品进入公共流通．

要实现社会科学中开放数据的潜力，就需要一种保护学生隐私的新范式:要么是一种技术解决方案，比如差异隐私，^3.这将分析与数据的拥有分离开来，或者是一种基于策略的解决方案，它允许开放访问可能可重新识别的数据，同时监督数据的使用。

本文描述了发布学习者数据背后的动机、学生隐私的当代监管框架、我们在从mooc创建开放数据集时遵守这些监管的努力，以及去识别的一些分析结果。从这个去身份化的案例研究中，我们得出结论，开放数据的科学理想和当前关于匿名化数据的监管要求是不兼容的。要解决这种矛盾，就需要新的方法来更好地平衡保护隐私和促进教育研究和更广泛的社会科学的科学发展。

回到顶部

平衡开放数据和学生隐私条例

与开放源代码和公开许可的内容一样，对开放数据的支持一直在稳步建立。在美国，政府机构对共享研究数据的期望越来越高。⁵2003年，美国国立卫生研究院(National Institutes of Health)成为第一个要求研究拨款申请者描述其数据共享计划的联邦机构。¹²2013年，科技政策办公室(Office of Science and Technology Policy)发布了一份备忘录，要求公开存储联邦政府资助的非机密研究的数字数据。⁷这些趋势与学习科学社区对数据共享日益增长的兴趣相吻合。2006年，卡内基梅隆大学(Carnegie Mellon University)的研究人员开放了DataShop，这是一个智能辅导系统的事件日志存储库，也是联邦政府以外教育研究领域最大的开放数据来源之一。⁸

开放数据在科学学科中具有巨大的潜力，可以通过复制提高透明度，通过新颖的分析加快创新。在mooc等开放在线学习的研究中，这一点尤为重要。今年早些时候发布的一项研究¹据估计，仅在美国就有超过700万人至少上过一门在线课程，而且这个数字还在以每年6%的速度增长。这些学生在从社区学院到研究型大学的各种机构学习在线课程，开放的MOOC数据将促进研究，对所有提供在线课程的机构都有帮助。

开放数据还可以促进不同专业领域的研究人员之间的合作。正如学习分析研究学会总统的George Siemens所指出的，涉及大型复杂数据集的学习研究需要数据科学家和教育研究人员之间的跨学科合作。¹⁶开放的数据集使这两个不同领域的研究人员更容易走到一起。

虽然开放教育数据对促进科学发展有很大的希望，但它也提出了有关学生隐私的重要问题。在高等教育领域，学生隐私法的基石是《家庭教育权利和隐私法》(FERPA)，这是一项联邦隐私法规，规范学生教育记录的获取和披露。在我们的去身份认证程序中，我们的目标是遵守FERPA，尽管并非所有机构都认为MOOC学习者受FERPA的约束。¹¹

FERPA为学生记录中的个人身份信息(PII)提供保护。根据FERPA, PII不能被披露，但如果PII从记录中删除，那么学生将成为匿名者，隐私受到保护，由此产生的去识别数据可以披露给任何人。因此，FERPA将匿名、删除pii与隐私等同起来。

FERPA的PII定义包括一些法定定义的类别，如姓名、地址、社保号和母亲的娘家姓，但也包括:

．.．其他单独或结合与某一特定学生相关或可与某一特定学生相关的信息，使学校社区中不了解相关情况的合理人士能够合理确定该学生的身份．

在评估识别的合理确定性时，教育机构应该考虑其他可能增加识别机会的数据发布。²²因此，适当的取消身份程序不仅必须删除法定规定的因素，而且还必须删除准标识符。这些准标识符是信息片段，可以通过相互组合或与来自学生记录外部的其他数据源进行惟一标识。它们不是由教育部门的法规或法规指导来定义的，而是由教育机构来定义。²²

结合准标识符来惟一标识个人的潜力已经得到充分证实。例如,《理发师陶德》²¹证明了87%的美国人口可以通过邮政编码、出生日期和性别的组合在一定程度上进行唯一识别。在开放的在线学习环境中，由于活动的公共性，这些风险会进一步增加。另一个例子是，一些MOOC学生参加课程讨论论坛，对于许多课程来说，这些论坛在课程结束后仍可在线访问。学生的用户名显示在他们的帖子旁边，允许跨课程的信息链接，有可能显示学生注册了独特的课程组合。在课程早期，讨论论坛的一个非常常见的用途是自我介绍，学生在其中陈述他们的年龄和地点。与此同时，另一个身份数据来源是社交媒体。可以想象，学生可以在Facebook或Twitter上详细记录他们的在线教育，一旦注册了一门新课程，就会在Facebook上发布tweet，或者在帖子中提到他们的课程成绩。考虑到这些外部源，可以认为数据集中人-过程中的许多通常不被认为是标识符的列可以符合准标识符的条件。

FERPA定义的监管框架指导我们为开放发布去识别人课程数据集。删除学生用户名和IP地址等直接标识符很简单，但处理准标识符的挑战就更复杂了。我们选择了一个框架k匿名。^20.一个数据集k-anonymous如果数据集中至少有一个人不能被区分开来k同一数据集中的其他1个人。这需要确保没有个体具有不同于的准标识符组合k1人。如果数据集不能满足这些要求，则必须修改数据以满足这些要求k-匿名性，要么通过在案例中泛化数据，要么压制整个案例。例如，如果数据集中有一名学生来自拉脱维亚，有两种补救办法:我们可以通过报告她来自“欧洲”而不是拉脱维亚来概括她的位置;我们可以隐瞒她的位置信息;或者我们可以完全隐瞒她的案子。

这开始说明，在生成满足匿名要求的数据集和通过公开发布数据推进学习科学之间存在着根本的紧张关系。在目前的监管制度下，保护学生隐私需要修改数据，以确保学生个人无法被识别。然而，这些修改可能会极大地改变数据集，引发了关于开放数据用于复制或新分析的效用的严重问题。在这里，我们描述生成一个k-anonymous数据集，然后检查我们对数据集的大小和性质的修改的结果。

回到顶部

De-Identification方法

我们希望发布的数据集是一个“人-课程”数据集，这意味着每一行代表一个人的一门课程注册(注册了三门课程的人将在数据集中拥有三行)。原始数据集包含:

学生信息(用户名、IP地址、国家、自我报告的教育水平、自我报告的出生年份和自我报告的性别);
课程ID(标识机构、学期和课程的字符串);
学生在课程中的活动信息(第一次互动的日期和时间，最后一次互动的日期和时间，活动天数，阅读的章节数，edX平台记录的事件数，视频播放事件数，论坛帖子数，课程最终成绩);而且
我们计算了四个变量来表示课程参与程度(注册:参加课程;观看:与课件互动至少一次;探索:与50%以上课程章节内容进行互动;并获得认证:取得及格成绩并获得证书)。

与开放源代码和公开许可的内容一样，对开放数据的支持一直在稳步建立。

将这个人-课程数据集转换为k我们认为符合FERPA准则的-anonymous数据集需要四个步骤:定义标识符和准标识符，定义的值k，删除标识符，并从数据集中修改或删除准标识符的值，以确保k-匿名，同时尽量减少对数据集的更改。

我们将原始数据集中的两个变量定义为标识符，将六个变量定义为准标识符。用户名本身被认为是识别的，所以我们用一个随机ID替换了它。IP地址也被删除。四个学生人口统计变量被定义为准标识:国家、性别、年龄和教育水平。课程ID被认为是一种准标识符，因为学生可能选择唯一的课程组合，而且它提供了张贴在论坛上的PII和个人课程数据集之间的链接。学生发表的论坛帖子的数量也是一个准标识符，因为有决心的个人可以从存档的课程中抓取论坛的内容，然后用论坛帖子的唯一数量识别用户。

一旦选择了准标识符，我们必须确定的值k用于实现k匿名。一般来说，较大的值k的值需要更大的更改才能去识别k让数据集更容易被重新识别。美国教育部为不同情况下的去识别过程提供了指导，但它不建议或要求的具体值k为特定的上下文。在一个常见问题解答中，该部门的隐私技术援助中心指出，许多“统计学家认为3个单元格的大小是绝对的最小值”，并继续表示5到10的值甚至更安全。¹⁵我们选择了一个k五个人的身份。

由于我们的数据集包含16门课程的注册，因此可以使用多个课程的注册进行重新识别。的k-匿名方法将确保使用准标识符的个人是唯一可识别的在一个课程，但必须采取进一步的注意，以消除根据在一个唯一组合或数量的课程中注册而唯一识别注册人的可能性。例如，如果只有三个人注册了所有16门课程，那么这三个注册者就不会被录取k-在整个课程中是匿名的，他们的一些注册记录需要被隐藏，以降低他们被重新识别的风险。

去识别过程的关键部分是修改数据，使任何准标识符组合都不能描述少于5人的学生组。这项任务使用的两个工具是泛化和抑制。泛化将更细粒度的值组合成类别(例如，1、2、3、4和5变成了“15”)，和抑制删除数据是妥协吗k匿名。²¹许多去识别的策略，包括Sweeney的Datafly算法，在实现这两种工具时，对一种技术或另一种技术的强调程度不同。¹⁸更多的泛化将意味着更少的记录被抑制，但剩余的记录将比原始数据更不具体。更严重地依赖抑制将从数据中删除更多的记录，但其余的记录将很少被更改。

在这里，我们通过比较两种去识别方法来说明有效研究推论和去识别方法之间的差异权衡:一种倾向于泛化而非压制(以下称为泛化强调法，或GE方法)，另一种倾向于压制而非泛化(以下称为压制强调法，或SE方法)。还有其他方法来处理取消身份的问题，但这是两种很容易实现的方法。我们的目的不是要在任何一般情况下辨别一种技术相对于另一种技术的优势，而是要表明匿名性和有效研究推论之间的权衡a)是不可避免的，b)将取决于去识别的方法。

去识别过程的关键部分是修改数据，使任何准标识符组合都不能描述少于5人的学生组。

Suppression Emphasis (SE)方法对国家名称(对于行数少于5,000的国家，将它们分组为大洲/地区名称)和第一个事件和最后一个事件时间戳(通过截断时间戳的小时和分钟部分将它们分组为日期)使用泛化。然后对不存在的行使用抑制k-匿名跨准识别变量。有关实现细节的更多信息，请参考数据发布附带的文档。¹⁰

概括强调(GE)方法将出生年份分为两组(例如，19801981)，将论坛帖子数量分为5组(例如，1115)，值大于10。然后对不存在的行使用抑制k-匿名跨准识别变量。与SE方法相比，泛化方法产生的数据集需要的抑制更少，但也降低了泛化变量的精度。

在较小的课程中，这两种去身份化过程更有可能压制注册者:课程越小，任何给定的人口统计数据组合不被压制的可能性就越高k-匿名，那么该行就越有可能需要被抑制。此外，由于活动变量(论坛帖子的数量)被作为准标识符包括在内，两种方法都可能删除在论坛中更活跃的用户。由于只有8%的学生在论坛上发帖，而且这些学生通常在其他方面很活跃，许多最活跃的学生的记录被屏蔽了。

回到顶部

去识别的两种方法的后果

两个去识别的数据集与原始数据集在很多方面都不同。我们复制了对原始数据集进行的分析，并评估了新数据集的变化幅度。这里强调了这些差异。

两个去识别的数据集都比原始数据集小得多表1)，但去身份化对不同课程的入学人数影响并不一致。表1显示与原始文件相比，每个去标识数据集的登记减少百分比。只有一小部分来自CS50x的记录被删除，因为CS50x托管在edX平台上，所以我们没有关于论坛使用情况的数据(我们的准识别变量之一)。

表2表明去认同对最活跃的学生有不成比例的影响。et al。⁶确定了四类相互排斥的学生:只注册注册了课程，但没有与课件互动;只与至少一个，少于一半的课程章节互动;只有探索者与课程一半或以上章节的内容进行了互动，但没有获得证书;并在课程中获得证书。在表2，我们看到，去识别后，每一类学生的比例似乎只有轻微的变化;然而，去识别数据集中认证学生的百分比几乎是原始数据集中百分比的一半。考虑到MOOC认证率的政策考虑，这是一个非常重要的差异，即使只有很小的百分点的变化。

去识别数据集的人口统计数据与原始的人-课程数据集相似。表3显示的分布的性别和学士学位，分别为每个数据集。在这三个数据集中，拥有学士学位的人所占比例几乎相同。去识别的数据集报告的女学生比例略低于原始数据集。mooc的性别偏见是一个敏感的政策问题，因此这种差异引发了人们对使用去识别数据集进行分析的担忧。

对高活跃用户的抑制大大减少了课件中总事件的中位数。表3显示所有三个数据集的中值事件，去标识的数据集的中值事件值是原始数据集报告的值的三分之二。

最后，我们分析了所有三个数据集中变量之间的相关性。我们使用相关性来说明依赖相关和协方差矩阵的预测模型可能发生的变化，从基于回归的成绩预测到主成分分析和其他多变量方法。尽管相关性的直接变化依赖于基本率，而且相关性的平均值并不是很好地形成的，但为了便于解释，我们在这里提出了这些简单的统计数据。无相关性改变方向，均在0.05水平显著。对于所有注册者，SE数据集报告的相关性比GE方法稍微更接近原始数据集，而对于探索和认证的学生，GE数据集稍微更接近原始数据集(见表4）.

可以使用前几个表的结果来制定一个在这些表中包含总体参数的多元模型。通过从这样一个模型生成与我们在基线数据集中拥有的数字成比例的数据，我们将使研究人员能够复制上述相关性和平均值。然而，对于我们所选择的多元模型之外的任何分析，这样的模型都会导致扭曲的结果。此外，我们在MOOC数据中看到的不寻常的分布²很难用传统的分布形式来建模。

这里提出的去识别数据集和原始数据集之间的比较为保护匿名性和发布有用数据之间的紧张关系提供了证据。我们强调，这里所指出的差异并非最令人担忧的差异。这些分析描述了进行复制研究的研究人员可能期望看到的差异。对于尚未对数据进行的新颖分析，很难对去识别的影响作出先验估计。对于希望使用去识别的公共数据集来推进研究的研究人员来说，这意味着任何给定的发现都可能是去识别扰动的结果。

回到顶部

MOOC数据在科学和隐私方面的更好选择

如前一节所述，去识别数据集与原始数据之间的差异从各种人口统计类别比例的微小变化到活动变量和认证率的大幅下降。很有可能，还没有想到的分析将产生两个数据集之间更显著的差异。即使找到了一种去识别方法，它能维持从原始数据集中观察到的许多研究结果，也不能保证其他分析不会被去识别所破坏。

在这一点上，可以理所当然地认为，任何取消身份的标准都会随着时间的推移而增加。信息变得越来越容易获得，研究人员对可能的再识别策略也越来越复杂和富有创造性。Cynthia Dwork在2014年初由MIT和白宫赞助的一场关于“大数据和隐私”的演讲中指出，去身份识别的努力一直在以一种军备竞赛的方式发展，类似于密码学领域的进步。⁴虽然k-匿名是一种有用的启发式，但研究人员质疑仅靠匿名是不够的。Machanavajjhala et al。⁹指出…k-anonymous数据集仍然容易受到“同质性攻击”。如果，经过一个过程后，保证k-匿名性，存在一个大小不一的群体k或者更大，如果敏感变量的值是同质的(也就是说，组的所有成员都具有相同的值)，则该敏感变量的值将有效地公开，即使攻击者不确切地知道哪条记录属于目标。Machanavajjhala等人将此原理定义为l多样性。其他研究人员提出了一系列的批评k匿名性等米不变性和t相似。⁴即使有可能设计出一种不影响统计分析的去识别方法，它也可能很快因重新识别技术的进步而过时。

我们努力去识别一组简单的学生数据的例子——edX平台上可用的粒状事件日志的一小部分——揭示了开放数据、结果的可复制性、新分析的潜力和研究对象的匿名性之间的冲突。这种紧张关系从MOOC数据延伸到大部分社会科学数据，但在教育研究领域，挑战是严峻的，因为FERPA将匿名性和去身份化与隐私混为一谈。一个结论可能是，这些数据太敏感，不能分享;因此，如果去标识对数据集的完整性有太大的影响，那么数据就不应该共享。我们认为这是一个不受欢迎的职位，因为少数有足够特权访问数据的研究人员将在一个泡沫中工作，在那里他们的同行很少有能力挑战或增强他们的发现。这样的限制充其量只能减缓知识的进步。最坏的情况是，这些限制将阻止突破性研究的进行。

放弃开放数据或放松学生隐私保护都不是明智的选择。相反，研究界应该积极寻求技术和政策解决方案，以解决开放数据和隐私之间的紧张关系。

差分隐私是一个很有前途的技术解决方案。^3.在差异隐私框架下，原始数据被保留，但原始PII不被研究者访问。相反，它们驻留在一个安全的数据库中，该数据库能够回答有关数据的问题。研究人员可以向数据库提交一个模型或回归方程，然后返回回归系数和r平方。差异隐私有其自身的挑战，并且仍然是一个开放的研究问题，因为实施这样一个系统将需要小心地限制可以问的问题的数量和特异性，以防止识别受试者。例如，如果它引用了少于k行,k中使用的最小单元格大小是否相同k匿名。

在短期内，政策改变可能更为可行。美国总统科学和技术顾问委员会(PCAST)建议的一种方法是接受匿名化是一种过时的策略，随着数据挖掘和大数据的进步，匿名化变得越来越困难。¹⁴PCAST建议隐私政策强调数据的使用不应损害隐私，应该关注“是什么”而不是“如何”。¹⁴人们可以想象这样一个系统，在该系统中，访问开放数据集的研究人员将同意仅将数据用于特定目的，如研究，而不出于商业目的联系受试者或重新发布数据。这样一项政策将需要附带执行和审计的规定，而建立切实可行的执行制度无疑是一项不小的成就。

我们建议，隐私可以由受道德和法律框架约束的研究人员来维护，即使这些研究人员可以识别个体及其所有行为。如果我们想要有高质量的社会科学研究和人类主体的隐私，我们最终必须对研究人员有信任。否则，我们将永远在匿名和科学之间进行严格的权衡。

参考文献

1.《年级变化:追踪美国在线教育》，2014;http://sloanconsortium.org/publications/survey/grade-change-2013．

2.DeBoer, J.， Ho, ad .， Stump, g.s.，和Breslow, L.改变“课程:”重新定义大规模开放在线课程的教育变量。教育研究。在线出版(2013年)，2014年2月7日出版。

3.Dwork, C.差别隐私。自动机，语言和编程。柏林，海德堡，2006,112。

4.Dwork, C.隐私保护的艺术现状[ppt幻灯片]，2014;http://web.mit.edu/bigdata-priv/agenda.html．

5.Goben, A.和Salo, D.联邦研究数据要求将发生变化。大学与研究型图书馆新闻74， 8 (2013)， 421425;http://crln.acrl.org/content/74/8/421.full．

6.Ho, a.d.， Reich, J.， Nesterko, S.， Seaton, D. T.， Mullaney, T.， Waldo, J.和Chuang, I. HarvardX和MITx:开放在线课程第一年，2012年秋季和2013年夏季;http://ssrn.com/abstract=2381263

7.增加获得联邦政府资助的科学研究成果的机会;http://www.whitehouse.gov/sites/default/files/microsites/ostp/ostp_public_access_memo_2013.pdf．

8.kedinger, k.r.， Baker, R.S.J.d, Cunningham, K.， Skogsholm, A.， Leber, B.和Stamper, J. EDM社区的数据存储库:PSLC DataShop。在教育数据挖掘手册．C.罗梅罗、S.文图拉、M.佩契尼茨基、R.SJ.d .贝克主编。CRC出版社，博卡拉顿，佛罗里达州，2010。

9.Machanavajjhala, Gehrke, J, Kifer, D.和Venkitasubramaniam, M. l-多样性:超越隐私k匿名。ACM反式。从数据中发现知识1(2007), 3。

10.MITx HarvardX。HarvardX-MITx个人课程2013学年去识别数据集，2.0版本。http://dx.doi.org/10.7910/DVN/26147．

11.MOOCs @伊利诺斯州。教师常见问题解答，2月7日。, 2013;http://mooc.illinois.edu/resources/faqfaculty/

12.国立卫生研究院NIH关于共享研究数据的最后声明，2003年;http://grants.nih.gov/grants/guide/notice-files/NOT-OD-03-032.html．

13.关于mooc，你应该知道的8件事。高等教育编年史(2014年6月13日);http://chronicle.com/article/8-Things-You-Should-Know-About/146901/．

14.总统科学技术顾问委员会。大数据与隐私:技术视角，2014;http://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/pcast_big_data_and_privacy_-_may_2014.pdf．

15.隐私技术援助中心。常见问题披露规避，2012年10月;http://ptac.ed.gov/sites/default/files/FAQs_disclosure_avoidance.pdf．

16.支持和促进学习分析研究。学习分析杂志， 1 (2014)， 35;http://epress.lib.uts.edu.au/journals/index.php/JLA/article/view/3908/4010．

17.匿名，商品的生产和制度设计。福德汉姆法律评论82， 4 (2014)， 17511809;http://ir.lawnet.fordham.edu/flr/vol82/iss4/4/．

18.Datafly:在医疗数据中提供匿名性的系统。林天、钱绥，编。爱思唯尔科学，阿姆斯特丹，1998。

19.简单的人口统计数据往往能区分出独特的人。健康671(2000)， 134，旧金山，加州。

20.《理发师陶德》,L。k-匿名:一种保护隐私的模式。实习生。10 .论不确定性、模糊性和基于知识的系统， 5(2002)， 557570。

21.Sweeney l .实现k-匿名隐私保护使用泛化和抑制。实习生。10 .论不确定性、模糊性和基于知识的系统， 5，(2002)， 571588。

22.美国教育部。家庭教育权利与隐私(联邦公报第73卷第237号)。美国政府印刷局，华盛顿特区，http://www.gpo.gov/fdsys/pkg/FR-2008-12-09/pdf/E8-28864.pdf

回到顶部

作者

乔恩·p·戴丽、麻省理工学院

贾斯汀帝国哈佛大学的

吉姆·沃尔多哈佛大学的

伊莉斯m .年轻哈佛大学的

乔纳森Whittinghill哈佛大学的

安德鲁·迪恩何哈佛大学的

丹尼尔·托马斯·斯顿麻省理工学院的。

艾萨克壮族麻省理工学院的。

回到顶部

脚注

本文由来自麻省理工学院和哈佛大学的一组研究人员和管理人员编写，他们一直在处理来自edX平台上MITx和HarvardX mooc的数据以及与数据相关的政策。

回到顶部

表

表1。通过课程和去识别方法记录的百分比下降。

表2。按活动类别和按去识别方法分类的记录减少百分比。

表3。人口统计和活动的变化去识别方法。

表4。去识别法和活动类别对Pearson相关性的影响。

回到顶部

版权由所有者/作者持有。授权ACM出版权利。

没有发现记录

社会科学中的隐私、匿名和大数据

平衡开放数据和学生隐私条例

De-Identification方法

去识别的两种方法的后果

MOOC数据在科学和隐私方面的更好选择

参考文献

作者

脚注

表

文章内容:

新的数据库揭示了人类在多大程度上扰乱了进化

中国的5G飞速超越美国

使用随机和方法的数据匿名化