acm-header
登录

ACM通信

新闻

人工智能能学会遗忘吗?


扫帚扫二进制字符,插图

信贷:Lightspring

机器学习已经成为一种有价值的工具,可以发现人类可能无法发现的模式和趋势。这项技术可以根据从个人偏好到面部识别的方方面面建立复杂的模型,被广泛用于理解行为、发现模式和趋势,并做出明智的预测。

然而,尽管有这么多收获,也有很多痛苦。与机器学习相关的一个主要问题是,一旦算法或模型存在,删除单个记录或数据块是非常困难的。加拿大滑铁卢大学David R. Cheriton计算机科学学院的助理教授Gautam Kamath说,在大多数情况下,有必要重新训练整个模型——有时无法保证该模型不会以某种方式继续包含可疑数据。

有问题的数据可能来自系统日志、图像、健康记录、社交媒体网站、客户关系管理(CRM)系统、遗留数据库和无数其他地方。作为被遗忘的权利在欧盟《通用数据隐私条例》(GDPR)和《加州消费者隐私法案》(CCPA)的推动下,组织发现自己在应对潜在的雷区,包括严重的合规处罚。

毫不奇怪,完全重新训练模型是一个昂贵和耗时的过程,它可能会也可能不会解决使敏感数据消失或完全不可追踪的潜在问题。更重要的是,经常没有办法证明重新训练的模型已经被完全纠正,并且它是完全准确和有效的。

进入机器学习。使用专门的技术——包括将数据库分成更小的块和调整算法——可能会在机器学习模型中诱导选择性“失忆”。这一领域才刚刚开始成形。宾夕法尼亚大学(University of Pennsylvania)计算机与信息科学教授亚伦•罗斯(Aaron Roth)表示:“我们的目标是找到一种快速重建模型的方法,而不是每次数据发生变化时都必须建立一个全新的模型。”

回到顶部

打破模式

机器学习之所以如此吸引人,是因为它能够从无数的数据点中切片,并发现通常超出人类认知范围的复杂关系。然而,一旦一个模型存在,修改或解构它即使不是不可能,也是令人生畏的,因为通常没有办法知道特定的数据点位于模型中的什么位置,或者它如何直接影响模型。

多伦多大学电气与计算机工程系和计算机科学系的助理教授Nicolas Papernot说:“在很多情况下,特别是当一个人或一种情况是一个异常值时,模型很可能会记住一个特定的数据片段,因为它没有足够的数据示例来做出预测。”

因为没有办法应用选择性遗忘,所以每当需要删除一个数据元素时,数据科学家通常必须从头开始重新训练和重建模型。不足为奇的是,这个过程可能很长、很复杂,而且可能代价高昂——而且每次出现错误或错误时,都可能重复这个过程被遗忘的权利请求到来。“如今,没有一种简单直接的方法可以简单地删除单个数据,而不影响算法的完整性,”Papernot说。

此外,现在的数据隐私工具并不能解决潜在的问题。例如,人工智能(AI)联合学习在多个边缘设备或保存本地数据样本的服务器上训练算法。这可以防止敏感数据在数据库中结束,但不能删除它。数据令牌化用没有值的元素替换敏感数据元素,但会产生相同的问题。更重要的是,数据匿名化工具经常去掉训练模型所必需的元素,或者引入可能扭曲训练过程的噪声。正如罗斯所言,“隐私技术和数据删除并不一定会达到同一目的。”

差别隐私,替代元素和保留关键数据,也不足以解决遗忘的问题,Roth说。它可以在某人请求从数据库中删除的单个或少数情况下提供保证,甚至不需要任何再培训。然而,随着越来越多的删除请求到达,框架的撤销模型很快就会瓦解。他说:“慢慢地,随着越来越多的人要求删除他们的数据,即使是(包含隐私保护的模型)也会很快变得与重新培训后的结果不同。”

在使用匿名化和差异隐私技术的模型中,无法验证特定的数据删除不仅是一个理论问题,而且会产生严重的后果。Kamath说,安全研究人员已经多次证明了从广义算法和模型中提取敏感数据的能力。一个引人注目的例子发生在2020年,当时一组研究人员发现,大型语言模型GPT-2可以被操纵,复制其训练数据的部分,包括个人身份信息和版权文本。一个

回到顶部

选择性记忆

随着人们态度、社会价值观和隐私法的转变,人们越来越认识到需要更先进的方法来消除机器学习。然而,研究人员仍在努力克服一些关键障碍,包括理解每个数据点如何影响机器学习模型,以及随机性(也被称为随机性)如何影响空间。在某些情况下,数据输入中相对较小的变化会产生显著不同的结果——或者引发对机器学习模型基本有效性的质疑。


研究人员仍在努力克服一些关键障碍,包括理解每个数据点如何影响机器学习模型。


2019年出现了一种备受关注的方法。Papernot和多伦多大学和威斯康星-麦迪逊大学的一组研究人员提出了将机器学习数据分离为多个离散组件的想法。通过建立大量的数据块——把它们看作是为更大的数据库做出贡献的小型数据库——可以只对存在删除的特定组件进行再培训,然后将其插入完整的数据集。这将再次产生一个功能齐全的机器学习模型。

该组织称这种方法为分片、隔离、切片和聚合(SISA)。它认为,该框架可以在对现有机器学习管道进行最小更改的情况下使用。“首先,我们将训练数据划分为多个不相交的碎片,这样一个训练点只包含在一个碎片中;碎片对数据进行分区,”作者指出。“然后,我们在每个这些碎片上独立训练模型,这限制了一个点对包含该点的碎片上训练的模型的影响。”在合并了碎片之后,就可以成功地删除数据元素了。“当一个取消训练点的请求到达时,我们只需要重新训练受影响的模型。因为碎片比整个训练集更小,这减少了实现遗忘的再训练时间。”

该研究小组在超过100万张图像上测试了SISA框架,发现该技术是有效的。对于取消任务,典型的速度提升范围从2.45倍到4.63倍。更重要的是,“该方法减少了训练,即使在整个训练集中要求更改。它引入了一种更实际的方法来处理这个问题,”Papernot解释道。最重要的是,“您可以向用户演示,如果您从未了解过用户数据,那么您一开始就可以获得未学习的模型。”该组织还提议模型检查点在这种方法中,学习者构建并存储数十个甚至数百个离散模型,其中排除了某些数据点。

作者承认,虽然这个概念很有前景,但它也有局限性。例如,通过减少每个碎片的数据量,就会对机器学习产生影响,很可能产生质量较低的结果。此外,该技术并不总是像宣传的那样有效。

斯坦福大学、哈佛大学和宾夕法尼亚大学的一组研究人员对这种方法进行了研究,他们发现在某些条件下,某些数据删除请求的特定序列会导致框架的删除保证失败。这是因为SISA的研究人员假设删除请求是独立于实际机器学习模型的。罗斯说:“但如果人们根据模型揭示的信息而删除自己的数据,情况就不会是这样了。”“当这种情况发生时,我们就有了一个具体的证明,即删除之前工作的保证失败了。”

罗斯是这个研究团队的成员,他说,虽然这种方法并不总是有效(他的团队最终找到了删除问题的解决方案),但它是越来越多的机器取消学习技术中的一种。

与此同时,斯坦福大学、哈佛大学和宾夕法尼亚大学的研究人员也探索了开发与机器学习算法直接关联的数据删除算法的想法——具有完全为维护数据完整性和整体模型的有效性而设计的特定特征。b

回到顶部

重新思考机器学习

目前,机器放弃学习仍处于初级阶段。然而,随着研究人员和数据科学家深入了解删除数据对整体模型的影响,管理该任务的现实工具应该开始出现,Papernot说。其目标是创造出机器学习框架和算法,使数据科学家能够删除一条记录或单个数据点,并最终得到一个完全不学习相关数据的有效模型。


随着研究人员和数据科学家深入了解删除数据对模型的影响,管理该任务的现实工具将开始出现,Papernot说。


佩珀诺特说:“现在,我们只是对问题做出反应,采取事后的观点。我们希望在没有插入数据的情况下,能够确信模型是准确的。”

*进一步的阅读

L.布尔图尔,V.钱德拉塞卡兰,Choquette-Choo, C.A.贾,H.,特拉弗斯,A.,张,B., Lie, D.和N. Papernot。
Machine Unlearning, 42ndIEEE安全与隐私研讨会,2020年12月。https://arxiv.org/pdf/1912.03817.pdf

N. Carlini, Tramèr, F. Wallace, E. Jagielski, M., Herbert-Voss, A., Lee, K., Roberts, A., Brown, T., Song, D., Erlingsson, Ú。奥普拉,A,拉菲尔,C。
从大型语言模型中提取训练数据,2021年6月15日。https://arxiv.org/pdf/2012.07805.pdf

A.塞哈里,J.阿查里亚,G.卡马斯,A.苏雷什
《记住你想忘记的:机器遗忘算法》,2021年7月22日。https://arxiv.org/pdf/2103.03279.pdf

Gupta, V., Jung, C., Neel, S., Roth, A., Sharifi-Malvajerdi, S.和Waites, C.。
自适应机器学习,2021年6月9日。https://arxiv.org/pdf/2106.04378.pdf

V.U. Prabhu和A. Birhane。
大数据集:计算机视觉的得不偿失的胜利?2020年7月27日。https://arxiv.org/pdf/2006.16923.pdf

回到顶部

作者

塞缪尔·格林加德是美国俄勒冈州西林的作家兼记者。

回到顶部

脚注

一个。https://arxiv.org/pdf/2012.07805.pdf

b。https://arxiv.org/pdf/2103.03279.pdf


©2022 acm 0001-0782/22/4

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有找到条目

Baidu
map