acm-header.
登入

ACM的通讯

博客@cacm.

数据使用随机和方法匿名化


随着全球数字化的增长,个人数据保护问题的紧迫性增加。这个问题会阻碍许多信息技术的增长。如今,信息系统用于处理和存储商业,医疗保健和公共部门的个人数据。大数据技术的开发和计算能力的增加和信息存储大小导致了世界各地收集的个人数据量的增加。这些技术用于建立广告策略,社会学研究等,是越来越受欢迎。与此同时,个人数据泄漏的风险已经多次增加。但是,对于营销和社会研究,没有必要知道特定个人的需求;只需要有关人口群体的统计信息。

个人数据在受限制信息中的泄漏数量和体积中引出。事实上,由于2020年的公众泄漏,11.06亿个个人数据和付款信息记录在全球范围内受到影响。姓名和姓氏,电子邮件地址,电话号码,密码,永久居住信息,社会安全号码,银行卡详情,银行账户信息可用。虽然2020年的绝对泄漏数量减少了5%,但2019年相比,故意案件的份额增加到72%。出于这种情况的方式是包含个人信息的数据的匿名化。

个人数据的匿名化(Deperalization)涉及不可逆转地改变个人数据的操作,即使使用其他信息也无法再识别人。1此博客文章的目的是呈现可以应用于个人数据的数字属性的匿名化方法。创作的目的是找到一种保护个人数据的方法,而无需显着损失其有用的品质。此方法称为“随机和方法”。它描述了一种转换个人数据而无需显着变形的统计特性,目前广泛用于学术研究。

让我们使用出生年份的例子来说明这种方法。为了更改数据,但保留所有统计属性,我们需要添加到从集合(-1,+1,0)中随机生成的数字的数字属性。这里,-1减少了价值,例如,出生年份成为1971年而不是1972年;0让价值不变;并且+1增加1,即2006年,2006年被2007年更换。

所提出的方法需要检查数据代名化和可靠性的质量,以评估恢复原始数据集的可能性。让我们首先检查原始数据集是如何来自匿名版本的。也就是说,我们将评估这些集合之间是否存在统计学上的差异。要测试关于保护初始数值数据的统计特性的陈述,泛化技术t-proximity.用过。

为了评估这种匿名化方法的有效性,进行了几个实验。该方法的软件实现是在Python 3编程语言中执行的。选择这种语言是因为它的易用性,高计算速度和图形报告的清晰度。这随机的库用于实现随机选择功能,numpy.数学图书馆用于计算统计指标和数学函数,以及matplotlib.pyplot.库用于绘制和方便地显示图形。

实验所需的个人数据来源是俄罗斯社交网络VK.com。选择该社交网络是由于大量的开放用户数据,以及专门用于收集此类数据的API的便利性。150000个用户记录的随机样本是用“姓氏”,“名字”和“出生年份”的属性“。数据存储在Mongo DB数据库中。

此后,如上所述,通过专门书写软件对收集的数据进行置位化程序。使用Pearson的标准进行比较生成的数据集以匹配间隔数据。本研究将有助于修改所提出的方法。

由于获得所获得的结果的分析,我们得出结论,所描述的方法适用于以数值匿名化个人数据属性。在被审议的案例中,可以在所有情况下达到所需的信任程度。

图1

所提出的方法的可靠性可以通过恢复原始数据集的概率来表征。计算复杂性估计匿名集的所有值的枚举的选项数。但是,只有在没有算法以降低计算复杂度的情况下,此评论才有效。

在减少算法未知的情况下,有必要使用所有数据的枚举算法。包含n个记录的一组诞生年份的枚举的计算复杂性为3N.。但是,找出3个中的哪一个N.数据集是真的,需要额外的检查,所以无法预测的计算复杂性。

请注意,此帖子呈现了一个概念,描述了一种匿名方式匿名的个人数据及其初始测试。当然,这个假设需要进一步研究和验证。可以根据测试结果调整所提出的方法。应特别注意个人数据的其他数字属性的匿名化,2如地理位置或运输文件。我们邀请同事合作,并准备回答问题并参与讨论匿名化技术。

脚注

[1] Machanavajjhala,A.,Kifer,D.,Gehrke,J。和Venkitasubramaniam,M.,2007年。L-多样性:隐私超越K-Anonyment。ACM事务来自数据(TKDD),1(1),PP.3-ES的知识发现。

[2]章程化 - MIMETHIK数据,https://octopize-md.com/en/

Alina Alemaskina在HSE大学和Rostelecom Solar,Moscow,俄罗斯的网络安全系统工程师是一家计算机安全毕业生。andrei sukhov.是ACM的高级议员和HSE大学教授。他可能会达到Asukhov@acm.org.


没有发现任何条目

登入完全访问
“ 忘记密码? »创建ACM Web帐户
Baidu
map