acm-header
登录

ACM通信

的观点

隐私保护AI的联邦学习


钥匙孔和图案背景,插图

图片来源:Andrij Borys Associates, Shutterstock

机器学习(ML)技术在实现人工智能(AI)应用方面取得了显著的成功,如自动语音识别和计算机视觉。然而,我们今天在采用人工智能时面临两大挑战。一是大多数行业的数据都以孤岛的形式存在。另一个是对保护隐私的人工智能日益增长的需求。基于集中数据收集的传统人工智能方法无法满足这些挑战。如何在符合隐私保护法律法规的前提下解决数据碎片化和隔离问题,是AI研究人员和从业者面临的一大挑战。

在法律方面,立法者和监管机构正在制定关于如何管理和使用数据的新法律。3.一个突出的例子是欧盟在2018年通过了《通用数据保护条例》(GDPR)。在美国,《加州消费者隐私法》将于2020年颁布。中国于2017年生效的《网络安全法》也对数据收集和交易实施了严格控制。

在这种新的立法环境下,在不同组织之间收集和共享数据变得越来越困难,如果不是完全不可能的话。此外,某些数据(例如金融交易和医疗记录)的敏感性阻止了数据的自由流通,迫使数据存在于数据竖井中。由于竞争、用户隐私、数据安全以及复杂的行政程序,即使是同一公司不同部门之间的数据集成也面临着很大的阻力。由于收集和共享数据的旧的侵犯隐私的方式不再被允许,涉及不同数据所有者的数据整合变得非常具有挑战性。10

数据竖井和隐私问题是人工智能发展的两个最具挑战性的障碍。因此,寻找构建ML模型的解决方案是很自然的,这些模型不依赖于将数据收集到进行模型训练的集中存储中。一个很有吸引力的想法是,在每个地点训练只使用本地数据的子模型,然后让不同地点的各方交流各自的子模型,以便就全局模型达成共识。为了确保用户的隐私和数据的保密性,通信过程经过了精心设计,以便任何网站都不能对任何其他网站的隐私数据进行逆向工程。与此同时,模型的构建就像对数据源进行了组合一样。这就是“联邦机器学习”或简称“联邦学习(FL)”背后的思想。79

回到顶部

定义

谷歌在移动设备上使用FL进行下一个单词预测。27谷歌的FL系统为B2C(企业到消费者)应用程序提供了一个安全分布式学习环境的例子,在这个环境中,所有各方共享相同的数据特性并协作训练ML模型。除了B2C范式,FL框架已经被微众银行的AI研究人员扩展到支持“跨竖井”场景和B2B(企业对企业)应用。一个每一方都有不同的数据特征。569

简而言之,使用FL的算法设计的一个根本变化是,我们以一种安全的方式传输ML模型参数,而不是将原始数据从一个站点传输到另一个站点或服务器,210因此,当事人不能访问他人数据的内容。FL是一种用于构建ML模型的算法框架,该模型具有以下特征。

  • 有两个或多个方对共同构建模型感兴趣。
  • 每一方都拥有一些可以用于模型训练的数据。
  • 在模型训练过程中,每一方持有的数据不会离开该方。
  • 模型可以部分地在加密方案下从一方转移到另一方,这样任何一方都不能对其他一方的数据进行逆向工程。
  • 联邦模型的性能与使用集中数据构建的理想模型非常接近。

隐私保护ML的技术已经被广泛研究,1例如使用差别隐私(DP)4安全的多方计算。10DP涉及到在训练数据中添加噪声,或使用泛化方法模糊某些敏感特征,直到第三方无法区分个体,从而使数据无法恢复,以保护用户隐私。然而,DP仍然要求数据传输到其他地方,并涉及准确性和隐私之间的权衡。

回到顶部

分类

FL可分为水平FL (HFL),7垂直FL (VFL),9和联邦迁移学习(FTL),6根据数据如何在特征和样本空间的参与者之间分布。10图1一个- - - - - -1 c分别说明两方情景下的三个FL类别。

f1.jpg
图1。FL的分类。10

HFL是指双方数据特征重叠,但数据样本不同的场景。与HFL不同的是,VFL适用于双方共享重叠的数据样本,但数据特征不同的场景。超光速适用于数据样本和特征重叠较少的场景。我们也把高通量滤泡称为样本分块滤泡,10或例子分割的FL,5与矩阵形式一样,样本对应于行,特征对应于列(参见图1一个).HFL是在不同的水平行之间进行的,也就是说,数据是由样本划分的。我们也把VFL称为特征分区的FL,510由于VFL是跨不同的垂直列进行的,也就是说数据是按特征划分的(参见图1 b).

例如,当两个组织提供不同的服务(例如,一个银行和一个电子商务公司),但有一个大的公共客户交集(即对齐的数据样本)时,它们可能在各自拥有的不同数据特性上进行协作,以使用VFL实现更好的ML模型。59

回到顶部

体系结构

FL系统体系结构可以采用客户机-服务器模型,如图2一个.协调器C可以由政府部门等权威机构扮演,也可以由安全计算节点替代。10协调器C和数据所有者A和B(也称为各方)之间的通信可能是加密的(例如,使用同态加密)210),以进一步防止资料外泄。此外,协调器C也可以是一个逻辑实体,位于a或b中。FL系统体系结构也可以采用点对点模型,不需要协调器,如图2 b.数据所有者A和B直接通信,不需要第三方的帮助。虽然只有两个数据所有者图2, FL系统通常包括两个或多个数据所有者。710

f2.jpg
图2。VFL架构的例子。10

采用中所示的客户机-服务器模型图2一个以VFL为例,在两个数据所有者之间对齐数据样本后,我们将加密和安全的模型训练总结为以下四个步骤。10

  • 步骤1:C创建加密密钥对,将公钥分别发送给A和B。
  • 步骤2:A和B加密和交换梯度和损失计算的中间计算结果。
  • 步骤3:A和B分别计算加密梯度并增加一个额外的掩码。B也计算加密损失。A和B将加密的结果发送给C。
  • 步骤4:C对梯度和损失进行解密,并将相应的结果发回给A和B。A和B对梯度进行揭掩,并相应地更新模型参数。

读者可以在已有的著作中找到更多关于FL模型训练和推理过程的信息,例如现有训练算法的收敛速度510以及其中的参考文献。

回到顶部

应用实例

FL使我们能够构建跨企业、跨数据和跨领域的AI应用程序,同时遵守数据保护法律法规。它在金融、保险、医疗保健、教育、智慧城市和边缘计算等领域具有潜在应用价值。10我们在这里介绍从用例中选择的两个FL应用程序b微众银行已经在实践中应用了这些技术。

回到顶部

用例1:FedRiskCtrl

第一个用例是财务中的FL应用程序。它是微众银行部署的小微企业(SME)贷款联邦风险控制(FedRiskCtrl)的一个例子。c

有一个发票代理机构A,它具有与发票相关的数据特征,例如cacm6312_a.gifkth中小企业。有B银行,它有信贷相关的数据特征,例如cacm6312_b.gif和标签Ykkth中小企业,N>M。机构A和银行B利用VFL合作建立了中小企业贷款的风险控制模型。10

在模型训练之前,我们需要找到A和B服务的常见中小企业来对齐训练数据样本,称为私有集交集或安全实体对齐。10在确定A和B之间的对齐数据样本后,我们可以遵循中所示的步骤图2培训中小企业贷款风险控制模型。

FedRiskCtrl是通过FATE(联邦AI技术使能器)平台实现的。d有了VFL,代理机构A和银行B不需要互相公开他们的私人数据,并且使用FL构建的模型预期可以执行与使用集中式数据集构建的模型相同的效果cacm6312_c.gif.用FL建立的模型比仅用B银行的数据建立的模型表现明显更好。

回到顶部

用例2:FedVision

第二个用例是边缘计算中的FL应用程序。它是微众银行部署的联邦计算机视觉(FedVision)用于物体检测的一个例子。e


FL可以克服数据竖井、小数据、隐私问题的挑战,并引导我们走向保护隐私的人工智能。


在实际应用中,由于涉及到隐私问题和视频数据传输成本较高,难以集中收集监控视频数据进行模型训练。通过使用FedVision,在每个监控公司的边缘云中收集和存储的监控视频数据不再需要上传到中央云进行集中模型训练。10在FedVision中,FL服务器将初始对象检测模型发送到每个监视公司(即每个边缘云),然后使用本地存储的数据来训练对象检测模型。经过几次本地训练后,来自每个监视公司的模型参数被加密并发送到FL服务器。本地模型参数由FL服务器聚合为一个全局联邦模型,并发送回每个监视公司。这个过程不断迭代,直到满足停止条件。

FedVision中的模型训练过程与HFL模型训练的联邦平均过程非常相似。27最终的全球联邦模型将分发给联邦中的参与监视公司,用于目标探测,如火灾探测。

回到顶部

前景

FL可以克服数据竖井、小数据、隐私问题的挑战,并引导我们走向保护隐私的人工智能。它将成为下一代ML的基础,满足负责任的AI开发和应用的技术和社会需求。10

在FL具有巨大潜力的同时,也面临着一些现实挑战。510本地数据所有者和协调器之间的通信链接可能很慢且不稳定。可能需要管理大量的本地数据所有者(例如,移动设备)。FL系统中来自不同数据所有者的数据可能遵循不相同的分布,不同数据所有者的数据样本数量可能不平衡,这可能导致模型有偏差,甚至模型训练失败。5激励移动设备所有者或组织参与FL也需要进一步的研究。对FL的激励机制设计应以这样的方式进行,使联盟公平和可持续。8

回到顶部

参考文献

1.Al-Rubaie, M.和Chang J.M.隐私保护机器学习:威胁和解决方案。IEEE安全与隐私(2019年4月)。

2.Bonawitz, K.等人。用于保护隐私的机器学习的实用安全聚合。在ACM SIGSAC CCS'17会议记录(2017年11月)。

3.欧华律师事务所。世界数据保护法律:完整手册(2020年1月);https://bit.ly/354nDiC

4.Dwork, C.差异隐私:结果调查。在TAMC'08会议记录(2008年4月)。

5.卡鲁兹,P.等人。联合学习的进展与开放问题。(2019年12月);arXiv预打印arXiv:1912.04977

6.刘宇春,陈涛,杨强。安全联邦迁移学习。在《国际建筑工程学报》第19期(2019年8月)。

7.McMahan, h.b., Moore, E., Ramage, D.和Arcas,文学学士。从分散数据中深度网络的通信高效学习。在AISTATS'17会议记录(2017年4月)。

8.Richardson, A, Filos-Ratsikas, A,和falings, B.通过影响函数奖励高质量数据。(2019年8月);arXiv预打印arXiv:1908.11598

9.杨,q,等。联邦机器学习:概念和应用。ACM反式。智能。系统。抛光工艺。(TIST)(2019年2月)。

10.杨,q,等。联合学习。Morgan & Claypool, 2019年12月。

回到顶部

作者

永程petercheng@webank.com)是中国微众银行高级研究员。

杨刘yangliu@webank.com)是中国微众银行高级研究员。

天健陈tobycheng@webank.com)是微众银行AI副总经理。

羌族杨qyang@cse.ust.hk)是中国微众银行首席人工智能官,中国香港科技大学讲座教授。

回到顶部

脚注

a.微众银行——中国第一家纯互联网银行,见https://bit.ly/3o508ym

b.关于微众银行部署的更多用例,请参见https://bit.ly/37lgjlq

c.关于“FedRiskCtrl”的详细信息,请参见https://bit.ly/3o8ECbY

d.关于FATE的更多信息,请参见https://bit.ly/37hBC7r

e.关于FedVision的详细信息,请参见https://bit.ly/3o6runW


版权归作者所有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2020 ACM, Inc.


没有找到条目

Baidu
map