acm-header
登录

ACM通信

安全

值得信赖的科学计算


绿色的手在彩色的方块下,插图

图片来源:Kentoh / Shutterstock

对科学有用的数据没有得到应有或可以得到的共享,特别是当数据包含某种敏感性时。在本专栏中,我主张使用硬件可信执行环境(tee)作为一种手段,以显著改变安全、科学的数据管理中涉及的方法和信任关系。数据不能共享的原因有很多,包括与个人隐私或国家安全相关的法律法规,或者因为数据被视为专有商业秘密。这方面的例子包括电子健康记录,包含受保护的健康信息(PHI);代表个人位置或移动的IP地址或数据,包含个人身份信息(PII);化学品或材料的性质等等。这种不愿共享的两个驱动因素互为双重因素,一是数据所有者对共享敏感数据的风险的担忧,二是计算系统提供商对托管此类数据的风险的担忧。由于对数据共享设置了障碍,数据驱动的结果受到阻碍,因为数据无法以最大化其价值的方式提供和使用。


硬件可信的执行环境可以构成平台的基础,这些平台可以提供强大的安全优势,同时保持计算性能。


然而,正如科学界广泛强调的那样,3.5通过美国政府的“负责任的联邦数据解放”倡议,找到使敏感数据可用的方法对推进科学发现和公共政策至关重要。当数据不被共享时,某些研究可能会被完全阻止,成本会显著增加,耗时更长,或者可能不那么准确,因为它基于更小、可能更有偏见的数据集。

科学计算是指用于科学发现的计算元素。历史上,这强调建模和模拟,但随着产生和收集数据的工具的扩散,现在显著地也包括数据分析。科学中使用的计算系统包括由个人调查人员运行的桌面系统和集群、机构计算资源、商业云和超级计算机,如由美国能源部科学办公室和美国国家科学基金会赞助的高性能计算(HPC)中心中的超级计算机。不是所有的科学计算都是大规模的,但在最大的规模下,科学计算的特点是大量的数据集和分布式的国际合作。然而,当使用敏感数据时,可用的计算方法在计算规模和访问权限方面要有限得多。8

回到顶部

当前的安全计算环境

今天,在允许远程访问数据的地方,可能会有重大的技术和程序限制,如建立入口/出口“气闸”,要求“两人”规则来移动软件和数据进出,并要求使用“远程桌面”系统。作为涉及敏感数据的科学计算手段,这样的体系结构正变得越来越普遍。8然而,即使有了这些安全保护,传统的飞地仍然需要隐式地信任系统管理员和对包含敏感数据的系统具有物理访问权限的任何人,从而增加了承担托管数据责任的机构的风险和责任。这种安全性限制会显著削弱共享数据所涉及的信任关系,特别是当组很大且分布时。通过要求数据分析师亲自到数据提供商拥有的设施中访问数据,可以部分缓解这些担忧。然而,在所有这些情况下,科学团体的分析受到阻碍,因为他们的能力和工具是为在开放、协作和分布式环境中工作而优化的。此外,考虑到目前的大流行,要求在特定设施进行分析将是一种公共健康风险。

回到顶部

使用“匿名化”技术降低数据敏感性

有时,为了避免安全需求,人们试图通过应用“匿名化”过程来降低数据的敏感性,在“匿名化”过程中,数据被掩盖或变得更一般化。这种方法的示例从数据集中删除不同的元素,如出生日期、地理位置或IP网络地址。事实上,从电子健康记录中删除18个特定标识符符合HIPAA隐私规则的“安全港”条款,以提供合法的去标识。然而,在技术层面上,这些技术一再被证明不能保护隐私,通常是将包含可识别信息的外部信息与数据集中的准标识符合并,以重新识别“匿名”记录。6因此,去识别并不一定能解决数据共享所涉及的风险和信任问题,因为重新识别攻击即使没有受到法律制裁,也仍然会导致严重的尴尬。此外,在这些过程中使用的相同屏蔽也会删除对分析至关重要的数据。6考虑到公共卫生研究,邮政编码的后两位数字,或地理坐标中最不重要的两个数字对跟踪病毒传播至关重要。

回到顶部

保密的科学计算

硬件tee可以形成平台的基础,提供强大的安全优势,同时保持计算性能(参见附带的数字)。tee是某些现代微处理器的一部分,它们强制与CPU上的其他进程进行很强的分离,有些甚至可以加密内存和计算。tee起源于可信平台模块(TPMs)和安全引导的概念,但已经发展到具有更大的功能。如今常见的商业tee包括2013年推出的ARM TrustZone;2015年推出的英特尔安全防护扩展(SGX);以及AMD在2016年推出的安全加密虚拟化(SEV),自那以后进行了多次改进,包括2017年的SEV- es(加密状态)和2020年的SEV SEV- snp(安全嵌套分页)。这三家供应商采取了截然不同的方法,并且拥有截然不同的优势、弱点、用例和威胁模型。

uf1.jpg
数字利用可信执行环境的系统的一部分,其中数据被加密存储在磁盘上;由数据所有者控制并在TEE中运行的策略引擎包含每个经过身份验证的用户可用于计算的数据的映射;输出策略也由数据所有者指定,它规定允许向用户返回什么信息。输出策略可能基于差异隐私,或者基于访问控制,或者是这些或其他功能的某种组合。

tee可用于维护甚至提高传统飞地的安全性,与纯文本计算相比,其性能成本最低。tee可以隔离计算,甚至防止正在运行计算的机器的系统管理员观察计算或计算中使用或生成的数据,包括甚至防止对计算系统的某些“物理攻击”。它们可以实现类似于基于软件的同态和多方计算的功能2方法,但是没有可用性问题,性能损失也大大减少。


可信执行环境可用于维护甚至提高传统飞地的安全性,与纯文本计算相比,其性能成本最低。


使用tee来保护不可信的数据中心并不是一个新奇的想法,正如Linux基金会机密计算联盟的创建所看到的那样10以及谷歌最近的“保护云不受自身影响的行动”。7谷歌将其云平台中使用tee的重要性与电子邮件的发明进行了比较。9然而,tee尚未引起科学家或科学计算设施的广泛兴趣和采用。

设想的方法是,当数据处理环境不受数据所有者的直接控制时,例如在第三方(包括DOE或NSF) HPC设施或商业云环境中,利用tee,以防止敏感数据暴露给这些系统的其他用户甚至这些系统的管理员。数据提供者可以指定系统的配置,即使它们不是计算环境的直接主机,也可以指定访问控制策略、允许执行的软件列表或分析,以及防止用户泄露数据的输出策略。能够利用社区HPC和云环境的概念还支持同时使用来自多个提供者的数据,同时保护原始数据不受所有提供者的影响,每个提供者可能都有自己不同的策略。

伯克利实验室和加州大学戴维斯分校的研究人员已经对Intel SGX和AMD SEV tee在典型HPC工作负载下的性能进行了经验评估。我们的研究结果1表明AMD的SEV通常对单节点计算造成最小的性能退化,代表了一种通信与计算比较低的科学计算性能解决方案。然而,由于TEE内存大小的限制,英特尔的SGX并不适合高性能计算。重要的是,NERSC-9和许多其他现代高性能计算中心将包含支持SEV TEE的AMD处理器,因此我们希望我们的结果将提供一些证据,证明TEE在科学计算中的使用是合理的。

回到顶部

展望未来

尽管有许多商用tee存在,但在cpu以外的处理器(如gpu和加速器)中还没有tee存在,尽管谷歌已表示计划将“机密计算”扩展到gpu、tpu和fpga。9此外还存在tee之间的低延迟通信问题,以及虚拟化的成本问题,这些问题必须得到解决,才能大规模启用高性能计算。1此外,有希望的RISC-V努力,如Keystone4既可以拓宽包含tee的处理器的范围,又可以是开源的,并且可以正式验证。然而,以科学计算为目标的基于RISC-V的tee还没有开发出来。最有可能的是,将需要一个为科学计算和数据分析应用量身定制的全新TEE架构。


受信任的执行环境允许利用敏感数据,而不必信任系统管理员和计算提供者。


产出政策是另一个值得研究的领域。虽然tee可以防止不可信的计算提供者,并可以提供某些防止恶意用户的措施,但输出策略决定了将哪些数据返回给用户。差分隐私是为数据输出提供强大隐私保护的一种特别有趣的方法。差异隐私是一种统计技术,它可以通过添加“噪声”和执行限制信息泄露的“隐私预算”,来保证数据集的信息数量的界限,这些信息可能由于查询或计算而泄漏给数据分析师。它现在是主流的解决方案,由Apple、谷歌和U.S. Census Bureau生产使用,存在几个开源发行版,并成功应用于各种不同的数据类型。然而,差异隐私并不是适用于所有地方,目前应用它是具有挑战性的,需要高度的专业知识和努力。因此,差别隐私在今天非常有用,尽管在有限的情况下,数据集有足够广泛的用途,证明所需的时间和费用是合理的。我们需要努力提高差异隐私的可用性,以便更容易地广泛利用它。

回到顶部

摘要及下一步步骤

与传统的安全飞地相比,tee可以利用敏感数据,而不必信任系统管理员和计算提供者。然而,虽然tee的应用现在已经在云环境中得到了广泛的宣传,但在科学计算环境中还没有讨论tee的使用,尽管数据提供商和计算设施经常表示对托管敏感数据的重大关切。科学计算设备的操作员是出了名的保守,这是有原因的——他们经常根据所运行系统的利用率和正常运行时间来评估,因此误差的边际很低。但是tee就在这里,它们是可用的,除非我们开始在科学计算中使用它们,否则数据共享不会像利用tee来解决当前数据共享限制背后的信任问题那样多。

缺少的是与科学计算中使用的特定基础设施的连接,包括身份、访问和认证系统;远程直接内存访问(RDMA);高性能计算中的批调度系统;HPC I / O子系统;科学工作流定制;高度专业化的科学仪器;社区数据存储库,等等。因此,我们需要在处理器制造商、系统供应商(例如Cray、HPE)和科学计算运营商之间进行一次对话,讨论如何将已经存在于AMD EPYC处理器中的TEE功能(可能也存在于其他未来的处理器中)启用到科学计算环境中。然而,前进的道路不仅仅是技术上的。它要求社区围绕TEE技术建立基础设施,并将该基础设施集成到科学计算设施和工作流程中,并集成到这些设施的操作员的思维模式中。 I hope this column helps to start that conversation. For more on TEEs, see the Singh et al. article on p. 42. —艾德。

回到顶部

参考文献

1.Akram, A.等人。可信执行环境下科学计算工作负载的性能分析。在35届会议记录thIEEE国际并行与分布式处理研讨会。(2021)。

2.Choi, J.I.和Butler, K.安全多方计算和可信硬件:研究采用的挑战和机会。保安及通讯网络1368905(2019)。

3.黑斯廷斯,j。s。解锁数据以改善公共政策。Commun。ACM 62(2019年9月),48-53。

4.Keystone:用于构建可信执行环境的开放框架。在第十五届欧洲计算机系统会议论文集(希腊,Heraklion, 2020年),第38条。

5.当应用程序统治道路:导航应用程序的激增正在造成交通混乱。是时候恢复秩序了。IEEE 56, 10(2019), 22-27。

6.纳拉亚南和费尔滕,E.W.没有灵丹妙药:去身份化仍然不起作用。(2014);https://bit.ly/3loBvMd

7.纽曼,L.H.谷歌行动起来保护云不受自身伤害。《连线》杂志(2020年7月14日);https://bit.ly/2NnLLru

8.学术研究计算中的数据保密问题和解决方案的检查和调查。值得信赖的CI报告(2020);https://bit.ly/30Oajx9

9.Potti, S.和Manor, E.扩展谷歌Cloud的机密计算投资组合。(2020);https://bit.ly/38Nozuo

10.拉希德,外勤,机密计算的兴起。IEEE 57, 6(2020), 8-9。

回到顶部

作者

肖恩Peisertsppeisert@lbl.gov)领导劳伦斯伯克利国家实验室的计算机安全研发,是美国加州大学戴维斯分校的副教授。

回到顶部

脚注

作者感谢Venkatesh Akella, Ayaz Akram, Jim Basney, Jason low - power和Von Welch对这个观点和其中的想法提供了宝贵的反馈。这项工作得到了美国能源部高级科学计算研究办公室科学办公室主任的支持,以及劳伦斯伯克利国家实验室提供的承包商支持研究(CSR)基金的支持。DE-AC02-05CH11231。本材料中表达的任何意见、发现、结论或建议都是作者的观点,并不一定反映本工作发起者的观点。


版权归作者所有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有发现记录

Baidu
map