acm-header
登录

ACM通信

新闻

加速人工智能


芯片发出的光束,插图

图片来源:James Teoh Art

机器学习在广泛应用领域的成功也伴随着严重的代价。最大的深度神经网络可能有数千亿个参数,需要调整到庞大的数据集。这种计算密集型的训练过程可能会花费数百万美元,以及大量的能源和相关的碳。推理(训练过的模型对新数据的后续应用)对每次使用的要求较低,但对于广泛使用的应用程序,累积的能量消耗可能更大。

加州大学伯克利分校的荣誉教授、谷歌的杰出工程师David Patterson说:“通常情况下,花在推断上的精力会比花在训练上的精力更多。图灵奖。Patterson和他的同事最近发布了一份对一些大型深度学习应用程序的碳排放的综合分析报告,发现改进模型的推理成本的降低不仅可以补偿用于改进训练的能量。

论文还指出,用户可以减少二氧化碳(CO2)的排放量超过了通过选择低碳排放的电力来源而节省的能源排放量。“如果你选择太阳能电网,而不是澳大利亚的燃煤电网,你的排放量可以减少80倍,”Alexandra“Sasha”Luccioni说,她是加拿大魁北克专注于人工智能的Mila研究所的博士后,她之前曾发表过一个工具,帮助用户估计他们的碳足迹。在许多情况下,Luccioni怀疑这种减少将超过将数据传输到远程位置所需的能量,但这些权衡需要量化。

回到顶部

专门的加速器

现在,在全球范围内,用于计算的能量数量非常可观。从历史上看,不断增加的电力需求在很大程度上被符合摩尔定律的更高效的技术所抵消,制造商继续引入创新的新一代技术。然而,Koomey Analytics总裁Jonathan Koomey表示,自21世纪初以来,关键的设备参数(如工作电压)不再遵循经典的缩放策略,功率改进的速度已经放缓。他与制造商进行了咨询,以验证他们的能源目标。

尽管如此,“至少在一段时间内,还是有办法解决的,”他说。“这些方法有时涉及更好的软件,有时涉及硬件和软件的优化,有时涉及特殊用途的计算设备,以比通用计算机更快的速度完成特定任务。”

Web服务提供商以及自己处理的公司越来越多地采用专门用于深度学习的硬件加速器,而初创公司已经开始利用这一机会。这些加速器主要是为了加快计算速度,但它们也通过减少不必要的操作和数据传输的数量,显著降低了能源消耗,

作为深度学习基础的神经网络由多层单元组成,让人联想起脑细胞,因为每层单元都连接着许多类似的单元。每个“神经元”的活动是由许多其他神经元的活动总和乘以一个可调节的“权重”计算出来的。训练调整这些权重,使每个输入的输出接近所需的值,还可以探索替代的“模型”,即神经元的相互连接和反应。

所需的计算可以使用通用中央处理单元(CPU)来完成,这对小型训练任务很方便。然而,随着任务变得越来越大和越来越成熟,有强烈的动机——速度和能源效率——通过添加专门的硬件来利用计算的可预测性和并行性。

许多用户使用图形处理单元(gpu)进行加速,特别是在训练过程中。尽管这些设备是为图像渲染和显示任务而开发的,但它们高度并行的结构,优化了乘法累积运算,使它们非常适合神经网络。这个市场由英伟达和高级微设备公司主导,这两家公司现在专门销售人工智能应用设备。最先进的gpu将强大的处理器芯片与内存结合在一个支持高带宽通信的高级包中。

一些用户,尤其是微软,继续支持用于深度学习的灵活现场可编程门阵列(fpga)。然而,在2015年,谷歌受到了对语音处理推理所需能量服务器的可怕预测的激励,推出了其张量处理单元(TPU)的第一个版本。

这些定制芯片是专门为使用“ASIC”设计工具进行深度学习推理而创建的。然而,Patterson说:“问题是,特定应用集成电路的缩写听起来就像你在建造只能做一种特定型号的硬件。”实际上,tpu和其他加速器,包括gpu,可以辅助各种模型。

各公司正在寻求各种方法。例如,Cerebras由于使用一整片硅片作为芯片,包括几十个处理单元,而获得了很多关注。尽管如此,模型的快速发展和增长对体现了关于计算、内存分布和通信的特定假设的专用硬件提出了挑战。例如,最近,研究人员在“变形器”方面取得了巨大成功,例如OpenAI的大规模语言模型GPT-3,它拥有超过1000亿个参数。

回到顶部

巨大的机会

尽管面临着这些挑战,而且企业巨头占据着主导地位,但规模较小的公司已经察觉到了硬件创新的机遇。“在我的职业生涯中,我从未见过这么多硬件初创企业在如此短的时间内涌现出来,”哈佛大学(Harvard University)哈利家族计算机科学教授戴维•布鲁克斯(David Brooks)说。“这是一件好事,但在这个过程中会有一些动摇,”已经倒闭或改变战略的公司就证明了这一点。

设备设计人员使用各种技术来跳过不必要的操作。一个关键的策略是利用许多模型的“稀疏性”。布鲁克斯说:“最终权重矩阵中有很多零。”“如果你能找到找到所有零的方法,然后避免将它发送到整个数据路径,你可以通过跳过它们来节省相当多的能量。”他说,其他形式的稀疏性也可以被利用。例如,“有许多非常小的值可能是零。”

乔治城大学(Georgetown University)安全与新兴技术中心(Center for Security and Emerging Technology)的分析师安德鲁·罗恩(Andrew Lohn)说,“我遇到的最大问题是,他们在指令集层面上降低了精确度。”“他们能够进行更快、更有效的操作,因为深度学习应用不需要所有的精度,”尤其是在推理方面。


模型的快速发展和增长对包含计算、内存分布和通信的特定假设的专用硬件提出了挑战。


Patterson还强调了内存设计的重要性,包括将SRAM定位到芯片上需要它的位置,以及与片外DRAM的高带宽连接。他说,尽管算术单位很重要,但“精力和时间都花在内存访问上了。”

创新者通常专注于硬件,而“他们中的许多人并不投资于软件栈,”Patterson说。大多数情况下,公司还没有报告MLPerf套件等基准测试的结果,Patterson表示,他担心这“是一个非常糟糕的迹象”。

Brooks说,优化硬件与特定型号的协同工作方式可以推动用户进行更全面的设计过程。“从某种意义上说,协同设计就是打破抽象,尝试设计跨越堆栈多层的东西。”具有讽刺意味的是,他说,“机器学习也许是打破一些抽象概念的好方法”,可以缓解它造成的一些问题。

回到顶部

超大型计算

人工智能的全部能源和碳影响不仅包括加速器芯片,还包括芯片外和远程数据传输,以及冷却和电源供应等设施基础设施的大量能源开销。“谷歌在提高效率方面肯定走在了最前沿,”库米说。这家搜索引擎巨头报告称,在其超大规模的数据中心中,只有约10%的计算能量是多余的,这远远低于其他一些设施,尤其是未充分利用的企业服务器。

能源使用缺乏透明度(有时是出于竞争原因)仍然是一个问题。库米认为,有限的信息导致了对人工智能能源使用的一些具有误导性的悲观估计。

Mila的Luccioni说,实际上,尽管托管许多计算可以让提供者提高利用率,“当您运行在一个大型集群上时,很难隔离给定进程或给定用户的能量消耗。”出版物经常遗漏其他重要的细节,她和她的同事在发现无法从论文中收集到这些信息后,开发了这种评估工具。她还担心一开始制造这些设备的能源和碳成本。他说:“我们根本不知道是什么样的CO2生成NVIDIA GPU。”

卢西亚尼表示,希望能源和碳影响的标准化披露将成为出版物和会议的共同要求,就像发布代码和数据一样,以促进可重复性。

*进一步的阅读

施伟、陈玉玉、杨涛、伊娥,J.S.
如何评估深度神经网络处理器,globalfoundries 2020教程https://bit.ly/2ZAHMhg

帕特森,D.,冈萨雷斯,J., Le, Q .,梁,C., Munguia, L., Rothchild, D., Texier, M.和Dean, J.。
《碳排放与大型神经网络训练》,[目前在ArXiv上以预印本的形式发布,但正在接受中国科学院的审查,因此可能会在本文之前印刷](2021年),https://arxiv.org/abs/2104.10350

汗,S.M.和曼,A。
《人工智能芯片:它们是什么以及它们为什么重要》,安全与新兴技术中心(2020年),https://bit.ly/3beaC9u

库米j和马萨内E。
不计算:避免评估互联网的能源和碳影响的陷阱,1焦耳5日(2021),https://bit.ly/3bbeiJh

回到顶部

作者

梦露不是一位科技作家,住在美国麻萨诸塞州波士顿。


©2022 0001 - 0782/22/3 ACM

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有发现记录

Baidu
map