消息

加速ai.


从芯片发出的光束,例证

信用:詹姆斯TEOH艺术

机器学习各种应用的成功具有严重成本。最大的深度神经网络可以具有数百十亿个参数,需要调整到Mammoth数据集。这种计算密集型培训过程可以花费数百万美元,以及大量的能量和相关碳。推论,随后将训练型模型应用于新数据,对每次使用的要求较小,但对于广泛使用的应用,累积能量使用甚至更大。

“通常会有更多的能量,这些能量在推论的推论之上,加州大学伯克利大学的Emeritus教授David Patterson表示,谷歌的一位杰出工程师在2017年分享了ACM。图灵奖。帕特森及其同事最近发布了对一些大型深度学习应用的碳排放的全面分析,发现投资的能源可以通过减少推断成本来补偿改进模型的推理成本。

本文还指出,用户可以减少二氧化碳(CO2)通过选择较少的碳密集型电源来计算超出节能的排放。“如果您选择太阳能电网与澳大利亚煤炭的电网,您可以将排放量减少80倍,”亚历德拉“Sasha”Luccioni,在加拿大魁北克省省省互联境内米拉研究所的博士,谁以前发布了一种工具,帮助用户估计其碳足迹。在许多情况下,Luccioni怀疑这种减少将使将数据转移到远程位置所需的能量,但需要量化这些权衡。

回到顶部

专业加速器

专门用于计算的能量现在在全球范围内显着。从历史上看,增加功率要求在很大程度上被摩尔定律的更有效的技术抵消,制造商继续引入创新的新一代技术。然而,自2000年代初期以来,诸如工作电压的关键设备参数不再遵循经典的缩放策略,并且功率提高速度放缓,Jonathan Koomey表示,Jonathan Koomey表示,Jonathan Koomey表示与制造商一起验证他们的能量来验证他们的能量目标。

尽管如此,“至少有一段时间,”围绕它,“他说。“这些方法有时涉及更好的软件,有时涉及硬件和软件的优化,有时它涉及专门的计算设备,比一般的计算机可以更快地更快地完成特定的任务。”

Web服务提供商,以及做自己处理的公司,越来越多地采用专门用于深入学习的硬件加速器,而启动公司已经搬迁到利用这个机会。这些加速器主要针对超速计算,但它们也通过减少不必要的操作和数据转移的数量来显着降低能耗,

深度学习的神经网络包括多个单位,让人联想到脑细胞,因为每个单元都连接到许多类似的单元。每个“神经元”的活性由许多其他活动的总和计算,乘以可调的“重量”。训练调整这些权重,因此输出接近每个输入所需的权重,也可以探索替代的“模型”,这意味着神经元的互连和响应。

可以使用通用的中央处理单元(CPU)来完成所需的计算,这方便小型训练任务。然而,随着任务变得更大,更成熟,具有强大的动机 - 速度和能量效率 - 通过添加专用硬件来利用计算的可预测性和平行性。

许多用户利用图形处理单元(GPU)进行加速,尤其是在培训期间。虽然这些设备是为图像渲染和显示任务而开发的,但它们的高度平行结构,优化用于乘法累积操作,使它们非常适合神经网络。该市场由NVIDIA和先进的微型设备主导,现在为人工智能应用明确的市场设备。最先进的GPU与支持高带宽通信的单个高级包中的内存结合了强大的处理器芯片。

一些用户,特别是Microsoft,继续追随冠军灵活的现场可编程门阵列(FPGA),用于深入学习。然而,在2015年,谷歌,通过能源服务器的可爱预测动机可能需要语音处理推断,引入了其张量处理单元(TPU)的第一版本。

使用“ASIC”设计工具专门为深学习推断创建这些定制芯片。然而,帕特森说:“问题是缩写应用程序特定的集成电路使其听起来像是建立只能执行一个特定模型的硬件。”实际上,TPU和其他加速器包括GPU,可以帮助各种型号。

公司正在追求各种方法。例如,脑脑对芯片使用整个硅晶片进行了很多人的注意,包括数十个处理单元。尽管如此,模型的快速进步和增长对专用硬件构成了一个挑战,这些硬件体现了有关计算,内存分发和通信的特定假设。例如,最近,研究人员取得了巨大的成功,例如Openai的大规模语言模型GPT-3,具有超过1000亿个参数。

回到顶部

机会很大

尽管有这些挑战和企业巨头的主导地位,但较小的公司已经感受到了硬件创新的机会。“我在我的职业生涯中不这么认为,在哈佛大学计算机科学大学计算机科学教授大卫布鲁克斯说,我看过这么多硬件初创公司萌芽。”“这是一件好事,但是在这个过程中会有震动,”已经折叠的公司展示,或者改变了他们的策略。

设备设计人员使用各种技术来跳过不必要的操作。一个关键策略利用许多模型的“稀疏性”。“在重量矩阵中有很多零点,”布鲁克斯说。“如果您可以找到找到所有零的方法,然后避免通过整个数据路径发送它,可以通过跳过它们来节省很多”的能量“。他说,也可以利用其他形式的稀疏性。例如,“有很多非常小的值,也可能是零。”

“我遇到的最大的事情是他们在乔治城大学安全和新兴技术中心分析师Andrew Lohn表示,他们正在降低他们的精确度。”“它们能够更快,更高效的操作,因为深度学习应用不需要所有精度,”特别是推理。


模型的快速进步和增长对专用硬件构成了挑战,该硬件体现了有关计算,内存分配和通信的特定假设。


帕特森还强调了内存设计的重要性,包括定位芯片需要的SRAM,以及与片外DRAM的高带宽连接。虽然算术单位很重要,但他说,“在能量和时间发生的地方是内存访问。”

帕特森说,创新者经常专注于硬件,“其中许多人没有投资软件堆栈。”在大多数情况下,公司尚未报告像Mlperf Suite这样的基准的结果,Patterson表示他担心“是一个非常糟糕的标志。”

布鲁克斯说,优化硬件如何与特定模型一起推动用户以更全面的设计过程。“在某种意义上的代号是关于破坏抽象并尝试设计跨越堆栈的多层的东西。”具有讽刺意味的是,他说,“机器学习也许是打破其中一些抽象的好方法,”缓解了它导致的一些问题。

回到顶部

超奇计算

AI的全能量和碳冲击不仅包括加速器芯片,而且包括片外和长距离数据传输,以及设施基础设施的大能量开销,例如冷却和电源。“谷歌肯定是在效率方面改善事物的最前沿,”Koomey说。搜索引擎巨头在其超高度数据中心中报告了大约10%的计算能源的能量,他说的是大幅低于其他一些设施,特别是未充分利用的公司服务器。

关于能源使用缺乏透明度,有时仍有竞争原因,仍然存在问题。Koomey认为有限的信息有助于AI能源使用的一些误读悲观估计。

实际上,虽然托管许多计算使提供者提高利用率,“当您在大集群上运行时,难以隔离给定进程的能耗或给定用户的能耗,”米拉的卢卡利翁说。出版物经常忽略其他重要细节,她和她的同事在他们发现不可能从论文中收集他们的评估工具。她还担心首先制造设备的能量和碳成本。“我们根本没有什么样的公司2被赋予创建一个nvidia gpu。“

Luciani表达了希望能源和碳影响的标准化披露将成为出版物和会议的共同要求,如促进编码和数据的发布,以促进可重复性。

*进一步阅读

SZE,V.,Chen,Y.,Yang,T.和Emer,J.S.
如何评估深度神经网络处理器,ISSCC 2020教程https://bit.ly/2zahmhg.

帕特森,D.,Gonzalez,J.,Le,Q,Liang,C.,Munguia,L.,Rothchild,D.,Texier,M.和Dean,J。
碳排放和大型神经网络培训,[目前已发布作为Arxiv的预印刷品,但在CACM审查,所以它可能会在这个故事之前打印](2021),https://arxiv.org/abs/2104.10350

汗,三。和曼恩,A。
AI Chips:他们是什么以及为什么他们很重要,安全和新兴技术中心(2020),https://bit.ly/3beac9u

Koomey J.和Masanet,E。
不计算:避免评估互联网能量和碳的缺陷,焦耳5,1(2021),https://bit.ly/3bbeijh.

回到顶部

作者

唐门罗是一家位于美国马士顿波士顿的科技作家。


©2022 ACM 0001-0782 / 22/3

如果没有收取副本或分发盈利或商业优势,则授予批准为个人或课堂使用的部分或课堂使用的数字或课堂工作的数字或所有这项工作的副本或全部课堂使用的允许批准。必须尊重由其他人拥有的本工作组件的版权必须尊重ACM。允许用信用抽象。要复制否则,要重新发布,请在服务器上发布,或将其重新分配给列表,要求事先具体许可和/或费用。请求权限发布permissions@acm.org.或传真(212)869-0481。

数字图书馆由Computing Machinery协会发布。版权所有©2022 ACM,Inc。


没有发现任何条目

登入完全访问
“ 忘记密码? »创建ACM Web帐户
文章内容:
Baidu
map