acm-header.
登入

ACM的通信

研究亮点

技术透视:深度学习推论的尖峰原型系统


以下论文“SIMBA:缩放了深入学习推断与基于小费的架构”,由Shao等人进行。介绍可扩展的深度学习加速器架构,可以解决从芯片集成技术的问题,以对深度神经网络性能的工作负载分区和非均匀延迟效应。通过硬件原型,它们及时研究了将通知下一代深度学习硬件,软件和神经网络架构的跨层问题。

芯片供应商与摩尔定律持续放缓导致新技术节点之间的时间增加,天空飙升的硅的制造成本以及丹尼德缩放的结束,芯片供应商面临着重大挑战。在没有设备缩放的情况下,域专业化为建筑师提供了机会,以提供更多性能和更高的能效。然而,域专业化是芯片制造商的昂贵主张。产生硅的非重复性工程成本是过高的,包括含有数十亿晶体管的芯片的设计和验证时间。没有重大的市场需求,很难证明这一成本。

幸运的是,对于计算机架构师来说,机器学习是一个专门硬件可以获得性能和功效的域。近年来,机器学习在近年来广泛采用,需要更加计算,存储和能源效率,只有模型承担更复杂的任务。域专业化通过避免致力于提供通用功能的现代处理器中的所有硬件来提高性能和节能。此外,架构定位机器学习的常规简单处理元件阵列(主要进行乘法累积),可能会缩放到大数字,并且可以提供缓解验证的机会。

考虑到数十亿晶体管,可以适合单个大模型,正在缩放机器学习加速器中的处理元件的数量差异?摩尔定律的放缓使得在单个芯片上越来越难以包装更多功能。如果晶体管尺寸保持恒定,则可以通过较大的芯片集成更多功能。然而,由于成本显着提高,较大的芯片是不可取的。验证成本更高。密集包装逻辑中的制造缺陷可以显着降低晶片产量。较低的收益率转化为更高的制造成本。

对抗这些产量和验证挑战的有希望的解决方案是设计和制造较小的芯片(小芯片),并通过诸如硅中介层或有机基质的封装水平溶液将这些小芯片集成到一个系统中。小型小芯片制造便宜;尖峰上的制造缺陷对总晶片产量的影响较小。通过将大量小芯片集成到系统中来补偿单个小芯片的减小的功能。基于小杉的架构的这种概念已在CPU和GPU中探讨。SIMBA开发了一个架构和硬件原型,以演示机器学习加速器中如何有效的小芯片。

虽然纸张的重点是可扩展的方法,以提供数据中心级推理加速器中的提高性能和能效,这是一种基于小芯片的方法的一个令人兴奋的特征,其简单可以在不同的市场段中缩放。每个小芯片都可以独立为完整的系统;因此,可以用作边缘装置的单个小芯片,或者可以集成少量的小芯片用于消费类设备。鉴于与制造硅相关联的设计,验证和制造成本,单一的尖头设计,为所有市场段提供给所有市场段提供引人注目的解决方案。

本文的另一个有富有洞察力的方面是重点强调硬件/软件共同设计。鉴于面向硬件设计和制造的无数挑战,必须致命地设计软件系统来打击硬件解决方案引入的任何非均匀性。长期以来已经研究了非统一的内存访问(NUMA)效果,用于多插槽,多板设计。但是,本研究提供了新的见解,专门针对机器学习应用程序和具有不同带宽和延迟特征的分层互连,这些互连特征将在基于巨头的基于魅力的架构中找到。在软件方面,他们考虑工作负载分区和通信感知数据放置的影响。通过详细的案例研究,本文对共同设计进行了令人信服的基于证据的论点。

深度神经网络加速器设计空间丰富,令人兴奋的初创公司和生产新硅的大型公司。仍然存在许多公开挑战和问题。除了硬件/软件共同设计之外,神经网络架构可以自身适应在给定的硬件上更有效地运行。如果单个小芯片可以提供一系列市场段,我们需要软件和运行时解决方案,以使网络架构适应系统的每个实例上有效运行。我们如何以低成本调整基于小芯片的方法来构建定制,异质硬件解决方案?本文的硬件原型为进一步研究的基于小芯片的加速器架构提供了一个引人注目的基础。

回到顶部

作者

Natalie Enright Jerger.是多伦多大学电气电脑工程系的教授,在那里她还担任加拿大研究椅子在计算机架构。

回到顶部

脚注

查看随附的论文,访问doi.acm.org/10.1145/3460227


作者持有的版权。
请求权限(重新)从业主/作者发布

数字图书馆由Computing Machinery协会发布。版权所有©2021 ACM,Inc。


没有发现任何条目

Baidu
map