acm-header
登录

ACM通信

贡献的文章

硬件彩票


彩票图像、插图

图片来源:Andrij Borys Associates

历史告诉我们,科学进步是不完美的。知识传统和可用的工具会使科学家对一些想法产生偏见,而对另一些想法产生偏见。24这给思想的市场增加了噪音,通常意味着在识别有前途的研究方向方面存在惯性。在人工智能(AI)研究领域,本文假定工具在决定哪些想法成功和失败方面发挥了不成比例的巨大作用。

回到顶部

关键的见解

ins01.gif

以下是部分立场文件和部分历史回顾。我引入“硬件抽签”这个术语,是为了描述一个研究想法胜出,因为它与可用的软件和硬件兼容,而不是因为这个想法优于其他研究方向。在早期的计算机科学史上,软件和硬件的选择往往在决定胜负方面起着决定性的作用。

当我们进入一个硬件、软件和机器学习研究社区之间更紧密合作的新时代时,这些教训尤其突出。几十年来,人们一直将硬件、软件和算法视为独立的选择,如今,更紧密合作的催化剂包括硬件经济的变化、深度学习架构规模上的“越大越好”竞赛,以及将机器学习部署到边缘设备上的令人眼花缭乱的需求。

更紧密的合作集中在新一代“特定领域”硬件的浪潮上,这些硬件针对深度神经网络的商业用例进行优化。虽然领域专门化为专注于深度神经网络的主流研究创造了重要的效率收益,但它可能会使偏离传统研究思路的成本更高。日益分散的硬件环境意味着,计算技术进步带来的收益将越来越不均衡。虽然深度神经网络有明确的商业使用案例,但有预警迹象表明,人工智能的下一个突破可能需要一个完全不同的算法、硬件和软件的组合。

本文首先承认一个关键的悖论:机器学习研究人员大多忽视硬件,尽管硬件在决定哪些想法成功方面发挥着重要作用。硬件、软件和算法的竖井式进化在早期的硬件和软件彩票中发挥了关键作用。本文通过早期硬件和软件彩票的例子来考虑这种竖井式发展的后果。而且,虽然今天的硬件领域越来越多样化,但我认为硬件的抽奖并没有消失,赢家和输家之间的差距将会扩大。在分析了这些争论之后,本文总结了一些关于如何避免未来硬件混乱的想法。

回到顶部

独立的部落

对于第一台计算机的创造者来说,程序就是机器。由于电子产品的成本和缺乏交叉用途的软件,早期的机器都是一次性使用的;他们不希望被用来执行新任务(图1).查尔斯·巴贝奇(Charles Babbage)的“差分机”(1817)仅仅是为了计算多项式函数。9IBM的Harvard Mark I(1944)是一个可编程计算器。22Rosenblatt的感知机(1958)计算了一个阶梯式单层网络。48即使是雅卡尔织机(1804),通常被认为是最早的可编程机器之一,在实践中,重新穿线非常昂贵,它通常只穿线一次,以支持预先固定的一组输入字段。36

f1.jpg
图1。早期的计算机是一次性使用的,没有被预期会被重新使用。我们不能指望这些机器能像现代机器那样运行各种各样的程序。

20世纪60年代初,硬件和软件的联合专业化走向了垂直发展。IBM是早期创建指令集的先驱,指令集可以在计算机之间移植。一个不断发展的企业可以安装一个小型的IBM 360计算机,而不必在迁移到更大的360计算机时被迫重新学习所有内容。竞争对手巴勒斯、克雷和霍尼韦尔都开发了自己的系统——与自己的机器兼容,但不跨制造商。程序可以在来自同一制造商的不同机器之间移植,但不能移植到竞争的机器上。设计本身仍然是孤立的,硬件和软件在内部共同开发。

今天,与计算早期所必需的专业化相比,机器学习研究人员倾向于认为硬件、软件和算法是三个独立的选择。这在很大程度上是由于计算机科学史上的一个时期,它从根本上改变了硬件的生产类型,并激励硬件、软件和机器学习研究社区孤立地发展。

通用计算机时代在1969年形成,当时一位名叫戈尔丹·摩尔的年轻工程师在电子产品杂志的标题是“在电路板上塞满更多的元件”。33摩尔在书中预测,集成电路上的晶体管数量每两年就会翻一番。这篇文章和随后的后续报道最初的动机很简单——摩尔认为它能卖出更多的芯片。然而,这一预测仍然成立,并促使在未来50年里将能源转化为信息的成本显著下降。

摩尔定律与登纳德尺度的结合12从1980年到2010年,微处理器的性能提高了3个量级。每两年计算能力和内存的可预测增长意味着硬件设计变得规避风险。当摩尔定律允许芯片制造商锁定可预测的利润率时,为什么要为了不确定的回报而试验更专业的硬件设计呢?即使对于要求更高性能的任务,转移到专用硬件的好处也可能很快被计算能力不断增长的下一代通用硬件所掩盖。

重点转向了通用处理器,它可以解决无数不同的任务。为数不多的偏离轨道并生产专门用于研究的超级计算机的尝试在财政上是不可持续的,而且是短命的。少数非常狭窄的任务,如掌握国际象棋,是这一规则的例外,因为击败人类对手的声望和知名度会吸引企业赞助。34

将硬件、软件和算法的选择视为独立的做法一直持续到最近。探索新类型的硬件在时间和资金方面都是昂贵的。生产下一代芯片的成本通常为3,000 - 8,000万美元,需要两到三年的开发时间。14这些令人望而生畏的进入壁垒产生了一种硬件研究文化,对于普通的机器学习研究人员来说,这种文化可能会感到奇怪,甚至可能是缓慢的。在过去30年里,机器学习出版物的数量呈指数级增长,而硬件出版物的数量则保持着相当平稳的节奏。42对于一家硬件公司来说,知识产权的泄露可以决定公司的存亡。这导致了一种更为严密的研究文化。

在缺乏任何影响硬件开发的杠杆的情况下,机器学习研究人员开始理性地将硬件视为一种需要解决的沉没成本,而不是可以被塑造的流体。然而,仅仅因为我们抽象了硬件并不意味着它不再存在。早期的计算机科学史告诉我们,有许多硬件彩票,硬件和软件的选择决定了哪些想法成功,哪些想法失败。

回到顶部

硬件彩票

托尔斯泰的第一句话安娜卡列尼娜“所有幸福的家庭都是相似的;不幸的家庭各有各的不幸。”47托尔斯泰是在说一段幸福的婚姻需要许多不同的因素——经济稳定,化学反应,共同的价值观,健康的后代。然而,一个家庭不快乐只需要这些方面中的一个。这被称为“安娜·卡列尼娜原则”(Anna Karenina principle),“缺乏其中任何一个因素都注定要失败。”32

尽管我们倾向于相信算法的成功或失败是孤立的,但历史告诉我们,大多数计算机科学突破都遵循安娜·卡列尼娜原则。成功的突破往往通过受益于多个标准的秘密对齐而区别于失败。对于人工智能研究来说,这通常取决于赢得我们所命名的硬件彩票-避免下游硬件和软件选择可能出现的故障点。

硬件彩票的早期例子是分析机(1837年)。查尔斯·巴贝奇(Charles Babbage)是计算机的先驱,他设计了一台可以编程的机器,至少在理论上可以解决任何类型的计算。他的分析机一直没有造出来,部分原因是他很难制造出精度正确的零件。25真正建立巴贝奇所奠定的理论基础所需的电磁技术在二战期间才浮出水面。在20人的第一部分th世纪,电子真空管被大量用于无线电通信和雷达。二战期间,这些真空管被用来提供破解德国谜码所需的计算能力。10

正如电视节目中提到的那样硅谷,通常“太早就等于错了。”1871年巴贝奇去世时,他的思想和现代计算机之间并没有持续的联系。一个世纪后,存储程序、可修改代码、内存和条件分支的概念被重新发现,因为有合适的工具可以从经验上证明这种想法是有效的。

回到顶部

失去了几十年

也许,没有赢得硬件大奖所造成损害的最突出的例子是,人们迟迟没有认识到深度神经网络是一个有前途的研究方向。使深度神经网络工作所需的大多数算法组件已经存在了几十年:反向传播在1963年发明,43了1976年,291988年,39并与深度卷积神经网络配对15在1989年。27然而,直到三十年后,深度神经网络才被广泛接受为一个有前途的研究方向。

这些算法的进步和经验的成功之间的差距很大程度上是由于不兼容的硬件。在通用计算时代,中央处理器(cpu)等硬件受到了广泛的青睐和使用。cpu非常擅长执行各种各样的任务;然而,处理这么多不同的任务可能会导致效率低下。cpu需要缓存中间结果,并且在可运行的任务并发性方面受到限制,这对诸如矩阵乘法(深度神经网络体系结构的核心组件)等操作造成了限制。矩阵乘法在顺序运行时非常昂贵,但在并行时计算要便宜得多。无法在cpu上并行化意味着矩阵乘法很快耗尽内存带宽,而且根本不可能训练多层深度神经网络。


虽然领域专门化为专注于深度神经网络的主流研究创造了重要的效率收益,但它可能会使偏离传统研究思路的成本更高。


早在20世纪80年代早期,就有人在题为“联想记忆的并行模型”的系列文章中指出,需要硬件来支持具有大量并行性的任务。19这些论文令人信服地指出,生物学证据表明,深度神经网络方法需要大量的并行性才能发挥作用。

在20世纪80年代末/90年代,神经网络专用硬件的想法已经过了新奇阶段。然而,由于缺乏共享软件和硬件开发成本,双方的努力仍然存在分歧。如果没有消费市场,最终用户数量就无法达到财务上的可行性。直到21世纪初,也就是第一篇关于反向传播的论文发表整整四十年后,才有了一次硬件上的偶然,大规模并行的见解才得以以一种有用的方式操作起来,用于连接主义的深度神经网络。

图形处理单元(GPU)最初是在20世纪70年代作为视频游戏和开发电影和动画图形的专用加速器引入的。在21世纪初,gpu被重新用于一个完全无法想象的用例——训练深度神经网络。7gpu比cpu有一个关键的优势:它们在并行处理一组简单的、可分解的指令(比如矩阵倍数)方面要出色得多。这种更高的每秒有效浮点运算(FLOPS)数量,结合gpu之间训练的巧妙分布,为更深层次网络的训练扫清了障碍。

网络的层数被证明是关键。ImageNet的性能随着更深层次的网络而提升。关于这种效率飞跃的一个显著例子是现在著名的2012年谷歌研究,该研究需要16000个CPU核来对猫进行分类;仅仅一年后,一篇发表的论文称,只用了两个CPU核和四个gpu就完成了同样的任务。8

回到顶部

软件彩票

软件在决定哪个研究想法成功,哪个失败的过程中也发挥着作用。Prolog和LISP是AI社区在90年代中期之前非常青睐的两种语言。在这期间的大部分时间里,人工智能学生被期望积极掌握至少一门,如果不是两门。LISP和Prolog特别适合处理逻辑表达式,这是推理和专家系统的核心组件。

对于那些想要研究连接主义思想的研究人员来说,比如深度神经网络,直到1992年MATLAB的出现,才有了明确适合的语言选择。在LISP或Prolog中实现连接网络是很麻烦的,而且大多数研究人员使用c++等低级语言进行工作。直到2000年,一个更健康的生态系统才开始围绕着为深度神经网络方法开发的软件生根发芽,随之而来的是LUSH和随后的TORCH。


机器学习研究人员大多忽视了硬件,尽管硬件在决定哪些想法成功方面发挥着重要作用。


哪里有失败者,哪里就有赢家。从20世纪60年代到80年代中期,大多数主流研究都专注于人工智能的象征性方法。与深度神经网络不同,符号方法旨在建立知识库,并使用决策规则复制人类处理问题的方式。在深度神经网络中,学习充分的表示是委托给模型本身的。这通常被编为一系列逻辑“假设”语句,非常适合LISP和PROLOG。

象征性的人工智能方法尚未取得成果,但在20世纪下半叶的大部分时间里,这一研究方向的广泛和持续流行不能被视为独立于它是否容易适应现有的编程和硬件框架。

回到顶部

硬件彩票的持久性

如今,人们对硬件、软件和机器学习社区之间的协作重新产生了兴趣。我们正在经历向专业硬件的第二次摆动。催化剂包括硬件经济的变化,这是由摩尔定律的终结和登纳德缩放的崩溃所促成的;模型参数数量上存在“越大越好”的竞争;1螺旋式上升的能源成本;20.以及将机器学习部署到边缘设备的令人眼花缭乱的要求。50

摩尔定律的终结意味着我们不能保证有更多的计算能力和性能;硬件将不得不赢得它。为了提高效率,从任务不可知的硬件(如cpu)转向专门于领域的硬件,专门于领域的硬件调整设计以使某些任务更有效。过去几年发布的第一批领域专用硬件——张量处理单元(tpu),23edge-TPUs,16和手臂Cortex-M552-显式优化深度神经网络常见的高成本操作,如矩阵乘法。

在许多方面,硬件正在追赶机器学习研究的现状。只有当用例的生命周期超过三年时,硬件才具有经济可行性。11对硬件开发人员来说,把赌注押在有生命力的想法上是一个关键的考虑因素。因此,协同设计工作几乎完全集中在优化具有已知商业用例的老一代模型上。例如,“矩阵乘法”是一个安全的优化目标,因为深度神经网络在生产系统中的广泛使用和采用使它们保持固定。允许非结构化稀疏性和特定权重的量化也是一种安全的策略,因为人们普遍认为这将支持更高的压缩级别。

还有一个单独的问题是,硬件创新是否足够万能,能够开启或跟上全新的机器学习研究方向。这个问题很难回答;这里的数据点是有限的,因此很难对这种想法在不同硬件条件下是否会成功进行建模。然而,尽管这项任务具有固有的挑战,已经有令人信服的证据表明,特定领域的硬件使得偏离主流的研究想法获得成功的成本更高。

2019年发表了一篇题为《机器学习陷入窠臼》的论文,3.考虑到训练一种叫做胶囊网络的新型计算机视觉体系结构的难度42在domain-specialized硬件。胶囊网络包括新的组件,如压缩操作和协议路由。这些体系结构的选择旨在解决卷积神经网络的关键缺陷(缺乏旋转方差和空间层次理解),但偏离了神经网络的典型体系结构。因此,虽然胶囊网络操作可以在cpu上很好地实现,但在gpu和tpu等加速器上的性能却急剧下降,因为这些加速器对矩阵乘法进行了过度优化。

不管你是否同意胶囊网络是计算机视觉的未来,作者说了一些有趣的事情,试图在特定领域的硬件上训练一种新型的图像分类体系结构的困难。硬件设计优先考虑交付商业用例,而容纳下一代研究想法的内置灵活性仍然是次要考虑。

虽然硬件专门化使深度神经网络更加高效,但它也使偏离公认的构建模块的成本更高。这就提出了一个问题:研究人员会在多大程度上对那些在现有硬件上运行良好的想法过度拟合,而不是去冒险研究那些目前还不可行的想法?哪些失败是我们仍然没有硬件来视为成功的?

回到顶部

未来硬件彩票的可能性

关于未来的算法与深度神经网络等模型有多大不同,这是机器学习界正在进行的一场公开辩论。依赖于领域专用硬件的风险与您在这场辩论中的立场有关。如果你认为未来的突破依赖于将深度神经网络与不断增加的数据和计算量配对,那么在专业硬件上豪赌是有道理的。

几家主要的研究实验室正在下这个赌注,在模型参数的数量上参与一场“越大越好”的竞赛,并收集越来越广泛的数据集。然而,目前尚不清楚这是否可持续。算法的可伸缩性通常被认为是相对于可用资源的性能梯度。如果有更多的资源,如何提高性能?

对于许多子字段,我们现在处于附加参数的回报率正在下降的状态。46在问题中添加额外参数的成本正变得非常明显。也许更令人不安的是,我们离人类所表现出的那种智力还有多远。尽管大脑非常复杂,但人类的大脑仍然非常高效。虽然深度神经网络可能是可扩展的,但在一个与人类智力相当的系统中,这样做可能会非常昂贵。一个恰当的比喻是,我们似乎在试图建造通往月球的梯子。

智能的生物学例子与深度神经网络有很大的不同,这足以表明,认为深度神经网络是唯一的发展方向是一种冒险的押注。虽然深度神经网络等通用算法依赖于全局更新来学习有用的表示,但我们的大脑不需要。我们自己的情报依赖于分散的局部更新,这些更新以我们不太了解的方式呈现出全球信号。5

此外,我们的大脑可以从比深度神经网络少得多的标记示例中学习有效的表示(图2).人类的生物硬件为不同的任务开发了高度优化和特定的路径。49这表明,网络的组织方式和我们的归纳偏见与网络的整体规模同样重要。18

f2.jpg
图2。我们自己的认知智能是不可分割的硬件和算法。我们一生中不会拥有多个大脑。

例如,一个人在走路的同时说话是很容易的。然而,尝试阅读和交谈的认知难度要大得多。44我们的大脑能够在我们的一生中调整和保留人类的技能。4相比之下,接受新数据训练的深度神经网络往往证明了灾难性的遗忘,由于新信息干扰了之前习得的行为,原始任务的表现会恶化。30.

关于我们如何训练模型有几个非常低效的假设。例如,在典型的训练过程中,对于每个例子,整个模型都被激活,导致训练成本的二次爆炸。相反,大脑不会对所有的输入进行完全的向前和向后传递;它根据传入的感官数据模拟预期的输入。我们所看到的大部分是根据记忆计算出来的虚拟现实。6

这些例子的目的不是让你相信深度神经网络不是前进的方向,而是告诉你,显然还有其他的智能模型,这表明它可能不是唯一的方法。下一个突破可能需要一种完全不同的模拟世界的方式,采用不同的硬件、软件和算法组合。我们很可能处于当今硬件摇号的状态。

回到顶部

前进的道路

当各种因素汇集在一起,使科学家能够克服现有范式的“粘性”时,科学进步就会发生。人工智能研究中发生范式转换的速度不成比例地取决于硬件、软件和算法之间的对齐程度。因此,任何避免硬件抽签的尝试都必须考虑如何使探索不同的硬件/软件/算法组合更便宜、更省时。

这说起来容易做起来难。扩大可能的硬件/软件/算法组合的搜索空间是一个艰巨的目标。探索新类型的硬件在时间和资金方面都是昂贵的。生产下一代芯片的成本通常为3,000 - 8,000万美元,需要两到三年的开发时间。14仅建造一家制造厂的固定成本就非常巨大,2017年估计为70亿美元。45

使用强化学习优化芯片放置的实验(图3)可能有助于降低成本。31人们对可重构硬件也重新产生了兴趣,如现场可编程门阵列(fpga)。17粗粒度可重构数组(CGRAs)。37这些设备允许重新配置芯片逻辑,以避免被锁定在单个用例中。然而,灵活性的代价是更高的FLOPS和定制的软件开发需求。在fpga上编写简单的算法也是非常痛苦和耗时的。41

f3.jpg
图3。硬件设计仍然是风险规避的,因为制造每一代新硬件都需要大量的资金和时间。

短期到中期的硬件开发很可能仍然是昂贵和漫长的。生产硬件的成本很重要,因为它决定了硬件开发人员愿意容忍的风险和试验的程度。为深度神经网络量身定制的硬件投资是有保证的,因为神经网络是足够多商业用例的基石。深度学习下游应用的广泛盈利,刺激了旨在进一步加速深度神经网络的硬件初创公司的健康生态系统,并鼓励大公司在内部开发定制硬件。

瓶颈将继续是为不能立即在商业上可行的用例提供硬件资金。这些风险较大的方向包括生物硬件、带有内存计算的模拟硬件、神经形态计算、光学计算和基于量子计算的方法。也有高风险的努力,探索开发使用新材料的晶体管。

一个临时目标是为研究人员提供更好的反馈循环,了解我们的算法如何与现有硬件交互。机器学习研究人员没有花太多时间讨论硬件如何选择哪些想法成功,哪些失败。这主要是因为很难量化被关注的成本。目前,还没有简单易用的接口来同时针对多种类型的硬件对算法性能进行基准测试。不同类型的硬件支持的软件操作子集存在令人沮丧的差异,这妨碍了算法在不同硬件类型之间的可移植性。21软件内核经常针对特定类型的硬件进行过度优化,导致在与不同的硬件一起使用时,在效率上存在巨大的滞后。

硬件领域日益强大和多样化,加剧了这些挑战。38随着硬件领域变得越来越分散和专业化,编写快速和高效的代码将需要更多小众和专门的技能。28这意味着计算机科学研究的进步将带来越来越不均衡的收益。虽然某些类型的硬件将受益于一个健康的软件生态系统,但在其他语言上的进展将是零星的,并经常受到缺乏关键终端用户的阻碍。45

减轻这种对专门软件专业知识需求的一种方法是开发专注于一个狭窄领域的领域特定语言。虽然放弃了表达能力,但特定于领域的语言允许在不同类型的硬件之间具有更强的可移植性。它们允许开发人员专注于代码的意图,而不必担心实现细节。35另一个有前途的方向是根据下游硬件的选择自动自动调优程序的算法参数。通过调整程序以在各种硬件上实现良好的性能和负载平衡,可以简化部署。13

与此同时,我们需要更好的分析工具,让研究人员对硬件和软件应该如何发展有更充分的了解。理想情况下,软件应该在给定算法配置的情况下给出使用哪种硬件的建议。记录与我们预期不同的东西仍然是推动新的科学发现的关键催化剂。软件需要做更多的工作,但它也很适合这样做。在摩尔定律的整个时代,我们忽视了高效的软件,相信计算性能的可预测收益可以弥补软件堆栈的低效。这意味着当我们开始优化更高效的软件时,有许多容易摘的果实。26

回到顶部

结论

美国投资者乔治·吉尔德(George Gilder)有力地形容这种计算机芯片是在沙粒上刻上世界。算法的性能基本上与运行算法的硬件和软件交织在一起。本文提出术语“硬件抽签”来描述这些下游选择如何决定一个研究想法的成功或失败。

如今,硬件领域越来越多样化。本文假定硬件彩票并未消失,赢家和输家之间的差距将会扩大。为了避免未来的硬件彩票,我们需要更容易地量化满足现有硬件和软件的机会成本。

回到顶部

致谢

感谢我的许多出色的同事和同行,他们花时间为这篇文章的早期版本提供了有价值的反馈。我特别要感谢Utku Evci、Erich Elsen、Melissa Fabros、Amanda Su、Simon Kornblith、Aaron Courville、Hugo Larochelle、Cliff Young、Eric Jang、Sean McPherson、Jonathan Frankle、Carles Gelada、David Ha、Brian Spiering、Stephanie Sher、Jonathan Binas、Pete Warden、Sean McPherson、Lara Florescu、Jacques Pienaar、Chip Huyen、Raziel Alvarez、Dan Hurt和Kevin Swersky的宝贵贡献。感谢Natacha Mainville和Alexander Popper的支持和鼓励。

uf1.jpg
数字观看作者在独家报道中讨论这项工作通信视频。//www.eqigeno.com/videos/the-hardware-lottery

回到顶部

参考文献

1.Amodei, D., Hernandez, D., Sastry, G., Clark, J., Brockman, G.,和Sutskever, I. AI和计算。OpenAI(2018),https://openai.com/blog/ai-and-compute/

2.手臂。增强物联网终端设备的AI性能。(2020),https://www.arm.com/company/news/2020/02/new-ai-technology-from-arm

3.Barham, P.和Isard, M.机器学习系统陷入了窠臼。在操作系统热点专题研讨会论文集(HotOS '19),(意大利贝尔蒂诺罗),ACM,纽约,纽约,美国,177-183。https://doi.org/10.1145/3317550.3321441

4.巴奈特,s和塞西,s我们何时何地应用我们所学的知识?远距离传输的分类学。心理公告128, 4(2002), 612-37。

5.培养海马神经元的突触修饰:依赖于刺突时间、突触强度和突触后细胞类型。神经科学杂志18, 24(1998), 10464-10472。https://doi.org/10.1523/JNEUROSCI.18-24-10464.1998arXiv:https://www.jneurosci.org/content/18/24/10464.full.pdf

6.Bubic, A., Cramon, D.和Schubotz, R.预测,认知,和大脑。人类神经科学前沿4(2010), 25岁。https://doi.org/10.3389/fnhum.2010.00025

7.Chellapilla, K., Puri, S.和Simard, P.用于文档处理的高性能卷积神经网络。第十届手写识别前沿国际研讨会(2006)。

8.Coates, Huval, B, Wang, T, Wu, D, Catanzaro, B,和Andrew, N.深度学习与COTS高性能计算系统。在30人会议记录th实习生。机器学习会议(2013),桑乔伊·达斯古普塔和大卫·麦卡莱斯特(编)。PMLR,亚特兰大,佐治亚州,美国,1337-1345。http://proceedings.mlr.press/v28/coates13.html

9.小型引擎:查尔斯·巴贝奇的计算机器。加兰出版公司。美国(1991)。

10.计算机历史1949-1960:早期真空管计算机概述。计算机历史档案计划(2018),https://www.youtube.com/watch?v=WnNm_uJYWhA

11.深度学习革命及其对计算机架构和芯片设计的影响。IEEE国际固态电路会议(2020), 8 - 14。

12.Dennard, R., Gaensslen, F., Yu, H., Rideout, V., Bassous, E.和LeBlanc, A.具有非常小物理尺寸的离子植入MOSFET的设计。固态电路学报, 5(1974), 256-268。

13.Dongarra, J., Gates, M., Kurzak, J., Luszczek, P.和Tsai, Y.用于GPU硬件加速器批量计算的自动调优数值密集线性代数。在IEEE 106论文集, 11(2018), 2040-2055。

14.通用计算机的时代正在结束。下一个平台(2019),https://bit.ly/3hP8XJh

15.福岛,K.和Miyake, S.新cognitron:一种容忍位置变形和移动的模式识别新算法。模式识别15, 6(1982), 455-469。http://www.sciencedirect.com/science/article/pii/0031320382900243

16.Gupta, S.和Tan, M. EfficientNet-Edge TPU:用AutoML创建加速器优化的神经网络。谷歌艾未未的博客(2019),https://ai.googleblog.com/2019/08/efficientnet-edgetpu-creating.html

17.哈克和德洪。可重构计算:基于fpga的计算理论与实践。(2017),摩根考夫曼出版公司,美国加州旧金山。

18.Herculano-Houzel, S.等人。大象的大脑在数量上。神经解剖学前沿8(2014)。

19.G.辛顿和J.安德森。联想记忆的并行模型。(1989), L. Erlbaum联合公司,美国。

20.计算的能量问题(以及我们能做些什么)。在2014 IEEE国际固态电路会议技术论文摘要(ISSCC)10 - 14。

21.H. Hotel, Johansen, H. Bernholdt, D. Héroux, M.和Hornung, R.极端规模科学的软件生产力。美国能源部高级科学计算研究(2014)。

22.艾萨克森,w·格蕾丝·霍珀,计算机先驱。哈佛大学报》(2014)。https://news.harvard.edu/gazette/story/2014/12/grace-hopper-computing-pioneer/

23.Jouppi, N.等人。张量处理单元的数据中心内性能分析。SIGARCH第一版。Archit。新闻45, 2(2017年6月),1-12。https://doi.org/10.1145/3140659.3080246

24.库恩,T。科学革命的结构。(1962),芝加哥大学出版社,芝加哥。

25.库兹韦尔,R。智能机器时代。(1990),麻省理工学院出版社,剑桥,马萨诸塞州,美国。

26.拉鲁斯,j。摩尔的红利。Commun。ACM 52, 5(2009年5月),62-69。https://doi.org/10.1145/1506409.1506425

27.LeCun, Y., Boser, B., Denker, J., Henderson, D., Howard, R., Hubbard, W.和Jackel, L.反向传播应用于手写邮政编码识别。神经计算1, 4(1989), 541-551。https://doi.org/10.1162/neco.1989.1.4.541

28.Lee, H., Brown, K., Sujeeth, A., Chafi, H., Rompf, T., Odersky, M.,和Olukotun, K.为异构并行计算实现特定领域的语言。IEEE微31, 5(2011), 42-53。

29.Linnainmaa, S. Taylor展开的累积舍入误差。数字数学16(1976), 146 - 160。

30.麦克利兰,J.,麦克诺顿,B.和O'Reilly, R.为什么在海马体和新皮层中有互补的学习系统:从学习和记忆的连接主义模型的成功和失败的见解。心理评估102(1995年8月),419 - 57。https://doi.org/10.1037/0033-295X.102.3.419

31.Mirhoseini, A.等人。一种用于快速芯片设计的图形放置方法。大自然594年(2021年6月9日),207-212,https://www.nature.com/articles/s41586-021-03544-w

32.安娜·卡列尼娜原则应用于多种压力源的生态风险评估。人类与生态风险评估:国际期刊, 2(2001), 231-237。https://doi.org/10.1080/20018091094349

33.摩尔,g . 1965。把更多的元件塞进集成电路。电子38, 8(1965年4月)。https://www.cs.utexas.edu/~fussell/courses/cs352h/papers/moore.pdf

34.计算机硬件什么时候能与人脑相匹配?超人类主义学报(1998)。

35.Olukotun, K.超越领域特定语言的并行编程。SIGPLAN 49。, 8(2014年2月),179-180。https://doi.org/10.1145/2692916.2557966

36.Posselt,电子艺界提花机的分析与解释:提花卡的制作及对提花设计学习者的实用提示。(1888)。

37.Prabhakar, R.等人。Plasticine:并行模式的可重构体系结构。在ACM和IEEE 2017年44岁th年度实习生。计算机体系结构研讨会(ISCA)。389 - 402。

38.Reddi, V.等人。MLPerf推理基准。在ACM和IEEE 2020年47岁th年度实习生。计算机体系结构研讨会(2020), 446 - 459。

39.Rumelhart, D. Hinton, G.和Williams, R.通过反向传播错误学习表示。麻省理工学院出版社(1988), 696 - 699。

40.Sabour, S., Frost, N.和Hinton, G.胶囊之间的动态路由。(2017), 3856 - 3866。http://papers.nips.cc/paper/6975-dynamic-routing-between-capsules.pdf

41.超越摩尔定律的计算的未来。皇家学会哲学学报A版,378(2020)。

42.Singh, V., Perdigones, A., Garcia, J., Cañas, I.,和Mazarrón, F.分析全球硬件架构研究,1997-2011。Commun。ACM 58(2015年1月),页76 - 85。https://doi.org/10.1145/2688498.2688499

43.Steinbuch, K.和Piske, U.A.W.学习矩阵及其应用。IEEE电子计算机汇刊EC-12, 6(1963), 846-862。

44.连续言语反应的干扰研究。实验心理学J., 6(1935), 643。https://doi.org/10.1037/h0054651

45.Thompson, N.和Spanuth, S.计算机作为通用技术的衰落:为什么深度学习和摩尔定律的终结正在分割计算。(2018年11月)。

46.汤普森,N,格林沃尔德,K,李,K和曼索,G.深度学习的计算极限。arXiv预印本, arXiv:2007.05558(2020年7月),arXiv:2007.05558页。arXiv: 2007.05558 (cs。LG)

47.托尔斯泰和巴特利特。安娜卡列尼娜。牛津大学出版社(2016),https://books.google.com/books?id=1DooDwAAQBAJ

48.Van Der Malsburg, C. Frank Rosenblatt:神经动力学原理:感知器和大脑机制理论。大脑理论(1986), 245 - 248。

49.冯·诺伊曼,邱克兰,下午,和邱克兰,P.S.计算机与大脑。耶鲁大学出版社(2000),https://books.google.com/books?id=Q30MqJjRv1gC

50.P. Warden和D. Situnayake。TinyML:在Arduino和超低功耗微控制器上使用TensorFlow Lite进行机器学习。(2019),奥莱利媒体公司https://books.google.com/books?id=sB3mxQEACAAJ

回到顶部

作者

莎拉妓女shooker@google.com)是美国加州山景城谷歌Brain的研究学者,专注于深度学习。


cacm_ccby-nc.gif这部作品是根据法律授权的知识共享署名-非商业性国际4.0许可

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


评论


托马斯Limoncelli

这是一个非常聪明的观察。一个好主意在错误的时间会落空。

这让我想起了互联网视频网站:似乎每6个月就有一个网站冒出来,但1-2年后就倒闭了,因为家庭网络带宽太慢。YouTube中了大奖,因为他们恰好是在家庭宽带普及率达到适当比例时涌现出来的公司。我经常说,如果YouTube早一点或晚一点开始,它将只是另一个失败,其他公司将成为赢家。

我想知道您是否对哪些非ml技术更容易受到抽签因素的影响有什么看法。


显示1评论

Baidu
map