acm-header
登录

ACM通信

研究突出了

基于加速赛车树的传感器分类


电路板,通讯信号和数值,插图

来源:盖蒂图片社

当需要极低能量的处理时,数据表示形式的选择将产生巨大的差异。每一种表示(例如,频域、残差编码和对数尺度)都体现了基于代数运算的一组不同的权衡,这些代数运算在该域中要么容易,要么很难执行。我们展示了一种新的编码形式的潜力,竞赛逻辑,其中信息表示为到达信号的延迟。在这种编码方式下,信号延迟相互作用和相互干扰的方式定义了系统的操作。对相对延迟的观察(例如,信号之间竞争的结果)定义了计算的输出。有趣的是,完全标准的硬件逻辑元素可以被重新用于此目的,由此产生的嵌入式系统具有极大的能源效率的潜力。为了在实际设计中实现这一潜力,我们演示了两种不同的方法来在竞争逻辑原语的扩展集合中创建基于可编程树的集成分类器;我们探索了它们在传感器、硬件架构和算法之间操作的内在权衡;我们将结果设计与传统的最先进的硬件技术进行比较。

回到顶部

1.简介

在嵌入式应用程序中,计算和感知在时间和空间上都很接近,需要仔细考虑数据的确切类型。通常情况下,传感器从物理世界收集模拟信息,然后将其转换为传统的数字信号。例如,相机捕捉入射光子,并通过光电效应,利用它们的能量来引导电池充电。单元上的电压被读出到模数转换器(ADC), ADC将测量到的电压转换成一串0和1。虽然这个二进制表示的整数在内存中以位的形式存储和通用计算操作中非常有效,但我们不清楚它是否是最有效的能源效率解决方案。我们假设有其他编码,尽管仍然捕获要编码的数据的相对值,但对于传感器内处理更有效。

其中一种可能的表示是纯模拟信号。使用模拟设备进行类似机器学习的计算已有很长的历史。虽然纯模拟设计总是一种选择,但它本身也有一些挑战。首先,众所周知的模拟设计规则在现有技术节点上总是远远落后于数字规则。由于这一差距,高密度、高性能和低能耗的CMOS模拟部件很难实现。第二,尽管模拟设计在这些激进的技术节点上当然是可能的,但更大的工艺变化和噪声的空间经常促使模拟设计使用比数字设计更大的门。理想情况下,我们可以保持模拟行为的良好部分,其中计算与底层设备的能力密切匹配,而不牺牲数字设计的噪声容忍和布局的简单性。

试图达到这种平衡的一类逻辑是种族逻辑。10竞争逻辑背后的关键思想是将值编码为延迟从一些参考。与纯模拟方法不同,所有信号都应该是0或1。然而,时间在发生0→1转换时对值进行编码。然后基于注入到可配置电路中的信号的相对传播时间进行计算。在前人的工作中,证明了基本的时间运算符MAX、MIN和ADD-CONSTANT可以有效地求解一类动态规划算法,并对同步和异步版本的算法进行了评估。1011包含INHIBIT20.打开了一扇新的计算之门,但是这种方法对更大更普遍的问题的计算效率的问题仍然是开放的。

为了建立这种更通用的竞争逻辑所提供的有趣的新功能,我们建议将其应用到对传感器友好但可供机器学习的编码中。为了对我们的假设进行实验验证,我们完成了一个端到端评估,包括对ASIC设计的能量、吞吐量和面积利用率的评估,在仿真和FPGA上工作的全功能RTL实现,构建系统的基础原语的SPICE模型,一个连接scikit-learn的全自动工具链15软件结构下到设备配置,以及一组决策树集成和设计参数的准确性与能量分析。即使不考虑使用对传感器更自然的编码所节省的额外能源,该系统也显著降低了分类所需的总能源使用,具有非常低的延迟。

回到顶部

2.广义种族逻辑

竞赛逻辑将信息编码为时间延迟。然后,计算可能会通过有目的地操纵这些延迟而不是最终的逻辑层发生,而构成这个逻辑基础的函数是MAX、MIN、ADD-CONSTANT和INHIBIT,而不是and、OR和NOT。

在上升时间中较小的延迟编码较小的幅度,较长的延迟编码较大的幅度的假设下,MAX函数应该输出一个逻辑高只有当它的所有输入都已经到达(例如,“走高”)。因此,在它的输入导线之间只需要一个与门就可以实现它。图1 (a)显示此函数的对称性质;在输出响应之前,第一个到达的输入必须等待第二个到达。在MIN的情况下,该函数在第一个输入到达时输出逻辑高电平,因此只需要一个OR门图1 (b)

f1.jpg
图1。图(a)和(b)显示了比赛逻辑中MAX和MIN函数的实现。面板(c)表示的波形示例x= 2,y= 4。

此外,由于上升边的到达时间就是编码信息的时间,因此将0→1的转换延迟一定的时间相当于常数相加(ADD-CONSTANT)。根据实现的不同,可以用多种方式执行信号延迟。在传统的同步数字逻辑中,可以使用一系列触发器,如下所示图2.由缺电流逆变器构造的异步延迟元件可以为执行所需的延迟操作提供一种替代的、更节能的方法。11

f2.jpg
图2。在竞赛逻辑中,增加一个常数值k给一个变量x等于延缓了上升的边缘x通过k时钟周期。图(a)显示了如何在使用移位寄存器的传统同步数字逻辑中实现这种延迟。面板(b)显示了一个波形示例x= 2,k= 3。

最后,抑制功能,受到新皮层神经元突触后抑制电位行为的启发,20.作为一个非线性滤波器工作,它有两个输入:一个抑制信号和一个数据信号(被抑制)。如果抑制信号先到达,输出就不会再高(没有状态转移),在竞争逻辑世界中对应于∞。另一方面,如果数据信号在抑制信号之前到达或与抑制信号同时到达,则允许抑制信号不变通过。图3显示(a)用于的符号抑制j, (b)函数作为Mealy机的状态图,(c)和(d)两种可能的CMOS实现,以及(e)通过两个示例描述其功能的波形。一个更有效的实现(只包含一个PMOS通过门)也可以通过少量的定制实现。

f3.jpg
图3。面板(a)引入了从现在开始我们将用来表示INHIBIT操作符的符号。图(b)为对应的Mealy机状态图。每个过渡边都用输入值标记而且j以及输出的值。机器在正常状态启动年代O,表示该输入j是不是被抑制了,而状态s1表示相反;j被抑制。面板(c)和(d)显示在纯数字环境中操作者的两种可能实现。最后,面板(e)中的波形通过两个例子描述了INHIBIT的功能:(1)= 3,j= 2,和(2)' = 2和j' = 4。在这个和下面的例子中,我们假设输入信号中的从低到高的转换与时钟同步。

这四种操作使我们能够有意地在电路中设计“竞争条件”来执行有用的计算。该方案的能量效率来自于所需的极低的“总比特翻转”次数。与传统方法相比,竞争逻辑实现需要的连接更少,因为它们每个都可以保存一个多值信号(延迟)。此外,当信号前沿穿过电路时,这些导线最多通过一次逻辑评估从0翻转到1。虽然不是所有的计算都能接受这样的编码,但那些编码有可能只需要很少的能量就能运行。这项工作回答了一个悬而未决的问题,即这种逻辑是否适用于任何一般的学习或分类任务。

回到顶部

3.反思决策树

尽管单片神经网络在机器学习方面受到了架构界的极大关注,但决策树已被证明在许多情况下都非常有用,并且是实现可解释的、高性能AI系统的一个有前途的解决方案。决策树,顾名思义,创建了决策的层次结构,它由一组叶子(标签)和一组要做的决策(分支)组成,这些决策将导致这些标签。人们通常从根开始,然后沿着树向下寻找相关的答案。因此,分类被简化为一个二元决策序列。

*3.1.反向种族树

现有的竞赛逻辑实现,如DNA序列比对引擎,10通过观察注入电路的信号的相对传播时间来进行计算。按照这个例子,实现决策树的一种方法是将它们颠倒过来;我们可以把它们想象成反向树形网络,将可能的数据包从叶子路由到根。最初,一个唯一的延迟编码标签被分配给每个叶。然后这些标签互相竞争,当其中两个“相遇”时,只有一个被允许进一步传播。最后,只有与“正确的”叶子相关联的标签存活下来——网络输出的数据包不变,而其他所有的都在这个过程中被丢弃。

我们使用的决策树作为一个运行的例子是在图4 (a)图4 (b)的反向树中显示了四个临时编码标签的流程x= 2,y= 3,对应的波形如图所示图4 (c).中描述了其竞赛逻辑的实现图4 (d).上面的两个块,用红色和蓝色表示,对应树的内部节点(x≤1和y≤1),通过使用一个INHIBIT和一个MIN操作符来实现,而下面的黄色标注则稍微复杂一些Path可以接受多个值(任意一个标签C或标签D).

f4.jpg
图4。面板(a)描述了一个决策树示例。面板(b)显示了其“反向”等效以及四种时间编码标签的流程x= 2,y= 3。面板(c)显示了给定示例的相应波形。图(d)展示了它的竞赛逻辑实现。注意,叶标签与节点的分支起作用j,并且节点的属性(xy在本例中)充当抑制输入.考虑到竞争逻辑不支持减法和变量加法,路由到抑制的控制输入的属性必须相应地调整;例如,y≤1必须重写为y+ 1 < 3。

注意,当反转树时如果其节点中的条款应加以修订。例如,For labelD= 3,y节点≤1n2必须重写为y+ 1 < 3。来实现y+ 1 < 3,特征y必须延迟一个时钟周期。如前所述,当我们依赖现成的数字电路时,必须使用移位寄存器来执行常量加法。然而,这些计时组件的成本相对较高,理想情况下,应该限制它们的使用。

*3.2.平竞赛树

研究决策树的另一种方法是将其视为一组独立且并行的决策规则(而不是顺序的决策规则),这些规则在相应地组合后会导致最终的预测。1现在,每个叶节点都可以表示为一个逻辑函数,该函数表示在其通往根节点的路径上的节点所遇到的二进制决策。换句话说,树被“扁平化”了,从树根到叶子的每一条路径都对应于属性测试结果的唯一组合。所有这些独立并行执行背后的大思路如果子句见图5(一个).例如,只有当两者都到达时才到达最左边的叶节点nO和nl返回真正的的输出n2是无关紧要的。这些条件的结果显示出现的顺序并不影响最终的决定。

f5.jpg
图5。决策树可以被视为一组独立的决策规则,当它们被相应地组合起来时,会导致一个且只有一个叶子。因此,对应于每个节点(并导致这些决策)的阈值函数可以并行执行,如面板(a)所示。面板(b)描述了使用抑制的扁平化决策树的竞争逻辑实现,其中阈值扮演门的控制输入的角色。面板(c)展示了定义解码器功能的真值表。面板(d)显示的结果波形x= 2,y= 3。

图5 (b)介绍了在竞赛逻辑中这种扁平树的实现。与传统的数字逻辑方法相比,实现所需阈值函数的电路的大小和性能(每个节点是一个二进制决策)直接与相关属性和阈值的分辨率相关,这里不是这样的情况。在竞态逻辑中,一个数量级的范围可以在一条具有一条边的单线上编码。因此,每个树节点只需要一个抑制门。

此外,由于与各种树路径相关的决策是互斥的,最大阈值是静态已知的,从时域到二进制的转换无缝地发生,不需要任何特殊的电路。图5 (c)给出真值表,描述解码器的功能,将节点的决策与一个叶标签关联起来。图5 (d)的结果波形x= 2,y= 3。在本例中,最大阈值为2;因此,在2个时钟周期后,所有节点的决策都可以被认为是最终的,而的结果n0,n1,n2个条件可以在之后的任何时间读取。

回到顶部

4.的端到端体系结构

*4.1.从传感器到延迟编码输入

每当考虑一种不同的编码时,就应该考虑该编码的翻译成本。然而,竞争逻辑是传感器的一个自然的直接目标,因此我们可以考虑将感知和处理紧密结合在一起的情况。图6介绍了用于时态处理的端到端体系结构。

f6.jpg
图6。传感器内处理的端到端时间体系结构。

由于感觉输入在本质上是模拟的,大多数传感器从测量的电压或电流开始,然后通过adc转换为数字输出。adc通常返回数字二进制值;然而,考虑到时域信息现在对计算有用,这些组件的设计可以大大简化。例如,adc中昂贵的时间到数字转换(TDC)是多余的,可以跳过。6不需要TDCs就能直接提供时间编码输出的传感系统包括动态视觉传感器(DVS)、9异步基于时间的图像传感器,16第一次冲刺时间(TTFS)17和飞行时间(ToF)14摄像头和AER(地址事件表示)耳2声音传感器。

鉴于竞赛逻辑的性质和上述传感系统的性质,原始延迟编码数据可以直接提供给时间加速器,以实现更有效的传感器-加速器集成。

*4.2.可编程竞赛树架构

反向树编码和平树编码提供了两种实现竞争逻辑中的决策树的方法。反向树的想法是特别有趣的,因为它不同于任何其他网络。通常,在网络中,信息包的内容对于路由来说是惰性的。例如,在排序网络中,包值用于路由,但它们也具有网络外部的数字内容。12在反向树中,包是外部分配的具有符号意义的值,不包含有用的数字内容——这与Sudoku中的数字是象征性地使用,而不是数字的使用方式非常相似。然而,在网络内部,作为路由结构的一部分,包的值确实参与数值操作。

平树方法背后的思想要简单得多。这种简单性导致了更紧凑和高效的硬件设计-更少的移位寄存器和更小的互连网络需要。由于这些原因,我们认为平坦的树作为我们的设计选择在剩下的论文。图7提出了一种可编程的硬件设计体系结构图5

f7.jpg
图7。深度2的决策树的可编程竞赛逻辑加速器(在扁平化之前)。移位寄存器的长度是由输入特征的分辨率定义的,用于阈值的时间编码。在解码器右侧显示的内存块在树集成的情况下是有用的,其中加权投票方案遵循。

为了确保任何延迟编码的阈值和任何输入特性都可以路由到树的必要节点,我们使用了两个可配置的交叉条。解码器将抑制信号的输出转换为内存地址,由与门和逆变器组成。注意,虽然抑制是返回时间信号,采样输出形成一个典型的二进制向量。在下一次计算之前,电路必须复位。

图8提出了一种基于树的集成学习器的系统架构。为了保持时钟组件的低开销,我们将树组织成组,并共享相同的移位寄存器和缓冲区(用于生成延迟编码阈值和延迟编码输入特性的本地缓冲)。当然,横木的成本随着这些团体的规模而增加。为了获得最大效率,应该进一步分析这种权衡;交叉栅可以被任何其他更有效的可配置路由网络所取代,而不会对系统的功能产生任何影响。最后,由于从存储器中检索的数据是常规的二进制编码,加权投票方案的实现是基于典型的二进制加法器。一旦对所有树的预测值进行汇总,就会对它们进行比较,找出得分最高的类,并确定系统的最终“猜测”。

f8.jpg
图8。中所示的架构的低层图图6.所示电路为基于树的集成学习器实现了一个可配置的竞赛逻辑加速器。

回到顶部

5.评价

*5.1.方法

为了评估提议的设计并确定进一步改进的机会,我们为我们的建筑的基本组件创建了分析和经验的权力和区域模型。我们还构建了一个基于python的开发流程,如图9,它与流行的scikit-learn图书馆相连接15并利用硬件模板和PyRTL的强大功能4- Python嵌入式硬件设计语言-生成可合成的RTL代码。更具体地说,一旦模型经过训练,该工具就会分析输入特征的重要性,研究学习者对低分辨率数据的表现,进行投票(树叶内容)量化,生成定制的硬件设计或配置文件,并执行交叉检查验证。为了获得预期的实现结果,我们使用了开源工具2224和一个公开的14纳米标准细胞库。3.工作电压为0.55 V,工作频率为1000 MHz。在我们的能量和吞吐量计算中,我们假设一个500兆赫兹的时钟,为了弥补电线负载模型的不足,我们没有缩放我们的功率数字;在这种假设下,每次操作消耗的能量是其标称能量的两倍。19

f9.jpg
图9。所开发的工具链概述。对于培训部分,使用开源的scikit-learn框架15使用。该工具(a)为用户提供量化输入特征和/或树的投票的选项,(b)支持自动生成竞赛树电路或直接从scikit-learn结构配置可编程体系结构,(c)使用分析体系结构模型协助权衡分析,(d)通过与软件模型的交叉检查促进硬件设计评估。

*5.2.实现结果

近年来,硬件加速机器学习活动的爆发导致了各种各样的ASIC架构,我们可以使用它们进行比较。虽然MNIST非常简单,但它足够复杂,足以演示所涉及的原理,而且因为它是极低功耗分类器环境中最常用的数据集,便于与最先进的技术进行比较。

在提出的竞赛树-由绿色圆点代表-和最先进的低功率分类器之间的准确性与能量的比较显示在图10.此外,图11举例说明了准确性和能量延迟产品的比较,这更好地说明了效率差距之间的竞争树和它的同行。用于训练比赛树的技术是梯度提升。我们注意到,我们没有进行任何参数微调来提高学习者的表现,种族逻辑也没有引入任何不准确的来源。

f10.jpg
图10。最先进的机器学习加速器的精度与能量散点图:23b,7c,18d,8e,5f。5为了便于比较,所有结果都被缩放到28纳米。绿色的点代表竞赛树。

f11.jpg
图11。最先进的机器学习加速器的精度与能量延迟乘积散点图:7c,18e,5f。5绿色的点代表竞赛树。

更详细地说,由深度6的1000棵竞赛树组成的分类器(在扁平化之前)获得了97.45%的准确率,每个预测消耗31.35 nJ的能量。一个更有效的解决方案,包括200棵深度为6的树,实现了95.7%的性能,每次预测的能量数字低至7.8 nJ。通过将树的深度增加到8,精度提高了0.5%。这种改进是以每次预测增加16.1 nJ的能量为代价的。更多的结果可以在表1

t1.jpg
表1。Yosys公司生产的硬连线种族树的合成结果24使用公开可用的14nm标准电池库3.

回到顶部

6.结论

如果机器学习是引擎,那么原始数据就是燃料,大多数方法都会消耗大量的原始数据。随着机器学习技术不断在广泛的计算任务中找到新的引人注目的应用,将计算能力带入我们最低功耗设备的愿望只会继续增长。在不使用大量能量的情况下应用这些复杂的算法仍然是一个重要的挑战,数据表示的选择是一个重要的跨层因素,影响从传感器到最终产品的学习。在本文中,我们展示了现代决策树算法、竞争逻辑的新进展和底层传感器本身之间的自然关系,为极其高效的分类提供了新的机会。虽然很少遇到同时对所有三个传感器、学习算法和架构层都有利的变化,但延迟码似乎是如此罕见。其他人已经表明,从模拟的角度来看,保持信号原样,并将其转换为种族编码比将其转换为纯数字表示更有利。在算法层面,几乎不需要进行任何更改—只需注意现有决策树算法的深度和配置即可。在架构级别,对于这些考虑事项的改进在硬连线和可编程配置中都是显著的。所得到的系统具有较浅的关键路径,并且当计算在种族树中传播时,引起的比特转移非常少。演示这种行为的示例设计可以在我们的GitHub存储库中找到。一个

展望未来,传统CMOS缩放技术的终结重新激发了对新型计算模型的探索和对数字/模拟边界的重新思考。由于我们交付有用计算的能力受到能源消耗的完全限制,目标从以尽可能低的延迟执行操作转向尽可能高的效率。我们认为,这项工作是朝着这个方向迈出的重要一步,并促使人们认真地重新考虑模拟世界和数字世界之间的接口。当目标是在本地处理传感器数据时,数据表示的选择不仅会影响计算发生的方式,还会决定所需转换器的结构和效率,这通常会对系统性能造成不可忽略的开销。虽然我们还没有明确地考虑在电路级别上避免完全过渡到二进制可能带来的效率增益,但有理由相信它可能是显著的。13事实上,作为一个更普遍的命题,时间计算模型可能还有许多其他优点,甚至可能作为一种编码更普遍的学习系统的方式,灵感来自神经计算20.或者使新兴电路技术成为可能。21

回到顶部

致谢

本材料基于国家自然科学基金资助项目(1763699、1740352、1730309、1717779、156393)。

Advait Madhavan在马里兰大学和国家标准与技术研究所物理测量实验室的合作研究协议下表示支持。获得马里兰大学颁发的70NANB 14H209奖。

迪利普·瓦苏代万得到了高级科学计算研究(ASCR)项目的支持,并得到了美国能源部科学办公室的资助。劳伦斯伯克利国家实验室根据合同编号。DE-AC02-05CH11231。

最后但并非最不重要的是,作者要感谢James E. Smith、Jennifer Volk、Georgios Michelogiannakis、David Donofrio、John Shalf和匿名评论者的有益评论。

回到顶部

参考文献

1.一种使用bagging阈值网络集成的紧凑的3d vlsi分类器。IEEE反式。神经。学习。14系统。, 5(2003), 1097-1109。

2.Chan, V., Liu, s.c., van Schaik, a . Aer耳:具有地址事件表示接口的匹配硅耳蜗对。IEEE跨电路系统I规范电路1(2007), 48-59。

3.陈珊珊,王艳,林晓霞,谢倩,陈珊珊,王艳。基于多阈值7nm finfet的多电压下电路性能预测的跨层仿真框架。在2014 soi - 3d亚阈值微电子技术统一大会(Millbrae, CA, 2014), 1-2。doi:10.1109 / S3S.2014.7028218https://ieeexplore.ieee.org/document/7028218

4.cllow, J., Tzimpragos, G., Dangwal, D., Guo, S., McMahan, J., Sherwood, T.一种快速硬件原型和仪器的python方法。在2017第27届现场可编程逻辑与应用国际会议(FPL)(根特,2017),1-7,doi:10.23919 / FPL.2017.8056860https://ieeexplore.ieee.org/document/8056860

5.Esser, S.K, Appuswamy, R., Merolla, P., Arthur, J.V, Modha, D.S.反向传播节能神经形态计算。在神经信息处理系统研究进展, 2015, 1117 - 1125。https://papers.nips.cc/paper/2015/hash/10a5ab2db37feedfdeaab192ead4ac0e-Abstract.html

6.郭晓峰,祁晓峰,王志刚。一种时间-首脉冲cmos图像传感器。7 .8(2007), 1165 - 1175。

7.陈涛,张志。一种基于片上学习的640M像素/s 3.65mW稀疏事件驱动的神经形态目标识别处理器。在2015超大规模集成电路研讨会(VLSI Circuits)(京都,2015),C50-C51, doi:10.1109 / VLSIC.2015.7231323https://ieeexplore.ieee.org/document/7231323

8.龚,J., Kim, D., Mukhopadhyay, S.一种基于反向传播驱动近似突触的功率感知数字前馈神经网络平台。在2015年IEEE/ACM低功耗电子与设计国际研讨会(ISLPED)。IEEE 2015, 85 - 90。

9.Lichtsteiner, P., Posch, C., Delbruck, T.一种128x128 120db 15/μs延迟异步时间对比视觉传感器。IEEE j . Solid-St。中国保监会43。2(2008) 566 - 576。

10.Madhavan, A., Sherwood, T., Strukov, D.竞赛逻辑:动态规划算法的硬件加速。第一版。架构师。新闻423(2014), 517 - 528。

11.Madhavan, A., Sherwood, T., Strukov, D.异步竞赛的能源高效计算。在2016第53届ACM/EDAC/IEEE设计自动化大会(DAC)(奥斯汀,德克萨斯州,2016),1-6。doi:10.1145/2897937.2898019https://ieeexplore.ieee.org/document/7544351

12.Najafi, M.H, Lilja, D.J, Riedel, M., Bazargan, K.使用一元处理的功率和面积高效排序网络。在2017 IEEE计算机设计国际会议(ICCD)(波士顿,MA, 2017), 125-128。doi:10.1109 / ICCD.2017.27https://ieeexplore.ieee.org/document/8119200

13.基于时间的模拟到数字转换器,2009。https://oatd.org/oatd/record?record=handle%5C%3A2027.42%5C%2F64787

14.Niclass, C., Soga, M., Matsubara, H., Kato, S., Kagami, M.一个100米范围10帧/秒340x96像素飞行时间深度传感器,采用0.18-μm cmos。IEEE j . Solid-St。中国保监会。48岁的2(2013),559 - 572。

15.Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., pretenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot M., Duchesnay, E. scikitt -learn: Python中的机器学习。j·马赫。学习。> 12(2011), 2825 - 2830。

16.Posch, C., Matolin, D., wohlgen南特,R. Hofstäatter, M., Schäon, P., Litzenberger, M., Bauer, D., Garn, H.仿生无帧hdr相机,带有事件驱动的pwm图像/视频传感器和全定制地址事件处理器。在2010 IEEE生物医学电路与系统会议(BioCAS)。IEEE 2010, 254 - 257。

17.齐晓峰,郭晓峰,王建军。一种时间到首次脉冲CMOS成像仪。在2004年IEEE电路与系统国际学术会议。No.04CH37512)(温哥华公元前,2004)。4 - 824。doi:10.1109 / ISCAS.2004.1329131https://ieeexplore.ieee.org/document/1329131

18.Reagen, B., Whatmough, P., Adolf, R., Rama, S., Lee, H., Lee, S.K., Hernández-Lobato, j.m., Wei, g.y., Brooks, D. Minerva:启用低功率,高度精确的深度神经网络加速器。在第43届计算机体系结构国际研讨会论文集(ISCA '16)(2016)。IEEE出版社,267 - 278。doi:10.1109 / ISCA.2016.32https://dl.acm.org/doi/10.1145/3007787.3001165

19.Shalf, J., Dosanjh, S., Morrison, J. Exascale计算技术挑战。在计算科学的高性能计算。J. M. L. M. Palma, M. Daydé, O. Marques, J. C. Lopes编。施普林格柏林海德堡,柏林,海德堡,2011,1 - 25。

20.时空代数:新皮层计算的模型。在2018年ACM/IEEE第45届计算机体系结构国际年会(ISCA)(加州,洛杉矶,2018),289-300。doi:10.1109 / ISCA.2018.00033https://ieeexplore.ieee.org/document/8416835

21.Tzimpragos, G., Vasudevan, D., Tsiskaridze, N., Michelogiannakis, G., Madhavan, A., Volk, J., Shalf, J., Sherwood, T.超导加速器的计算时间逻辑。在第25届编程语言和操作系统体系结构支持国际会议论文集, ASPLOS 20。计算机协会,纽约,纽约,美国,2020,435-448。

22.Vasudevan, D., Butko, A., Michelogiannakis, G., Donofrio, D., Shalf, J.致力于使用新兴技术来保持数字计算性能缩放的综合策略。在高性能计算。J. M. Kunkel, R. Yokota, M. Taufer和J. Shalf编。国际出版,2017,115-123。

23.Whatmough, P.N., Lee, S.K., Lee, H, Rama, S., Brooks, D., Wei, G. 14.3一个28nm SoC,具有1.2 GHz 568nJ/预测稀疏深度神经网络引擎,具有> 0.1定时错误率容错,用于物联网应用。在2017 IEEE国际固态电路会议(ISSCC)。(加州,旧金山,2017),242-243。doi:10.1109 / ISSCC.2017.7870351https://ieeexplore.ieee.org/document/7870351

24.Wolf, C., Glaser, J. yosys -免费verilog合成套件。在Austrochip学报》(2013)。https://www.semanticscholar.org/paper/Yosys-A-Free-Verilog-Synthesis-Suite-Wolf-Glaser/65b4all36599d74ada27ce5226f02dda06d2ccda

回到顶部

作者

乔治·Tzimpragosgtzimpragos@cs.ucsb.edu),美国加州大学圣巴巴拉分校计算机科学系。

Advait Madhavanadvait.madhavan@nist.gov),美国国家标准与技术研究所物理测量实验室,盖瑟斯堡,MD,美国。

Dilip Vasudevandilipv@lbl.gov),劳伦斯伯克利国家实验室,加州伯克利,美国。

Dmitri Strukovstrukov@ece.ucsb.edu),加州大学圣巴巴拉分校电子与计算机工程系,圣巴巴拉,加州,美国。

蒂莫西·舍伍德sherwood@cs.ucsb.edu),美国加州大学圣巴巴拉分校计算机科学系。

回到顶部

脚注

一个。https://github.com/UCSBarchlab/RaceLogic

这篇论文的原始版本名为“为低能量分类的加速赛跑树”,发表在24年会议纪要th编程语言和操作系统体系结构支持国际会议, ACM,纽约,美国,纽约,215-228;https://doi.org/10.1145/3297858.3304036


cacm_ccby.gif本作品采用知识共享署名国际4.0许可协议。

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc。


没有发现记录

Baidu
map