acm-header
登录gydF4y2Ba

ACM通信gydF4y2Ba

贡献的文章gydF4y2Ba

绿色的人工智能gydF4y2Ba


AI修剪成形的gydF4y2Ba

信贷:丽莎希恩gydF4y2Ba

自2012年以来,人工智能(AI)领域在包括物体识别、游戏玩法、语音识别和机器翻译在内的广泛能力方面取得了显著进展。gydF4y2Ba43gydF4y2Ba这些进步大部分是通过日益庞大和计算密集型的深度学习模型实现的。gydF4y2Ba一个gydF4y2Ba图1gydF4y2Ba,转载自Amodei等人,gydF4y2Ba2gydF4y2Ba绘制了2012年从AlexNet开始的最先进深度学习模型随着时间的推移而增加的培训成本gydF4y2Ba24gydF4y2Ba到2017年的AlphaZero。gydF4y2Ba45gydF4y2Ba图表显示,总体增长了30万倍,培训成本每隔几个月就翻一番。通过观察ELMo,可以在NLP词嵌入方法中观察到更明显的趋势gydF4y2Ba34gydF4y2Ba其次是伯特,gydF4y2Ba8gydF4y2BaopenGPT-2,gydF4y2Ba35gydF4y2BaXLNet,gydF4y2Ba56gydF4y2BaMegatron-LM,gydF4y2Ba42gydF4y2BaT5,gydF4y2Ba36gydF4y2Ba和GPT-3。gydF4y2Ba4gydF4y2Ba一个重要的论文gydF4y2Ba47gydF4y2Ba他估计了几种NLP模型的碳足迹,并认为这种趋势既对环境不友好,又过于昂贵,增加了参与NLP研究的障碍。我们把这种工作称为gydF4y2Ba红色的人工智能gydF4y2Ba.gydF4y2Ba

f1.jpggydF4y2Ba
图1。用于训练深度学习模型的计算量在六年内增加了30万倍。图取自Amodei等人。gydF4y2Ba2gydF4y2Ba

回到顶部gydF4y2Ba

关键的见解gydF4y2Ba

ins01.gifgydF4y2Ba

这种趋势是由人工智能社区对获得“最先进”结果的强烈关注所驱动的,gydF4y2BabgydF4y2Ba排行榜的流行就是一个例子,gydF4y2Ba53gydF4y2Ba,gydF4y2Ba54gydF4y2Ba它们通常只报告准确性(或其他类似的度量),但忽略了成本或效率(例如,参见gydF4y2Baleaderboards.allenai.orggydF4y2Ba).gydF4y2BacgydF4y2Ba尽管提高模型精度有明显的好处,但专注于这一单一指标忽略了达到报告结果的经济、环境和社会成本。gydF4y2Ba

我们主张增加在……方面的研究活动gydF4y2Ba绿色的人工智能gydF4y2Ba-更环保、更包容的人工智能研究。我们强调,gydF4y2Ba红色的人工智能gydF4y2Ba研究一直在为该领域做出有价值的科学贡献,但它一直过于主导。我们想把天平转向gydF4y2Ba绿色的人工智能gydF4y2Ba选项——确保任何拥有笔记本电脑的有灵感的大学生都有机会写出高质量的论文,并能在重要的研究会议上被接受。具体来说,我们建议将效率与准确性和相关措施一起作为人工智能论文的更普遍的评价标准。gydF4y2Ba

在许多方面,人工智能研究的计算成本可能很高,但每种方法都提供了有效改进的机会;例如,论文可以将绩效绘制为训练集规模的函数,以便在未来的工作中比较绩效,即使培训预算很小。报告开发、训练和运行模型的计算价格标签是一个关键gydF4y2Ba绿色的人工智能gydF4y2Ba除了提供透明度,价格标签是其他研究人员可以改进的基准。gydF4y2Ba

我们的实证分析gydF4y2Ba图2gydF4y2Ba表明人工智能研究社区对计算效率的关注相对较少。事实上,正如gydF4y2Ba图1gydF4y2Ba例如,高预算研究的计算成本正以指数级增长,其速度远远超过摩尔定律。gydF4y2Ba33gydF4y2Ba红色的人工智能gydF4y2Ba尽管众所周知的成本增加带来的收益递减(例如,gydF4y2Ba图3gydF4y2Ba).gydF4y2Ba

f2.jpggydF4y2Ba
图2。人工智能论文的目标往往是准确性,而不是效率。该图显示了从顶级AI会议上随机抽取的60篇论文中,以准确性、效率或两者兼顾为目标的论文的比例。gydF4y2Ba

f3.jpggydF4y2Ba
图3。在更多数据上训练的收益递减:目标检测的准确性随着训练示例的数量呈指数增长而线性增加。gydF4y2Ba30.gydF4y2Ba

这篇文章指出了导致gydF4y2Ba红色的人工智能gydF4y2Ba并主张引入一种简单、易于计算的效率指标,这可能有助于使一些人工智能研究更环保、更包容,或许还更具有认知上的合理性。gydF4y2Ba绿色的人工智能gydF4y2Ba对环境友好的科学研究(例如,参见gydF4y2Ba绿色化学杂志gydF4y2Ba).特别是计算机科学,在研究可持续和节能计算方面有着悠久的历史(例如,参见gydF4y2Ba可持续计算:信息学与系统gydF4y2Ba).gydF4y2Ba

在这篇文章中,我们分析了将深度学习研究转移到的实践gydF4y2Ba红色的人工智能gydF4y2Ba.然后我们讨论……的建议gydF4y2Ba绿色的人工智能gydF4y2Ba并考虑相关工作,以及未来的研究方向。gydF4y2Ba

回到顶部gydF4y2Ba

红色的人工智能gydF4y2Ba

红色的人工智能gydF4y2Ba指的是通过使用大量计算能力来寻求提高准确性(或相关措施)的人工智能研究,而不考虑成本——本质上是“购买”更强的结果。然而,模型性能和模型复杂性(以参数数量或推断时间来衡量)之间的关系长期以来被理解为最好的对数关系;对于性能的线性增益,需要一个指数级大的模型。gydF4y2Ba20.gydF4y2Ba随着训练数据数量的增加,也出现了类似的趋势gydF4y2Ba14gydF4y2Ba,gydF4y2Ba48gydF4y2Ba还有实验的次数。gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba在上述每一种情况下,递减收益都伴随着计算成本的增加。gydF4y2Ba

本节将分析促成的因素gydF4y2Ba红色的人工智能gydF4y2Ba并展示了随着时间的推移,它是如何导致收益递减的gydF4y2Ba图3gydF4y2Ba).我们注意到,gydF4y2Ba红色的人工智能gydF4y2Ba工作是有价值的,事实上,它通过推动人工智能的边界,对我们所知道的做出了很大贡献。我们在这里的阐述是为了突出计算成本高的领域,并将每个领域作为开发更有效技术的机会。gydF4y2Ba

证明…的流行gydF4y2Ba红色的人工智能gydF4y2Ba,我们从顶级AI会议(ACL、NeurIPS和CVPR)中随机抽样了60篇论文。gydF4y2BadgydF4y2Ba对于每一篇论文,我们注意到作者是否声称他们的主要贡献是(a)提高了准确性或一些相关措施,(b)提高了效率,(c)两者都有,还是(d)其他。所示gydF4y2Ba图2gydF4y2Ba在我们考虑的所有会议中,绝大多数论文的目标是准确性(90%的ACL论文,80%的NeurIPS论文和75%的CVPR论文)。此外,对于经验AI会议(ACL和CVPR),只有一小部分(分别为10%和20%)主张新的效率结果。gydF4y2BaegydF4y2Ba这凸显了人工智能社区对准确性等性能指标的关注,而忽视了速度或模型规模等效率指标。在这篇文章中,我们认为后者应该得到更大的重视。gydF4y2Ba

为了更好地理解人工智能研究的不同方式,可以考虑一篇科学论文中报告的人工智能结果。这个结果典型地描述了在训练数据集上训练的模型和在测试数据集上评估的模型,开发该模型的过程通常涉及多次实验来调优其超参数。因此,我们考虑三个维度,它们捕获了获得这样一个结果的大部分计算成本:在单个(gydF4y2BaEgydF4y2Ba)示例(在训练或推理时);培训的规模(gydF4y2BaDgydF4y2Ba) atset,它控制模型在训练过程中执行的次数,以及(gydF4y2BaHgydF4y2Ba)的yperparameter实验,它控制了在模型开发过程中训练模型的次数。生产一个(的总成本)gydF4y2BaRgydF4y2Ba)的结果,机器学习能力会随着这些数量的增加而线性增长。这笔费用可以估计如下:gydF4y2Ba

ueq01.gifgydF4y2Ba

方程1是一个简化(例如,不同的超参数赋值会导致处理单个示例的不同成本)。它还忽略了其他因素,如训练周期的数量或数据增强。尽管如此,它说明了三个量,每个量都是产生结果的总成本的重要因素。接下来,我们分别考虑每个量。gydF4y2Ba

一个例子的昂贵处理。gydF4y2Ba我们的重点是神经模型,其中的每个训练步骤通常都需要推理,因此我们将训练和推理成本作为一个示例的“处理”来讨论(尽管参见下面的讨论)。一些工作使用了越来越大的模型,例如,模型参数,因此,在这些模型中,执行推断可能需要大量的计算,训练甚至更多。例如,谷歌是BERT-largegydF4y2Ba8gydF4y2Ba包含大约3.5亿个参数。OpenAI openGPT2-XL模型gydF4y2Ba35gydF4y2Ba包含15亿个参数。AI2,我们的家庭组织,发布了Grover,gydF4y2Ba57gydF4y2Ba也包含15亿个参数。英伟达Megatron-LM发布gydF4y2Ba42gydF4y2Ba包含超过80亿个参数。谷歌的T5-11BgydF4y2Ba36gydF4y2Ba包含110亿个参数。最近,openAI发布了openGPT-3,gydF4y2Ba4gydF4y2Ba包含1750亿个参数。在计算机视觉领域,也观察到类似的趋势(gydF4y2Ba图1gydF4y2Ba).gydF4y2Ba

这样大的模型处理每个示例的成本很高,这导致了很大的培训成本。BERT-large在64个TPU芯片上训练了四天,估计花费7000美元。格罗弗在256个TPU芯片上接受了两周的训练,估计花费2.5万美元。XLNet具有与BERT-large类似的体系结构,但使用了更昂贵的目标函数(除了多一个数量级的数据),并且在512个TPU芯片上进行了2.5天的训练,花费超过60,000美元。gydF4y2BafgydF4y2Ba使用单一的GPU不可能再现最佳的BERT-large结果或XLNet结果,gydF4y2BaggydF4y2BaopenGPT2等模型太大,无法在生产中使用。gydF4y2BahgydF4y2Ba专门的模型可能会有更极端的成本,比如AlphaGo,最好的版本需要1920个cpu和280个gpu来下一盘围棋,gydF4y2Ba44gydF4y2Ba重新进行这个实验的估计成本是三千五百万美元。gydF4y2Ba我gydF4y2Ba,gydF4y2BajgydF4y2Ba

当检查单个模型的变体(例如,BERT-small和BERT-large)时,我们看到较大的模型可以有更强的性能,这是一个有价值的科学贡献。然而,这意味着越来越大的AI模型的财务和环境成本不会很快降低,因为模型增长的速度远远超过由此带来的模型性能的提高。gydF4y2Ba18gydF4y2Ba因此,将需要越来越多的资源来通过简单地扩大AI模型来不断改进它们。gydF4y2Ba

最后,我们注意到,在某些情况下,处理一个示例的价格可能在培训和测试时不同。例如,一些方法通过在大训练模型的基础上学习更小的模型来实现高效推理。这些模式往往不会导致更有效的培训,因为成本gydF4y2BaEgydF4y2Ba仅在推理时减少。生产中使用的模型的计算成本通常由推理而不是训练所主导,但在研究中训练通常要频繁得多,因此我们提倡研究方法,以便在训练和推理中都能有效地处理一个例子。gydF4y2Ba

处理许多例子。gydF4y2Ba训练数据的增加也促进了人工智能最先进性能的进步。BERT-large在训练了30亿个单词后,在2018年的许多NLP任务中表现最佳。XLNet在训练了320亿个单词后,包括部分Common Crawl,表现优于BERT;openGPT-2-XL训练了400亿个单词;公平的罗伯塔gydF4y2Ba28gydF4y2Ba训练160GB的文本,大约400亿个单词,需要大约25000个GPU小时来训练。T5-11BgydF4y2Ba36gydF4y2Ba训练了1万亿代币,是BERT-large的300倍。在计算机视觉方面,来自Facebook的研究人员gydF4y2Ba30.gydF4y2Ba对来自Instagram的35亿张图片预先训练图像分类模型,比现有的标记图像数据集(如Open images)大三个数量级。gydF4y2BakgydF4y2Ba

大量数据的使用给许多研究人员在复制这些模型的结果和在相同的设置下训练他们自己的模型带来了障碍(特别是训练多个时代是标准的)。例如,2019年7月的Common Crawl包含242TB的未压缩数据,gydF4y2BalgydF4y2Ba因此,即使是存储数据也是昂贵的。最后,就像在模型大小的情况下一样,依靠更多的数据来提高性能是非常昂贵的,因为增加更多数据的回报递减。gydF4y2Ba48gydF4y2Ba例如,gydF4y2Ba图3gydF4y2Ba,取自Mahajan et al.,gydF4y2Ba30.gydF4y2Ba显示了目标识别的top-1精度与训练样例数量之间的对数关系。gydF4y2Ba

大量的实验。gydF4y2Ba一些项目投入了大量的计算来调整超参数或搜索神经结构,这远远超出了大多数研究人员的能力范围。例如,谷歌的研究人员gydF4y2Ba59gydF4y2Ba训练超过12,800个神经网络在他们的神经架构搜索,以提高性能的对象检测和语言建模。通过一个固定的架构,来自DeepMind的研究人员gydF4y2Ba31gydF4y2Ba评估了1500个超参数赋值来证明LSTM语言模型gydF4y2Ba17gydF4y2Ba能达到最先进的困惑结果。尽管这一结果表明LSTM的性能在经过几次超参数试验后不会趋于稳定,但要充分探索其他竞争模型的潜力进行公平比较是非常昂贵的。gydF4y2Ba

大量增加实验数量的价值并没有像前面讨论的前两个那样得到充分的研究。事实上,在模型构建过程中进行的实验数量经常被低估。尽管如此,这里也存在对数关系的证据。gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba

讨论。gydF4y2Ba人工智能实验成本的增加为开发更有效的人工智能方法提供了自然的经济动力。在某种程度上,价格可能会太高,甚至迫使拥有巨额预算的研究人员开发更有效的方法。我们的分析gydF4y2Ba图2gydF4y2Ba这表明,目前大多数工作仍致力于准确性,而不是效率。与此同时,人工智能技术的培训或执行成本已经非常高,这限制了许多研究人员研究它的能力,也限制了实践者采用它的能力。结合人工智能的环境价格标签,gydF4y2Ba47gydF4y2Ba我们认为应该在高效的人工智能解决方案上投入更多的努力。gydF4y2Ba

我们想重申这一点gydF4y2Ba红色的人工智能gydF4y2Ba工作是非常有价值的,事实上,它的大部分有助于我们了解如何推动人工智能的边界。事实上,突破模型大小、数据集大小和超参数搜索预算的限制是有价值的。gydF4y2Ba

此外,gydF4y2Ba红色的人工智能gydF4y2Ba可以为以后的工作提供机会,提高工作效率;例如,在不同数量的训练数据上评估一个模型将为未来的研究人员提供一个机会,在工作的基础上进行开发,而不需要足够大的预算来训练大量的数据集。目前,尽管在最近的AI模型上投入了大量的资源,但这种投资在下游性能方面仍有回报(尽管回报率越来越低)。找到饱和点(如果存在的话)是AI未来的一个重要问题。此外,gydF4y2Ba红色的人工智能gydF4y2Ba成本有时甚至可以摊销,因为gydF4y2Ba红色的人工智能gydF4y2Ba训练过的模块可以被许多研究项目作为内置组件重用,不需要再训练。gydF4y2Ba

这篇文章的目的有两个:首先,我们想要提高对成本的认识gydF4y2Ba红色的人工智能gydF4y2Ba并鼓励使用这种方法的研究人员采取措施进行更公平的比较,例如报告训练曲线。其次,我们希望鼓励人工智能社区认识到研究人员的工作价值,他们走不同的道路,优化效率而不是精度。接下来,我们将讨论使人工智能更加绿色的具体措施。gydF4y2Ba

回到顶部gydF4y2Ba

绿色的人工智能gydF4y2Ba

这个词gydF4y2Ba绿色的人工智能gydF4y2Ba指的是在考虑计算成本的同时产生新颖结果的人工智能研究,鼓励减少资源消耗。而gydF4y2Ba红色的人工智能gydF4y2Ba导致计算成本(以及碳成本)迅速上升,gydF4y2Ba绿色的人工智能gydF4y2Ba促进具有良好性能/效率权衡的方法。如果效率度量与准确性一起被广泛接受为重要的研究评估指标,那么研究人员就可以选择专注于对包容性和环境都有积极影响的模型的效率。在这里,我们回顾了几种可以报告和优化的效率度量,并提倡一种特定的度量—fpo—我们认为在人工智能研究成果发表时应该报告它。gydF4y2Ba


一些项目投入了大量的计算来调整超参数或搜索神经结构,这远远超出了大多数研究人员的能力范围。gydF4y2Ba


效率的措施。gydF4y2Ba为了衡量效率,我们建议报告生成结果所需的工作量。具体来说,就是训练一个模型所需的工作量,如果适用的话,是所有超参数调优实验所需的总工作量。当一个实验的成本分解为单个例子的处理成本、数据集的大小和实验的次数(等式1)时,减少这些步骤中的每个步骤的工作量将导致AI更加绿色。gydF4y2Ba

我们确实鼓励人工智能从业者使用高效的硬件来降低能源成本,但近年来观察到的计算成本的急剧增加主要来自建模和算法的选择;我们的重点是如何将效率纳入其中。当报告一个模型所完成的工作量时,我们希望度量一个允许不同模型之间进行公平比较的量。因此,理想情况下,该度量在不同的实验室、不同的时间和使用不同的硬件时应该是稳定的。gydF4y2Ba

碳排放。gydF4y2Ba碳排放很有吸引力,因为它是我们想直接最小化的量。尽管如此,很难测量训练或执行一个模型并由此产生人工智能结果所释放的确切碳量,因为这个量高度依赖于当地的电力基础设施(尽管见Henderson等人的初步努力)。gydF4y2Ba16gydF4y2Ba和Lacoste等人。gydF4y2Ba25gydF4y2Ba).因此,在不同地点甚至同一地点不同时间的研究人员之间是不具有可比性的。gydF4y2Ba16gydF4y2Ba

电力使用。gydF4y2Ba用电量与碳排放相关,但与时间和地点无关。此外,gpu经常报告每个时间点上每个核心的耗电量,这有助于通过生成AI结果来估计总耗电量。尽管如此,这种度量是依赖于硬件的,因此不允许在不同机器上开发的不同模型之间进行公平的比较。gydF4y2Ba

实时运行。gydF4y2Ba生成AI结果的总运行时间是衡量效率的自然标准,在其他条件相同的情况下,速度更快的模型所做的计算工作更少。尽管如此,这一度量受到诸如底层硬件、在同一台机器上运行的其他作业以及所使用的内核数量等因素的高度影响。这些因素阻碍了不同模型之间的比较,以及从硬件改进中分离建模贡献。gydF4y2Ba

数量的参数。gydF4y2Ba另一种常用的效率度量方法是模型使用的参数数量(可学习的或总的)。与运行时一样,该度量与工作量相关。与前面描述的其他度量不同,它不依赖于底层硬件。此外,该度量还与模型消耗的内存量高度相关。尽管如此,不同的算法使用不同的参数,例如使模型更深或更宽。因此,具有相似数量参数的不同模型通常执行不同数量的工作。gydF4y2Ba

FPO。gydF4y2Ba作为一种具体的度量方法,我们建议报告生成结果所需的浮点操作(FPO)的总数。gydF4y2Ba米gydF4y2BaFPO提供了计算过程所执行工作量的估计。它是通过定义两个基本操作(ADD和MUL)的成本进行分析计算的。基于这些操作,任何机器学习抽象操作(例如,tanh操作、矩阵乘法、卷积操作或BERT模型)的FPO成本都可以计算为这两个操作的递归函数。FPO过去曾被用于量化模型的能源足迹,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba32gydF4y2Ba,gydF4y2Ba50gydF4y2Ba,gydF4y2Ba51gydF4y2Ba但在人工智能领域并没有被广泛采用。FPO有几个吸引人的特性。首先,它直接计算运行的机器在执行模型的特定实例时所做的工作量,因此与消耗的能量量有关。其次,FPO与运行模型的硬件无关。这有助于不同方法之间的公平比较,不像上面描述的方法。第三,FPO通常与模型的运行时间相关gydF4y2Ba5gydF4y2Ba(尽管参见下面的讨论)。与渐近运行时不同,FPO还考虑每个时间步上所做的工作量。gydF4y2Ba


这个词gydF4y2Ba绿色的人工智能gydF4y2Ba指的是在考虑计算成本的同时产生新颖结果的人工智能研究,鼓励减少资源消耗。gydF4y2Ba


在不同的神经网络库中有一些用于计算FPO的包,gydF4y2BangydF4y2Ba尽管它们都不包含构建所有现代AI模型所需的所有构建模块。我们鼓励神经网络库的构建者直接实现这样的功能。gydF4y2Ba

讨论。gydF4y2Ba高效的机器学习方法已经在研究界得到了关注,但通常不是由绿色驱动的。例如,计算机视觉社区的大量工作致力于高效推断,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba38gydF4y2Ba,gydF4y2Ba58gydF4y2Ba这对于自动驾驶汽车等应用的实时图像处理是必要的,gydF4y2Ba27gydF4y2Ba,gydF4y2Ba29gydF4y2Ba,gydF4y2Ba37gydF4y2Ba或者将模型放置在移动电话等设备上。gydF4y2Ba18gydF4y2Ba,gydF4y2Ba40gydF4y2Ba这些方法中的大多数都只最小化了处理单个示例的成本,而忽略了前面讨论的其他两个红色实践。gydF4y2BaogydF4y2Ba其他提高效率的方法旨在开发更高效的架构,从采用图形处理单元(GPU)到AI算法(这是深度学习革命背后的驱动力),一直到最近发展的硬件,如张量处理单元(tpu)gydF4y2Ba22gydF4y2Ba).gydF4y2Ba

这里的例子表明,让人工智能变得绿色的路径取决于如何使用它。在开发一个新模型时,很多研究过程都涉及到在一个训练集上训练许多模型变量,并在一个小的开发集上执行推理。在这样的设置中,更有效的训练程序可以带来更大的节省,而在生产设置中,更有效的推理可能更重要。我们提倡计算节省的整体观点,这种观点不会牺牲某些领域而在其他领域取得进步。gydF4y2Ba

FPO有一些局限性。最重要的是,模型的能量消耗不仅受到工作量的影响,还受到其他因素的影响,如不同组件之间的通信,这是没有被FPO捕获的。因此,FPO并不总是与运行时等其他度量相关联gydF4y2Ba21gydF4y2Ba和能源消耗。gydF4y2Ba16gydF4y2Ba其次,FPO的目标是模型执行的操作数量,而忽略了其他潜在的限制因素,如模型使用的内存,这通常会导致额外的能量和金钱成本。gydF4y2Ba29gydF4y2Ba最后,模型所完成的工作量很大程度上取决于模型实现,因为同一模型的两个不同实现可能导致处理工作量非常不同。由于对建模贡献的关注,人工智能社区传统上忽视了模型实现的质量或效率。gydF4y2BapgydF4y2Ba我们认为,扭转这一常态的时机已经到来,而导致高效模型的异常优秀的实现应该得到人工智能社区的信任。gydF4y2Ba

现有机型的FPO成本。gydF4y2Ba为了说明报告工作量的重要性,我们展示了几个现有模型的FPO成本。gydF4y2Ba问gydF4y2Ba图4 (a)gydF4y2Ba展示了几个主要的对象识别模型的参数和FPO的数量,以及它们在ImageNet数据集上的性能。gydF4y2Ba7gydF4y2Ba,gydF4y2BargydF4y2Ba有几个趋势是可以观察到的。首先,正如前面所讨论的,随着时间的推移,模型会变得更昂贵,但FPO的增加不会导致类似的性能提高。例如,ResNet和ResNext(图中第二和第三点)之间的FPO增加了近35%,导致top-1精度提高了0.5%。在考虑到模型工作中其他增加的影响时,也观察到类似的模式。其次,模型参数的数量并不能说明全部问题:AlexNet(图中的第一点)实际上比ResNet(图中的第二点)拥有更多的参数,但FPO明显更少,精度也更低。gydF4y2Ba

f4.jpggydF4y2Ba
图4。FPO的增加导致目标检测top-1精度的回报递减。图(从下到上):模型参数(百万),FPO(十亿),ImageNet上的第一精度。4 (a)。领先的物体识别模型:AlexNet,gydF4y2Ba24gydF4y2BaResNet,gydF4y2Ba15gydF4y2BaResNext,gydF4y2Ba55gydF4y2BaDPN107,gydF4y2Ba6gydF4y2BaSENet154。gydF4y2Ba19gydF4y2Ba4(b): ResNet模型不同尺寸(以层数衡量)的比较。gydF4y2Ba15gydF4y2Ba

图4 (b)gydF4y2Ba显示了对单一物体识别模型ResNet的相同分析,gydF4y2Ba15gydF4y2Ba同时比较不同版本的模型与不同的层数。这在不同的模型之间创建了一个受控的比较,因为除了尺寸(以及相应的FPO成本)外,它们在架构上是相同的。我们再次注意到同样的趋势:FPO成本的大幅增加并没有转化为性能的大幅提高。gydF4y2Ba

其他推广方式gydF4y2Ba绿色的人工智能gydF4y2Ba.鼓励绿色研究的方法有很多。除了报告公式1中每一项的FPO成本外,我们鼓励研究人员尽可能报告预算/绩效曲线。例如,训练曲线为未来的研究人员提供了在一系列不同预算下进行比较的机会,而使用不同模型大小的实验提供了对模型大小如何影响性能的有价值的洞察。在最近的一篇论文中,gydF4y2Ba9gydF4y2Ba我们观察到,关于哪个模型表现最好的断言取决于模型开发期间可用的计算预算。我们介绍了一种计算模型作为给定预算函数的预期最佳验证性能的方法。我们认为,报告这条曲线将允许用户在选择模型时做出更明智的决定,并突出不同方法的稳定性。gydF4y2Ba

我们进一步主张将效率作为主要AI会议的官方贡献,建议审稿人确认并重视那些严格意义上没有提高技术水平但有其他好处(如效率)的贡献。最后,我们注意到公开发布预先训练过的模型的趋势是一种绿色的成功,我们希望鼓励组织继续发布他们的模型,以便为其他组织节省再培训它们的成本。gydF4y2Ba

回到顶部gydF4y2Ba

相关工作gydF4y2Ba

最近的工作分析了训练深度NLP模型的碳排放gydF4y2Ba47gydF4y2Ba并得出结论,计算成本高的实验可能会对环境和经济产生巨大影响。由于现代实验需要如此大的预算,许多研究人员(尤其是学术界的研究人员)缺乏在许多备受瞩目的领域工作的资源;增加对计算效率方法的重视,将允许来自更多不同群体的研究贡献。我们强调Stubell等人的结论。gydF4y2Ba47gydF4y2Ba是长期趋势的结果,并不是孤立的NLP,而是适用于整个机器学习。gydF4y2Ba

虽然一些公司通过购买碳信用额来抵消用电量,但目前尚不清楚购买碳信用额是否与减少能源使用同样有效。此外,购买碳信用额度是自愿的;谷歌云gydF4y2Ba年代gydF4y2Ba和微软AzuregydF4y2BatgydF4y2Ba购买碳信用额来抵消消耗的能源,但亚马逊的AWSgydF4y2BaugydF4y2Ba(中国最大的云计算平台gydF4y2BavgydF4y2Ba)可再生能源只占其电力使用量的50%。gydF4y2Ba

为了提高最先进的性能,研究团体将注意力集中在报告在进行了许多模型开发和超参数调优实验后的最佳结果上。不完整地报告这些实验会使未来的研究人员无法理解复制一个结果或扩展它需要付出多少努力。gydF4y2Ba9gydF4y2Ba

我们的重点是提高机器学习社区的效率,但机器学习也可以作为一种工具用于气候变化等领域的工作。例如,机器学习已经被用于减少水泥厂的排放gydF4y2Ba1gydF4y2Ba追踪动物保护成果,gydF4y2Ba12gydF4y2Ba预计将对森林火灾管理有所帮助。gydF4y2Ba39gydF4y2Ba毫无疑问,这些都是机器学习的重要应用;我们认识到它们与本文的内容是正交的。gydF4y2Ba

回到顶部gydF4y2Ba

结论gydF4y2Ba

的愿景gydF4y2Ba绿色的人工智能gydF4y2Ba提出了许多令人兴奋的研究方向,帮助克服的挑战gydF4y2Ba红色的人工智能gydF4y2Ba.进步将找到更有效的方法来分配给定的预算,以提高性能,或以最小的性能降低来减少计算费用。而且,看起来gydF4y2Ba绿色的人工智能gydF4y2Ba可能会把我们带到一个认知上更合理的方向,因为大脑非常高效。gydF4y2Ba

重要的是要重申我们所看到的gydF4y2Ba绿色的人工智能gydF4y2Ba作为一个有价值的选择,而不是一个独家授权——当然,两者都是gydF4y2Ba绿色的人工智能gydF4y2Ba而且gydF4y2Ba红色的人工智能gydF4y2Ba要有所贡献。我们的目标是扩大gydF4y2Ba红色的人工智能gydF4y2Ba有绿色理念,比如使用更有效的训练方法,报告训练曲线;并增加患病率gydF4y2Ba绿色的人工智能gydF4y2Ba通过强调它的好处,提倡效率的标准衡量。在这里,我们指出了一些重要的绿色研究方向,并强调了一些悬而未决的问题。gydF4y2Ba

构建空间或时间高效模型的研究通常是由在小型设备(如手机)上拟合模型或实时处理示例的足够快的速度所驱动的,例如为盲人添加图像字幕(如前所述)。在这里,我们主张一种更广泛的方法,以提高AI开发周期的所有部分的效率。gydF4y2Ba

多年来,数据效率一直受到极大关注。gydF4y2Ba23gydF4y2Ba,gydF4y2Ba41gydF4y2Ba,gydF4y2Ba49gydF4y2Ba视觉和NLP的现代研究通常涉及首先用大量“原始”(未注释的)数据对模型进行预训练,然后通过监督学习将其调整为感兴趣的任务。在这一领域,一个强有力的结果通常包括用更少的训练示例或更少的梯度步骤实现与基线相似的性能。最近的工作都是针对微调数据,gydF4y2Ba34gydF4y2Ba但是训练前的效率也很重要。在这两种情况下,改善这一领域的一个简单技术就是用不同数量的训练数据报告表现。例如,报告在1,000万、1亿、10亿和100亿令牌上训练的上下文嵌入模型的性能将促进新模型的更快开发,因为它们可以首先在最小的数据大小上进行比较。gydF4y2Ba

这里的研究的价值不仅在于降低培训成本,还在于在资源匮乏的语言或历史领域,产生更多数据极其困难,因此为了取得进展,我们必须更有效地利用现有资源。gydF4y2Ba

最后,为了得到最终结果而进行的实验总数量往往被低估,也没有得到充分的讨论。gydF4y2Ba9gydF4y2Ba研究人员对超参数搜索、体系结构评估和消融的完整报告的少数实例已经进入报告的实验结果,这让社区感到惊讶。gydF4y2Ba47gydF4y2Ba虽然存在许多超参数优化算法,它们可以减少达到给定性能水平所需的计算开销,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba11gydF4y2Ba这里的简单改进可以产生很大的影响。例如,对于那些明显表现不佳的模型,提前停止训练可以节省大量资金。gydF4y2Ba26gydF4y2Ba

鸣谢gydF4y2Ba这项研究在艾伦人工智能研究所进行。gydF4y2Ba

uf1.jpggydF4y2Ba
数字观看作者在独家报道中讨论这项工作gydF4y2Ba通信gydF4y2Ba视频。gydF4y2Ba//www.eqigeno.com/videos/green-aigydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.Acharyya, P., Rosario, s.d., Flor, F., Joshi, R., Li, D., Linares, R.和Zhang, H.水泥厂降低燃料消耗和排放的自动驾驶仪。在gydF4y2BaICML气候变化研讨会论文集gydF4y2Ba, 2019年。gydF4y2Ba

2.D. AI与计算,2018。博客文章。gydF4y2Ba

3.Bergstra, J.S, Bardenet, R, Bengio, Y.和Kégl, B.超参数优化算法。在gydF4y2BaNeurIPS学报》gydF4y2Ba, 2011年。gydF4y2Ba

4.布朗,T.B.等人。语言模型是少数镜头学习者,2020年;arXiv: 2005.14165。gydF4y2Ba

5.Canziani, A., Paszke, A.和Culurciello, E.深度神经网络模型的实际应用分析。在gydF4y2Ba在ISCAS学报》gydF4y2Ba, 2017年。gydF4y2Ba

6.陈勇,李俊,肖海华,金晓霞,闫舒,冯杰,双路径网络。在gydF4y2BaNeurIPS学报》gydF4y2Ba, 2017年。gydF4y2Ba

7.邓俊、董伟、Socher、李丽娟、李凯、飞飞、李。ImageNet:一个大规模的分级图像数据库。在gydF4y2BaCVPR学报》gydF4y2Ba, 2009年。gydF4y2Ba

8.德夫林,张明文,李明文,和图塔诺瓦,K.伯特:深度双向转换语言理解的预训练。在gydF4y2BaNAACL学报》gydF4y2Ba, 2019年。gydF4y2Ba

9.Dodge, J., Gururangan, S., Card, D., Schwartz, R.和Smith, N.A.。展示你的工作:改进的实验结果报告。在gydF4y2BaEMNLP学报》gydF4y2Ba, 2019年。gydF4y2Ba

10.Dodge, J., Ilharco, G., Schwartz, R., Farhadi, A., Hajishirzi, H.和Smith, N.A.微调预先训练的语言模型:权值初始化,数据顺序,和提前停止,2020;arXiv: 2002.06305。gydF4y2Ba

11.开环超参数优化与确定性点过程。在gydF4y2BaAutoML学报》gydF4y2Ba, 2017年。gydF4y2Ba

12.C. Duhart, G. Dublon, B. Mayton, B. Davenport, G.和Paradiso, j .深度学习用于野生动物保护和恢复工作。在gydF4y2BaICML气候变化研讨会论文集gydF4y2Ba, 2019年。gydF4y2Ba

13.Gordon, A., Eban, E., Nachum, O., Chen, B., Wu, H., Yang, T-J,和Choi, E. MorphNet:快速简单的深度网络资源约束结构学习。在gydF4y2BaCVPR学报》gydF4y2Ba, 2018年。gydF4y2Ba

14.哈莱维,诺维格,佩雷拉,F.数据的不合理有效性。gydF4y2BaIEEE智能系统24gydF4y2Ba(2009), 8 - 12。gydF4y2Ba

15.何凯,张晓霞,任硕,孙杰。基于深度残差学习的图像识别。在gydF4y2BaCVPR学报》gydF4y2Ba, 2016年。gydF4y2Ba

16.Henderson, P., Hu, J., Romoff, J., Brunskill, E., Jurafsky, D.和Pineau, J.面向机器学习的能源和碳足迹的系统报告,2020;arXiv: 2002.05651。gydF4y2Ba

17.长时间短期记忆。gydF4y2Ba神经计算9gydF4y2Ba, 8(1997), 1735-1780。gydF4y2Ba

18.霍华德,A.G.等人。MobileNets:用于移动视觉应用的高效卷积神经网络,2017;arXiv: 1704.04861。gydF4y2Ba

19.胡建军,沈亮,孙刚。挤压-激励网络。在gydF4y2BaCVPR学报》gydF4y2Ba, 2018年。gydF4y2Ba

20.黄杰等。现代卷积目标检测器的速度/精度权衡。在gydF4y2BaCVPR学报》gydF4y2Ba, 2017年。gydF4y2Ba

21.全英,金杰。用卷积的解构方法构建快速网络。在gydF4y2BaNeurIPS学报》gydF4y2Ba, 2018年。gydF4y2Ba

22.Jouppi, N.P.等。张量处理单元的数据中心内性能分析。在gydF4y2BaISCA会议记录gydF4y2Ba, 1(2017),出版。日期:2020年6月。gydF4y2Ba

23.Kamthe, S.和Deisenroth, M.P.。数据高效强化学习与概率模型预测控制。在gydF4y2BaAISTATS学报》gydF4y2Ba, 2018年。gydF4y2Ba

24.Krizhevsky, A., Sutskever, I.和Hinton, G.E.用深度卷积神经网络进行Imagenet分类。在gydF4y2BaNeurIPS学报》gydF4y2Ba,2012年。gydF4y2Ba

25.Lacoste, A., Luccioni, A., Schmidt, V.和Dandres, T.量化机器学习的碳排放。在gydF4y2Ba气候变化人工智能研讨会论文集gydF4y2Ba, 2019年。gydF4y2Ba

26.Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A.和Talwalkar, A.超带:基于强盗的超参数优化配置评估。在gydF4y2BaICLR学报》gydF4y2Ba, 2017年。gydF4y2Ba

27.刘伟,安格洛夫,德,尔汉,德,斯哲格迪,德,里德,傅s, C- y,伯格,a.c.ssd:单发多盒探测器。在gydF4y2Ba学报大会gydF4y2Ba, 2016年。gydF4y2Ba

28.刘勇,刘玉华等。RoBERTa:一种稳健优化的BERT预训练方法,2019;arXiv: 1907.11692。gydF4y2Ba

29.马宁,张晓霞,郑海涛,孙杰。有效cnn架构设计的实用指南。在gydF4y2Ba学报大会gydF4y2Ba, 2018年。gydF4y2Ba

30.马哈詹,D.等人。探索弱监督预培训的局限性,2018;arXiv: 1805.00932。gydF4y2Ba

31.梅利斯,戴尔,C.和布朗森,P.神经语言模型的评价艺术的现状。在gydF4y2BaEMNLP学报》gydF4y2Ba, 2018年。gydF4y2Ba

32.Molchanov, P., Tyree, S., Karras, T., Aila, T.和Kautz, J.资源效率推理的修剪卷积神经网络。在gydF4y2BaICLR学报》gydF4y2Ba, 2017年。gydF4y2Ba

33.摩尔,电气公司,1965年,在集成电路中塞入更多的元件。gydF4y2Ba

34.Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K.和Zettlemoyer, L.深度上下文化单词表征。在gydF4y2BaNAACL学报》gydF4y2Ba, 2018年。gydF4y2Ba

35.Radford, A., Wu, J., Child, R., Luan, D., Amodei, D.和Sutskever, I.语言模型是无监督的多任务学习者。OpenAI博客,2019。gydF4y2Ba

36.拉斐尔,C.等人。利用统一的文本到文本转换器探索迁移学习的局限性,2019;arXiv: 1910.10683。gydF4y2Ba

37.Rastegari, M., Ordonez, V., Redmon, J.和Farhadi, A. Xnornet:使用二进制卷积神经网络的Imagenet分类。在gydF4y2Ba学报大会gydF4y2Ba, 2016年。gydF4y2Ba

38.Redmon, J., Divvala, S., Girshick, R.和Farhadi, A.你只看一次:统一的,实时的对象检测。在gydF4y2BaCVPR学报》gydF4y2Ba, 2016年。gydF4y2Ba

39.罗尔尼克,D.等。2019年,用机器学习解决气候变化问题;arXiv: 1905.12616。gydF4y2Ba

40.Sandler, M. Howard, A., Zhu, M., Zhmoginov, A.和Chen L.C. MobileNetV2:反向残差和线性瓶颈。在gydF4y2BaCVPR学报》gydF4y2Ba, 2018年。gydF4y2Ba

41.SoPa:连接cnn、rnn和加权有限状态机。在gydF4y2BaACL学报》gydF4y2Ba, 2018年。gydF4y2Ba

42.Shoeybi, M., Patwary, M., Puri, R., LeGresley, P., Casper, J., Catanzaro, B. Megatron-LM:使用GPU模型并行性训练数十亿参数语言模型,2019;arXiv: 1909.08053。gydF4y2Ba

43.Shoham, Y.等人。人工智能指数2018年年报。斯坦福大学以人为本的AI倡议AI指数指导委员会;gydF4y2Bahttp://cdn.aiindex.org/2018/AI%20Index%202018%20Annual%20Report.pdfgydF4y2Ba.gydF4y2Ba

44.Silver, D.等人。掌握深度神经网络和树搜索下围棋。gydF4y2Ba大自然529年gydF4y2Ba, 7587(2016) 484。gydF4y2Ba

45.Silver, D.等人。使用通用强化学习算法自学象棋和shogi, 2017;arXiv: 1712.01815。gydF4y2Ba

46.Silver, D.等人。在没有人类知识的情况下掌握围棋。gydF4y2Ba大自然550年gydF4y2Ba, 7676(2017), 354。gydF4y2Ba

47.斯特鲁贝尔,加内什,A.和麦卡勒姆,A.国家语言处理中深度学习的能量和政策考虑。在gydF4y2BaACL学报》gydF4y2Ba, 2019年。gydF4y2Ba

48.孙C, Shrivastava, A, Singh, S.和Gupta, A.回顾深度学习时代不合理的数据有效性。《ICCV学报》,2017。gydF4y2Ba

49.曾、吾、郭、J.T.及张,P.M.核心向量机:在非常大的数据集上进行快速支持向量机训练。gydF4y2BaJMLR 6gydF4y2Ba(2005年4月),363 - 392。gydF4y2Ba

50.A.瓦斯瓦尼,N.沙谢尔,N.帕玛尔,乌兹科瑞特,J.琼斯,L.戈麦斯,A.N.凯萨,L.和I.波洛苏欣,你所需要的只是注意力。在gydF4y2BaNeurIPS学报》gydF4y2Ba, 2017年。gydF4y2Ba

51.Veniat, T.和Denoyer, L.学习时间/内存效率与预算超级网络的深度架构。在gydF4y2BaCVPR学报》gydF4y2Ba, 2018年。gydF4y2Ba

52.Walsman, A., Bisk, Y., Gabriel, S., Misra, D., Artzi, Y., Choi, Y.和Fox, D.目标定向机器人视觉的早期融合。在gydF4y2Ba——学报》gydF4y2Ba, 2019年。gydF4y2Ba

53.Wang, A. Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O.和Bowman, S.R. SuperGLUE:通用语言理解系统的粘性基准,2019;arXiv: 1905.00537。gydF4y2Ba

54.Wang, A., Singh, A., Michael, J., Hill, F., Levy, O.和Bowman, S.R. GLUE:一个用于自然语言理解的多任务基准和分析平台。在gydF4y2BaICLR学报》gydF4y2Ba, 2019年。gydF4y2Ba

55.谢淑华,格希克,杜志强,何凯。深度神经网络的聚合残差变换。在gydF4y2BaCVPR学报》gydF4y2Ba, 2017年。gydF4y2Ba

56.杨铮,戴铮,杨勇,Carbonell, J., Salakhutdinov, R.和Le qv . XLNet:语言理解的广义自回归预训练,2019;arXiv: 1906.08237。gydF4y2Ba

57.泽勒斯,R.,霍尔茨曼,拉什金,H.,比斯克,A.,法哈迪,A.,罗斯纳,F.和崔,Y., 2019年,防范神经假新闻;arXiv: 1905.12616。gydF4y2Ba

58.张旭东,周旭东,林明,孙杰。移动设备的一种非常高效的卷积神经网络。在gydF4y2BaCVPR学报》gydF4y2Ba, 2018年。gydF4y2Ba

59.Zoph, B.和Le, Q.V.神经结构搜索与强化学习。在gydF4y2BaICLR学报》gydF4y2Ba, 2017年。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

罗伊·施瓦兹gydF4y2Ba(gydF4y2Baroys@allenai.orggydF4y2Ba)是以色列耶路撒冷希伯来大学高级讲师。gydF4y2Ba

杰西·道奇gydF4y2Ba(gydF4y2Badodgejesse@gmail.comgydF4y2Ba),美国宾夕法尼亚州匹兹堡卡内基梅隆大学语言技术学院。gydF4y2Ba

诺亚a史密斯gydF4y2Ba(gydF4y2Banoah@allenai.orggydF4y2Ba)是华盛顿大学计算机科学与工程教授,也是美国华盛顿州西雅图艾伦人工智能研究所AllenNLP团队的高级研究经理。gydF4y2Ba

Oren EtzionigydF4y2Ba(gydF4y2Baorene@allenai.orggydF4y2Ba)是艾伦AI研究所的首席执行官,也是美国华盛顿州西雅图市华盛顿大学的计算机科学教授。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

a.为了简单起见,我们在整篇文章中都提到了人工智能,但我们的重点是依赖于深度学习方法的人工智能研究。gydF4y2Ba

b.意思是,在实践中,一个系统在某些基准上的准确性大于任何先前报告的系统的准确性。gydF4y2Ba

c.一些排行榜确实关注效率(gydF4y2Bahttps://dawn.cs.stanford.edu/benchmark/gydF4y2Ba).gydF4y2Ba

d。gydF4y2Bahttps://acl2018.orggydF4y2Ba;gydF4y2Bahttps://nips.cc/Conferences/2018gydF4y2Ba;而且gydF4y2Bahttp://cvpr2019.thecvf.comgydF4y2Ba.gydF4y2Ba

e.有趣的是,许多NeurIPS论文包括了将性能描述为示例或迭代函数的收敛速度或遗憾界限,因此目标是效率(55%)。这表明,至少在理论分析中,人们越来越认识到这一概念的重要性。gydF4y2Ba

f。gydF4y2Bahttps://syncedreview.com/2019/06/27/the-staggering-cost-of-training-sota-aimodels/gydF4y2Ba

g。gydF4y2Bahttps://github.com/google-research/bertgydF4y2Ba而且gydF4y2Bahttps://github.com/zihangdai/xlnetgydF4y2Ba.gydF4y2Ba

h。gydF4y2Bahttps://towardsdatascience.com/too-big-to-deploy-how-gpt-2-is-breakingproduction-63ab29f0897cgydF4y2Ba

我。gydF4y2Bahttps://www.yuzeh.com/data/agz-cost.htmlgydF4y2Ba

j.最新版本的AlphaGo要高效得多。gydF4y2Ba46gydF4y2Ba

k。gydF4y2Bahttps://opensource.google.com/projects/open-images-datasetgydF4y2Ba

lgydF4y2Bahttp://commoncrawl.org/2019/07/gydF4y2Ba

m.浮点运算通常被称为FLOP(s),尽管这个术语并不是唯一定义的。gydF4y2Ba13gydF4y2Ba为了避免混淆,我们使用术语FPO。gydF4y2Ba

例如,n。gydF4y2Bahttps://github.com/Swall0w/torchstatgydF4y2Ba;gydF4y2Bahttps://github.com/Lyken17/pytorch-OpCountergydF4y2Ba

o.事实上,创建更小的模型通常会导致更长的运行时间,因此缓解不同的趋势可能是不一致的。gydF4y2Ba52gydF4y2Ba

p.我们认为这种对最终预测的专一关注是……的另一个症状gydF4y2Ba红色的人工智能gydF4y2Ba.gydF4y2Ba

q.这些数字表示每个推理的FPO,即处理单个示例所需的工作。gydF4y2Ba

r.取自的数字gydF4y2Bahttps://github.com/sovrasov/flops-counter.pytorchgydF4y2Ba.gydF4y2Ba

年代。gydF4y2Bahttps://cloud.google.com/sustainability/gydF4y2Ba

t。gydF4y2Bahttps://www.microsoft.com/en-us/environment/carbongydF4y2Ba

u。gydF4y2Bahttps://aws.amazon.com/about-aws/sustainability/gydF4y2Ba

v。gydF4y2Bahttps://tinyurl.com/y2kob969gydF4y2Ba


版权由作者/所有者持有。gydF4y2Ba
本作品采用创作共用署名国际4.0许可。gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2020 ACM, Inc.gydF4y2Ba


没有发现记录gydF4y2Ba

登录gydF4y2Ba为完全访问gydF4y2Ba
»忘记密码?gydF4y2Ba »创建ACM Web帐号gydF4y2Ba
文章内容:gydF4y2Ba
Baidu
map