acm-header
登录

ACM通信

新闻


色彩爆炸,插图

来源:金风

物理科学家和工程研发团队正在尝试使用神经网络来加速他们的模拟。从量子力学到对体内血流的预测,许多团队都报告了用实验和合成数据的各种组合训练的模型来替换传统的有限元求解器,从而加快了模拟速度。

在去年11月的英伟达技术大会上,英伟达机器学习研究主管、加州理工学院计算系布伦教授阿尼马希里•阿南德库马尔(Animashree Anandkumar)提到了该公司正在进行的一个天气预报项目。她声称,该团队创建的神经网络可以比使用传统数值方法求解模型所依赖的偏微分方程(PDEs)的模拟速度快10万倍。

英伟达将支持天气预报项目的机器学习技术打包到提供给客户的Simnet软件包中。它的工程师们用同样的方法来建模散热片,散热片用来冷却图形处理单元(gpu),而图形处理单元是许多其他机器学习系统的动力。

其他工程公司也在效仿。Ansys和西门子数字工业软件公司都在致力于他们自己的实现,以支持他们的机械仿真产品线,加入到不断增长的开源项目中,如DeepModeling社区。

使用机器学习进行科学模拟的一个关键原因是,一组完全连接的人工神经元可以充当通用函数逼近器。虽然训练这些神经元需要大量的计算,但在推理阶段,神经网络通常会提供比运行基于有限元或数值逼近pde的模拟器更快的结果。

训练神经网络进行科学模拟的一种方法是记录实验数据,并使用数值方法将模拟数据添加到其中。例如,模拟激波在充满液体的管道中的运动可以结合使用传感器记录和Bateman-Burgers方程的解。

模拟数据可用于为无法放置传感器记录压力的点提供可用数据,或仅用于提供更高密度的数据点。原则上,机器学习模型会为没有数据的点插入合理的值。但是,当与传统模型进行检验时,习得的近似很容易偏离现实。神经网络可能不会学习潜在的模式,只学习那些让它近似用于训练的数据点的模式。

在20世纪90年代,研究人员发现了一种利用科学数据训练神经网络的方法,即将描述过程的pde纳入机器学习模型。偏微分方程实际上成为神经网络的归纳偏差。与当时神经网络的其他工作一样,这项技术被证明很难应用于大规模问题。

宾夕法尼亚大学机械工程和应用力学副教授Paris Perdikaris解释说:“当人们在20世纪90年代试图使用神经网络来求解偏微分方程时,他们不得不手动推导出正向和反向传播公式。如果你将这些手动方法应用到更复杂的偏微分方程,计算就会变得太复杂。”

布朗大学的Maziar Raissi和George Em Karniadakis与Perdikaris共同开发的物理信息神经网络(PINN)方法于2017年发表,利用了现有的自动区分工具。在该方法中,PDE构成损失函数的一部分,用于在每个训练步骤中重新计算神经元权值。

由于相关的偏微分方程可以简单地合并到损耗函数中,科学家和工程师发现PINN很容易使用。Perdikaris指出:“pinn目前流行的主要原因之一是易于实现。实现一个新的pin大约需要100行Python代码,或者大约一个下午的工作。另一个原因是,PINN通常比传统求解器对假设的容忍度更高。”

pde增强方法不仅可以很好地处理具有更宽松假设的高维问题,它也适用于包含积分算子的复杂方程,这些积分算子很难用传统的有限差分方法求解。

使用pin的一个缺点是训练它们可能远远不是那么简单。它们的行为与利用传统损失函数(没有多个高阶微分项)的神经网络非常不同。在许多深度学习应用中使用的随机梯度下降方法在pinn上经常失败。“我们发现,要使这些优化器工作,我们必须进行大量的手工调整,并采用非标准的技巧和技术,”在加州伯克利人工智能研究实验室工作的博士后研究员阿米尔·戈拉米(Amir Gholami)说。

在许多情况下,解空间过于复杂,训练无法自动收敛。在诸如用于模拟飓风的流体中β平流的建模等情况下,β值本身被证明是一个障碍。“我们用不同的测试版进行了测试。当你进入更高的beta级别时,情况就开始发生变化了。”

训练开始时的神经元权值初始化同样麻烦。蒙特利尔大学的Xavier gloria和Yoshua Bengio于2010年为深度神经网络开发的技术目前广泛应用于pinn,因为它们不能在传统的监督学习环境中运行。Perdikaris说:“经典网络中用于初始化的所有假设都被违背了。”他补充说,数据分布对训练的收敛性有显著影响。“我们用于深度学习的假设需要根据PINN框架进行修改或调整。”

研究人员已经开发了一些变通方法来处理他们在使用pin时遇到的问题。一种是调整数据,使训练在早期更加一致,这可以通过限制训练早期阶段使用的数据集的范围,然后再扩展涵盖的范围来实现。犹他州立大学的Colby wright和Jia Zhao在2020年夏天发表的一篇论文中描述了这种方法。

在去年12月的NeurIPS大会上,Gholami和他的同事提出在培训过程中将PDE调整为课程学习的一种形式。Gholami说:“我们发现,从一个简单的PDE开始,然后逐步使PDE正则化更复杂,这样可以更容易地训练损失情况。”

训练pin困难的原因之一是研究人员所说的光谱偏差。这可能也是pin与数据中低频模式比高频模式更容易对齐的一个关键原因。从简单到复杂的pde的发展使得在早期训练中识别出任何低频贡献者后,更容易覆盖高频贡献者。

Perdikaris和他的同事利用几年前由Arthur Jacot和他在法国École Polytechnique Fédérale de Lausanne的同事开发的一种技术来研究这些问题。该工作采用了一个由损失函数驱动的无限宽隐层的概念神经网络来计算描述神经网络训练特性的代数核的元素。常用的矩阵分析技术,如这些神经切线核的特征值和特征向量,被用来观察它们在遇到问题的神经网络之间的差异。通常,损失函数中对应于具有较大特征值的神经切线核的分量将被学习得更快,而其他的则要慢得多。


解决训练失败问题的最简单方法是大幅降低梯度更新速率。


用于损失函数的偏微分方程中不同术语的响应性差异对可训练性有显著影响。宾夕法尼亚大学注意到的是在不同的PINN损失函数中收敛速度的巨大差异。它强调了一个普遍的观察,即波动方程往往特别有问题。编码边界条件的术语在训练中也被证明是更有问题的,这有助于解释为什么其他研究人员发现,在试图寻找启发式以使他们的pin更容易训练时,放松这些条件有助于神经网络更快地收敛。

解决训练失败问题的最简单的方法是大幅降低梯度更新速率,使较严格的术语有更好的机会在连续批之间进行适当的更新。但这有可能会使这一过程放缓到目前为止,从而无法产生一个有用的模型。

Perdikaris看到来自神经切线核的信息被用来调优每个项的训练速率,以提高收敛性。他说:“这并不局限于pinn:它适用于任何多任务训练情况。”“总的来说,我们应该考虑为这些问题开发更专门的体系结构和方法。”

训练数据的分布在形成神经切线核的频谱方面也起着重要的作用,这暗示了其他可能用于提高各种神经网络应用的可训练性的技术。

神经网络本身的结构可能不是最优的,但对pinn可以部署的问题的一个子集。“从直觉上看,根据底层PDE的性质,我们需要不同类型的体系结构是有意义的,”Gholami说。

Perdikaris说,pinn的出现揭示了许多问题,但它们可能会对神经网络理论的发展大有帮助。“这是一个非常令人兴奋的领域。这就是2010年之前深度学习的情况。我们有一种直觉,它应该会起作用。但当我们推进到现实应用时,我们遇到了限制。PINN框架本身并不是问题所在;这是我们的设定。”

Perdikaris总结道:“我们需要的是,当我们增加问题的复杂性时,对出错的地方有一个严谨的理解,并想出解决问题的方法。”他指出,要解决机器学习这一分支的挑战,该领域需要的不仅仅是启发式方法。

*进一步的阅读

Karniadakis, g.e., Kevrekidis, I.G, Lu, L., Perdikaris, P., Wang S., Yang L.。
基于物理的机器学习,自然评论物理3(6), pp422-440 (2021),https://doi.org/10.1038/s42254-021-00314-5

Krishnapriyan, A., Gholami, A.,哲,S., Kirby, R.,和Mahoney, M.W.
描述了物理神经网络中可能的故障模式,神经信息处理系统进展34 (NeurIPS 2021)https://arxiv.org/abs/2109.01050

王s,于X, Perdikaris, P。
pinn训练失败的时间和原因:神经切线核的视角,计算物理杂志, 449:110768 (2022),https://arxiv.org/abs/2007.14527

怀特,c.l.,赵,J。
利用自适应物理神经网络求解Allen-Cahn和Cahn-Hilliard方程,计算物理学中的通信, 29(3), pp 930-954 (2021),https://arxiv.org/abs/2007.04542

回到顶部

作者

克里斯•爱德华兹她是英国萨里郡的一名作家,主要报道电子、IT和合成生物学。


©2022 acm 0001-0782/22/5

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map