acm-header
登录

ACM通信

ACM TechNews

高性能计算技术推动大规模深度学习


在环全减少OpenMPI算法中,所有图形处理器同时发送数据。

百度的硅谷人工智能实验室发布了环全减少OpenMPI算法的改进实现,该算法将使跨图形处理单元节点的神经网络训练更快。

信贷:HPCwire

百度的硅谷人工智能实验室(SVAIL)为深度学习社区发布了环全减少OpenMPI算法的改进实现,这将使跨图形处理单元(GPU)节点的神经网络训练更快。

与OpenMPI版本不同,SVAIL修改避免在中央处理单元(CPU)和GPU之间进行多余的复制。

据百度报道,尽管在高性能计算中很常见,但该技术在人工智能和深度学习中尚未得到充分利用。与使用单个GPU相比,在使用40个GPU时,环全减少算法的速度约为31倍。

该算法已使SVAIL团队获得线性GPU扩展到128个GPU,并并行训练深度语音2 (Deep Speech 2)的语音识别模式。

该方法最初开发两年后,研究人员发布了两个非专有实现,一个用于TensorFlow,另一个用于更通用的应用。

HPC线
查看全文

版权所有©2017公司的信息。,美国马里兰州贝塞斯达


没有发现记录

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map