ACM

ACM通信

ACM TechNews

高性能计算技术推动大规模深度学习

由HPC线
2017年2月27日
评论

百度的硅谷人工智能实验室(SVAIL)为深度学习社区发布了环全减少OpenMPI算法的改进实现，这将使跨图形处理单元(GPU)节点的神经网络训练更快。

与OpenMPI版本不同，SVAIL修改避免在中央处理单元(CPU)和GPU之间进行多余的复制。

据百度报道，尽管在高性能计算中很常见，但该技术在人工智能和深度学习中尚未得到充分利用。与使用单个GPU相比，在使用40个GPU时，环全减少算法的速度约为31倍。

该算法已使SVAIL团队获得线性GPU扩展到128个GPU，并并行训练深度语音2 (Deep Speech 2)的语音识别模式。

该方法最初开发两年后，研究人员发布了两个非专有实现，一个用于TensorFlow，另一个用于更通用的应用。

从HPC线
查看全文

没有发现记录