acm-header.
登入

ACM的通讯

博客@cacm.

高性能移动系统片内集群


不幸的是,最近几天的事件已经让我们远离人类的稳定和可预测的发展。金融集团对世界统治和无制消费的渴望导致了开放的军事冲突。这种冲突已经划分了世界。显然在不久的将来,世界将分为两部分,每个部分都将自己居住。不幸的是,这也可能影响国际科学社区;尽管如此,ACM社区仍然仍然是开放通信的平台之一。因此,我们想在进口替代方式上发布讨论帖子,俄罗斯将首先去,然后可能是中国。

现代国际关系的现实现实是,在未来几年,俄罗斯将在有限地获得现代高科技产品的条件下。首先,这已经影响了数据中心和生产性工作站的强大处理器。可以假设在不久的将来,这种措施也将影响中国,因为制裁史对由华为领导的中国高科技公司的斗争相当揭示。

与此同时,简单地说出问题是不够的;有必要快速摆脱现状,依靠可用的资源。在这方面,创建高性能簇型计算系统的想法替换英特尔和AMD处理器似乎很有前景。中国生产自己的移动系统,用于平板电脑和现代智能手机。虽然这些设备不是最强大的,但其生产完全独立,不影响美国或欧洲公司的专利权。

要创建群集型计算系统,可以使用基于MPI或OpenMP库的Linux操作系统和软件使用良好的群集技术。将带有移动系统(或系统上的系统)的电路板互连,有必要使用高速和低响应时间的特殊网络。当然,PCI Express 3.0和更高USB 4.0,Infiniband(或例如,俄罗斯设计-Angara ES8430)等高性能总线可能是首选。但这些技术的使用将需要花费大量时间来开发新的电路板,这是不可接受的。由于缺乏有线连接,可以尝试使用无线协议。这将在多达数百GBP的速度下提供各个处理器之间的切换,但网络延迟时间将是不可接受的;它将超过100毫秒。这样的时间将大大降低群集的性能。因此,只能将无线通信用作与有线的加法。但是,有必要考虑全系列可用的片上硬件,以便选择芯片性能和开关总线的最佳比率。

各个多核系统上芯片之间的最易于通信选项之一是USB 3.0系列界面。这些端口上的信息传输速率高于5 GB / s,甚至是开发群集的冗余。网络延迟比Infiniband更糟糕。但是,对于小型数据包,与2-3μs相比,这是25μs,但随着分组大小的增加,这种差异是升级。此外,USB交换机更便宜,技术本身具有更广泛的软件支持。考虑到USB交换机的设计,可以实现几乎任何拓扑的群集系统。在这种情况下,应该考虑USB协议的特殊性,这在于始终需要网络中的主设备和从设备的存在。

鉴于可用的移动系统上的芯片大约100 GFLOPS,可以实现几个高性能系统的小型集群的TERAFLOPS的性能。使用标准开放式操作系统(如Linux)将极大地促进使用自定义应用程序,并允许此类系统在不久的将来运行。这种集群可能是异构的,包括用于不同任务的不同系统(或者,FPGA,用于为特定任务创建专用的可直通可配置加速器)。

为了提高性能,需要在单个芯片上的不同系统,芯片和芯之间的负载平衡。使用两种技术似乎很有希望。其中的第一是计算过程的有效并行化,这将由各个设备的连接的拓扑确定。这可以是经典网格拓扑或其他具有更好拓扑参数的拓扑,例如循环参数,其中已经显示了在[1]中所示的成为计算群集的拓扑基础的可能性。其次,路由可以基于文章中提出的虚拟坐标系[2]。将需要额外的研究来基于它来优化网络拓扑和虚拟坐标系统,以加快并行计算算法。如何积极探索如何解决这一问题的可能性。

有许多问题,例如整个系统的电源组织,散热,紧凑的簇组件布局,确保集群可靠性等,但它们不太重要且可解决。

总之,我们希望总结提出的解决方案的主要规定。为了基于芯片组织基于移动系统的高性能集群,有必要:

  1. 选择将构成紧凑型计算集群的芯片的类型的类型。
  2. 决定计算群集中的网络各个组件的硬件解决方案和电信协议类型。
  3. 确定网络拓扑。
  4. 选择群集将运行的操作系统和并行化库。
  5. 决定应用程序软件列表。

应该指出,我们的拟议方法旨在作为试点项目的快速实施。在此实现中,将在此实现期间,将制定软件解决方案和数据交换的新协议,以及计算技术。将来,可以改进群集设备(例如,尝试启动新主板的发布,该主板将托管通过公共总线连接的多个芯片)。

另一个问题是群集的操作系统。Android作为专有系统,应由Linux或其他开源操作系统替换。替换Android的任务是一项最重要的任务;这是一个单独的活动领域,它应该切换现在由于制裁而失去合同的软件公司的注意力。

参考

[1]乐义邓,孟国,亚历山大F. ramos,小龙黄,朱力徐和潍峰刘。2020.最佳低延迟网络拓扑,用于集群性能增强。J.超级普通。76,12(2020年12月),9558-9584。
[2] Aleksandr Romanov,Nikolay Myachin和Andrei Sukhov。2021.使用自组织路由算法在芯片上的容错路由。在我ECON程序(工业电子会议),IEEE,1-6。

andrei sukhov是一个HSE大学教授,莫斯科,俄罗斯和ACM的高级成员;电子邮件:Asukhov@acm.org.Aleksandr Romanov.是俄罗斯莫斯科HSE大学CAD实验室的副教授和负责人;电子邮件:a.romanov@hse.ru.


没有发现任何条目

登入完全访问
“ 忘记密码? »创建ACM Web帐户
Baidu
map