【报告】深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑

2024年2月22日发(作者：光雨晴)

深析CrayXC系列超算架构：高性能计算中Dragonfly网络互联拓扑

美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心（简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori（格蒂·科里），第一个获得诺贝尔奖的美国女科学家。

CORI由Cray/HPE公司设计交付，在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz Intel

Haswell处理器节点 + 9688个 Intel Xeon Phi 7250 68-

Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。

下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。

下面我们深入分析一下Cray XC系列超级计算机架构，并重点对Aries网络进行分析。

01-Cray XC系列超算硬件架构

Cray自1972年创立之后，专注超级计算机研发，有着超级计算机之父之称，2019年被HPE收购。其设计一个好的超级计算机的秘密在于：

选择最新最好的CPU处理器架构

CPU互联的高带宽网络，实现网络互联，2.

开发构建一个围绕3.

系统高扩展性

和本地内存快速数据访问

3.1，消除OS的限制

3.2，高可靠性和高弹性设计

3.3，可扩展系统管理

3.4，可扩展的IO架构

3.5，可扩展的编程和性能工具

Cray XC40超级计算机，采用大规模并行处理MPP架构设计，是由成千上万个单独的计算节点组成。作为一个整体超级计算机，单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络，并致力于优化互联的带宽和降低成本。

如上图，Cray XC系列超级计算机硬件主要有以下模块组成：

• 计算刀片。由4个计算节点组成。

• 机箱。由16个计算刀片组成，共计64个计算节点。

• 机柜组。由2个机柜互联组成一组，共6个机箱，每机柜3个机箱，共计384个计算节点。

• 系统级全互联。由光纤跳线实现跨机柜组全互联架构，可根据规模实现数百个机柜互联，最多可支持上万个计算节点。

如上图，机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱：

• 单个机柜有3个机箱组成。

• 每个机箱，由16个计算刀片组成。

• 每个计算刀片由4个计算节点组成。

Cray XC40计算刀片组成结构如上图所示，其主要特点如下：

• 每一个计算刀片包含4个计算节点。

• 每个计算节点，由2个物理Socket组成。单个刀片共8路物理CPU。

• 4个计算节点连接到同一个Cray 设计的Aries网络路由ASIC芯片。

Cray XC40一个计算刀片由4个计算节点，同时还包含一个Cray设计的Aries路由器ASIC芯片。每个计算节点由2个物理CPU组成，CPU之间通过QPI实现跨CPU通信。

02-Cray Aries网络和DragonFly拓扑

Cray设计的Aries “DragonFly"网络互联架构是一个高速低延时网络。

Cray XC系列组网的三个级别

Cray XC系列架构中，计算节点之间由Cray Aries定制ASIC路由芯片实现互连通信，可以分为三个级别组网：

• 级别一：机箱级。由16个计算刀片组成一个Chassis机箱。一个机柜中，可以放三个Chassis机箱。与机箱内其它计算刀片通过背板连接通信，实现Rank1级别网络互联。

• 级别二：机柜组内通信。由2个机柜互联组成一组。每个机柜由3个机箱组成，共计6个机箱。与组内其它机箱的计算刀片之间，由铜线连接实现互联，实现Rank2级别互联。

• 级别三：跨机柜组通信。与集群内其它组的计算刀片之间，由光纤线缆连接实现，实现Rank3级别互联。

上图是Cray Aries定制的ASIC芯片Die图，以及一个计算刀片内计算节点与Aries网络路由芯片的拓扑示意图。

级别一：机箱级计算节点网络互联。

•

一个机箱由

16个计算刀片组成。共128个物理CPU。

Aries网络路由通信。 •

机箱内计算节点通过背板实现跨

•

可以实现基于Packet的自适应路由功能，提高网络传输效率。

级别二：机柜组内通信互联组成DragonFly网络拓扑。

• 一个计算刀片，由4个节点组成，连接到同一个Aries网络芯片。

• 图中绿色网络互联，代表一个机箱的16个计算节点互联，通过16个Aries 定制ASIC网络路由芯片通过机箱背板实现通信。

• 图中黑色网络互联，代表一组机柜内，由6个机箱组成，机箱内通过铜线连接。

• 由2个机柜互联组成一组。共计768个物理CPU Socket。

级别三：跨机柜组通信: 与集群内其它组的计算刀片之间，由光纤线缆连接实现，实现Rank3级别互联。

如上图，Cray XC40超级计算机构建的Aries DragonFly网络中，在2个机柜互联组成的同一组内通信时：

•

任意两个计算节点之间，最少路由只需要•

非最优状态下，需要

2跳即可实现。

4跳实现通信。

•

采用自适应路由算法，可以基于链路负载在最少路由和非最优路由之间选择。

•

Cray Aries

拓扑保证足够带宽来实现所有节点通信。

Cray XC系列Aries的自适应路由算法如上图所示，会动态根据链路负载情况进行动态选择，实现负载均衡，避免拥塞，提高网络效率。

在Aries网络中，根据计算节点通信的不同，不同距离对时延

和带宽影响不同，以上数据基于Cray XC30架构，仅供参考。

上图中组0和组3之间的计算节点之间要互相通信，假设最优路径已经出现拥塞时，则此时可以其它中间组实现跳转，这样能够更好使用全系统网络带宽，提高网络的使用效率。

03-Cray Aries DragonFly拓扑优势

为什么Cray选择Aries网络Dragonfly拓扑架构？

1. 高扩展性。拓扑灵活扩展到上万个以上大规模计算节点。

2. 高性能。Cray和斯坦福大学联合开发的自适应路由算法，保证高效网络。同时也支持混合不同块大小的消息类型。

3. 简单架构。不需要外部交换机，不需要HBA或单独网卡和路由器。

4. 成本优势。最大化使用背板和铜线互联。最少化使用光纤跳线，降低成本。

04-总结

通过以上分析，对Cray XC系列超算的硬件架构有了清晰认识。同时对Cray Aries组成的Dragonfly网络拓扑有了更好了解。

在2020年06月最新发布的Top500中, 有34家超级计算机采用Cray公司开发的Aries高速"Dragonfly"网络互联架构实现。在超算生产环境中还是广泛应用。尤其对于集群分期建设的情况，很容易实现灵活扩展，同时也实现组内高速低延时通信。