最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

【报告】深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑_百

IT圈 admin 46浏览 0评论

2024年2月22日发(作者:光雨晴)

深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑

美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心(简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori(格蒂·科里),第一个获得诺贝尔奖的美国女科学家。

CORI由Cray/HPE公司设计交付,在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz Intel

Haswell处理器节点 + 9688个 Intel Xeon Phi 7250 68-

Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。

下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。

下面我们深入分析一下Cray XC系列超级计算机架构,并重点对Aries网络进行分析。

01-Cray XC系列超算硬件架构

Cray自1972年创立之后,专注超级计算机研发,有着超级计算机之父之称,2019年被HPE收购。其设计一个好的超级计算机的秘密在于:

1.

选择最新最好的CPU处理器架构

CPU互联的高带宽网络,实现网络互联,2.

开发构建一个围绕3.

系统高扩展性

和本地内存快速数据访问

3.1,消除OS的限制

3.2,高可靠性和高弹性设计

3.3,可扩展系统管理

3.4,可扩展的IO架构

3.5,可扩展的编程和性能工具

Cray XC40超级计算机,采用大规模并行处理MPP架构设计,是由成千上万个单独的计算节点组成。作为一个整体超级计算机,单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络,并致力于优化互联的带宽和降低成本。

如上图,Cray XC系列超级计算机硬件主要有以下模块组成:

• 计算刀片。由4个计算节点组成。

• 机箱。由16个计算刀片组成,共计64个计算节点。

• 机柜组。由2个机柜互联组成一组,共6个机箱,每机柜3个机箱,共计384个计算节点。

• 系统级全互联。由光纤跳线实现跨机柜组全互联架构,可根据规模实现数百个机柜互联,最多可支持上万个计算节点。

如上图,机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱:

• 单个机柜有3个机箱组成。

• 每个机箱,由16个计算刀片组成。

• 每个计算刀片由4个计算节点组成。

Cray XC40计算刀片组成结构如上图所示,其主要特点如下:

• 每一个计算刀片包含4个计算节点。

• 每个计算节点,由2个物理Socket组成。单个刀片共8路物理CPU。

• 4个计算节点连接到同一个Cray 设计的Aries网络路由ASIC芯片。

Cray XC40一个计算刀片由4个计算节点,同时还包含一个Cray设计的Aries路由器ASIC芯片。每个计算节点由2个物理CPU组成,CPU之间通过QPI实现跨CPU通信。

02-Cray Aries网络和DragonFly拓扑

Cray设计的Aries “DragonFly"网络互联架构是一个高速低延时网络。

Cray XC系列组网的三个级别

Cray XC系列架构中,计算节点之间由Cray Aries定制ASIC路由芯片实现互连通信,可以分为三个级别组网:

• 级别一:机箱级。由16个计算刀片组成一个Chassis机箱。一个机柜中,可以放三个Chassis机箱。与机箱内其它计算刀片通过背板连接通信,实现Rank1级别网络互联。

• 级别二:机柜组内通信。由2个机柜互联组成一组。每个机柜由3个机箱组成,共计6个机箱。与组内其它机箱的计算刀片之间,由铜线连接实现互联,实现Rank2级别互联。

• 级别三:跨机柜组通信。 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。

上图是Cray Aries定制的ASIC芯片Die图,以及一个计算刀片内计算节点与Aries网络路由芯片的拓扑示意图。

级别一:机箱级计算节点网络互联。

一个机箱由

16个计算刀片组成。共128个物理CPU。

Aries网络路由通信。 •

机箱内计算节点通过背板实现跨

可以实现基于Packet的自适应路由功能,提高网络传输效率。

级别二:机柜组内通信互联组成DragonFly网络拓扑。

• 一个计算刀片,由4个节点组成,连接到同一个Aries网络芯片。

• 图中绿色网络互联,代表一个机箱的16个计算节点互联,通过16个Aries 定制ASIC网络路由芯片通过机箱背板实现通信。

• 图中黑色网络互联,代表一组机柜内,由6个机箱组成,机箱内通过铜线连接。

• 由2个机柜互联组成一组。共计768个物理CPU Socket。

级别三:跨机柜组通信: 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。

如上图,Cray XC40超级计算机构建的Aries DragonFly网络中,在2个机柜互联组成的同一组内通信时:

任意两个计算节点之间,最少路由只需要•

非最优状态下,需要

2跳即可实现。

4跳实现通信。

采用自适应路由算法,可以基于链路负载在最少路由和非最优路由之间选择。

Cray Aries

拓扑保证足够带宽来实现所有节点通信。

Cray XC系列Aries的自适应路由算法如上图所示,会动态根据链路负载情况进行动态选择,实现负载均衡,避免拥塞,提高网络效率。

在Aries网络中,根据计算节点通信的不同,不同距离对时延

和带宽影响不同,以上数据基于Cray XC30架构,仅供参考。

上图中组0和组3之间的计算节点之间要互相通信,假设最优路径已经出现拥塞时,则此时可以其它中间组实现跳转,这样能够更好使用全系统网络带宽,提高网络的使用效率。

03-Cray Aries DragonFly拓扑优势

为什么Cray选择Aries网络Dragonfly拓扑架构?

1. 高扩展性。拓扑灵活扩展到上万个以上大规模计算节点。

2. 高性能。Cray和斯坦福大学联合开发的自适应路由算法,保证高效网络。同时也支持混合不同块大小的消息类型。

3. 简单架构。不需要外部交换机,不需要HBA或单独网卡和路由器。

4. 成本优势。最大化使用背板和铜线互联。最少化使用光纤跳线,降低成本。

04-总结

通过以上分析,对Cray XC系列超算的硬件架构有了清晰认识。同时对Cray Aries组成的Dragonfly网络拓扑有了更好了解。

在2020年06月最新发布的Top500中, 有34家超级计算机采用Cray公司开发的Aries高速"Dragonfly"网络互联架构实现。在超算生产环境中还是广泛应用。尤其对于集群分期建设的情况,很容易实现灵活扩展,同时也实现组内高速低延时通信。

2024年2月22日发(作者:光雨晴)

深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑

美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心(简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori(格蒂·科里),第一个获得诺贝尔奖的美国女科学家。

CORI由Cray/HPE公司设计交付,在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz Intel

Haswell处理器节点 + 9688个 Intel Xeon Phi 7250 68-

Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。

下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。

下面我们深入分析一下Cray XC系列超级计算机架构,并重点对Aries网络进行分析。

01-Cray XC系列超算硬件架构

Cray自1972年创立之后,专注超级计算机研发,有着超级计算机之父之称,2019年被HPE收购。其设计一个好的超级计算机的秘密在于:

1.

选择最新最好的CPU处理器架构

CPU互联的高带宽网络,实现网络互联,2.

开发构建一个围绕3.

系统高扩展性

和本地内存快速数据访问

3.1,消除OS的限制

3.2,高可靠性和高弹性设计

3.3,可扩展系统管理

3.4,可扩展的IO架构

3.5,可扩展的编程和性能工具

Cray XC40超级计算机,采用大规模并行处理MPP架构设计,是由成千上万个单独的计算节点组成。作为一个整体超级计算机,单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络,并致力于优化互联的带宽和降低成本。

如上图,Cray XC系列超级计算机硬件主要有以下模块组成:

• 计算刀片。由4个计算节点组成。

• 机箱。由16个计算刀片组成,共计64个计算节点。

• 机柜组。由2个机柜互联组成一组,共6个机箱,每机柜3个机箱,共计384个计算节点。

• 系统级全互联。由光纤跳线实现跨机柜组全互联架构,可根据规模实现数百个机柜互联,最多可支持上万个计算节点。

如上图,机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱:

• 单个机柜有3个机箱组成。

• 每个机箱,由16个计算刀片组成。

• 每个计算刀片由4个计算节点组成。

Cray XC40计算刀片组成结构如上图所示,其主要特点如下:

• 每一个计算刀片包含4个计算节点。

• 每个计算节点,由2个物理Socket组成。单个刀片共8路物理CPU。

• 4个计算节点连接到同一个Cray 设计的Aries网络路由ASIC芯片。

Cray XC40一个计算刀片由4个计算节点,同时还包含一个Cray设计的Aries路由器ASIC芯片。每个计算节点由2个物理CPU组成,CPU之间通过QPI实现跨CPU通信。

02-Cray Aries网络和DragonFly拓扑

Cray设计的Aries “DragonFly"网络互联架构是一个高速低延时网络。

Cray XC系列组网的三个级别

Cray XC系列架构中,计算节点之间由Cray Aries定制ASIC路由芯片实现互连通信,可以分为三个级别组网:

• 级别一:机箱级。由16个计算刀片组成一个Chassis机箱。一个机柜中,可以放三个Chassis机箱。与机箱内其它计算刀片通过背板连接通信,实现Rank1级别网络互联。

• 级别二:机柜组内通信。由2个机柜互联组成一组。每个机柜由3个机箱组成,共计6个机箱。与组内其它机箱的计算刀片之间,由铜线连接实现互联,实现Rank2级别互联。

• 级别三:跨机柜组通信。 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。

上图是Cray Aries定制的ASIC芯片Die图,以及一个计算刀片内计算节点与Aries网络路由芯片的拓扑示意图。

级别一:机箱级计算节点网络互联。

一个机箱由

16个计算刀片组成。共128个物理CPU。

Aries网络路由通信。 •

机箱内计算节点通过背板实现跨

可以实现基于Packet的自适应路由功能,提高网络传输效率。

级别二:机柜组内通信互联组成DragonFly网络拓扑。

• 一个计算刀片,由4个节点组成,连接到同一个Aries网络芯片。

• 图中绿色网络互联,代表一个机箱的16个计算节点互联,通过16个Aries 定制ASIC网络路由芯片通过机箱背板实现通信。

• 图中黑色网络互联,代表一组机柜内,由6个机箱组成,机箱内通过铜线连接。

• 由2个机柜互联组成一组。共计768个物理CPU Socket。

级别三:跨机柜组通信: 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。

如上图,Cray XC40超级计算机构建的Aries DragonFly网络中,在2个机柜互联组成的同一组内通信时:

任意两个计算节点之间,最少路由只需要•

非最优状态下,需要

2跳即可实现。

4跳实现通信。

采用自适应路由算法,可以基于链路负载在最少路由和非最优路由之间选择。

Cray Aries

拓扑保证足够带宽来实现所有节点通信。

Cray XC系列Aries的自适应路由算法如上图所示,会动态根据链路负载情况进行动态选择,实现负载均衡,避免拥塞,提高网络效率。

在Aries网络中,根据计算节点通信的不同,不同距离对时延

和带宽影响不同,以上数据基于Cray XC30架构,仅供参考。

上图中组0和组3之间的计算节点之间要互相通信,假设最优路径已经出现拥塞时,则此时可以其它中间组实现跳转,这样能够更好使用全系统网络带宽,提高网络的使用效率。

03-Cray Aries DragonFly拓扑优势

为什么Cray选择Aries网络Dragonfly拓扑架构?

1. 高扩展性。拓扑灵活扩展到上万个以上大规模计算节点。

2. 高性能。Cray和斯坦福大学联合开发的自适应路由算法,保证高效网络。同时也支持混合不同块大小的消息类型。

3. 简单架构。不需要外部交换机,不需要HBA或单独网卡和路由器。

4. 成本优势。最大化使用背板和铜线互联。最少化使用光纤跳线,降低成本。

04-总结

通过以上分析,对Cray XC系列超算的硬件架构有了清晰认识。同时对Cray Aries组成的Dragonfly网络拓扑有了更好了解。

在2020年06月最新发布的Top500中, 有34家超级计算机采用Cray公司开发的Aries高速"Dragonfly"网络互联架构实现。在超算生产环境中还是广泛应用。尤其对于集群分期建设的情况,很容易实现灵活扩展,同时也实现组内高速低延时通信。

与本文相关的文章

发布评论

评论列表 (0)

  1. 暂无评论