2024年2月22日发(作者:光雨晴)
深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑
美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心(简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori(格蒂·科里),第一个获得诺贝尔奖的美国女科学家。
CORI由Cray/HPE公司设计交付,在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz Intel
Haswell处理器节点 + 9688个 Intel Xeon Phi 7250 68-
Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。
下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。
下面我们深入分析一下Cray XC系列超级计算机架构,并重点对Aries网络进行分析。
01-Cray XC系列超算硬件架构
Cray自1972年创立之后,专注超级计算机研发,有着超级计算机之父之称,2019年被HPE收购。其设计一个好的超级计算机的秘密在于:
1.
选择最新最好的CPU处理器架构
CPU互联的高带宽网络,实现网络互联,2.
开发构建一个围绕3.
系统高扩展性
和本地内存快速数据访问
3.1,消除OS的限制
3.2,高可靠性和高弹性设计
3.3,可扩展系统管理
3.4,可扩展的IO架构
3.5,可扩展的编程和性能工具
Cray XC40超级计算机,采用大规模并行处理MPP架构设计,是由成千上万个单独的计算节点组成。作为一个整体超级计算机,单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络,并致力于优化互联的带宽和降低成本。
如上图,Cray XC系列超级计算机硬件主要有以下模块组成:
• 计算刀片。由4个计算节点组成。
• 机箱。由16个计算刀片组成,共计64个计算节点。
• 机柜组。由2个机柜互联组成一组,共6个机箱,每机柜3个机箱,共计384个计算节点。
• 系统级全互联。由光纤跳线实现跨机柜组全互联架构,可根据规模实现数百个机柜互联,最多可支持上万个计算节点。
如上图,机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱:
• 单个机柜有3个机箱组成。
• 每个机箱,由16个计算刀片组成。
• 每个计算刀片由4个计算节点组成。
Cray XC40计算刀片组成结构如上图所示,其主要特点如下:
• 每一个计算刀片包含4个计算节点。
• 每个计算节点,由2个物理Socket组成。单个刀片共8路物理CPU。
• 4个计算节点连接到同一个Cray 设计的Aries网络路由ASIC芯片。
Cray XC40一个计算刀片由4个计算节点,同时还包含一个Cray设计的Aries路由器ASIC芯片。每个计算节点由2个物理CPU组成,CPU之间通过QPI实现跨CPU通信。
02-Cray Aries网络和DragonFly拓扑
Cray设计的Aries “DragonFly"网络互联架构是一个高速低延时网络。
Cray XC系列组网的三个级别
Cray XC系列架构中,计算节点之间由Cray Aries定制ASIC路由芯片实现互连通信,可以分为三个级别组网:
• 级别一:机箱级。由16个计算刀片组成一个Chassis机箱。一个机柜中,可以放三个Chassis机箱。与机箱内其它计算刀片通过背板连接通信,实现Rank1级别网络互联。
• 级别二:机柜组内通信。由2个机柜互联组成一组。每个机柜由3个机箱组成,共计6个机箱。与组内其它机箱的计算刀片之间,由铜线连接实现互联,实现Rank2级别互联。
• 级别三:跨机柜组通信。 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。
上图是Cray Aries定制的ASIC芯片Die图,以及一个计算刀片内计算节点与Aries网络路由芯片的拓扑示意图。
级别一:机箱级计算节点网络互联。
•
一个机箱由
16个计算刀片组成。共128个物理CPU。
Aries网络路由通信。 •
机箱内计算节点通过背板实现跨
•
可以实现基于Packet的自适应路由功能,提高网络传输效率。
级别二:机柜组内通信互联组成DragonFly网络拓扑。
• 一个计算刀片,由4个节点组成,连接到同一个Aries网络芯片。
• 图中绿色网络互联,代表一个机箱的16个计算节点互联,通过16个Aries 定制ASIC网络路由芯片通过机箱背板实现通信。
• 图中黑色网络互联,代表一组机柜内,由6个机箱组成,机箱内通过铜线连接。
• 由2个机柜互联组成一组。共计768个物理CPU Socket。
级别三:跨机柜组通信: 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。
如上图,Cray XC40超级计算机构建的Aries DragonFly网络中,在2个机柜互联组成的同一组内通信时:
•
任意两个计算节点之间,最少路由只需要•
非最优状态下,需要
2跳即可实现。
4跳实现通信。
•
采用自适应路由算法,可以基于链路负载在最少路由和非最优路由之间选择。
•
Cray Aries
拓扑保证足够带宽来实现所有节点通信。
Cray XC系列Aries的自适应路由算法如上图所示,会动态根据链路负载情况进行动态选择,实现负载均衡,避免拥塞,提高网络效率。
在Aries网络中,根据计算节点通信的不同,不同距离对时延
和带宽影响不同,以上数据基于Cray XC30架构,仅供参考。
上图中组0和组3之间的计算节点之间要互相通信,假设最优路径已经出现拥塞时,则此时可以其它中间组实现跳转,这样能够更好使用全系统网络带宽,提高网络的使用效率。
03-Cray Aries DragonFly拓扑优势
为什么Cray选择Aries网络Dragonfly拓扑架构?
1. 高扩展性。拓扑灵活扩展到上万个以上大规模计算节点。
2. 高性能。Cray和斯坦福大学联合开发的自适应路由算法,保证高效网络。同时也支持混合不同块大小的消息类型。
3. 简单架构。不需要外部交换机,不需要HBA或单独网卡和路由器。
4. 成本优势。最大化使用背板和铜线互联。最少化使用光纤跳线,降低成本。
04-总结
通过以上分析,对Cray XC系列超算的硬件架构有了清晰认识。同时对Cray Aries组成的Dragonfly网络拓扑有了更好了解。
在2020年06月最新发布的Top500中, 有34家超级计算机采用Cray公司开发的Aries高速"Dragonfly"网络互联架构实现。在超算生产环境中还是广泛应用。尤其对于集群分期建设的情况,很容易实现灵活扩展,同时也实现组内高速低延时通信。
2024年2月22日发(作者:光雨晴)
深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑
美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心(简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori(格蒂·科里),第一个获得诺贝尔奖的美国女科学家。
CORI由Cray/HPE公司设计交付,在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz Intel
Haswell处理器节点 + 9688个 Intel Xeon Phi 7250 68-
Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。
下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。
下面我们深入分析一下Cray XC系列超级计算机架构,并重点对Aries网络进行分析。
01-Cray XC系列超算硬件架构
Cray自1972年创立之后,专注超级计算机研发,有着超级计算机之父之称,2019年被HPE收购。其设计一个好的超级计算机的秘密在于:
1.
选择最新最好的CPU处理器架构
CPU互联的高带宽网络,实现网络互联,2.
开发构建一个围绕3.
系统高扩展性
和本地内存快速数据访问
3.1,消除OS的限制
3.2,高可靠性和高弹性设计
3.3,可扩展系统管理
3.4,可扩展的IO架构
3.5,可扩展的编程和性能工具
Cray XC40超级计算机,采用大规模并行处理MPP架构设计,是由成千上万个单独的计算节点组成。作为一个整体超级计算机,单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络,并致力于优化互联的带宽和降低成本。
如上图,Cray XC系列超级计算机硬件主要有以下模块组成:
• 计算刀片。由4个计算节点组成。
• 机箱。由16个计算刀片组成,共计64个计算节点。
• 机柜组。由2个机柜互联组成一组,共6个机箱,每机柜3个机箱,共计384个计算节点。
• 系统级全互联。由光纤跳线实现跨机柜组全互联架构,可根据规模实现数百个机柜互联,最多可支持上万个计算节点。
如上图,机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱:
• 单个机柜有3个机箱组成。
• 每个机箱,由16个计算刀片组成。
• 每个计算刀片由4个计算节点组成。
Cray XC40计算刀片组成结构如上图所示,其主要特点如下:
• 每一个计算刀片包含4个计算节点。
• 每个计算节点,由2个物理Socket组成。单个刀片共8路物理CPU。
• 4个计算节点连接到同一个Cray 设计的Aries网络路由ASIC芯片。
Cray XC40一个计算刀片由4个计算节点,同时还包含一个Cray设计的Aries路由器ASIC芯片。每个计算节点由2个物理CPU组成,CPU之间通过QPI实现跨CPU通信。
02-Cray Aries网络和DragonFly拓扑
Cray设计的Aries “DragonFly"网络互联架构是一个高速低延时网络。
Cray XC系列组网的三个级别
Cray XC系列架构中,计算节点之间由Cray Aries定制ASIC路由芯片实现互连通信,可以分为三个级别组网:
• 级别一:机箱级。由16个计算刀片组成一个Chassis机箱。一个机柜中,可以放三个Chassis机箱。与机箱内其它计算刀片通过背板连接通信,实现Rank1级别网络互联。
• 级别二:机柜组内通信。由2个机柜互联组成一组。每个机柜由3个机箱组成,共计6个机箱。与组内其它机箱的计算刀片之间,由铜线连接实现互联,实现Rank2级别互联。
• 级别三:跨机柜组通信。 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。
上图是Cray Aries定制的ASIC芯片Die图,以及一个计算刀片内计算节点与Aries网络路由芯片的拓扑示意图。
级别一:机箱级计算节点网络互联。
•
一个机箱由
16个计算刀片组成。共128个物理CPU。
Aries网络路由通信。 •
机箱内计算节点通过背板实现跨
•
可以实现基于Packet的自适应路由功能,提高网络传输效率。
级别二:机柜组内通信互联组成DragonFly网络拓扑。
• 一个计算刀片,由4个节点组成,连接到同一个Aries网络芯片。
• 图中绿色网络互联,代表一个机箱的16个计算节点互联,通过16个Aries 定制ASIC网络路由芯片通过机箱背板实现通信。
• 图中黑色网络互联,代表一组机柜内,由6个机箱组成,机箱内通过铜线连接。
• 由2个机柜互联组成一组。共计768个物理CPU Socket。
级别三:跨机柜组通信: 与集群内其它组的计算刀片之间,由光纤线缆连接实现,实现Rank3级别互联。
如上图,Cray XC40超级计算机构建的Aries DragonFly网络中,在2个机柜互联组成的同一组内通信时:
•
任意两个计算节点之间,最少路由只需要•
非最优状态下,需要
2跳即可实现。
4跳实现通信。
•
采用自适应路由算法,可以基于链路负载在最少路由和非最优路由之间选择。
•
Cray Aries
拓扑保证足够带宽来实现所有节点通信。
Cray XC系列Aries的自适应路由算法如上图所示,会动态根据链路负载情况进行动态选择,实现负载均衡,避免拥塞,提高网络效率。
在Aries网络中,根据计算节点通信的不同,不同距离对时延
和带宽影响不同,以上数据基于Cray XC30架构,仅供参考。
上图中组0和组3之间的计算节点之间要互相通信,假设最优路径已经出现拥塞时,则此时可以其它中间组实现跳转,这样能够更好使用全系统网络带宽,提高网络的使用效率。
03-Cray Aries DragonFly拓扑优势
为什么Cray选择Aries网络Dragonfly拓扑架构?
1. 高扩展性。拓扑灵活扩展到上万个以上大规模计算节点。
2. 高性能。Cray和斯坦福大学联合开发的自适应路由算法,保证高效网络。同时也支持混合不同块大小的消息类型。
3. 简单架构。不需要外部交换机,不需要HBA或单独网卡和路由器。
4. 成本优势。最大化使用背板和铜线互联。最少化使用光纤跳线,降低成本。
04-总结
通过以上分析,对Cray XC系列超算的硬件架构有了清晰认识。同时对Cray Aries组成的Dragonfly网络拓扑有了更好了解。
在2020年06月最新发布的Top500中, 有34家超级计算机采用Cray公司开发的Aries高速"Dragonfly"网络互联架构实现。在超算生产环境中还是广泛应用。尤其对于集群分期建设的情况,很容易实现灵活扩展,同时也实现组内高速低延时通信。