2024年4月26日发(作者:功彗)
Trouble Shooting
故障诊断与处理
责任编辑:赵志远
E9000服务器存储断连及
ESXi主机紫屏故障
■ 北京 蓝鹏
为解决某能
编者按: 本文通过因更换数据中心单台刀片服务器机
按照“4+4”的方
源集团数据中心
框(笼),引发其他刀片服务器存储断连,进而导致VMware
式组成不同的
内的1台Huawei
ESXi宿主机紫屏、停服,阐述了在使用FCoE特性的网络
VMware vsphere
E9000刀片服务
中,数据网络和存储网络隔离的必要性及方法。
Cluster。
器MM板管理网
Ser
络不通的问题,技术人员更
网络架构及简要说明
ver所使用的VM虚拟机磁
换了服务器机框。换框后将
1.数据中心的DCN网络
盘文件,均通过挂载后端
原计算刀片安装完毕后,重
如图1所示,主要由18台
EMC VMAX SAN存储分配的
新配置了机框的融合网络交
Huawei CE12808组成。服务
LUN,E9000 Server上配备的
换模块。
器使用Huawei E9000刀箱,
CX311融合交换模块,通过安
设备上电重新入网后,计
每框均配备8个CH242计算
装MX510交换扣卡,以FCoE
算刀片无法连接存储,并引
节点和2块CX311交换模块,
的方式连接FC-SAN交换机,
发网络震荡,现网其他E9000
在计算节点上安装ESXi 5.1
逻辑结构如图2所示。
服务器的320个刀片(运行
系统,同一台EOR CE12808
3.计算节点是以安装
VMware虚拟机,承载客户
交换机下联的E9000服务器
CNA(Converged Network
生产业务)中有半数以上刀
片出现存储链路断连,部分
ESXi宿主机出现紫屏。
技术人员将设备紧急下
电,通过迁移虚拟机到其它
物理机,将紫屏宿主机重启
后业务逐步恢复正常。由于
故障宿主机所承载虚机均
为生产系统VM,导致了ERP、
OA、Web portal、mail及TMIS
等多个关键业务系统停服时
间超过了2 h。
图1 数据中心DCN网络
146
2021.02
投稿信箱:
**********************
责任编辑:赵志远
故障诊断与处理
Trouble Shooting
Adapter)扣卡的方式,通过
内部总线连接CX311交换模
块,从而使计算节点连接到
10 GE以太网络和8 GE FC网
络。其逻辑结构如图3所示。
4.在计算节点上安装的
ESXi主机软件中,可以通过
如图4的方式,挂载后端存
储上创建并映射给相应WWN
启动器。
图2 连接FC-SAN交换机逻辑结构图
故障处理及问题分析过程
机框更换完毕并加电后,
计算节点的Esxi主机始终
无法挂载SAN存储分配的
Lun。同时,告警平台陆续收
到其他E9000服务器上分配
的VM地址不可达消息,登录
宿主机有类似图5的紫屏故
障。由于故障影响面大,且
都为生产系统,长时间内无
图3 连接10 GE以太网络和8 GE FC网络逻辑结构图
法解决问题。技术人员
遂将设备紧急下电,通过
迁移虚拟机到其它正常
宿主机,将紫屏宿主机重
启后业务逐步恢复正常。
故障逐步恢复后,技
术人员开始对相关设备
运行日志进行收集分析。
首先收集了E9000交换
板FC平面日志显示,主
机wwn同时断连,几分钟
后注册恢复反复震荡。
图4 挂载后端存储上创建、并映射给相应WWN启动器
投稿信箱:
**********************
2021.02
147
Trouble Shooting
故障诊断与处理
责任编辑:赵志远
查看对应时间点更换
机框E9000的交换板以太
平面日志,发现存在STP
(生成树协议)收敛导致
所有端口discarding的
记录。
进一步分析VMware
ESXi主机日志,出现问题
后主机侧首先记录到与
光交链接断开,如图6所
示。
由于所有链路断连,
lun进入APD(all path
down)状态(lun进入APD
图5 主机出现紫屏故障
状态后主机会持续尝试
下发IO,若APD状态超时
则可能需要手动操作重
启主机或重新扫描启动
器恢复),如图7所示。
图6 主机与光交链接断开的记录日志
与E9000交换板级联
的CE12808交换机也有
大量的拓扑变更信息,如
图8所示。
根据上述信息可初步
图7 APD状态超时情况
图8 CE12808交换机包含的拓扑变更信息
148
2021.02
投稿信箱:
**********************
责任编辑:赵志远
故障诊断与处理
Trouble Shooting
图9 割接前后的配置文件比对结果
判断,机框上电重新上电,引
份配置)。
发交换网络STP重新收敛,
该ACL的目的是
由于CX311为融合交换板,
为了隔离FC(FCoE)
图10 0x8914与0x8906对应的数据类型
FCoE报文需要经过以太平面
平面与以太网平面的
转发至FC平面。STP频繁
流量,避免以太网流量对FC
SAN存储断连。
收敛,可能导致FCoE链路断
流量的冲击。其中type对
得出上述结论后,将问
连,进而引发主机无法挂载
应的以太网类型0x8914为
题交换网板ACL进行了调
SAN存储。
FCoE初始化协议FIP,0x8906
整,同时在所有连接E9000
为FCoE数据,如图10所示。
服务器CE12808交换机下
故障定位及优化
该错误的ACL过滤规则,
行接口、E9000服务器交换
得出上述结论后,结合
首先会导致FCoE帧在FC-
板上行接口配置中过滤掉
现网结构,技术人员还有个
VLAN中被错误过滤,从而造
VLAN 1。
疑问:整个架构一直平稳运
成了计算刀片CNA网卡无
设备重新上电后,计算
行,二层交换网络中STP收
法通过CX311交换模块通过
节点Esxi主机正常挂载存
敛又属正常现象,故障肯定
FIP请求,发现合适的FCoE
储,也未影响其他服务器,至
是由于本次变更中某些错误
VLAN,并通过E_Port转发FC
此故障处理完毕。
配置引发的。
帧至FC交换机挂接存储上
更换E9000机框为非业
分配的逻辑卷;其次,由于以
总结
务设备,计算节点也是原有
太网帧和FCoE帧在VLAN1
在实施数据、存储网络
机框上直接拆卸的,仅有2
导通,VLAN1默认在所有EOR
融合解决方案时,应做好2
块CX311融合交换网板做了
交换机、E9000服务器CX311
平面的隔离,这对整个系统
配置调整。技术人员遂使用
交换模块上行接口均为活动
平稳运行极为关键。同时,
Beyond Compare工具对割
状态,以太报文流量冲击到
在重大变更过程中做好必要
接前后的配置文件进行了比
FCoE报文流量,会影响其他
的事前和事中的审核、授权、
对,发现了如图9所示差异
E9000服务器FIP发现、保
监督,这样才能更好地降低
左侧为当前配置,右侧为备
活,从而使ESXi主机与FC-
割接风险。
投稿信箱:
**********************
2021.02
149
(
2024年4月26日发(作者:功彗)
Trouble Shooting
故障诊断与处理
责任编辑:赵志远
E9000服务器存储断连及
ESXi主机紫屏故障
■ 北京 蓝鹏
为解决某能
编者按: 本文通过因更换数据中心单台刀片服务器机
按照“4+4”的方
源集团数据中心
框(笼),引发其他刀片服务器存储断连,进而导致VMware
式组成不同的
内的1台Huawei
ESXi宿主机紫屏、停服,阐述了在使用FCoE特性的网络
VMware vsphere
E9000刀片服务
中,数据网络和存储网络隔离的必要性及方法。
Cluster。
器MM板管理网
Ser
络不通的问题,技术人员更
网络架构及简要说明
ver所使用的VM虚拟机磁
换了服务器机框。换框后将
1.数据中心的DCN网络
盘文件,均通过挂载后端
原计算刀片安装完毕后,重
如图1所示,主要由18台
EMC VMAX SAN存储分配的
新配置了机框的融合网络交
Huawei CE12808组成。服务
LUN,E9000 Server上配备的
换模块。
器使用Huawei E9000刀箱,
CX311融合交换模块,通过安
设备上电重新入网后,计
每框均配备8个CH242计算
装MX510交换扣卡,以FCoE
算刀片无法连接存储,并引
节点和2块CX311交换模块,
的方式连接FC-SAN交换机,
发网络震荡,现网其他E9000
在计算节点上安装ESXi 5.1
逻辑结构如图2所示。
服务器的320个刀片(运行
系统,同一台EOR CE12808
3.计算节点是以安装
VMware虚拟机,承载客户
交换机下联的E9000服务器
CNA(Converged Network
生产业务)中有半数以上刀
片出现存储链路断连,部分
ESXi宿主机出现紫屏。
技术人员将设备紧急下
电,通过迁移虚拟机到其它
物理机,将紫屏宿主机重启
后业务逐步恢复正常。由于
故障宿主机所承载虚机均
为生产系统VM,导致了ERP、
OA、Web portal、mail及TMIS
等多个关键业务系统停服时
间超过了2 h。
图1 数据中心DCN网络
146
2021.02
投稿信箱:
**********************
责任编辑:赵志远
故障诊断与处理
Trouble Shooting
Adapter)扣卡的方式,通过
内部总线连接CX311交换模
块,从而使计算节点连接到
10 GE以太网络和8 GE FC网
络。其逻辑结构如图3所示。
4.在计算节点上安装的
ESXi主机软件中,可以通过
如图4的方式,挂载后端存
储上创建并映射给相应WWN
启动器。
图2 连接FC-SAN交换机逻辑结构图
故障处理及问题分析过程
机框更换完毕并加电后,
计算节点的Esxi主机始终
无法挂载SAN存储分配的
Lun。同时,告警平台陆续收
到其他E9000服务器上分配
的VM地址不可达消息,登录
宿主机有类似图5的紫屏故
障。由于故障影响面大,且
都为生产系统,长时间内无
图3 连接10 GE以太网络和8 GE FC网络逻辑结构图
法解决问题。技术人员
遂将设备紧急下电,通过
迁移虚拟机到其它正常
宿主机,将紫屏宿主机重
启后业务逐步恢复正常。
故障逐步恢复后,技
术人员开始对相关设备
运行日志进行收集分析。
首先收集了E9000交换
板FC平面日志显示,主
机wwn同时断连,几分钟
后注册恢复反复震荡。
图4 挂载后端存储上创建、并映射给相应WWN启动器
投稿信箱:
**********************
2021.02
147
Trouble Shooting
故障诊断与处理
责任编辑:赵志远
查看对应时间点更换
机框E9000的交换板以太
平面日志,发现存在STP
(生成树协议)收敛导致
所有端口discarding的
记录。
进一步分析VMware
ESXi主机日志,出现问题
后主机侧首先记录到与
光交链接断开,如图6所
示。
由于所有链路断连,
lun进入APD(all path
down)状态(lun进入APD
图5 主机出现紫屏故障
状态后主机会持续尝试
下发IO,若APD状态超时
则可能需要手动操作重
启主机或重新扫描启动
器恢复),如图7所示。
图6 主机与光交链接断开的记录日志
与E9000交换板级联
的CE12808交换机也有
大量的拓扑变更信息,如
图8所示。
根据上述信息可初步
图7 APD状态超时情况
图8 CE12808交换机包含的拓扑变更信息
148
2021.02
投稿信箱:
**********************
责任编辑:赵志远
故障诊断与处理
Trouble Shooting
图9 割接前后的配置文件比对结果
判断,机框上电重新上电,引
份配置)。
发交换网络STP重新收敛,
该ACL的目的是
由于CX311为融合交换板,
为了隔离FC(FCoE)
图10 0x8914与0x8906对应的数据类型
FCoE报文需要经过以太平面
平面与以太网平面的
转发至FC平面。STP频繁
流量,避免以太网流量对FC
SAN存储断连。
收敛,可能导致FCoE链路断
流量的冲击。其中type对
得出上述结论后,将问
连,进而引发主机无法挂载
应的以太网类型0x8914为
题交换网板ACL进行了调
SAN存储。
FCoE初始化协议FIP,0x8906
整,同时在所有连接E9000
为FCoE数据,如图10所示。
服务器CE12808交换机下
故障定位及优化
该错误的ACL过滤规则,
行接口、E9000服务器交换
得出上述结论后,结合
首先会导致FCoE帧在FC-
板上行接口配置中过滤掉
现网结构,技术人员还有个
VLAN中被错误过滤,从而造
VLAN 1。
疑问:整个架构一直平稳运
成了计算刀片CNA网卡无
设备重新上电后,计算
行,二层交换网络中STP收
法通过CX311交换模块通过
节点Esxi主机正常挂载存
敛又属正常现象,故障肯定
FIP请求,发现合适的FCoE
储,也未影响其他服务器,至
是由于本次变更中某些错误
VLAN,并通过E_Port转发FC
此故障处理完毕。
配置引发的。
帧至FC交换机挂接存储上
更换E9000机框为非业
分配的逻辑卷;其次,由于以
总结
务设备,计算节点也是原有
太网帧和FCoE帧在VLAN1
在实施数据、存储网络
机框上直接拆卸的,仅有2
导通,VLAN1默认在所有EOR
融合解决方案时,应做好2
块CX311融合交换网板做了
交换机、E9000服务器CX311
平面的隔离,这对整个系统
配置调整。技术人员遂使用
交换模块上行接口均为活动
平稳运行极为关键。同时,
Beyond Compare工具对割
状态,以太报文流量冲击到
在重大变更过程中做好必要
接前后的配置文件进行了比
FCoE报文流量,会影响其他
的事前和事中的审核、授权、
对,发现了如图9所示差异
E9000服务器FIP发现、保
监督,这样才能更好地降低
左侧为当前配置,右侧为备
活,从而使ESXi主机与FC-
割接风险。
投稿信箱:
**********************
2021.02
149
(