2024年9月20日发(作者:买令美)
北京鑫博腾飞小型机网
RS/6000小型机故障的基本定位方法
一 故障的定义
.弄清楚系统发生了什么问题
.系统现在能做什么不能做什么
.故障什么时候发生的
.有没有做平时不同的操作
.故障有没有规律定时还是不定时发生的频率有多高
.是一台机器出现故障还是多台机器故障故障现象是否相同
.最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
二 故障信息的收集
1)收集故障信息对于判断诊断故障原因修复系统非常重要
2)系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析
errpt 命令的使用(普通用户权限也可使用)
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 T 0 errdemon Error logging turned off
0E017ED1 P H mem2 Memory failure
9DBCFDEE T 0 errdemon Error logging turned on
038F2580 U H scdisk0 UNDETERMINED ERROR
AA8AB241 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年
T类型: P 永久; T 临时; U 未知永久性的错误应引起重视
C分类: H 硬件; S 软件; O 用户; U未知
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666<--- ERROR_ID用大小写均可
例
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 2
北京鑫博腾飞小型机网
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD:<--- Virtal Product Data
Device .00
00
.SCSI
C25928
30F8834
.IBM97F
59F4566
00002849
ROS Level 24
Read/Write 0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
3控制面板上的LED 代码
.8 位代码通常系统故障灯会同时亮起
码
.4 位代码通常是Exxx
某些机型还会同时显示故障设备位置代
北京鑫博腾飞小型机网
.3 位代码通常为0yyy只看后3位
.8 位和4位代码可查看系统服务手册 (Service Guide)
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus
System)
.闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容
888-102 一般为软件故障888-102-207 例外
系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待
888-102-xxx-0C0 系统dump完成可关电重启
888-103 或 105
硬件故障一般有 SRN 代码及位置代码
4)SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键
选择"Utilities"
选择"Error Log", 抄下8位故障代码
在SMS 中还可以更改系统启动顺序表
5) MAIL
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查
修复系统会定时提醒root
6)运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag
> 选高级诊断Advance Diagnostic)
> 选问题诊断Problem Determination) 或
选系统检查System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分
析
7)其他用于收集系统信息的命令
lsdev -C 系统设备信息
#lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
北京鑫博腾飞小型机网
lspv 查看物理卷信息
#lspv
hdisk0 af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 c45bde datavg
lsvg 查看卷组信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: e2458b
VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt
MAX LVs: 256 FREE PPs: 1 (4 megabytes)
LVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per PV: 2032 MAX PVs: 16
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件组信息
# lslpp -L |grep 23100020
....
4.3.2.7 C IBM PCI 10/100 Ethernet Adapt
看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本
lsattr查看设备参数设置
# lsattr -El ent2
busio 0x7fffc00 Bus I/O address False
busintr 9 Bus interrupt level False
intr_priority 3 Interrupt priority False
tx_que_size 512 TRANSMIT queue size True
北京鑫博腾飞小型机网
rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True
media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True
alt_addr 0x ALTERNATE ETHERNET address True
ip_gap 96 Inter-Packet Gap True
lscfg查看VPD信息Virtual Product Data)
# lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter
(14104500)
097H0645
097H0645 <-- 备件号
C8217227
0000F20825
.IBM053
ROS Level 7201 <-- 微码版本
Loadable 04
Device .00
.SSA-ADAPTER
Device Specific.(Z0)........DRAM=032
Device Specific.(Z1)........CACHE=0
Device Specific.(Z2)........dab2
Device Specific.(YL)........P2-I7 <-- 槽号
不同的硬件设备有不同的VPD所含的格式和信息都不一样通常备件号和微码
版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号
三 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息
Error Code 和SRNs
Checkpoints
Checkpoints
检查点是系统加电CMOS初始化程序(initial program load (IPL))运
行后显示在 I/O柜的显示面板上一系列信息
IPL 流程
当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤
. Phase
Phase 1: Service Processor 的初始化
Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止
在这个步骤会显示 8xxx 或9xxx checkpoints代码
. Phase 2:
Phase 2: 由 Service Processor 引导的硬件初始化
北京鑫博腾飞小型机网
Phase 2 开始于按下I/O柜上的白色电源开关在这个步骤会显示 9xxx
checkpoints 91FF 是最后的代码标志着第三步骤的开始
. Phase 3:
Phase 3: 系统固件的初始化
在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源 在这个步骤会显
示 ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显
示各种位置码 位置码代表着系统的每一个部分
. Phase 4: AIX
Phase 4: AIX 启动
当AIX开始启动时显示面板上的代码为 0xxx 同时位置码会出现在第二行当AIX
的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现
Error Code 当系统运行有错误发现时
二行显示相对应问题硬件的位置码
一个8位码会显示在显示面板上同时在第
SRNs Service request numbers,服务请求码 当系统运行有错误发现时SRNs
码会以 xxx-xxx的形式显示在显示面板上同时在AIX的error log中也会有记载
以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码
并致电IBM服务热线
系统的启动顺序:
北京鑫博腾飞小型机网
.系统不能启动
系统停在Stage 1可能为电源系统板
码通知IBM工程师
CPU内存等硬件故障记录故障代
系统停在Stage 2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝
试进入SMS 菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选
或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问
题
系统停在Stage3
障
可能是硬盘数据损坏系统设置文件出错或I/O子系统故
.系统停在551555或557
发生在系统启动的第三阶段 (Stage 3)
文件系统损坏
文件系统日志(jfslog)损坏
rootvg中有坏硬盘
可能是
修复方法
用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致
启动后选择选项3
"Start Maintenance Mode for System Recovery"
> "Access a Root Volume Group"
> "Access this volume group and start a shell
before mounting the file systems"
格式化文件系统日志(jfslog)
# /usr/sbin/logform /dev/hd8
检查修复文件系统
# fsck -y /dev/hd1 /home 文件系统
# fsck -y /dev/hd2/usr 文件系统
# fsck -y /dev/hd3/tmp 文件系统
# fsck -y /dev/hd4/ 文件系统
# fsck -y /dev/hd9var/var 文件系统
... ...
用 exit 命令退出文件系统会自动 mount 起来
重建bootimage
# lslv -m hd5 找出bootimage所在的硬盘如hdisk0
# bosboot -ad /dev/hdisk0
# bootlist -m normal /dev/hdisk0 重建启动顺序表
北京鑫博腾飞小型机网
重启动系统
# shutdown -Fr
如上述步骤不奏效
用系统备份带恢复系统
如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘
.CDE图形界面挂死
CDE 运行时不要更改网络参数如主机名和IP 地址
更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下
更改
如CDE 已经挂死
远程 telnet 登录
找出所有dt有关的进程用kill命令杀掉
# ps -ef |grep dt
... ...
# kill PID
检查当前主机名
# hostname
tscf50
查看主机名是否对应有效的IP地址
# netstat -i |grep tscf50
tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0
更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系
# smitty tcpip
重新启动CDE界面
# /etc/
HACMP环境下可把主机名alias到127.0.0.1上
# cat /etc/hosts
127.0.0.1
2024年9月20日发(作者:买令美)
北京鑫博腾飞小型机网
RS/6000小型机故障的基本定位方法
一 故障的定义
.弄清楚系统发生了什么问题
.系统现在能做什么不能做什么
.故障什么时候发生的
.有没有做平时不同的操作
.故障有没有规律定时还是不定时发生的频率有多高
.是一台机器出现故障还是多台机器故障故障现象是否相同
.最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
二 故障信息的收集
1)收集故障信息对于判断诊断故障原因修复系统非常重要
2)系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析
errpt 命令的使用(普通用户权限也可使用)
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 T 0 errdemon Error logging turned off
0E017ED1 P H mem2 Memory failure
9DBCFDEE T 0 errdemon Error logging turned on
038F2580 U H scdisk0 UNDETERMINED ERROR
AA8AB241 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年
T类型: P 永久; T 临时; U 未知永久性的错误应引起重视
C分类: H 硬件; S 软件; O 用户; U未知
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666<--- ERROR_ID用大小写均可
例
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 2
北京鑫博腾飞小型机网
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD:<--- Virtal Product Data
Device .00
00
.SCSI
C25928
30F8834
.IBM97F
59F4566
00002849
ROS Level 24
Read/Write 0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
3控制面板上的LED 代码
.8 位代码通常系统故障灯会同时亮起
码
.4 位代码通常是Exxx
某些机型还会同时显示故障设备位置代
北京鑫博腾飞小型机网
.3 位代码通常为0yyy只看后3位
.8 位和4位代码可查看系统服务手册 (Service Guide)
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus
System)
.闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容
888-102 一般为软件故障888-102-207 例外
系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待
888-102-xxx-0C0 系统dump完成可关电重启
888-103 或 105
硬件故障一般有 SRN 代码及位置代码
4)SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键
选择"Utilities"
选择"Error Log", 抄下8位故障代码
在SMS 中还可以更改系统启动顺序表
5) MAIL
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查
修复系统会定时提醒root
6)运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag
> 选高级诊断Advance Diagnostic)
> 选问题诊断Problem Determination) 或
选系统检查System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分
析
7)其他用于收集系统信息的命令
lsdev -C 系统设备信息
#lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
北京鑫博腾飞小型机网
lspv 查看物理卷信息
#lspv
hdisk0 af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 c45bde datavg
lsvg 查看卷组信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: e2458b
VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt
MAX LVs: 256 FREE PPs: 1 (4 megabytes)
LVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per PV: 2032 MAX PVs: 16
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件组信息
# lslpp -L |grep 23100020
....
4.3.2.7 C IBM PCI 10/100 Ethernet Adapt
看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本
lsattr查看设备参数设置
# lsattr -El ent2
busio 0x7fffc00 Bus I/O address False
busintr 9 Bus interrupt level False
intr_priority 3 Interrupt priority False
tx_que_size 512 TRANSMIT queue size True
北京鑫博腾飞小型机网
rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True
media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True
alt_addr 0x ALTERNATE ETHERNET address True
ip_gap 96 Inter-Packet Gap True
lscfg查看VPD信息Virtual Product Data)
# lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter
(14104500)
097H0645
097H0645 <-- 备件号
C8217227
0000F20825
.IBM053
ROS Level 7201 <-- 微码版本
Loadable 04
Device .00
.SSA-ADAPTER
Device Specific.(Z0)........DRAM=032
Device Specific.(Z1)........CACHE=0
Device Specific.(Z2)........dab2
Device Specific.(YL)........P2-I7 <-- 槽号
不同的硬件设备有不同的VPD所含的格式和信息都不一样通常备件号和微码
版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号
三 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息
Error Code 和SRNs
Checkpoints
Checkpoints
检查点是系统加电CMOS初始化程序(initial program load (IPL))运
行后显示在 I/O柜的显示面板上一系列信息
IPL 流程
当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤
. Phase
Phase 1: Service Processor 的初始化
Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止
在这个步骤会显示 8xxx 或9xxx checkpoints代码
. Phase 2:
Phase 2: 由 Service Processor 引导的硬件初始化
北京鑫博腾飞小型机网
Phase 2 开始于按下I/O柜上的白色电源开关在这个步骤会显示 9xxx
checkpoints 91FF 是最后的代码标志着第三步骤的开始
. Phase 3:
Phase 3: 系统固件的初始化
在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源 在这个步骤会显
示 ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显
示各种位置码 位置码代表着系统的每一个部分
. Phase 4: AIX
Phase 4: AIX 启动
当AIX开始启动时显示面板上的代码为 0xxx 同时位置码会出现在第二行当AIX
的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现
Error Code 当系统运行有错误发现时
二行显示相对应问题硬件的位置码
一个8位码会显示在显示面板上同时在第
SRNs Service request numbers,服务请求码 当系统运行有错误发现时SRNs
码会以 xxx-xxx的形式显示在显示面板上同时在AIX的error log中也会有记载
以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码
并致电IBM服务热线
系统的启动顺序:
北京鑫博腾飞小型机网
.系统不能启动
系统停在Stage 1可能为电源系统板
码通知IBM工程师
CPU内存等硬件故障记录故障代
系统停在Stage 2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝
试进入SMS 菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选
或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问
题
系统停在Stage3
障
可能是硬盘数据损坏系统设置文件出错或I/O子系统故
.系统停在551555或557
发生在系统启动的第三阶段 (Stage 3)
文件系统损坏
文件系统日志(jfslog)损坏
rootvg中有坏硬盘
可能是
修复方法
用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致
启动后选择选项3
"Start Maintenance Mode for System Recovery"
> "Access a Root Volume Group"
> "Access this volume group and start a shell
before mounting the file systems"
格式化文件系统日志(jfslog)
# /usr/sbin/logform /dev/hd8
检查修复文件系统
# fsck -y /dev/hd1 /home 文件系统
# fsck -y /dev/hd2/usr 文件系统
# fsck -y /dev/hd3/tmp 文件系统
# fsck -y /dev/hd4/ 文件系统
# fsck -y /dev/hd9var/var 文件系统
... ...
用 exit 命令退出文件系统会自动 mount 起来
重建bootimage
# lslv -m hd5 找出bootimage所在的硬盘如hdisk0
# bosboot -ad /dev/hdisk0
# bootlist -m normal /dev/hdisk0 重建启动顺序表
北京鑫博腾飞小型机网
重启动系统
# shutdown -Fr
如上述步骤不奏效
用系统备份带恢复系统
如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘
.CDE图形界面挂死
CDE 运行时不要更改网络参数如主机名和IP 地址
更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下
更改
如CDE 已经挂死
远程 telnet 登录
找出所有dt有关的进程用kill命令杀掉
# ps -ef |grep dt
... ...
# kill PID
检查当前主机名
# hostname
tscf50
查看主机名是否对应有效的IP地址
# netstat -i |grep tscf50
tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0
更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系
# smitty tcpip
重新启动CDE界面
# /etc/
HACMP环境下可把主机名alias到127.0.0.1上
# cat /etc/hosts
127.0.0.1