最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

IBM rs6000小型机故障的基本定位方法

IT圈 admin 38浏览 0评论

2024年9月20日发(作者:买令美)

北京鑫博腾飞小型机网

RS/6000小型机故障的基本定位方法

一 故障的定义

.弄清楚系统发生了什么问题

.系统现在能做什么不能做什么

.故障什么时候发生的

.有没有做平时不同的操作

.故障有没有规律定时还是不定时发生的频率有多高

.是一台机器出现故障还是多台机器故障故障现象是否相同

.最近有没有做改动如安装了新的硬件软件改变了系统的一些设置

二 故障信息的收集

1)收集故障信息对于判断诊断故障原因修复系统非常重要

2)系统故障记录(errorlog)

errdemon 进程在系统启动时自动运行

记录包括硬件软件及其他操作信息

故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析

errpt 命令的使用(普通用户权限也可使用)

#errpt |more 列出简短出错信息

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION

192AC071 T 0 errdemon Error logging turned off

0E017ED1 P H mem2 Memory failure

9DBCFDEE T 0 errdemon Error logging turned on

038F2580 U H scdisk0 UNDETERMINED ERROR

AA8AB241 T O OPERATOR OPERATOR NOTIFICATION

TIMESTAMP: MMDDHHMMYY (月日时分年

T类型: P 永久; T 临时; U 未知永久性的错误应引起重视

C分类: H 硬件; S 软件; O 用户; U未知

#errpt -d H 列出所有硬件出错信息

#errpt -d S 列出所有软件出错信息

#errpt -aj ERROR_ID 列出详细出错信息

# errpt -aj 0502f666<--- ERROR_ID用大小写均可

LABEL: SCSI_ERR1

ID: 0502F666

Date/Time: Jun 19 22:29:51

Sequence Number: 95

Machine ID: 2

北京鑫博腾飞小型机网

Node ID: host1

Class: H

Type: PERM

Resource Name: scsi0

Resource Class: adapter

Resource Type: hscsi

Location: 00-08

VPD:<--- Virtal Product Data

Device .00

00

.SCSI

C25928

30F8834

.IBM97F

59F4566

00002849

ROS Level 24

Read/Write 0120

Description

ADAPTER ERROR

Probable Causes

ADAPTER HARDWARE CABLE

CABLE TERMINATOR DEVICE

Failure Causes

ADAPTER

CABLE LOOSE OR DEFECTIVE

Recommended Actions

PERFORM PROBLEM DETERMINATION PROCEDURES

CHECK CABLE AND ITS CONNECTIONS

Detail Data

SENSE DATA

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

3控制面板上的LED 代码

.8 位代码通常系统故障灯会同时亮起

.4 位代码通常是Exxx

某些机型还会同时显示故障设备位置代

北京鑫博腾飞小型机网

.3 位代码通常为0yyy只看后3位

.8 位和4位代码可查看系统服务手册 (Service Guide)

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus

System)

.闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容

888-102 一般为软件故障888-102-207 例外

系统会产生一个dump

888-102-xxx-0C9 系统正在做dump, 请等待

888-102-xxx-0C0 系统dump完成可关电重启

888-103 或 105

硬件故障一般有 SRN 代码及位置代码

4)SMS (System Management Service) 故障记录

如何进入SMS 菜单

当主控台出现键盘图标后(LED 显示E1F1时)按1键

选择"Utilities"

选择"Error Log", 抄下8位故障代码

在SMS 中还可以更改系统启动顺序表

5) MAIL

#mail

系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查

修复系统会定时提醒root

6)运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断

当发现有硬件故障时应立即使用diag

#diag

> 选高级诊断Advance Diagnostic)

> 选问题诊断Problem Determination) 或

选系统检查System Verification)

(选PD 会对系统错误记录进行分析)

diag运行后会给出SRN 代码故障设备名称及百分比地址代码等

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分

7)其他用于收集系统信息的命令

lsdev -C 系统设备信息

#lsdev -Cc disk

hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive

hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive

hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive

北京鑫博腾飞小型机网

lspv 查看物理卷信息

#lspv

hdisk0 af3d76 rootvg

hdisk1 000782117f571294 rootvg

hdisk2 c45bde datavg

lsvg 查看卷组信息

#lsvg datavg

VOLUME GROUP: datavg VG IDENTIFIER: e2458b

VG STATE: active PP SIZE: 4 megabyte(s)

VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt

MAX LVs: 256 FREE PPs: 1 (4 megabytes)

LVs: 3 USED PPs: 2168 (8672 megabyt

OPEN LVs: 2 QUORUM: 2

TOTAL PVs: 1 VG DESCRIPTORS: 2

STALE PVs: 0 STALE PPs: 0

ACTIVE PVs: 1 AUTO ON: yes

MAX PPs per PV: 2032 MAX PVs: 16

#lsvg -l rootvg

rootvg:

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

...

lv00 jfs 51 102 1 closed/stale /ibmcxx

lv01 jfs 1 1 1 open/syncd /cics_regions

lv02 jfs 4 4 1 open/syncd /var/mqm

lslpp 查看文件组信息

# lslpp -L |grep 23100020

....

4.3.2.7 C IBM PCI 10/100 Ethernet Adapt

看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本

lsattr查看设备参数设置

# lsattr -El ent2

busio 0x7fffc00 Bus I/O address False

busintr 9 Bus interrupt level False

intr_priority 3 Interrupt priority False

tx_que_size 512 TRANSMIT queue size True

北京鑫博腾飞小型机网

rx_que_size 256 RECEIVE queue size True

rxbuf_pool_size 384 RECEIVE buffer pool size True

media_speed 10_Half_Duplex Media Speed True

use_alt_addr no Enable ALTERNATE ETHERNET address True

alt_addr 0x ALTERNATE ETHERNET address True

ip_gap 96 Inter-Packet Gap True

lscfg查看VPD信息Virtual Product Data)

# lscfg -vl ssa1

DEVICE LOCATION DESCRIPTION

ssa1 30-68 IBM SSA Enhanced RAID Adapter

(14104500)

097H0645

097H0645 <-- 备件号

C8217227

0000F20825

.IBM053

ROS Level 7201 <-- 微码版本

Loadable 04

Device .00

.SSA-ADAPTER

Device Specific.(Z0)........DRAM=032

Device Specific.(Z1)........CACHE=0

Device Specific.(Z2)........dab2

Device Specific.(YL)........P2-I7 <-- 槽号

不同的硬件设备有不同的VPD所含的格式和信息都不一样通常备件号和微码

版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号

三 硬件故障定位方法

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息

Error Code 和SRNs

Checkpoints

Checkpoints

检查点是系统加电CMOS初始化程序(initial program load (IPL))运

行后显示在 I/O柜的显示面板上一系列信息

IPL 流程

当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤

. Phase

Phase 1: Service Processor 的初始化

Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止

在这个步骤会显示 8xxx 或9xxx checkpoints代码

. Phase 2:

Phase 2: 由 Service Processor 引导的硬件初始化

北京鑫博腾飞小型机网

Phase 2 开始于按下I/O柜上的白色电源开关在这个步骤会显示 9xxx

checkpoints 91FF 是最后的代码标志着第三步骤的开始

. Phase 3:

Phase 3: 系统固件的初始化

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源 在这个步骤会显

示 ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显

示各种位置码 位置码代表着系统的每一个部分

. Phase 4: AIX

Phase 4: AIX 启动

当AIX开始启动时显示面板上的代码为 0xxx 同时位置码会出现在第二行当AIX

的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现

Error Code 当系统运行有错误发现时

二行显示相对应问题硬件的位置码

一个8位码会显示在显示面板上同时在第

SRNs Service request numbers,服务请求码 当系统运行有错误发现时SRNs

码会以 xxx-xxx的形式显示在显示面板上同时在AIX的error log中也会有记载

以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码

并致电IBM服务热线

系统的启动顺序:

北京鑫博腾飞小型机网

.系统不能启动

系统停在Stage 1可能为电源系统板

码通知IBM工程师

CPU内存等硬件故障记录故障代

系统停在Stage 2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝

试进入SMS 菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选

或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问

系统停在Stage3

可能是硬盘数据损坏系统设置文件出错或I/O子系统故

.系统停在551555或557

发生在系统启动的第三阶段 (Stage 3)

文件系统损坏

文件系统日志(jfslog)损坏

rootvg中有坏硬盘

可能是

修复方法

用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致

启动后选择选项3

"Start Maintenance Mode for System Recovery"

> "Access a Root Volume Group"

> "Access this volume group and start a shell

before mounting the file systems"

格式化文件系统日志(jfslog)

# /usr/sbin/logform /dev/hd8

检查修复文件系统

# fsck -y /dev/hd1 /home 文件系统

# fsck -y /dev/hd2/usr 文件系统

# fsck -y /dev/hd3/tmp 文件系统

# fsck -y /dev/hd4/ 文件系统

# fsck -y /dev/hd9var/var 文件系统

... ...

用 exit 命令退出文件系统会自动 mount 起来

重建bootimage

# lslv -m hd5 找出bootimage所在的硬盘如hdisk0

# bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 重建启动顺序表

北京鑫博腾飞小型机网

重启动系统

# shutdown -Fr

如上述步骤不奏效

用系统备份带恢复系统

如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘

.CDE图形界面挂死

CDE 运行时不要更改网络参数如主机名和IP 地址

更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下

更改

如CDE 已经挂死

远程 telnet 登录

找出所有dt有关的进程用kill命令杀掉

# ps -ef |grep dt

... ...

# kill PID

检查当前主机名

# hostname

tscf50

查看主机名是否对应有效的IP地址

# netstat -i |grep tscf50

tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系

# smitty tcpip

重新启动CDE界面

# /etc/

HACMP环境下可把主机名alias到127.0.0.1上

# cat /etc/hosts

127.0.0.1

2024年9月20日发(作者:买令美)

北京鑫博腾飞小型机网

RS/6000小型机故障的基本定位方法

一 故障的定义

.弄清楚系统发生了什么问题

.系统现在能做什么不能做什么

.故障什么时候发生的

.有没有做平时不同的操作

.故障有没有规律定时还是不定时发生的频率有多高

.是一台机器出现故障还是多台机器故障故障现象是否相同

.最近有没有做改动如安装了新的硬件软件改变了系统的一些设置

二 故障信息的收集

1)收集故障信息对于判断诊断故障原因修复系统非常重要

2)系统故障记录(errorlog)

errdemon 进程在系统启动时自动运行

记录包括硬件软件及其他操作信息

故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析

errpt 命令的使用(普通用户权限也可使用)

#errpt |more 列出简短出错信息

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION

192AC071 T 0 errdemon Error logging turned off

0E017ED1 P H mem2 Memory failure

9DBCFDEE T 0 errdemon Error logging turned on

038F2580 U H scdisk0 UNDETERMINED ERROR

AA8AB241 T O OPERATOR OPERATOR NOTIFICATION

TIMESTAMP: MMDDHHMMYY (月日时分年

T类型: P 永久; T 临时; U 未知永久性的错误应引起重视

C分类: H 硬件; S 软件; O 用户; U未知

#errpt -d H 列出所有硬件出错信息

#errpt -d S 列出所有软件出错信息

#errpt -aj ERROR_ID 列出详细出错信息

# errpt -aj 0502f666<--- ERROR_ID用大小写均可

LABEL: SCSI_ERR1

ID: 0502F666

Date/Time: Jun 19 22:29:51

Sequence Number: 95

Machine ID: 2

北京鑫博腾飞小型机网

Node ID: host1

Class: H

Type: PERM

Resource Name: scsi0

Resource Class: adapter

Resource Type: hscsi

Location: 00-08

VPD:<--- Virtal Product Data

Device .00

00

.SCSI

C25928

30F8834

.IBM97F

59F4566

00002849

ROS Level 24

Read/Write 0120

Description

ADAPTER ERROR

Probable Causes

ADAPTER HARDWARE CABLE

CABLE TERMINATOR DEVICE

Failure Causes

ADAPTER

CABLE LOOSE OR DEFECTIVE

Recommended Actions

PERFORM PROBLEM DETERMINATION PROCEDURES

CHECK CABLE AND ITS CONNECTIONS

Detail Data

SENSE DATA

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

3控制面板上的LED 代码

.8 位代码通常系统故障灯会同时亮起

.4 位代码通常是Exxx

某些机型还会同时显示故障设备位置代

北京鑫博腾飞小型机网

.3 位代码通常为0yyy只看后3位

.8 位和4位代码可查看系统服务手册 (Service Guide)

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus

System)

.闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容

888-102 一般为软件故障888-102-207 例外

系统会产生一个dump

888-102-xxx-0C9 系统正在做dump, 请等待

888-102-xxx-0C0 系统dump完成可关电重启

888-103 或 105

硬件故障一般有 SRN 代码及位置代码

4)SMS (System Management Service) 故障记录

如何进入SMS 菜单

当主控台出现键盘图标后(LED 显示E1F1时)按1键

选择"Utilities"

选择"Error Log", 抄下8位故障代码

在SMS 中还可以更改系统启动顺序表

5) MAIL

#mail

系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查

修复系统会定时提醒root

6)运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断

当发现有硬件故障时应立即使用diag

#diag

> 选高级诊断Advance Diagnostic)

> 选问题诊断Problem Determination) 或

选系统检查System Verification)

(选PD 会对系统错误记录进行分析)

diag运行后会给出SRN 代码故障设备名称及百分比地址代码等

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分

7)其他用于收集系统信息的命令

lsdev -C 系统设备信息

#lsdev -Cc disk

hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive

hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive

hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive

北京鑫博腾飞小型机网

lspv 查看物理卷信息

#lspv

hdisk0 af3d76 rootvg

hdisk1 000782117f571294 rootvg

hdisk2 c45bde datavg

lsvg 查看卷组信息

#lsvg datavg

VOLUME GROUP: datavg VG IDENTIFIER: e2458b

VG STATE: active PP SIZE: 4 megabyte(s)

VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt

MAX LVs: 256 FREE PPs: 1 (4 megabytes)

LVs: 3 USED PPs: 2168 (8672 megabyt

OPEN LVs: 2 QUORUM: 2

TOTAL PVs: 1 VG DESCRIPTORS: 2

STALE PVs: 0 STALE PPs: 0

ACTIVE PVs: 1 AUTO ON: yes

MAX PPs per PV: 2032 MAX PVs: 16

#lsvg -l rootvg

rootvg:

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

...

lv00 jfs 51 102 1 closed/stale /ibmcxx

lv01 jfs 1 1 1 open/syncd /cics_regions

lv02 jfs 4 4 1 open/syncd /var/mqm

lslpp 查看文件组信息

# lslpp -L |grep 23100020

....

4.3.2.7 C IBM PCI 10/100 Ethernet Adapt

看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本

lsattr查看设备参数设置

# lsattr -El ent2

busio 0x7fffc00 Bus I/O address False

busintr 9 Bus interrupt level False

intr_priority 3 Interrupt priority False

tx_que_size 512 TRANSMIT queue size True

北京鑫博腾飞小型机网

rx_que_size 256 RECEIVE queue size True

rxbuf_pool_size 384 RECEIVE buffer pool size True

media_speed 10_Half_Duplex Media Speed True

use_alt_addr no Enable ALTERNATE ETHERNET address True

alt_addr 0x ALTERNATE ETHERNET address True

ip_gap 96 Inter-Packet Gap True

lscfg查看VPD信息Virtual Product Data)

# lscfg -vl ssa1

DEVICE LOCATION DESCRIPTION

ssa1 30-68 IBM SSA Enhanced RAID Adapter

(14104500)

097H0645

097H0645 <-- 备件号

C8217227

0000F20825

.IBM053

ROS Level 7201 <-- 微码版本

Loadable 04

Device .00

.SSA-ADAPTER

Device Specific.(Z0)........DRAM=032

Device Specific.(Z1)........CACHE=0

Device Specific.(Z2)........dab2

Device Specific.(YL)........P2-I7 <-- 槽号

不同的硬件设备有不同的VPD所含的格式和信息都不一样通常备件号和微码

版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号

三 硬件故障定位方法

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息

Error Code 和SRNs

Checkpoints

Checkpoints

检查点是系统加电CMOS初始化程序(initial program load (IPL))运

行后显示在 I/O柜的显示面板上一系列信息

IPL 流程

当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤

. Phase

Phase 1: Service Processor 的初始化

Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止

在这个步骤会显示 8xxx 或9xxx checkpoints代码

. Phase 2:

Phase 2: 由 Service Processor 引导的硬件初始化

北京鑫博腾飞小型机网

Phase 2 开始于按下I/O柜上的白色电源开关在这个步骤会显示 9xxx

checkpoints 91FF 是最后的代码标志着第三步骤的开始

. Phase 3:

Phase 3: 系统固件的初始化

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源 在这个步骤会显

示 ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显

示各种位置码 位置码代表着系统的每一个部分

. Phase 4: AIX

Phase 4: AIX 启动

当AIX开始启动时显示面板上的代码为 0xxx 同时位置码会出现在第二行当AIX

的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现

Error Code 当系统运行有错误发现时

二行显示相对应问题硬件的位置码

一个8位码会显示在显示面板上同时在第

SRNs Service request numbers,服务请求码 当系统运行有错误发现时SRNs

码会以 xxx-xxx的形式显示在显示面板上同时在AIX的error log中也会有记载

以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码

并致电IBM服务热线

系统的启动顺序:

北京鑫博腾飞小型机网

.系统不能启动

系统停在Stage 1可能为电源系统板

码通知IBM工程师

CPU内存等硬件故障记录故障代

系统停在Stage 2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝

试进入SMS 菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选

或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问

系统停在Stage3

可能是硬盘数据损坏系统设置文件出错或I/O子系统故

.系统停在551555或557

发生在系统启动的第三阶段 (Stage 3)

文件系统损坏

文件系统日志(jfslog)损坏

rootvg中有坏硬盘

可能是

修复方法

用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致

启动后选择选项3

"Start Maintenance Mode for System Recovery"

> "Access a Root Volume Group"

> "Access this volume group and start a shell

before mounting the file systems"

格式化文件系统日志(jfslog)

# /usr/sbin/logform /dev/hd8

检查修复文件系统

# fsck -y /dev/hd1 /home 文件系统

# fsck -y /dev/hd2/usr 文件系统

# fsck -y /dev/hd3/tmp 文件系统

# fsck -y /dev/hd4/ 文件系统

# fsck -y /dev/hd9var/var 文件系统

... ...

用 exit 命令退出文件系统会自动 mount 起来

重建bootimage

# lslv -m hd5 找出bootimage所在的硬盘如hdisk0

# bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 重建启动顺序表

北京鑫博腾飞小型机网

重启动系统

# shutdown -Fr

如上述步骤不奏效

用系统备份带恢复系统

如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘

.CDE图形界面挂死

CDE 运行时不要更改网络参数如主机名和IP 地址

更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下

更改

如CDE 已经挂死

远程 telnet 登录

找出所有dt有关的进程用kill命令杀掉

# ps -ef |grep dt

... ...

# kill PID

检查当前主机名

# hostname

tscf50

查看主机名是否对应有效的IP地址

# netstat -i |grep tscf50

tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系

# smitty tcpip

重新启动CDE界面

# /etc/

HACMP环境下可把主机名alias到127.0.0.1上

# cat /etc/hosts

127.0.0.1

发布评论

评论列表 (0)

  1. 暂无评论