2024年9月20日发(作者:潭国源)
RS6000巡检指导手册指导手册
RS/6000巡检指导手册
1. 模板说明
目前,针对服务项目我们提供了两个文档模板:《服务项目信息》模板和《巡
检报告》模板。
《服务项目信息》主要是用于收集服务项目详细的技术信息,以便于发生故障
时尽快解决问题。一般在第一次巡检完成,如果系统发生调整,可在后面的巡检中
更新。《服务项目信息》作为内部文档,对格式不做硬性,可以将收集的文本信息
嵌入到Word文档中,但是内容需要保证。
《巡检报告》是平时巡检时使用的,记录的信息比较简单,主要是常规的信息。
2. 巡检准备工作
第一次巡检一般就是该服务项目的项目启动,工程师需要与项目经理一起了解
服务合同的内容,与用户联系,确认服务内容,并准备《日常维护手册》。在巡检
之后需要完成《服务项目信息》、《巡检报告》,对于重大项目,需要完成《应急
方案》。《日常维护手册》和《巡检报告》在第一次巡检完成之后提交给用户。《服
务项目信息》主要是内部使用,不需要提交给用户。
在后面的巡检之前,工程师应该了解该项目的《服务项目信息》、《巡检报告》
和《应急方案》。巡检出发前应该主动与用户联系何时开始巡检,巡检的时间根据
用户的需要来安排在工作时间或者非工作时间。一般来说,巡检只查看机器的状态,
不会对机器的配置进行修改,巡检可以安排在工作时间。如果用户有别的顾虑,可
以把巡检安排在非工作时间。如果合同规定的服务范围包括HA
(HACMP/PowerHA),建议用户留出时间来进行HA测试,以确保发生故障时能
IT
服务中国
第1页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
够正常切换。
3. IBM RS/6000服务器
3.1 硬件检查
3.1.1 检查系统物理状态
先从外观上检查硬件情况,检查设备故障灯是否有亮。 各种设备上都有故障指
示灯,通常为橘红色并有“~”标记。同时注意服务器的LCD面板,设备发生故障
时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他
异常情况(如硬盘、风扇异常的声音,电缆破损等)。
3.1.2 检查硬件错误日志
使用“errpt –d H”命令检查硬件错误报告。如有,则应使用“errpt –aj err_id
|more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,
如运行 “diag –d hdisk1”、“diag –vd hdisk1”。“-v”选项可对故障记录中的
SENSE DATA进行分析并给出SRN, FRU等。
用“mail”命令查看有否发给root用户的错误报告。
3.1.3 查看设备状态
可以用如下命令查看设备状态:
1. 用lsdev –Cc Hardware_Name来检查硬件设备的状态,Hardware_Name可
以是processor、disk、tape、adapter。
2. CPU状态的检查除了lsdev之外,还需要用“sar –PALL 1 10”检查一下
每个CPU是否都在工作。
IT
服务中国
第2页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
3. Memory状态的检查主要看总量大小是否有变化,可用“lsattr -El sys0 -a
realmem”来检查。如果发现内存总量变小,可用“lscfg -vp|grep -p mem”
来检查哪些槽位上的内存有问题。
4. Disk状态的检查除了lsdev之外,还需要用“lsvg vgname”检查是否有状
态为“stale”的物理分区存在,命令为:“lsvg –o|lsvg –i|grep STALE”。
5. 对于磁带机,可以用“/usr/lpp/diagnostics/bin/utape -cd rmt0 -n”命令查看上
次清洗之后读写的累积时间(单位为小时)。若大于72小时,则不论磁带机
黄灯是否亮都应用清洁带清洗。
3.1.4 检测设备
如果条件允许的话,建议对所有的硬件使用diag进行诊断。最好是通过诊断光
盘启动进行诊断。但是这需要重新启动服务器,必须事先征得用户同意。
3.1.5 查看HMC日志
1. Power4服务器
对于Power4服务器,如果通过HMC管理,在HMC上可以看到部分硬件故障
信息。查看方法如下:
1) 在HMC界面选择“Service Focal Point”,出现如下界面(HMC的版本不
同,显示的界面可能有差异)。
IT
服务中国
第3页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2) 点击“Select Serviceable Event”,出现如下界面。
3) 点击“OK”可以查看HMC管理的所有服务器的信息。如果只需要查看其
中一台服务器的信息,可以在“Failing machine Name-Type-Model/SN”选
IT
服务中国
第4页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
择相应的服务器。显示的界面如下。
4) 选择需要查看的信息,点出“Event Details”可以查看详细信息。
IT
服务中国
第5页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2. Power5服务器
对于Power5服务器,如果通过HMC管理,在HMC上可以看到部分硬件故障
信息。查看方法如下:
1) 在HMC界面选择“Service Focal Point”,出现如下界面(HMC的版本不
同,显示的界面可能有差异)。
IT
服务中国
第6页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2) 点击“Manage Serviceable Events”,出现如下界面。
3) 点击“OK”可以查看HMC管理的所有服务器的信息。如果只需要查看其
中一台服务器的信息,可以在“System MTMS”选择相应的服务器。显示
的界面如下。
IT
服务中国
第7页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
4) 选中要查看的信息,选择“Select→View Detail”,可以查看详细信息。
IT
服务中国
第8页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
3.1.6 查看ASMI日志
对于Power服务器,登录到ASMI(登录到ASMI的方法参见相关文档)。缺
省情况下,用户名和口令都为admin。
在登录完成之后,选择“System Service Aids→Error/Event Logs”,查看错误信
息。
3.2 操作系统检查
3.2.1 检查版本
检查系统的微码版本和操作系统版本,对应最新的补丁版本,确认目前版本是
否存在重大缺陷,如果有,建议用户先进行版本升级测试,确认没有问题之后再升
级。
1、检查操作系统版本:
①显示AIX版本:oslevel
②显示AIX补丁级别:
2024年9月20日发(作者:潭国源)
RS6000巡检指导手册指导手册
RS/6000巡检指导手册
1. 模板说明
目前,针对服务项目我们提供了两个文档模板:《服务项目信息》模板和《巡
检报告》模板。
《服务项目信息》主要是用于收集服务项目详细的技术信息,以便于发生故障
时尽快解决问题。一般在第一次巡检完成,如果系统发生调整,可在后面的巡检中
更新。《服务项目信息》作为内部文档,对格式不做硬性,可以将收集的文本信息
嵌入到Word文档中,但是内容需要保证。
《巡检报告》是平时巡检时使用的,记录的信息比较简单,主要是常规的信息。
2. 巡检准备工作
第一次巡检一般就是该服务项目的项目启动,工程师需要与项目经理一起了解
服务合同的内容,与用户联系,确认服务内容,并准备《日常维护手册》。在巡检
之后需要完成《服务项目信息》、《巡检报告》,对于重大项目,需要完成《应急
方案》。《日常维护手册》和《巡检报告》在第一次巡检完成之后提交给用户。《服
务项目信息》主要是内部使用,不需要提交给用户。
在后面的巡检之前,工程师应该了解该项目的《服务项目信息》、《巡检报告》
和《应急方案》。巡检出发前应该主动与用户联系何时开始巡检,巡检的时间根据
用户的需要来安排在工作时间或者非工作时间。一般来说,巡检只查看机器的状态,
不会对机器的配置进行修改,巡检可以安排在工作时间。如果用户有别的顾虑,可
以把巡检安排在非工作时间。如果合同规定的服务范围包括HA
(HACMP/PowerHA),建议用户留出时间来进行HA测试,以确保发生故障时能
IT
服务中国
第1页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
够正常切换。
3. IBM RS/6000服务器
3.1 硬件检查
3.1.1 检查系统物理状态
先从外观上检查硬件情况,检查设备故障灯是否有亮。 各种设备上都有故障指
示灯,通常为橘红色并有“~”标记。同时注意服务器的LCD面板,设备发生故障
时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他
异常情况(如硬盘、风扇异常的声音,电缆破损等)。
3.1.2 检查硬件错误日志
使用“errpt –d H”命令检查硬件错误报告。如有,则应使用“errpt –aj err_id
|more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,
如运行 “diag –d hdisk1”、“diag –vd hdisk1”。“-v”选项可对故障记录中的
SENSE DATA进行分析并给出SRN, FRU等。
用“mail”命令查看有否发给root用户的错误报告。
3.1.3 查看设备状态
可以用如下命令查看设备状态:
1. 用lsdev –Cc Hardware_Name来检查硬件设备的状态,Hardware_Name可
以是processor、disk、tape、adapter。
2. CPU状态的检查除了lsdev之外,还需要用“sar –PALL 1 10”检查一下
每个CPU是否都在工作。
IT
服务中国
第2页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
3. Memory状态的检查主要看总量大小是否有变化,可用“lsattr -El sys0 -a
realmem”来检查。如果发现内存总量变小,可用“lscfg -vp|grep -p mem”
来检查哪些槽位上的内存有问题。
4. Disk状态的检查除了lsdev之外,还需要用“lsvg vgname”检查是否有状
态为“stale”的物理分区存在,命令为:“lsvg –o|lsvg –i|grep STALE”。
5. 对于磁带机,可以用“/usr/lpp/diagnostics/bin/utape -cd rmt0 -n”命令查看上
次清洗之后读写的累积时间(单位为小时)。若大于72小时,则不论磁带机
黄灯是否亮都应用清洁带清洗。
3.1.4 检测设备
如果条件允许的话,建议对所有的硬件使用diag进行诊断。最好是通过诊断光
盘启动进行诊断。但是这需要重新启动服务器,必须事先征得用户同意。
3.1.5 查看HMC日志
1. Power4服务器
对于Power4服务器,如果通过HMC管理,在HMC上可以看到部分硬件故障
信息。查看方法如下:
1) 在HMC界面选择“Service Focal Point”,出现如下界面(HMC的版本不
同,显示的界面可能有差异)。
IT
服务中国
第3页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2) 点击“Select Serviceable Event”,出现如下界面。
3) 点击“OK”可以查看HMC管理的所有服务器的信息。如果只需要查看其
中一台服务器的信息,可以在“Failing machine Name-Type-Model/SN”选
IT
服务中国
第4页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
择相应的服务器。显示的界面如下。
4) 选择需要查看的信息,点出“Event Details”可以查看详细信息。
IT
服务中国
第5页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2. Power5服务器
对于Power5服务器,如果通过HMC管理,在HMC上可以看到部分硬件故障
信息。查看方法如下:
1) 在HMC界面选择“Service Focal Point”,出现如下界面(HMC的版本不
同,显示的界面可能有差异)。
IT
服务中国
第6页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
2) 点击“Manage Serviceable Events”,出现如下界面。
3) 点击“OK”可以查看HMC管理的所有服务器的信息。如果只需要查看其
中一台服务器的信息,可以在“System MTMS”选择相应的服务器。显示
的界面如下。
IT
服务中国
第7页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
4) 选中要查看的信息,选择“Select→View Detail”,可以查看详细信息。
IT
服务中国
第8页 共20页 神州数码(中国)有限公司
RS6000巡检指导手册指导手册
3.1.6 查看ASMI日志
对于Power服务器,登录到ASMI(登录到ASMI的方法参见相关文档)。缺
省情况下,用户名和口令都为admin。
在登录完成之后,选择“System Service Aids→Error/Event Logs”,查看错误信
息。
3.2 操作系统检查
3.2.1 检查版本
检查系统的微码版本和操作系统版本,对应最新的补丁版本,确认目前版本是
否存在重大缺陷,如果有,建议用户先进行版本升级测试,确认没有问题之后再升
级。
1、检查操作系统版本:
①显示AIX版本:oslevel
②显示AIX补丁级别: