AIX系统硬件故障定位
一般情况下只有当黄灯亮,tivoli报警的时候我们需要查看
Aix系统
1. 查看机器各种指示灯状态
机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2. 使用errpt查看
输入errpt  |more
查看最新的错误日志,以下是例子
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
9DBCFDEE   0109034400 T O errdemon      ERROR LOGGING TURNED ON
192AC071   0109034300 T O errdemon      ERROR LOGGING TURNED OFF
C092AFE4   0109033500 I O ctcasd         ctcasd Daemon Started
A6DF45AA   0109033500 I O RMCdaemon      The daemon is started.
9DBCFDEE   0109033400 T O errdemon      ERROR LOGGING TURNED ON
192AC071   0106130900 T O errdemon      ERROR LOGGING TURNED OFF
369D049B   0106082400 I O SYSPFS         UNABLE TO ALLOCATE SPACE IN FILE SYSTE
1. 错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
2.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND        设备或功能组件可能丢失 简写P
PERF        性能严重下降        P
PERM        硬件设备或软件模块损坏,确诊了的 P
TEMP        临时性错误,经过重试后已经恢复正常        T
INFO        一般消息,不是错误                I
UNKN        不能确定错误的严重性        U
一般情况下我们只需要关注类型为P的错误
当发现此类错误的时候,执行errpt –aj|more 错误号
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
就可以列出详细错误清单,根据详细错误清单上的信息跟ibm工程师联系,并提供错误信息里面的相关内容来定位问题所在
3.执行diag命令查看
当服务器未亮黄灯并有硬件报错的时候,我们需要使用diag命令进行系统全面诊断,注意diag命令需要用root用户执行

> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination)
选系统检查(System Verification)
(PD 会对系统错误记录进行分析)
如果有提问是否查看历史纪录,选择yes
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。同errpt,将错误信息提供给ibm工程师
4.控制面板上的LED 代码
.一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx
.3 位代码,通常为0yyy,只看后3位。
.
8 位和4位代码可查看系统服务手册 (Service Guide)
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统错误系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 105
硬件故障,一般有 SRN 代码及位置代码。
5.其他
在系统报p类型错误后diag又查不出错,此时需要做snap操作,将生成的snap文件发送给ibm工程师
具体步骤:
snap –r(清空原snap日志)
snap –gc(生成新的snap日志)
生成的日志在/tmp/ibmsupt下可以到
将此日志用ftp发送到ftp服务器上(168.1.6.23),在上传的时候记得敲入bin,将文件改成2进制显示
最终确认为临时故障时消除警告灯
diag  >
Task Selection  >
Identify and Attention Indicators  >
Set System Attention Indicator to NORMAL(回车选择,ESC+7确认)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。