一般情况下只有当黄灯亮,tivoli报警的时候我们需要查看
Aix系统
1. 查看机器各种指示灯状态
机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2. 使用errpt查看
输入errpt |more
查看最新的错误日志,以下是例子
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0109034300 T O errdemon ERROR LOGGING TURNED OFF
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0109034300 T O errdemon ERROR LOGGING TURNED OFF
C092AFE4 0109033500 I O ctcasd ctcasd Daemon Started
A6DF45AA 0109033500 I O RMCdaemon The daemon is started.
9DBCFDEE 0109033400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0106130900 T O errdemon ERROR LOGGING TURNED OFF
369D049B 0106082400 I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE
A6DF45AA 0109033500 I O RMCdaemon The daemon is started.
9DBCFDEE 0109033400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0106130900 T O errdemon ERROR LOGGING TURNED OFF
369D049B 0106082400 I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE
1. 错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
2.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND 设备或功能组件可能丢失 简写P
PERF 性能严重下降 P
分为6个:
PEND 设备或功能组件可能丢失 简写P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定错误的严重性 U
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定错误的严重性 U
一般情况下我们只需要关注类型为P的错误
当发现此类错误的时候,执行errpt –aj|more 错误号
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
就可以列出详细错误清单,根据详细错误清单上的信息跟ibm工程师联系,并提供错误信息里面的相关内容来定位问题所在
3.执行diag命令查看
当服务器未亮黄灯并有硬件报错的时候,我们需要使用diag命令进行系统全面诊断,注意diag命令需要用root用户执行
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
如果有提问是否查看历史纪录,选择yes
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。同errpt,将错误信息提供给ibm工程师
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。同errpt,将错误信息提供给ibm工程师
4.控制面板上的LED 代码
.一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.
.一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.
8 位和4位代码可查看系统服务手册 (Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统错误系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
系统错误系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
5.其他
在系统报p类型错误后diag又查不出错,此时需要做snap操作,将生成的snap文件发送给ibm工程师
具体步骤:
snap –r(清空原snap日志)
snap –gc(生成新的snap日志)
生成的日志在/tmp/ibmsupt下可以到
将此日志用ftp发送到ftp服务器上(168.1.6.23),在上传的时候记得敲入bin,将文件改成2进制显示
最终确认为临时故障时消除警告灯
diag >
Task Selection >
Identify and Attention Indicators >
Set System Attention Indicator to NORMAL(回车选择,ESC+7确认)
Task Selection >
Identify and Attention Indicators >
Set System Attention Indicator to NORMAL(回车选择,ESC+7确认)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论