常见服务器故障类型及排查方法总结
常见服务器故障类型及排查⽅法总结
来源:今⽇头条北京炫亿时代
相较于其他⽹络设备,如交换机、电脑终端等,服务器发⽣故障的概率较⼩,但对企业的影响是很⼤的。⼀般像⽹站⽆法访问时,⼤多都是服务器出了问题。作为服务器⼯程师除了要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。
⼀、服务器常见故障类型分类:
A. 开机⽆显⽰
B. 加电BIOS⾃检阶段故障
C. 系统和软件安装阶段故障和现象
D. 操作系统启动失败
E. 系统运⾏阶段故障
⼆、服务器常见故障现象及其对应的排除⽅法
A.服务器开机⽆显⽰(加电⽆显⽰和不加电⽆显⽰)
1. 检查供电环境
2. 检查电源和故障指⽰灯(故障指⽰灯状态,⽬前很多⼚商的服务器都有故障指⽰灯,或故障诊断卡等。)
3. 按下电源开关时,键盘指⽰灯是否亮、风扇是否全部转动
4. 是否更换过显⽰器,尝试更换另外⼀台显⽰器
5. 插拔内存,⽤橡⽪擦擦拭⼀下⾦⼿指,如果在故障之前有增加内存,去掉增加的内存尝试
关于地震的英语作文
6. 是否添加了CPU,如果有增加CPU尝试去掉
7. 去掉增加的第三⽅I/O卡包括Raid卡等
8.ClearCMOS (记得使⽤跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不⼀致,具体不到电话联系⼀下⼚商客服)
9. 尝试更换主板、内存等主要部件
元旦放假安排:3天假不调休
10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键⼏下
B.加电BIOS⾃检报错
1. 根据BIOS⾃检报错信息提⽰
2. 查看是否外插了第三⽅的卡或者添加部件,如果有还原基本配置重启
3. 做最⼩化测试
3. 做最⼩化测试qq空白头像
4. 尝试清除CMOS
5. 看能否正常进⼊BIOS
C. 系统安装阶段故障和现象
1.查看服务器⽀持操作系统的兼容版本(从⼚商能查到兼容性列表)
2.系统安装蓝屏(对蓝屏故障代码诊断)
3.安装在分区格式化的时候不到硬盘
(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)
4.⼤于2T的硬盘式应该如何分区(必须使⽤阵列卡才能实现或者有外插识别卡)
(使⽤阵列卡配置阵列分成⼀个⼩于2T的空间,⼀个⼤于2T的空间,然后将系统安装在⼩于2T的上⾯,安装好系统后在使⽤GPT⽅式分区即可)
5.安装过程是死机
(检查兼容性列表---查看硬盘接⼝选择是否正确---阵列驱动安装是否正确---尝试最⼩化配置安装检查是否为内存和CPU 等问题)
6.引导光盘安装失败
八月你好说说语录(使⽤引导光盘安装失败,查看引导光盘版本是否匹配,尝试⼿动安装系统,如有阵列重新配置阵列引导安装)
D. 操作系统启动失败
1.在系统启动⾃检过程中有报错(具体查看启动报错信息在定⽅案)
2.启动系统蓝屏(查看蓝屏代码核对)
3.进⼊登陆界⾯死机(查看进⼊单⽤户或者安全模式是否正常,进⼊BIOS是否正常、是否会死机,进⼊磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最⼩化配置启动)
4.忘记密码 (windows 使⽤PE 破解,linux 进⼊单⽤户破解)
E. 系统运⾏阶段故障
1.安装数据库等应⽤软件报错 (对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)
2.系统运⾏速度变慢 (查杀病毒,检测阵列状态,测试硬盘有⽆坏道,重新安装系统或者修复)
3.运⾏蓝屏 (查看蓝屏代码⽬录)
4.运⾏死机 (检查进⼊BIOS是否死机,进⼊系统后测试部件温度是否正常,windows系统查看dump⽂件)
5.硬盘拷贝数据⽂件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带⼤⼩,
与软件应⽤要求测试对⽐)
三.服务器故障排错的基本原则:
1. 尽量恢复系统出⼚配置
a:硬件配置:去除第三⽅⼚商备件和⾮标配备件
b:资源配置:清除CMOS、恢复资源初始配置
c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序
d: TPL:扩展的第三⽅的I/O卡是否属于该机型的硬件兼容列表(TPL)
2. 从基本到复杂
a:系统上从个体到⽹络:⾸先将存在故障的服务器独⽴运⾏,待测试正常后再接⼊⽹络运⾏,观察故障现象变化并处理。
b:硬件上从最⼩系统到现实系统:指从可以运⾏的硬件开始逐步到现实系统为⽌。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为⽌。
3. 部件交换对⽐测试连锁美容院排行
a:在最⼤可能相同的条件下,交换操作简单效果明显的部件
b:交换NOS载体,既交换软件环境
c:交换硬件,既交换硬件环境
d:交换整机,既交换整体环境
四,服务器故障排查⽅法总结
问题描述:
每当出现⽹站访问不了的时候,估计应该就是服务器出现故障了,这个时候⼤部分情况都是属于数据库出现问题。
查步骤:
1、查top检查服务器负载是否有问题
⼀般⽹站访问不了,top显⽰的负载都是很⼤的,这个时候可以看到mysql的进程占⽤资源很⾼,往往就是mysql发⽣故障了
2、在服务器中查看⽹站的访问记录
这些访问记录存储在:/home/对应的⽹站名/access-logs/对应的⽹站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进⾏过滤查看,在这个⽂件⼀般都可以到恶意爬⾍、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进⾏重启,对apache进⾏重启
service mysql restart
service httpd restart
重启之后⼀般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,出恶意访问的ip把它禁⽌掉即可,如果是⽹站数据库出现故障,那么还要进⾏数据库排查。
4、查数据库错误⽇志
⾸先需要知道数据库mysql的安装⽬录,可以通过whereis mysql到,但是这往往没⽤
还有⼀种⽅法,就是通过ps -ef | grep mysql来查看
或者也可以通过进⼊mysql,使⽤select @@basedir as basePath from dual来查看mysql安装⽬录
我们在第⼆种查⽅法ps -ef | grep mysql中对应mysql的⼏种⽇志到其所在⽬录,然后查看对应⽂件进⾏分析
土木工程专业学什么mysql有以下⼏种⽇志
错误⽇志:-log-err
查询⽇志:-log
慢查询⽇志:-log-slow-queries
更新⽇志:-log-update
⼆进制⽇志:-log-bin
以上便是对应的数据库错误⽇志和慢查询⽇志的查看⽅法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚⾄按起葫芦翘起瓢。⼀般来说不可能⼀次就可以准确地判断出问题的所在。这样就要求⼯程师要有信⼼和耐⼼。出现错误⼀般的⽅法都是根据经验优先使⽤最简单排错⽅法测试,如果没有解决问题再其它因素进⾏测试。总之,服务器出错后必须⼀步⼀步解决,没有捷径可⾔。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。