笔者搞系统维护工作多年,平时对公司中运行的服务器和磁盘阵列一般都做了RAID1或者RAID5,如果某块硬盘出现故障,换上一个新硬盘就可以了。当然,这是在RAID工作正常情况下,如果RAID出错,就没有那么轻松了。
硬盘做RAID其实为了让系统更可靠,当一定数量硬盘故障时,其他硬盘能够保障系统的正常运行。笔者做系统维护多年,也深刻地体会到了RAID所带来的好处,磁盘阵列柜一般都做了RAID1或者RAID5。做了阵列后,如果某块硬盘出现故障,买一块新的硬盘,换上去后就可以了。在客户端,操作员完全感觉不到登录的系统服务器已经被更换了部件。当然,这都是在RA ID正常工作的情况下。如果RAID出错,就没有那么轻松了。
故障现象
近日,笔者在机房做正常巡视时,发现一台DL380G6服务器硬盘告警。这台服务器上运行着公司的DMIS系统24小时不能间断。幸运的是,这套系统是部署在双机热备环境中,另一服务器目前工作正常可以接管业务系统。
出现硬盘告警的这台服务器上用两块300GB的SAS硬盘做过RAID 1,按照以往情况,只要找一块新硬盘换掉故障硬盘就行了,这是非常简单的操作。
故障排查过程
由于硬盘处于维修期,所以很快就从供应商获取到新的硬盘资源。拿到新硬盘后,拔出故障硬盘,插上新硬盘,也没有接上显示器去看状态(这个机柜没有装KVM,要想查看某台服务器)。更换完新的硬盘后,就让其进行同步了。
过了大约2小时,使用MSTSC命令远程登录到服务器上,结果登录不上。使用Ping命令检查,也无回包。感觉大事不好,赶紧在这台服务器上连接显示器的内容让我大吃一惊,系统处于Windows 2003安装状态。
仔细想了半天才想明白:出现硬盘故障的这台服务器以前做的RAID1工作不正常,导致两个盘上的数据一直不一致,一块硬盘上的数据是Windows 2003的安装状态,另一块硬盘的操作系统已经正常安装并且已经运行多时,后一块硬盘出现故障后,换上的新硬盘同步的是数据处于Windows 2003安装状态那块硬盘。
系统没了,数据丢了,最让系统管理员头疼的事情发生了。虽然是双机热备方式部署的环境平台,可是要重新安装系统,把这台服务器加进Windows 2003自带的集群服务中,难度还是比较大的,这个故障后期恢复花了整整20个小时。
经验总结
第二天早上,我带着熊猫眼坐在办公桌前进行了反思和总结:以后做了RAID,安装完操作系统,一切运行正常后,一定要进行RAID测试,例如这次的情况,环境搭建后,可以拔掉一块硬盘,看另一块是否工作正常,如果RAID1工作正常,上述故障也就不会发生了。
|