加入收藏 | 设为首页 | 会员中心 | 我要投稿 | RSS
    IT昆明网专注于云南/昆明企业与政府微信、微信营销与分销、餐饮O2O、移动OA、移动互联网、现有软件系统数据共享集成、已有软件系统功能修改、软件开发/定制、网站防黑、计算机及网络信息安全、数据恢复、网站建设/设计、网络营销、SEO优化的综合性网站。拥有信息管理系统、企业ERP系统、电子商务网站系统、办公自动化/进销存管理系统、人事/财务管理系统、客户/物流管理系统、电子政务系统、无线定位系统等多种软件开发、实施经验。目前各种系统已经广泛应用在省内数十家公司,覆盖省内上万人群。
您当前的位置:首页 > 数据恢复 > RAID故障恢复

解决磁盘阵列RAID1出错故障

时间:2014-04-28 20:41:05  来源:  作者:

 

 笔者搞系统维护工作多年,平时对公司中运行的服务器和磁盘阵列一般都做了RAID1或者RAID5,如果某块硬盘出现故障,换上一个新硬盘就可以了。当然,这是在RAID工作正常情况下,如果RAID出错,就没有那么轻松了。

硬盘做RAID其实为了让系统更可靠,当一定数量硬盘故障时,其他硬盘能够保障系统的正常运行。笔者做系统维护多年,也深刻地体会到了RAID所带来的好处,磁盘阵列柜一般都做了RAID1或者RAID5。做了阵列后,如果某块硬盘出现故障,买一块新的硬盘,换上去后就可以了。在客户端,操作员完全感觉不到登录的系统服务器已经被更换了部件。当然,这都是在RA ID正常工作的情况下。如果RAID出错,就没有那么轻松了。
故障现象
近日,笔者在机房做正常巡视时,发现一台DL380G6服务器硬盘告警。这台服务器上运行着公司的DMIS系统24小时不能间断。幸运的是,这套系统是部署在双机热备环境中,另一服务器目前工作正常可以接管业务系统。
出现硬盘告警的这台服务器上用两块300GB的SAS硬盘做过RAID 1,按照以往情况,只要找一块新硬盘换掉故障硬盘就行了,这是非常简单的操作。
故障排查过程
由于硬盘处于维修期,所以很快就从供应商获取到新的硬盘资源。拿到新硬盘后,拔出故障硬盘,插上新硬盘,也没有接上显示器去看状态(这个机柜没有装KVM,要想查看某台服务器)。更换完新的硬盘后,就让其进行同步了。
过了大约2小时,使用MSTSC命令远程登录到服务器上,结果登录不上。使用Ping命令检查,也无回包。感觉大事不好,赶紧在这台服务器上连接显示器的内容让我大吃一惊,系统处于Windows 2003安装状态。
仔细想了半天才想明白:出现硬盘故障的这台服务器以前做的RAID1工作不正常,导致两个盘上的数据一直不一致,一块硬盘上的数据是Windows 2003的安装状态,另一块硬盘的操作系统已经正常安装并且已经运行多时,后一块硬盘出现故障后,换上的新硬盘同步的是数据处于Windows 2003安装状态那块硬盘。
系统没了,数据丢了,最让系统管理员头疼的事情发生了。虽然是双机热备方式部署的环境平台,可是要重新安装系统,把这台服务器加进Windows 2003自带的集群服务中,难度还是比较大的,这个故障后期恢复花了整整20个小时。
经验总结
第二天早上,我带着熊猫眼坐在办公桌前进行了反思和总结:以后做了RAID,安装完操作系统,一切运行正常后,一定要进行RAID测试,例如这次的情况,环境搭建后,可以拔掉一块硬盘,看另一块是否工作正常,如果RAID1工作正常,上述故障也就不会发生了。
 
来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门