Advertisement
Advertisement

新足迹

 找回密码
 注册
新足迹 门户 IT与科技 查看内容

HP ,MS我该怪谁呢?做IT太tmd辛苦了

2010-2-2 22:49| 发布者: masterniu | 查看: 3376| 原文链接

整整忙了4天,周六周日不休息还是没有搞定,如果有下辈子偶坚决不做it了。。。写写自己的感受吧,或者一些东西可以给做it的朋友一些建议

我的一个客户,在上上周一的时候服务器当机,赶过去发现服务器莫名其妙的黑屏,重启之后发现一个72G的SAS硬盘出现错误,这是个hp的ml350服务器,用5个72G SAS硬盘组成raid 5来作为系统盘。当然对以性能和容错性都出众的raid 5是可以承受一个硬盘损坏的。重启服务器,正常的进入windows server 2003,当然会慢很多,因为一点raid 5一个硬盘算坏,系统会进入一个非常让人抓狂的状态。没办法直接打电话给hp,第二天拿到了新的硬盘,直接在windows运行的时候取下了旧的,装上了新的,大概用了10个小时的时候完成了rebuild。之后更新了raid controller的韧体,系统也恢复了正常。之后我还告诉客户,你很幸运,一切顺利。没想到第二天另一个硬盘也出现了问题,运行raid array diagnosis发现另一个硬盘也出现了smart failure,当然系统仍然正常运行。没办法,在问候了hp和希捷母亲之后又给hp挂了电话,硬盘当天就到了,周5下午感到客户那里,没想到噩梦开始。
和第一次一样,禁止了backup software,拔掉了外置硬盘,然后非常从容的取下了哪个要坏的硬盘,动了动鼠标,一切正常,正当我要把新的硬盘从容的插进去的时候,出现了最可怕的一幕,蓝屏死机。当时我就觉得非常不妙,硬重启服务器之后,果然系统再也无法启动,只是提示raid 5 volume被disable,如果要enable,会有部分data loss。当时对于Raid 5还不是非常熟悉的我走了一个非常错误的步骤。我把新的sas硬盘插入了服务器,然后enable raid volume,接着让hp raid controller开始的自动的data recovery process. 事后我在想或许就是这个自动的data recovery process造成了几乎所有数据的丢失。
之后那个自动的data recovery process用了近9个小时才完成,结果一样,系统一样无法启动,只是提示文件丢失。没办法试着把原来的硬盘换回去,一样的结果,而且这个硬盘从此错误灯常亮,也就是彻底归西了。当时我是欲哭无泪阿,手头的备份只到一个星期之前。幸运这个客户非常的好,还一个劲的安慰我,搞得我非常非常的沮丧,几个晚上都没怎么好好睡。
星期一联系了data recovery的公司,送去之后告知机会很小,而且要3天以上,客人无法等待这么久没有服务器使用只好作罢,只能彻底的丢失了一个星期的工作。
对于做It的朋友,备份阿,太重要的,daily那是必须的对于business。
服务器啊,还是别上hp了,这个服务器,居然ide都无法启动,只支持光驱,我真是服了你了hp,否者我可以把backup的image restore到一个ide硬盘上来继续使用服务器。
如果要安心啊,还是上raid 1吧,有时候raid 5也不安全,这个服务器用的硬件raid支持hot-plug,一样没戏。还有,一旦raid 5系统的系统用了几年之后,一个硬盘出现问题,赶紧备份重要数据,因为另一个硬盘随后就有可能随时升天。
最后一点,学it还是别弄ms了,太让人操心了。。。
Advertisement
Advertisement


Advertisement
Advertisement
返回顶部