新足迹

 找回密码
 注册

精华好帖回顾

· Brisbane购房攻略之地区选择(46楼新增KURABY数据) (2009-8-6) gentleboy · Kat-又是好多图(数码+胶片) (2013-6-28) braindev
· 汇报:云南西藏的617宽幅片子 (2010-11-29) sinkai · 19年1月带着残疾人2刷北海道+大阪 应要求开新楼 (2019-2-7) wyeann
Advertisement
Advertisement
查看: 3454|回复: 92

HP ,MS我该怪谁呢?做IT太tmd辛苦了 [复制链接]

发表于 2010-2-2 23:49 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
整整忙了4天,周六周日不休息还是没有搞定,如果有下辈子偶坚决不做it了。。。写写自己的感受吧,或者一些东西可以给做it的朋友一些建议

我的一个客户,在上上周一的时候服务器当机,赶过去发现服务器莫名其妙的黑屏,重启之后发现一个72G的SAS硬盘出现错误,这是个hp的ml350服务器,用5个72G SAS硬盘组成raid 5来作为系统盘。当然对以性能和容错性都出众的raid 5是可以承受一个硬盘损坏的。重启服务器,正常的进入windows server 2003,当然会慢很多,因为一点raid 5一个硬盘算坏,系统会进入一个非常让人抓狂的状态。没办法直接打电话给hp,第二天拿到了新的硬盘,直接在windows运行的时候取下了旧的,装上了新的,大概用了10个小时的时候完成了rebuild。之后更新了raid controller的韧体,系统也恢复了正常。之后我还告诉客户,你很幸运,一切顺利。没想到第二天另一个硬盘也出现了问题,运行raid array diagnosis发现另一个硬盘也出现了smart failure,当然系统仍然正常运行。没办法,在问候了hp和希捷母亲之后又给hp挂了电话,硬盘当天就到了,周5下午感到客户那里,没想到噩梦开始。
和第一次一样,禁止了backup software,拔掉了外置硬盘,然后非常从容的取下了哪个要坏的硬盘,动了动鼠标,一切正常,正当我要把新的硬盘从容的插进去的时候,出现了最可怕的一幕,蓝屏死机。当时我就觉得非常不妙,硬重启服务器之后,果然系统再也无法启动,只是提示raid 5 volume被disable,如果要enable,会有部分data loss。当时对于Raid 5还不是非常熟悉的我走了一个非常错误的步骤。我把新的sas硬盘插入了服务器,然后enable raid volume,接着让hp raid controller开始的自动的data recovery process. 事后我在想或许就是这个自动的data recovery process造成了几乎所有数据的丢失。
之后那个自动的data recovery process用了近9个小时才完成,结果一样,系统一样无法启动,只是提示文件丢失。没办法试着把原来的硬盘换回去,一样的结果,而且这个硬盘从此错误灯常亮,也就是彻底归西了。当时我是欲哭无泪阿,手头的备份只到一个星期之前。幸运这个客户非常的好,还一个劲的安慰我,搞得我非常非常的沮丧,几个晚上都没怎么好好睡。
星期一联系了data recovery的公司,送去之后告知机会很小,而且要3天以上,客人无法等待这么久没有服务器使用只好作罢,只能彻底的丢失了一个星期的工作。
对于做It的朋友,备份阿,太重要的,daily那是必须的对于business。
服务器啊,还是别上hp了,这个服务器,居然ide都无法启动,只支持光驱,我真是服了你了hp,否者我可以把backup的image restore到一个ide硬盘上来继续使用服务器。
如果要安心啊,还是上raid 1吧,有时候raid 5也不安全,这个服务器用的硬件raid支持hot-plug,一样没戏。还有,一旦raid 5系统的系统用了几年之后,一个硬盘出现问题,赶紧备份重要数据,因为另一个硬盘随后就有可能随时升天。
最后一点,学it还是别弄ms了,太让人操心了。。。

评分

参与人数 3积分 +9 收起 理由
恢恢 + 1 安慰一下,虽然完全不懂
Wangmingtaoau + 4 安慰一下
Melbourner1978 + 4 安慰牛师傅

查看全部评分

Advertisement
Advertisement

发表于 2010-2-2 23:53 |显示全部楼层
此文章由 一枝花 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 一枝花 所有!转贴必须注明作者、出处和本声明,并保持内容完整


又见HP硬盘!不过,我告诉你HP的硬盘是OEM的货;

发表于 2010-2-2 23:58 |显示全部楼层
此文章由 kawara 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kawara 所有!转贴必须注明作者、出处和本声明,并保持内容完整
做IT真辛苦啊。

这文章看着头就大

发表于 2010-2-3 00:13 |显示全部楼层
此文章由 12oz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 12oz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
5个硬盘的raid 5,坏盘机会不低,最好加一个hot spare. 要不有问题和rebuild时候会非常慢,基本上系统是不太可用的了,而且rebuild时间长有风险,如果期间在坏一个,数据全丢;这种低端raid卡就像lz的遭遇一样,有机会丢数据,赶快升级用外置raid。系统设计也不合理,系统盘不应该用这么大的盘,2个盘raid 1 ok了。其他才作数据盘。

总之,吸取教训吧

[ 本帖最后由 12oz 于 2010-2-3 00:15 编辑 ]

发表于 2010-2-3 00:14 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 一枝花 于 2010-2-2 23:53 发表


又见HP硬盘!不过,我告诉你HP的硬盘是OEM的货;

是啊,所以我顺便问候了一下希捷的全家。。。

发表于 2010-2-3 00:18 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 12oz 于 2010-2-3 00:13 发表
5个硬盘的raid 5,坏盘机会不低,最好加一个hot spare. 要不有问题和rebuild时候会非常慢,基本上系统是不太可用的了。这种低端raid卡就像lz的遭遇一样,有机会丢数据,赶快升级用外置raid。系统设计也不合理,系统盘 ...

是啊,的确需要一个hot spare,raid卡是intel E200i,的确不是什么很高端的raid卡。这个设计最初是另一个it给做得,偶已经批评过多次了,对于数据库这种非常critical的东西,居然没有单独的raid 系统,一点raid盘损毁,数据库全部丢失。
吸取教训吧,客人已经定购了单独的服务器来运行数据库。。。
Advertisement
Advertisement

发表于 2010-2-3 00:22 |显示全部楼层
此文章由 12oz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 12oz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
服务器硬盘基本找不到比希捷更好的了,问候100次也没人能帮你。

不知道sas盘是不是双端口,但光纤盘是的,坏一个还有一个。73G的盘不知道哪一年的,是否用太久了。问题根源还是那个raid卡,raid 5坏一个会丢数据? 是应该问候HP全家..............

-- 我孤陋寡闻了,sas是串行scsi,双端口没问题,就是那个破raid卡

[ 本帖最后由 12oz 于 2010-2-3 00:28 编辑 ]

发表于 2010-2-3 00:27 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
希捷的服务器硬盘好那是因为没什么太大竞争,除了日立能跟他稍微比一比,wd不涉足服务器硬盘是个大的失误。
它再好,居然一个星期坏两个,你说我不问候它行么?才2年多而已。。。。
HP全家早问候过了。。。。

发表于 2010-2-3 00:27 |显示全部楼层
此文章由 frankielynna 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 frankielynna 所有!转贴必须注明作者、出处和本声明,并保持内容完整
千万不要相信什么热插拔(做好最坏的准备),做任何事情前先做备份,所有action plan 让客户过目并同意。一个10年前做过工程师的忠告。
另外,整个系统架构找人重新看下,任何单点故障都要排除掉。
总的看起来还是process有点问题,lz运气也差点。
哪个工程师没有把机器弄down过,lz不要在意。我曾经把银行的机器平时大白天弄down过几个小时,所有业务都不能做,还不是活过来了?take it easy, good luck!

发表于 2010-2-3 00:32 |显示全部楼层

回复 6# 的帖子

此文章由 holyplague 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 holyplague 所有!转贴必须注明作者、出处和本声明,并保持内容完整
以前这么做估计是cost cutting吧, 客户有时候不愿意多花钱买保险。。。

发表于 2010-2-3 00:33 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
多谢9楼的建议,的确任何事情之前都要备份太重要了,我就是为了懒省事,而且太过于相信热拔插了。。。
客人还是很好的,只是对于我这种做了几年工程师的人也出现如此低级错误感到非常的沮丧,感觉很对不起客人。
Advertisement
Advertisement

发表于 2010-2-3 00:33 |显示全部楼层
此文章由 12oz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 12oz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
中高点的raid array这些基本的热插拔,自动rebuild还是可以保证的。当年我第一次听说某款国产raid卡在raid 1下丢盘会丢全部数据,真的是给雷倒了,之前碰这么多阵列就没听说过

系统管理最重要是backup,backup做好天塌都不怕,最好加个每日增量

lz责任心不错

[ 本帖最后由 12oz 于 2010-2-3 00:34 编辑 ]

发表于 2010-2-3 00:38 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 holyplague 于 2010-2-3 00:32 发表
以前这么做估计是cost cutting吧, 客户有时候不愿意多花钱买保险。。。

可惜根本不是,只不过做这个服务器的人以前很少接触服务器,丫都根本不知道什么是Raid 5,服务器随机就带了5只硬盘,默认raid 5
一个破服务器cost大概3000刀,他收人家6000以上,非常的黑心。这个客人根本不在乎cost,公司是做pasta的,品牌是barilla,coles,woolworths大把的在卖。

发表于 2010-2-3 00:39 |显示全部楼层

回复 13# 的帖子

此文章由 holyplague 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 holyplague 所有!转贴必须注明作者、出处和本声明,并保持内容完整
日。。。这哥么做生意太不厚道了。 应该问候下。

发表于 2010-2-3 00:41 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 12oz 于 2010-2-3 00:33 发表
中高点的raid array这些基本的热插拔,自动rebuild还是可以保证的。当年我第一次听说某款国产raid卡在raid 1下丢盘会丢全部数据,真的是给雷倒了,之前碰这么多阵列就没听说过

系统管理最重要是backup,backup做好 ...

对于Raid 5我还是非常的不解,按道理如果raid系统损坏应该是看不到数据才对,可是我如果从windows系统光盘启动,进入recovery console,居然可以看到大部分的目录,只可惜看得到但是无法访问。。。
问了data recovery company对方也无法解释,估计是技术不够,要在国内或许1,2天就把数据恢复出来了

发表于 2010-2-3 00:44 |显示全部楼层
此文章由 mylt 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mylt 所有!转贴必须注明作者、出处和本声明,并保持内容完整
维护系统是很痛苦的,经常是一点点小p事,就会让你忙半天,而且还经常被不懂的人误认为这点小事就要弄那么久

评分

参与人数 2积分 +7 收起 理由
jerryclark + 3 太赞成了!
syszp + 4 我很赞同

查看全部评分

Advertisement
Advertisement

发表于 2010-2-3 00:46 |显示全部楼层
此文章由 12oz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 12oz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
数据肯定还在,你按照常规作了,它恢复不了谁也没办法,就是东西太破。

单个数据盘恢复容易,raid恢复就难了,谁能知道那个raid卡是怎么组织数据的?

发表于 2010-2-3 07:36 |显示全部楼层
此文章由 techpull 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 techpull 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 12oz 于 2010-2-3 00:46 发表
数据肯定还在,你按照常规作了,它恢复不了谁也没办法,就是东西太破。

单个数据盘恢复容易,raid恢复就难了,谁能知道那个raid卡是怎么组织数据的?


例如RAID 5:

   1. 从主机读取数据:   主机操作系统请求RAID子系统,把一块数据写到磁盘上。
   2. 为新数据从目标磁盘读旧数据:   仅读取固定位置的数据就是要免去读取所有其它磁盘数据的要求。不管阵列中的磁盘是多少,包含读写转换操作步骤数是一样的。
   3. 为新数据从目标磁盘读旧奇偶校验值:   一个读取操作重新得到旧奇偶校验值。此功能不依赖于阵列中的物理磁盘数。
   4. 通过在步骤1、2和3获得的数据上执行一个XOR 运算,以计算新的奇偶校验值:  步骤2和3提供的作为结果的条纹奇偶校验值的XOR运算,减去要被覆盖的数据分配。 为确定包含新数据条的新奇偶校验值,对从步骤1获得的数据,以及从步骤2、3进行XOR运算获得的结果值,执行XOR计算。
   5. 处理一致性:   由于厂商不同,其实现也大不相同。确保一致性包含从步骤6开始到步骤7结束的监听写操作。对于要考虑一致性的磁盘阵列,或者"清洁的",子系统必须要确保对条纹上的数据奇偶校验数据块总是通用的。因为它不可能保证新目标数据和新奇偶校验值能够准确而快速地被写入到分离的磁盘中,RAID子系统必须在本地的RAID中识别不一致处理的条纹,或"脏的"。
   6. 把数据写到目的地:   新数据是在步骤1中从主机获得的;当前RAID映射确定哪一个物理磁盘和在磁盘的何处写数据。
   7. 写新的奇偶校验值:   新的奇偶校验值是在步骤4值计算的;现在RAID子系统要把它写入到磁盘中。
   8. 处理一致性:   一旦RAID子系统在步骤6 和7中的校验工作成功完成,以及数据和奇偶校验值位于磁盘上,则条纹就可视为一致的。
头像被屏蔽

禁止发言

发表于 2010-2-3 08:22 |显示全部楼层
此文章由 panada 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 panada 所有!转贴必须注明作者、出处和本声明,并保持内容完整
除了卡娃的话,剩下的一句没看懂。

发表于 2010-2-3 08:34 |显示全部楼层
此文章由 linger 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 linger 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 panada 于 2010-2-3 08:22 发表
除了卡娃的话,剩下的一句没看懂。

me 2(monkey09)
书读的太少, 但是想的太多~~~

发表于 2010-2-3 08:40 |显示全部楼层
此文章由 我要从南走到北 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 我要从南走到北 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 techpull 于 2010-2-3 07:36 发表


例如RAID 5:

   1. 从主机读取数据:   主机操作系统请求RAID子系统,把一块数据写到磁盘上。
   2. 为新数据从目标磁盘读旧数据:   仅读取固定位置的数据就是要免去读取所有其它磁盘数据的要求。不管阵列中 ...

Mirror is better for root partition

[ 本帖最后由 我要从南走到北 于 2010-2-3 08:55 编辑 ]
Advertisement
Advertisement

发表于 2010-2-3 08:45 |显示全部楼层
此文章由 luyangcy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 luyangcy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
做服务器维护的,这些都是无法避免的,只能尽力减小风险,平时没事也要保持神经质级别的警觉。

退役斑竹 2010年度奖章获得者

发表于 2010-2-3 08:52 |显示全部楼层
此文章由 Sparky 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Sparky 所有!转贴必须注明作者、出处和本声明,并保持内容完整
俺不搞这块,还好不用死那么多脑细胞(paopaobing(60))
只知道我单位的数据是每天晚上备份,然后每个周六再备一次。而且还都是备两份的。

发表于 2010-2-3 08:57 |显示全部楼层
此文章由 righttang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 righttang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
做foundation很头痛的。。。。。哎

发表于 2010-2-3 08:59 |显示全部楼层
此文章由 canyon 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 canyon 所有!转贴必须注明作者、出处和本声明,并保持内容完整
可怜的哀啼

发表于 2010-2-3 09:00 |显示全部楼层
此文章由 飞飞鱼 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 飞飞鱼 所有!转贴必须注明作者、出处和本声明,并保持内容完整
好机会,赶紧卖备份的解决方案给客户。
Advertisement
Advertisement

发表于 2010-2-3 10:01 |显示全部楼层
此文章由 Yonny 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yonny 所有!转贴必须注明作者、出处和本声明,并保持内容完整
系统和数据绝对应该是在不同的物理硬盘上的,通常是2+4。这样即使系统瘫掉了,哪怕重装系统,数据都还能恢复。另外,对于数据库,最好还是SAN+tape,备份实在是太太太重要了。另外,很重要的一点是,每个月至少检查一次备份的还原能力,就好像火灾演戏一样。

有备份,做事情的时候后顾之忧会小很多,压力也会小很多。心情不一样,做事情的效率绝对不一样。我的经验是,越急越想不出办法来。
江南有佳丽 出于帝王州 繁花未曾见 王谢纸上闻
茕茕影孑立 烟雨两凄迷 凭栏望楼台 四百寺安在
------陈叁

发表于 2010-2-3 10:14 |显示全部楼层
此文章由 铁蛋 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 铁蛋 所有!转贴必须注明作者、出处和本声明,并保持内容完整
既然客户不差钱, 可以推荐客户做个双机热备份。

发表于 2010-2-3 10:18 |显示全部楼层

回复 27# 的帖子

此文章由 frankielynna 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 frankielynna 所有!转贴必须注明作者、出处和本声明,并保持内容完整
“很重要的一点是,每个月至少检查一次备份的还原能力,就好像火灾演戏一样。”,这个就是我今天早上想加的。碰到过很多次,都以为天天备份没有问题,谁知道真的要派上用处就出现这样那样的问题,演练很重要,做过你心里才有数具体步骤和全部恢复的时间。

发表于 2010-2-3 10:25 |显示全部楼层
此文章由 jasonliu234 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jasonliu234 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我晕,hp是不产硬盘的,都是seagate的

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部