新足迹

 找回密码
 注册

精华好帖回顾

· 一路看房。。。。。。 (2009-12-10) 微风细雨 · 摄影版春季活动 - 堪培拉2014 Floriade Nightfest (2014-9-30) workflow
· 黄金海岸马拉松半程——看图说话 (2013-7-7) keke · 悉尼亲子美食聚会之--正宗重庆干扁牛肉来了! (2009-11-16) xiangxiangbaby
Advertisement
Advertisement
楼主:masterniu

HP ,MS我该怪谁呢?做IT太tmd辛苦了 [复制链接]

发表于 2010-2-4 23:04 |显示全部楼层
此文章由 静水神泡 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 静水神泡 所有!转贴必须注明作者、出处和本声明,并保持内容完整
恢复数据用Recovery console当然不行啦. 恢复windows还行.
Advertisement
Advertisement

发表于 2010-2-4 23:06 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 Yonny 于 2010-2-4 22:55 发表


之所以建议关机换硬盘,是因为系统的读写和RAID卡读写有一个很小的时间差,Windows对文件的修改并不是即时反映到硬盘上的,尤其是楼主说这台服务器负担很重,这种延时可能就更重。楼主后来出现的蓝屏应该就是很重 ...


Firstly, important system files are loaded into ring 0 when system boots. The HDD copy doesn't matter anymore until you reboot.

Secondly, when a HDD is already marked bad, the RAID controller will NOT try to access it. That's a fundamental requirement for hotswap to work.

发表于 2010-2-4 23:06 |显示全部楼层
此文章由 kawara 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kawara 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我好像看出点门道了。

牛师傅从事这个行业多久了?

发表于 2010-2-4 23:08 |显示全部楼层
此文章由 静水神泡 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 静水神泡 所有!转贴必须注明作者、出处和本声明,并保持内容完整
好久不用windows了 记得在raid array control 里面有个选项 是可以看到现在有没有缓存没有写入硬盘的. 应该在热拔插之前先确认, 再加上系统本来已经运行速度已经low了 首先就应该想到缓存有无完成写入,

你第一次换硬盘是时候 硬盘已经坏了 所以raid不写数据进去了. 但是第二次没有完全坏 所以raid在写数据. 问题就是应该出在这里

[ 本帖最后由 静水神泡 于 2010-2-4 23:10 编辑 ]
争取每周都有不一样的小姐姐

发表于 2010-2-4 23:09 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 gandu 于 2010-2-4 23:02 发表


不知道我有没有看错。

如果蓝屏后运行光盘看到partition缩小到了10G, 那你更加不应该把新的SAS 插进去

没错,我的确做错了这一步,新的sas插入之后,Hp就开始了自动的recovery,或许的确增大了数据恢复的难度。当时已经是六神无主了,而且已经是周末块7点了,客人都急着回家了,哪里还有思考的时间。
第二天当自动的recovery运行完毕之后,我看到的结果是一样的,一样是10G的分区,只有部分的数据可以访问,大部分都已经丢失。
当时我的理解是,如果raid 5如果detect到新的硬盘插入,并不会去改变另外4块硬盘的数据状态,只是用另外4块的校验值连重新写入新的数据到新的硬盘中,所以我想插入新的硬盘或许可以让另外4块硬盘重新进行array rebuild,估计是我理解错误了。

[ 本帖最后由 masterniu 于 2010-2-4 23:11 编辑 ]

评分

参与人数 2积分 +6 收起 理由
静水神泡 + 3 安慰下
degra + 3 理解, 安慰一下

查看全部评分

发表于 2010-2-4 23:10 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 kawara 于 2010-2-4 23:06 发表
我好像看出点门道了。

牛师傅从事这个行业多久了?

6年多了,还是很入门的感觉,唉。。。
Advertisement
Advertisement

发表于 2010-2-4 23:14 |显示全部楼层
此文章由 kawara 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kawara 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个看起来超级复杂啊。估计我十年也弄不明白

发表于 2010-2-4 23:16 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 静水神泡 于 2010-2-4 23:08 发表
好久不用windows了 记得在raid array control 里面有个选项 是可以看到现在有没有缓存没有写入硬盘的. 应该在热拔插之前先确认, 再加上系统本来已经运行速度已经low了 首先就应该想到缓存有无完成写入,

你第一次换 ...

的确,估计问题就在这里,估计第二块的硬盘没有完全的坏掉,所以系统仍然在写入数据,拔掉之后估计造成了很严重的windows的数据丢失。我失误就失误在“一直以为raid 5热拔插是可以任何时候进行的,即使硬盘没有出现错误的状态下
真是大错特错了,而且Hp的array tool没有可以让你热拔插的选项。
更加倒霉的是,那个硬盘拔下之前没有完全坏掉,再插进去的时候,array就不认了,错误灯从此常量,当时我真的无语了。。。。

[ 本帖最后由 masterniu 于 2010-2-4 23:22 编辑 ]

发表于 2010-2-4 23:18 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 kawara 于 2010-2-4 23:14 发表
这个看起来超级复杂啊。估计我十年也弄不明白

别弄明白了,都是超级无趣的东西啊。。。。

发表于 2010-2-4 23:21 |显示全部楼层
此文章由 kawara 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kawara 所有!转贴必须注明作者、出处和本声明,并保持内容完整
弄明白了应该也挺有意思的,牛师傅看年龄也就是20出头啊

发表于 2010-2-4 23:23 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 kawara 于 2010-2-4 23:21 发表
弄明白了应该也挺有意思的,牛师傅看年龄也就是20出头啊

请轻轻的加上10年,谢谢。。。。
Advertisement
Advertisement

发表于 2010-2-4 23:24 |显示全部楼层
此文章由 Yonny 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yonny 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 masterniu 于 4/2/2010 11:09 PM 发表

没错,我的确做错了这一步,新的sas插入之后,Hp就开始了自动的recovery,或许的确增大了数据恢复的难度。当时已经是六神无主了,而且已经是周末块7点了,客人都急着回家了,哪里还有思考的时间。
第二天当自动的 ...


我觉得你理解的没错。但当时的情况是,剩下的四块硬盘已经不具有全部的数据及校验,所以自然是无法恢复数据了。

事故发生前,你的RAID卡应该还是在正常工作,向五块硬盘中写数据。虽然有一块被标注有问题,但没有坏。所以依然所有数据被分成四份加校验,在五块硬盘间存取,直到你在缓存没有真正写入到硬盘时,直接拔掉了那块硬盘,造成了整个系统的崩坍。剩下的四块硬盘并没有得到第五块硬盘上全部数据的校验,所以单凭那四个家伙,也就不可能恢复第五块硬盘上的数据了。
江南有佳丽 出于帝王州 繁花未曾见 王谢纸上闻
茕茕影孑立 烟雨两凄迷 凭栏望楼台 四百寺安在
------陈叁

2008年度奖章获得者

发表于 2010-2-4 23:25 |显示全部楼层
此文章由 degra 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 degra 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 masterniu 于 2010-2-4 23:09 发表

没错,我的确做错了这一步,新的sas插入之后,Hp就开始了自动的recovery,或许的确增大了数据恢复的难度。当时已经是六神无主了,而且已经是周末块7点了,客人都急着回家了,哪里还有思考的时间。
第二天当自动的 ...


我理解也是一样, 不过具体要看raid bios设定。

我估计file system/partition table 在蓝屏出现时坏了, 如果当时淡定先看看这个问题很有机会修复。 不过在紧张时刻很难作出最好的决定。

发表于 2010-2-4 23:27 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
唉是啊,我找了很久也没有找到可以让你选择拔掉硬盘的选项,不像有些array tools是有这个选择的。所以我心一横,就拔了,接着就杯具了。。。。

发表于 2010-2-4 23:30 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
在Hp array dianosis tool,第一次的时候,提示的确不同,它的提示是请立即更换bay 1的硬盘
第二次的提示是:请在方便的时候更换bay 3的硬盘,我就是不知道什么是方便的时候。。。。。。。。。。

发表于 2010-2-4 23:32 |显示全部楼层
此文章由 Yonny 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yonny 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 bulaohu 于 4/2/2010 11:06 PM 发表


Firstly, important system files are loaded into ring 0 when system boots. The HDD copy doesn't matter anymore until you reboot.

Secondly, when a HDD is already marked bad, the RAID controller w ...


第一个问题有点难以理解哦,照这个思路,服务器半路断电,来电重启后岂不是系统恢复到上次启动时的状态,而非断电时的状态?这个毕竟是服务器不是路由器,系统都是装在rom里的。

第二个问题,看起来楼主的那块硬盘并没有完全坏掉哦。

说实话,我也对服务器的硬件理解不深。这里和大家多讨论多学习。
江南有佳丽 出于帝王州 繁花未曾见 王谢纸上闻
茕茕影孑立 烟雨两凄迷 凭栏望楼台 四百寺安在
------陈叁
Advertisement
Advertisement

发表于 2010-2-4 23:35 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
对了,记得很清楚,当时蓝屏死机,出现了1条提示:
raid volume has been disabled due to possible data loss, please press F2 to enable volume to accept data loss...
如果不按f2,volume将一直处于diabled的状态,或许我就应该关机,然后打电话给hp,可惜周末要等到周一。。

发表于 2010-2-4 23:37 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 Yonny 于 2010-2-4 23:32 发表


第一个问题有点难以理解哦,照这个思路,服务器半路断电,来电重启后岂不是系统恢复到上次启动时的状态,而非断电时的状态?这个毕竟是服务器不是路由器,系统都是装在rom里的。

第二个问题,看起来楼主的那块 ...

第二块硬盘出现了smart failure,或许的确没有完全坏掉,但是我的理解,对于raid 5应该是允许1块硬盘突然failure的,那我直接拔掉和硬盘直接坏掉效果岂不是一样么?

发表于 2010-2-4 23:38 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 Yonny 于 2010-2-4 23:32 发表


第一个问题有点难以理解哦,照这个思路,服务器半路断电,来电重启后岂不是系统恢复到上次启动时的状态,而非断电时的状态?这个毕竟是服务器不是路由器,系统都是装在rom里的。

第二个问题,看起来楼主的那块 ...


ring 0 is kernel RAM. RAM loses power when you power cycle a machine.

When he said his 2ndary HDD has S.M.A.R.T failure report, it's not failed, it's just predicting failure. 3 HDD failure within 2 days is a pretty good indication of either backplane problem or SAS controller issue. I'd have backed up all data while system is still running and worry about other stuff later at this stage.

[ 本帖最后由 bulaohu 于 2010-2-4 23:39 编辑 ]

发表于 2010-2-4 23:39 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你所说的kernel ram (ring 0)是不是Raid controller的cache ram?

发表于 2010-2-4 23:41 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
原帖由 masterniu 于 2010-2-4 23:39 发表
你所说的kernel ram (ring 0)是不是Raid controller的cache ram?


No I'm not talking about RAID cache. RAID cache does not lose power - it's maintained by battery while machine reboots. That's why sudden power loss will not harm RAID controlled HDD. The delayed write operation will still backfill when the machine gains power again.
Advertisement
Advertisement

2008年度奖章获得者

发表于 2010-2-4 23:44 |显示全部楼层

回复 81# 的帖子

此文章由 degra 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 degra 所有!转贴必须注明作者、出处和本声明,并保持内容完整
I don't think his raid card has backup battery pak at all..

发表于 2010-2-4 23:44 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
really? let me check...

发表于 2010-2-4 23:47 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
http://h18000.www1.hp.com/produc ... 67_na/12067_na.html

This is the smart array that comes with ML350. It's got battery backup in it. I don't know exactly which model LZ is talking about here though, as you can order whichever you like when buying a server.

[ 本帖最后由 bulaohu 于 2010-2-4 23:48 编辑 ]

2008年度奖章获得者

发表于 2010-2-4 23:53 |显示全部楼层

回复 84# 的帖子

此文章由 degra 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 degra 所有!转贴必须注明作者、出处和本声明,并保持内容完整
I think he did mention intel e200i controller but cache memery with battery  module usually comes as  an upgrade option.

发表于 2010-2-4 23:53 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个Ml350带的是Intel E200i raid controller,有Battery-Backed Write Cache,我看到一块类似内存卡的东西插在了主板上
Advertisement
Advertisement

2008年度奖章获得者

发表于 2010-2-4 23:54 |显示全部楼层

回复 86# 的帖子

此文章由 degra 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 degra 所有!转贴必须注明作者、出处和本声明,并保持内容完整
here you go

发表于 2010-2-4 23:57 |显示全部楼层
此文章由 masterniu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 masterniu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
请问,如果第二块硬盘没有完全坏掉,下线取下换上新的硬盘是不是会避免这种错误?

评分

参与人数 1积分 +4 收起 理由
Wangmingtaoau + 4 安慰一下

查看全部评分

发表于 2010-2-5 00:53 |显示全部楼层
此文章由 bulaohu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bulaohu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
I think the key is that since it's RAID 5, you can only take one HDD offline, and must wait for rebuild to finish before taking another offline. I'm sure you followed that, so the issue here is most likely a hardware error - since it BSOD'd right after you pull the HDD out, I suspect a short circuit happened in the HDD bay which caused the immediate shutdown. Did you use the anti-static wrist band when shuffling HDDs?

发表于 2010-2-5 21:56 |显示全部楼层
此文章由 12oz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 12oz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
赞成 静水神泡的 "你第一次换硬盘是时候 硬盘已经坏了 所以raid不写数据进去了. 但是第二次没有完全坏 所以raid在写数据. 问题就是应该出在这里“ --〉这个情况可能造成cache/硬盘数据不同步,raid各个盘上数据不一致,所以即使插新盘进去也不能完全恢复。很多raid在这个情况下会自动diable cache,保证数据同步安全,估计lz的raid没这么做。

如果第二次硬盘还能用,停电后插拔应该没事,关键是cache/硬盘已经同步,各个盘的数据是一致的.

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部