我有一个小型的Ubuntu服务器在家里运行,有2个硬盘。磁盘上有两个软件袭击(raid1),由mdadm管理,我认为这无关紧要,但无论如何都提到了这一点。
这两款硬盘均为Western Digital,已经使用了大约2年,其中之一开始发出咔嗒声,然后就死了。我认为这可能是2年后的自然现象,所以我买了一个新的,并重新同步了RAID阵列。大约一个月后,另一个驱动器也死了。
我并没有感到怀疑,因为两个驱动器是同时购买的,看到两个驱动器彼此靠近也就不足为奇了,所以我又买了一个。
到目前为止,系统中有2个旧驱动器发生故障,而2个是全新驱动器。一个月后,其中一个新驱动器失效。这是开始变得可疑的时候。由于PC是由一些真正的旧零件组装而成(例如AthlonXP),所以我认为主板的SATA控制器可能是罪魁祸首。当然,您不能在这样的旧PC上轻松切换部件,因此我购买了整个系统,新的MB,新的CPU和新的RAM。将刚刚发生故障的驱动器退回,因为它已处于保修期内,并已将其更换。
因此,旧驱动器最多有2个故障驱动器,而新驱动器最多有1个故障驱动器。没问题,持续1个月。之后,错误在/ var / log / messages中再次蔓延,并且mdadm报告了RAID阵列故障。我开始把头发扯掉。系统中的所有内容都是新的,取决于第三种全新的硬盘驱动器,我购买的所有新驱动器都不可能出现故障。
让我们看看仍然很常见的...电缆。好吧,远景,让我们更换SATA电缆。带回硬盘,对柜台的那个家伙微笑,说我真的很倒霉。他更换了硬盘驱动器。我回家,一个月过去了,其中一个硬盘再次出现故障。我不是在开玩笑。
两个全新的硬盘驱动器发生故障。也许这是操作系统中的错误。让我们看看制造商的测试工具怎么说。下载测试工具,将其刻录到CD,重新启动,让硬盘驱动器测试过夜。测试说驱动器有故障,如果可以的话,我应该备份所有内容。我不知道发生了什么,但它看起来并不像软件问题,肯定是硬盘驱动器发生故障。
我现在要提到的是,整个系统都在一个鞋盒中。既然有大量的“建造自己的宜家皮套”东西,我认为将东西扔进盒子里然后塞进某个地方应该没有任何问题。盒子通风良好,但我认为可能只是驱动器过热。没有其他可能的答案。因此,我拿回了硬盘驱动器,并进行了更换(第3次),并购买了硬盘驱动器冷却器。
而现在,我听到了厄运的声音。单击单击whizzzzzzzzzzz。SSH进入包装盒:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg输出:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
回顾:
我在哭 真的。我现在没有面子要回到商店,四个驱动器在4个月内不可能出现故障。
我一直在思考一些想法:对驱动器进行分区和重新同步时,是否有可能弄乱了我的东西?会不会很糟,以至于物理损坏了驱动器?(由于供应商提供的工具表明驱动器已损坏),我使用fdisk进行分区,并对raid1分区使用相同的块大小(我使用fdisk -lu检查确切的块大小)
Linux内核或mdadm或某些与该确切品牌的硬盘驱动器不兼容,并可能导致硬盘崩溃吗?
可能是鞋盒吗?尝试将其放置在其他地方吗?现在在架子上,所以湿度也不是问题。普通的PC机箱是否可以解决我的问题(然后我要开枪自杀)?明天我会照相。
我只是被诅咒吗?
任何帮助或推测,我们将不胜感激。
编辑:电源板可防止过电压。
Edit2:我在这四个月之间移动过,所以两个地方的原因都是“脏”电的可能性很小。
Edit3:我检查了BIOS中的电压(不能借用万用表),它们似乎都是正确的,最大的差异在于12V,因为它提供的是11.3。我应该为此担心吗?
Edit4:我将台式PC的PSU放入服务器。BIOS报告的电压读数更准确,并且它已经成功地重建了raid1阵列,这花费了大约3-4个小时,因此我现在感到有点积极。明天将获得一个新的PSU进行测试。另外,附上有关包装盒的图片:(忽略第三个驱动器)
您的电源也旧了吗?可能是驱动器功率不足/功率过大导致了故障。如果您有万用表,我将尝试测量硬盘驱动器中正在运行的电压,并观察一段时间。另一个罪魁祸首可能是“脏”电,因此,UPS可能会正常运转,以便“清理”流入PSU的电源。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句