记录日常工作关于系统运维,虚拟化云计算,数据库,网络安全等各方面问题。

服务器RAID硬盘与日志主要检测方法

1:对于 Dell 的机器并且配备了 LSI 的 raid 卡,那么 Megacli 自带的命令是最直观最可靠的硬盘检测方法。 

#/opt/MegaRAID/MegaCli/MegaCli64 -pdlist -aall  

以其中的块硬盘为例。 

Enclosure Device ID: 32  

Slot Number: 2  

Enclosure position: 0  

Device Id: 2 //ID 号 

Sequence Number: 2  

Media Error Count: 0 // 如果 error 数值较多 那么需要更换硬盘 

Other Error Count: 0  

Predictive Failure Count: 0 // 可理解为预知性的错误 这个数值较多意味着硬盘即将坏 现场会黄绿灯交叉闪烁 

Last Predictive Failure Event Seq Number: 0  

PD Type: SAS  

Raw Size: 136.732 GB [0x Sectors]  

Non Coerced Size: 136.232 GB [0x Sectors]  

Coerced Size: 136.125 GB [0x Sectors]  

Firmware state: Online, Spun Up // 如 果 硬 盘 坏 了 那 么 会 出 现 Failed 或 者 是 

unconfigured(bad) SAS Address(0): 0xe11716a112  

SAS Address(1): 0x0  

Connected Port Number: 0(path0)  

Inquiry Data: FUJITSU MBD2147RC D809D0A4PB103ALA  

FDE Capable: Not Capable  

FDE Enable: Disable  

Secured: Unsecured 

 Locked: Unlocked  

Needs EKM Attention: No  

Foreign State: None  

Device Speed: 6.0Gb/s  

Link Speed: 6.0Gb/s 

 Media Type: Hard Disk Device  

Drive Temperature :28C (82.40 F)  

些对磁盘 I/O 操作比较密集的应用例如 squid 经常会有掉盘的现象, 这时有时候通过上述

命令会发现找不到其中的块硬盘,即消失了” ,如果进入 RAID 卡界面会发现磁盘处于 Foreign 或者 missing 的状态,这种情况其实硬盘并没有坏掉或者说并没有完全坏掉(有诸 多原因,包括 RAID 卡、背板、 SAS线等等),如果是在线跑业务的机器不能重启,那么这时 候就需要通过 RAID卡的日志进行分析是否真的坏了。 #/opt/MegaRAID/MegaCli/MegaCli64 -fwtermlog -dsply -aall  

如果是硬盘坏了那么会发现有 offline 或者是某块硬盘有 timeout 的记录,需要认真分析日 志。


2,其它品牌硬盘检测方法,具体看附件。


硬盘检测主要方法.pdf




转载请标明出处【服务器RAID硬盘与日志主要检测方法】。

《www.92cto.com》 虚拟化云计算,系统运维,安全技术服务.

网站已经关闭评论