这5个智能统计数据实际上可以预测硬盘故障

这5个智能统计数据实际上可以预测硬盘故障

从近40000个磁盘轴收集的数据显示,IT管理员用来监控驱动器运行状况的硬盘软件在不同的驱动器和制造商之间高度不一致。

云服务提供商Backblaze今天发布的数据还指出,智能统计数据涵盖的70个指标中,有哪五个可能预测硬盘故障。

SMART,或者说自我监控、分析和报告技术,是几乎无处不在的固件,供应商将其作为工具嵌入其中,以提醒IT管理员注意即将发生的问题。

由于缺乏全行业的智能软件和硬件标准,智能数据无法在供应商产品之间交换。供应商还可以使用智能数据来分析跨驱动线的问题。

几年来,Backblaze一直收集硬盘故障的数据。该公司在公司博客上公布了这些数据,重点介绍了哪些制造商的硬盘故障率高于其他制造商。

Backblaze的最新研究结果也发表在公司博客上,该研究深入研究了基于公司数据中心约4万个硬盘驱动器的智能警报。

Backblaze首席执行官格莱布·布德曼(Gleb Budman)表示,研究发现,有五个智能数据确实可以预测驱动器故障。

Backblaze发现的一个与即将发生的硬盘故障相关的智能统计是187,它表示硬盘上发生的读取错误数。随着它们的增加,硬盘的年故障率也在攀升。

智能软件报告以标准化值或类别的形式驱动问题,范围从SMART stat 1到253(并非包括两者之间的所有数字)。例如,值“1”表示数据读取错误率,显示为十进制数。值240表示驱动器用于定位读/写磁头的时间量。

Backblaze对近40000个驱动器的分析显示,五个智能指标与即将发生的磁盘驱动器故障密切相关:

Backblaze将驱动器从存储阵列中移除并替换时,由于驱动器完全停止工作或显示出即将出现故障的迹象,因此将其计为发生故障。

如果某个驱动器显示为物理死机(例如,无法通电)、不响应控制台命令或RAID系统报告无法读取或写入该驱动器,则认为该驱动器已停止工作。

Budman说:“为了确定一个驱动器是否会很快出现故障,我们使用智能统计数据作为证据,在驱动器发生灾难性故障或妨碍存储盒卷的运行之前将其删除。”。

例如,SMART stat 187报告无法使用硬件纠错码(ECC)纠正的读取次数。Budman说,错误为0的硬盘几乎不会出现故障,“但一旦SMART 187超过0,我们就会安排更换硬盘。”

根据Backblaze的说法,SMART stat 12与驱动器通电有关,这应该表明驱动器长期磨损,但没有。

Budman说,完全理解智能统计的一个问题是,驱动器制造商没有为他们共享用例的具体细节。

“例如,如果你查看Wikipedia的SMART stat 1条目,它会显示‘特定于供应商’的值。希捷想追踪一些东西,但只有他们知道那是什么。Budman说:“Western Digital使用SMART来做其他的事情——它们都不会告诉你它是什么。”。

他补充道:“Smart1似乎与硬盘故障率有关,但事实上,它更多地表明,不同的硬盘供应商正在将其用于不同的用途。”。

Budman指出,SMART stat 12是另一个指标的例子,它应该指示即将发生的驱动器故障,但没有。SMART 12与驱动器通电的次数有关,这应该与长期磨损有关。Budman说,一开始,智能12警报的年故障率似乎上升了,但后来故障率趋于平稳,实际上下降了。

“所以一开始看起来是相关的,但事实并非如此。他说:“它不是线性级数。”不管他们在那里放了什么指标(智能固件),都是不一致的。”