Предсказание выхода из строя HDD по SMART на реальной статистике

Jun 08, 2017 16:04

Некоторые уже используют бекап, другие - пока ждут своего криптовируса. Но всех и каждого пользователя компьютера волнует вопрос, не сдохнет ли завтра его жёсткий диск. Оказывается, анализ SMART параметров с хорошей долей вероятности позволяет предсказать. На пальцах корректные предсказания получилось 77%, а на математической модели - аж до 98%.

Интересно, правда?
Я уже вскользь упомянул презентацию от backblaze на майской 2017 конференции по большим хранилищам. Но в презентации было и ещё интересного. Камрады доложили по каким SMART параметрам они предсказывают выход жёсткого диска из строя



Насколько информативен каждый из параметров за один день до смерти диска на их немаленькой дисковой базе, причём дисков пользовательского, а не серверного, класса.


И как распределяются жёсткие диски с хотя бы одним таким ненулевым параметром. Перевожу - из работающих таких 4.2%. Из сдохших - 76.7%


Позволю себе небольшое IMHO про бытовое приложение. SMART 5, пожалуй, самый главный параметр, хотя и не абсолютный, как видно из картинок. У меня есть диск, который намотал 8 перемещённых секторов при исходном форматировании  - и с тех пор много лет верой и правдой служит. (да, я всегда гоняю новый диск на всей поверхности, как минимум полное форматирование.) Так что в бытовом плане я бы сказал, что ненулевой SMART 5 - не приговор. Приговор - растущий SMART 5. Хотя, конечно, диск с ненулевым SMART 5 я бы точно не купил, даже с огромной скидкой.

А вот остальные параметры в быту могу означать не только проблемы диска но и (и даже чаще) проблемы с паршивым SATA кабелем. И при первых признаках его надо менять. У backblaze с кабелями всё устаканилось давно, гнилых не держат. Поэтому им этот параметр указывает на проблемы с диском.

Сразу отвечу - нет, я не знаю, как отличить паршивый SATA кабель от хорошего на глаз. И те и другие бывают разного цвета, с защёлками и без. С материнскими платами обычно идут качеством получше, но не абсолют. Вот проблем с SAS - 4SATA кабелями в нашей конфе вроде никто не докладывал, так что производители, видимо, знают, чьё мясо съела кошка.

Теперь про 98%. В презентации мелкими буковками было упомянуто некое исследование. Правда, с неверным URL. Но я то исследование не сразу, но нагугллил. Четыре юных дамы, при этом британских, нет, вру, швейцарских учёных натравили на статистику бекблейза компьютер и посмотрели на результаты. Оказывается, что-то полезное в деле предсказания выхода диска из строя можно извлечь аж из пары десятков SMART параметров. Причём одним из самых информативных оказался SMART 1 Raw_Read_Error_Rate (который, к примеру у меня на одном из дисков 53428808 Power_On_Hours 28779, а на другом - 125806000 при Power_On_Hours 28800). Оказывается, компьютер смог найти некие оптимальные и неоптимальные вариации в этом потоке. Точно также числомолотилка сумела найти зависимоси в других параметрах, которые растут быстро, и людьми используются крайне редко.





Так вот, милые швейцарские учёные взяли пару моделей Seagate (SgtA и SgtB) и пару моделей HGST (HitA и HitB). Выбор по простому параметру - каких больше. Отдельно натренировали машину по SgtA и HitA - и убедились, что у разных производителей корреляция есть, но плохонькая. А потом проверили модель на SgtB и HitB. И оказалось, что математика для другой модели диска того же производителя работает очень неплохо. А если скорректировать коэффициенты - то и просто отлично, позволяя предсказывать выход диска из строя за несколько дней с вероятностью, превышающей 90%.

Я уж было обрадовался совсем, но девушки-учёные завершили статью вот такой милой таблицей.


Которую ни они сами, ни референ, похоже, прочитать не удосужились. А ведь можно видеть, что SMART 240, измеряемый на секундочку, в часах, очень вряд ли может быть больше 1.47 * 1013. Потому, что это - полтора миллиарда лет.
Ну ладно, лажанулись - какой студент не терял порядок-другой. Но и все остальные примеры в табличке выглядят крайне подозрительно. Ср хоть строки 6 и 7. Если переназначенных секторов БОЛЬШЕ 17, то менять с вероятностью 92%. Но если МЕНЬШЕ 17 - то сразу в морг.

Так что работа британских швейцарских учёных вызывает вопросы. Но, думаю, дело в просто в раздолбайстве человека, а компьютер действительно может перемолотить большую статистику по дискам и выдавать предсказания.

Рождается даже идея для стартапа. Делаем утилиту, которая следит за жёсткими дисками пользователя и шлёт на управляющий сервер SMART и модель жёсткого диска. Пользователю в профит то, что чем по его дискам больше статистики, тем выше точность прогноза. Первый год собирать статистику, программулина бесплатная. Потом или кому-то продаться с такой-то базой или собирать с новичков копейку малую или даже жить на донате. Я бы за заблаговременное предупреждение, что у меня диск с вероятностью 83% умрёт в течение недели и пора спасать инфу, несколько долларов отдал бы с благодарностью.

железо, nas

Previous post Next post
Up