SSD restart hell

Feb 25, 2012 16:50

Оригинал взят у lionet в SSD restart hell
SSD hell, выжимка из тикета в OPS трекере:
So x0307/8/9/10 started to hang every hour since last night.

Apparently this is a bug we've hit:
http://www.theverge.com/2012/1/17/2713178/crucial-m4-ssd-firmware-update-fixes-recurring-bsod
and firmware 0309 fixes it. I've installed it on x0309 and it indeed stopped it from hanging every hour (though i do not know if this fixes long-term problem). I do expect it to start shutting down x0303/x0304/x0305/x0306 very soon.

They start to fail @ 5,184 hours, so we've 76..190 hours to upgrade the firmware.

@#$%^ Crucial.

--igor

Вот фоллоу-ап с is39, нашим главным по железу:
У нас скиснут все Сrucial SSD в течение 3..7 суток (если не впаять update); 4 хоста уже скисли, один я починил.

После 5184 часов uptime они дохнут каждый час.

Ты, зараза, это предугадал в начале этой недели ;-)

А чё - я ничё! ;)

В начале недели я высказал предположение, что все наши SSD, купленные в одно время, эксплуатируются одинаково, и поэтому помрут в один час. Почему? Потому что диски вылетают не сами по себе, а по какому-то поводу: флуктуация питания, температуры и загрузки. И что у SSD очень узкие тех. допуски и очень ровные техпроцессы. Поэтому, если загрузка и питание более-менее стабильны, то спокойное время между аномалиями загрузки и питания будет как раз способствовать тому, чтобы за это время несколько дисков одновременно выработали свой ресурс. И следующий клиентский шторм или, скажем, переключение коло на дизель с шумом в сети, вырубит сразу все подшедшие к своему лимиту диски.

Но зверёк подкрался совсем не с той стороны ;) Оказывается, в эти SSD просто таймер встроен (они называют это «баг»), похожий на таймер в картриджах для принтеров от HP, ограничивающий их жизнь. И есть патч для этого таймера, для особо вздорных админов, не желающих платить за поддержку ;)

P.S. еще стоит упомянуть, что такое дерьмо мы купили не по выбору, а по причине отсутствия Intel SSD 320, с которыми (в других ящиках) таких проблем у нас нет.

P.P.S. Вот ещё разговорчик:- На тех хостах, которые сейчас раз в час падают: как так получилось, что баг раньше проявился на них, а не на продакшене?
- Они были включены на ~ неделю раньше.

репост, деградация

Previous post Next post
Up