История одной катастрофы…

Mar 24, 2010 19:47



А вообще поперся-то я так рано чего ради? Пришел в 5 утра, Logitech Kinetik развернулся в полевое окно в мир. Ноутбук, с причиндалами,  связью, и т.п. Заварил себе кофе. Начал делать “обезьяньи работы”.  И занялся правильным сисадминским делом - пооткрывал всякие фейсбуки и ЖЖ, и начал постить про вчерашних юзеров. Часа два была благодать - одной рукой писю (или писяю?) в блог, другой мышкой на рабочем компе запускаю каждодневные костыли. Я уже наивно подумал было, что все обойдется. И вот, на самом интересном месте, моя левая рука почувствовала что костыль со второго центра не стартует. Тогда я и понял - началось!

Эксплуатация в очередной раз вежливо предупредила, что затеваются очередные маневры. С пушками и танками. И с настоящими потерями. В смысле - “пройдет тестирование аварийного генератора”. Это такая страшная дизельная штука, которую во второй центр купили чиста для понтов. Потому что с момента постройки магазина - он никогда не работал. Идея высокая - все кто знает для чего сия вундерфвафля, поймут. По плану, когда основная или резервная линии вырубаются, за пару минут включется эта кофеварка и держит на себе весь центр. А мы пока ругаемся с электросетями. Но как всегда - гладко было на бумаге, да забыли про овраги. Что они там нахимичили, или почему не могут включить - не имею ни малейшего понятия. Но зная нашу манеру работать, меня это почему-то ничуть ни удивляет.

Главное, что после каждого такого тестирования - второй центр напоминает мамаево побоище. Там и так электричество страшное, а после таких развлечений разгребать последствия приходится целый день. Блоки питания, которые не через UPS-й - сгорают. Которые через упсы - не сгорают, зато зачастую сгорают сами упсы. Все подстольные свичи не класса прокурв - виснут. Ну и конечно не помешал бы маленький термоядерный реактор в серверной. Поскольку тестирование было назначено на 5 утра - решили, по прошлому опыту, что кому-то надо идти в разведку. Пошел я, потому что мне пофиг когда вставать. Зато раньше слиняю.

Разумеется к тому времени как я понял что прога из второго центра не стартует - связи уже не было. Позвонив электрикам, я узнал что “мы же вас предупреждали”, и “вот-вот и как только так сразу”. У нас там конечно упсов в общей сложности киловатт на 5, но пол-часа тянуть два шкафа и телефонную станцию они не могут. Самое забавное, что они молчали как партизаны. Ну впрочем это вот свинство и ожидалось, и я, зевая, пустил пинг до тамошнего гейтвея, а заодно открыл карту сети. Все равно разгребать последствия можно только после появления электричества. Минут через десять все начало оживать, и карта засветилась зеленым. Как только ожила сеть - стали доступны все илы серверов, и можно было уже расслабиться и вздохнуть с облегчением. Главное что все важные еженощные джобы и реплики отработали, а неважные все равно зашедулены на регулярность.

Но как оказалось, я рано радовался. Праймари домайн контроллер стартанул, файловый сервак, он же резервный DC - тоже. Кластер стартанул и не увидел себя. Обе ноды в онлайне - а кластер нет. Рестарт сервиса не помог. А это значит нету базы, сервера аппликаций, и т.п. Все равно никто работать не может. А поскольку это уже семь утра - кассы начинают вкладывать деньги, отделы начинают печатать новые цены, в общем всем жутко надо работать. Реалтайм у нас страшенный, и простой в рабочее время минут на 10 - это серьезная катастрофа. К счастью тут еще время не рабочее, и я вырубив одну ноду, пустил вторую на рестарт. Ило - чудесная штука, не знаю как живут люди без HP-шной техники. На КВМ-свичах что ли выкручиваются?

Параллельно я разумеется отвечал на дурные вопросы “а почему у меня ничего не работает?”. Утешал верующих, что им воздасться за терпение. Минут через 15. А пока следует истово молиться. Неприоритетным юзерам отвечал злобно рыча. Приоритетным, навроде старших кассиров, внятно обьясняя ситуацию. Но они и так люди умные - работать с ними одно удовольствие. Пока пролианты тяжело ворочались, хвастаясь биосами своих многочисленых контроллеров, до меня начала доходить страшная мысль. Что если с кластером все ок. Что если не стартанули стораджи? Пропинговал их и похолодел. Такое уже было - чертова мсашка упорно желала запускаться только с кнопки, и отказывалась пускать кого-либо по ремоуту. Пришлось срочно просить едущего на работу шефа - завернуть туда, и дать пинка железяке вживую. Мысль о стоящем пока без работы центре - сильно обеспокоила.

Потом случилось чудо - как-то сами-собой ожили оба стоража, и кластер весело стартанул. Сразу у всех появились бухгалтерские программы, завелсиь пос-терминалы, все почувствовали себя важными и нужными. Вообще все произошло оперативно. Время простоя из за глюка - не превысило 10-ти минут, это еще с учетом, как долго стартуют сервера. Немало лулзов добавили упсы, прислав сразу около шести писем после восстановления связи. “Хозяин! Что-то с питанием!” “Хозяин! Слыш - 25% от аккума осталось!” “Спасите, наши души! Мы бредим от удушья!” “О, питание включилось! Мы живы!” Получается что у упса, державшего цетральный свич тоже уже дохлый аккумулятор. Когда вырубило электричество, он успел только сказать: “Уп…” И сдох. А все остальные слали предупреждения в пустоту. Вообще поражает, насколько быстро дохнут аккумуляторы у упсов. С учетом что на них гарантия не распространяется…

Сильно прикол начальник эксплуатации. Когда я вовсю поднимал сервера, утешал юзеров, и оживлял магазин, он позвонил, и лениво спросил: “Слушай, я забыл пароль на свой…” (Эээ, хрен его знает как эта прога по русски, в общем там, где он должен поставить галочку на задании, что тестирование прошло успешно.) Я ответил ему как можно более вежливо: “Вы знаете, после вашего тестирования, у нас дох..ища всяких проблем. Так что не могли бы вы перезвонить через пол часика?”

На поле боя остались три пос-терминала, которые упорно не отзывались по сетке, и конечно радостно зависшие китайские подстольные свичики. Все остальное на удивление выдержало шторм. (Похоже что все что могло сгореть от скачков питания - уже сгорело.) Тут уже начали собираться коллеги. Трезвонящее болванье, за пару лет работы так и не усвоившее, что бугалтерскую программу, потервшую связь с sql-сервером надо рестартовать чтоб “квиты считало” - тоже кажется успокоилось. Мы уже радостно похлопывали друг друга по спине, и пожимали руки, как центр управления полетами, удачно забросивший робота на Марс.

Потом мы с Саулюсом пошли закупаться утренним кофе и пирожками. Настроение было что ни на есть самодовольное. Набрав пакетиков и подойдя к кассе, я сначала увидел очередь и растрянно-коровье лицо кассирши. Она смотрела на клавиатуру, с таким видом словно та собиралась ударить ее током. И старшую кассиршу, устало произносившую “нажми контрол альт делит”. Бросив быстрый взгляд на находящийся рядом инфоцентр - я увидел знакомую картину потерявших связь прог. После чего Саулюс ткнул меня в спину - и молча указал на остановившийся эскалатор. Матерясь мы вывалили пакетики с кофе на кассу, и скачками понеслись обратно в серверную. ОНО вернулось. Только теперь уже к нам.

Рестартануло уже наш центральный свич, поскольку у упса его держущего тоже сдох аккум, а прошение выделить денюшки на его ремонт подписывают уже пол-года. Поскольку свич - не какая-нибудь китайская фигня, он рестартует с пол-минуты, неторопливо опрашивая все порты. Тут же шквал звонков с воплями “уа! уа!”. Зашедший начальник охраны, злорадно поинтересовался - “ну что диверсанты?”. Я молча ткнул в спину пробегавшему по коридору начальнику эксплуатации, и пробурчал: “Вон главный диверсант, ловите!” Где-то через минут десять все снова улеглось, мы поржали, и сказав “Вторая попытка!” - пошли за кофе. На этот раз - дошли.

Наш Самый Главный Начальник сразу начал игру в КВН. Он принялся писать юмористические вопросы эксплуатации, а та должна была придумать на них не менее веселые ответы. Например вопросы были такие: “А за каким хреном нам нужен этот дорогой аварийный генератор, если в случае аварии он сам стартовать не намерен?” Или: “Сколько времени нужно, чтоб при пропадании электричества, дежурный электрик добежал бы бы до генератора и запустил его ручками?” Или:  “На какой энергии вы предлагаете держать сервера, пока вы там занимаетесь физзарядкой?” (Вообще-то длинна торгового зала во втором центре что-то около полукилометра, и я давно предлагал купить нам сегвей! Одна очень вредная девушка, уверяет что я не занимаюсь зарядкой. Посмотрела бы она как я вчера пилил по этому залу туда и обратно с 17” монитором на плече. :))

Но веселье не кончилось и на этом. Одна из касс, упорно не появлялась в сети, несмотря на то что мы пытались использовать толковую старшую кассиршу того центра, как ремоут-бота. Пришлось Саулюсу вздохнуть, и ехать. (Вообще это западло. Если одмин не может справиться по ремоуту - то это как бы и не одмин вовсе. Но радиоуправляемого робота нам не выписали, как мы ни просили.) Оказалось, что комп на кассе не пережил жестокого выдирания из розетки, и ответил на это злобной надписью: “missing system filezzzz... олололо”. Но у меня на такие случаи развернут WDS сервер. С любовно собраной рипейр консолью в том числе. Но увы, Саулюс через консоль починить Винды не смог. Они грузились, но висли. Ну, на это у нас существует кнопочка F12 и “реинсталл все аффтоматом нафик”. Беда только в том, что я экспериментировал с деплойментом 7-ки, и бутовый имидж был уже от нее. Она загрузилась, развернула диск в память, и возмущенно сказала: “Сетевуха SiS? Это старое дерьмо? Да вы за кого меня принимаете?” Мать, мать, мать. Конечно же, старый boot.wim я сохранил. И конечно же только вчера стер за ненадобностью. Дальше началась клоунада с поисками уже никому не нужных дисков с Вистой. Причем я далеко не был уверен, что я когда-то не интегрировал в бутовый имидж дрова ручками. А WAIK я тоже стер, при переинсталляции своего компа. И вот Саулюс сидит в тяжелейших полевых условиях, вдалеке от кресла и кофе, и закипая ждет, пока я сумею что-то сделать. Увы, можно было бы развернуть имидж ручками, через imagex из консоли, но Саулюс это делать не умеет, а я, не видя экрана обьяснить не смогу. Да и параллельно приходится отвечать на дурные вопросы тупых юзеров, и решать проблемы, описаные в предидущем посте. В принципе, посовещавшись, плюнули на это дело, подняли кассу до состояния “можно снять Z”, и оставили на завтра. Так что завтра предстоит вспоминать как там закидывать дрова стетевух в имидж.

Вот почему на нашей работе, у меня отношение к юзерам - “Я б их к стенке ставил, через одного. И направлял на них груженый самосвал.” Потому что например настоящие сисадминские хвосты, которые давно просились быть отрезаными - перекроссировать шкаф, провести нормальную связь в склад, закончить фэйл-сэйфинг и прочие оптимизации, я сумел сделать только во время кризиса. И то частично. Потому что от юзеров осталась треть. И их наконц-таки заставили работать, а не изображать бурную деятельность, как раньше.

android, серверы, Компы, интернет, юмор, ЛОЛ, microsoft, сервер, internet, юзер, apple, дураки, юзеры, идиоты

Previous post Next post
Up