Эпичный фейл очередного облака и эпичный фейл Яндекса

May 18, 2019 11:44

Сервис Яндекс.облако был запущен в 2018 году. Это первый серьезный инцидент в его истории, но не первый в истории всей компании (но надо запретить SSJ100).

16 мая были запланированы регулярные технические работы по остановке и удалению виртуальных машин в заблокированных облаках пользователей по причине неоплаты или нарушения правил использования сервисов Яндекс.Облака. Это стандартная процедура по высвобождению ресурсов Облака.

В 16:35 (MSK) была запущена команда по удалению виртуальных машин согласно сформированному списку. В 16:51 была обнаружена ошибка и в 16:56 выполнение команды было остановлено в срочном порядке (я вот могу предположить, что обнаружено и остановлено было по чужим алертам и жалобам в поддержку, а не самостоятельно; об этом говорит время реакции в 20 минут -- sporaw). Выяснилось, что при формировании был применен неверный принцип фильтрации, вследствие чего в список попали активные виртуальные машины. Сейчас мы в процессе расследования ситуации и выяснения деталей.

В результате инцидента были удалены 0,77% (Пиарщики, ну а как же классической слово "всего"? Здесь его очень не хватает -- sporaw) от общего числа виртуальных машин и boot-дисков. При этом были затронуты виртуальные машины только в зоне ru-central1-c. Дополнительно созданные диски остались в сохранности. Пользователи, у кого были сделаны снимки дисков, смогли восстановить свои данные (А! Вот и наглядная работа пиарщиков, мол, пользователи, кто не делал бэкапы - сами долдоны, а Яндекс - молодца. Все думал, должен же прорваться пиарщик хоть где-то. Вот, здесь. -- sporaw).

Мы не считаем это рядовой ситуацией, для нас каждый пользователь важен, и мы осознаем свою полную ответственность за надежность нашей платформы. Мы уже работаем над формированием мер для предотвращения повторения подобного инцидента в будущем и в ближайшее время проинформируем о дальнейших шагах всех пользователей (Интересно, какие это меры? Может быть, стоит выпустить внутреннюю бумажку о запрете использования Яндекс.Облака? -- sporaw).

Мы хотим принести извинения каждому, кого затронул технический сбой в работе Облака. (... и дарим вам купон на 30% скидку на доставку Яндекс.Еды -- sporaw) На данный момент наша техническая поддержка работает в формате «горячей линии» и мы оперативно помогаем всем. В качестве компенсации всем будут начислены гранты, о размере и порядке получения которых мы сообщим дополнительно не позднее начала следующей недели.

Разбор на хабре: https://habr.com/ru/post/452238/

Ну, в общем, все понятно, да? Кроме того, что даже тут ложь, судя по комментариям на хабре от пострадавших (например, с некоторыми никто не связывался сам, они увидели результат в своем аккаунте просто как информацию об удалении :).

Но это все мелочи.

Важно совершенно другое.

Почему никто не обсуждает КАК это произошло? А вы попробуйте подумать.

И неожиданно выясняется, что Яндекс - это компания уровня "хуяк-хуяк и в продакшн" и "мы правим сразу же на проде" и все остальное в эту сторону. Т.е. проблема совершенно не в том "человеческом факторе" какого-то там операционного инженера-админа, который написал кривой SQL-запрос или grep-фильтр (неважно там что), получив список систем не с последним (текущим статусом) SUSPENDED, а тех, у которых он когда-либо был вообще.

Любой человек совершает ошибки. Вопрос в том, как организован труд человека, чтобы эти ошибки были если не исключены, то минимизированы. Т.е. процесс работы и систематизация.

Вопрос в том, что:
- операция, которая является базовой, не написана в коде, не протестирована тщательно (не тем, кто пишет, конечно же), не зафиксирована (т.е. человек должен либо вызвать одну команду, которая делает это, либо просто нажать одну кнопочку) [отмазы про тестирование - классика Яндекса, в этот раз наверно кто-то еще заболел и они торопились]
- операции массового характера и особенно удаления не имеют степеней защиты (типа той же временной пометки на удаление и удаление лишь позже)
- операции массового характера и особенно удаления не подлежат контролью по принципу 4-х, 6-и и проч. глаз (как применяется в банковской и других сферах)

Вы понимаете, что фактически Яндекс.Облако расписалось в том, что они - это шараш-монтаж? Этот инцидент ВСЕЦЕЛО показывает ОРГАНИЗАЦИОННЫЙ подход.

Отсутствие процессов и процесса. Вот, что это.

Вдумайтесь только. Какой-то условный админ (операционный инженер) может написать кривой запрос - и его результатом воспользуются. А вообще, фактически есть лицо (и, полагаю, далеко не одно), которое может (будучи мстительным, пьяным, со съехавшей крышей или еще по каким причинам, за бабло) - грохнуть вообще все у всех.

Ну чего там, Яндексоиды, как с запретами на полеты SSJ100? Я в карму не верю, но согласитесь, эпичное жизненное совпадение?

Россия, Яндекс, идиотизм

Previous post Next post
Up