Про ответственность

Mar 18, 2022 15:50


У нас есть замчательный сервис Госуслуги. И работает (когда работает) удобно и хорошо. Но!

Вот как сегодня - просто не работает.


Тысячи людей не могут получить услугу.

У меняф по плану сегодня (было, да) пройти техосмотр, причем по записи.

И записался по времени, и приехал на СТО за полчаса до срока. предварительно освободив в графике время на это, все ж рабочий день.

Захожу, за полчаса до срока, интересуюсь - все ли "в силе".
Происходит интересный диалог:

- А вам на 12 назначено?
- Да, но это не проблема, я подожду. Ценю чужое время, не хочу заставлять кого-то ждать и лучше приеду пораньше.
Девушка явно погрустнела, думаю - ничего ж обидного не сказал - говорит мне: "А знаете, сегодня у нас база не работает, по всей стране...". И, так, оправдываясь: "И в ГИБДД тоже не работает, вот в рабочем чате пишут".

Вспомнилась мне из своей практики, на эту же тему.

Предистория:
Торговая компания, сеть магазинов розницы, оптовая продажа тоже. Есть круглосуточно работающий склад, с сотней сотрудников, отборщики-приемщики-контролеры. Адресное хранение, неплохая система управления складом.
Ну и сама история:
Собирается совещание, участники - высший менеджмент. Предмет обсуждения: надежность и ее цена. Аргументы очень просты: Цена простоя склада - XXX килорублей/час. Какова вероятность простоя из-за отказа ИТ-инфраструктуры, цена мер по улучшению. То есть что дешевле, обеспечить резервирование или терять деньги на возможных простоях. Ведь все довольно легко и просто посчитать, даже на коленке.

На этом же совещании я как наяальник договариваюсь о том что при выделении запрошенного бюджета обеспечиваю работоспособность99,9% и не более получаса в месяц на плановые технические работы.

Принято-сделано. Резервные сервера, база данных в кластере, сервера приложений дублированы, настроено автопереключение между ними, сеть тоже задублирована. в качестве критерия - любой (один) компонент в серверной можно отключить без потери работоспособности. Любые два "разъема" (ethernet или оптику) можно отключить - и все работает дальше и уведомления сыплются на почту и в jabber.
Естественно все документировано и понятно.
Мотивация - премии за соблюдение SLA и штрафы в случае "не работает". Логично, доступно, особо оговорены ситуации когда проблемы из-за некорректной работы ПО (ответственность программистов).
И это - небольшая торговая компания, в которой один админ и пара техников.

А завтра у меня планировалась поездка в ГИБДД, тоже по записи чегез Госуслуги. И ладно бы что нельзя перенести время, с этим можно смириться, но сайт (сервис) вообще не работает так что и создать новое заявление - не получится.

ГДЕ SLA государственных баз данных? Если в течении дня даже при работающих "госуслугах" наблюдаешь "Сервер МВД не ответил". Кто ответственен за их работоспособность? Как влияют убытки тысяч пользователей этих сервисов на ответственных? Ответ, боюсь прост: да никак. Если для соцсети недоступность даже в течении часа это вопиющая халатность то для государственно БД - так, "ничего страшного"?
Может туда на работу принимают только по блату, без учета соответствия требованиям?

ИТ

Previous post
Up