себе, ого, какая статья

Sep 23, 2017 10:39

Оригинал взят у a_str в себе, ого, какая статья
 "Как ломаются сложные системы", очень сильно на подумать еще и потом еще раз.

Опасность - неотъемлемый атрибут сложных систем
Сложные системы тщательно и успешно защищаются от сбоев
Катастрофа подразумевает множество сбоев - одиночных нарушений недостаточно
Сложные системы содержат постоянно меняющуюся комбинацию скрытых сбоев
Сложность рассматриваемых систем делает невозможной работу без множественных внутренних ошибок. Поскольку каждая из них неспособна привести к аварии, на операционном уровне они рассматриваются как несущественные. Устранение всех этих ошибок признается экономически нерациональным; кроме того, проактивная оценка их влияния на возможность возникновения системной аварии затруднена. Набор ошибок в составе системы постоянно меняется.

Сложные системы работают в режиме ограниченной производительности
Из сказанного выше следует, что сложные системы всегда работают как поврежденные системы. Система продолжает функционировать, поскольку содержит множество дополнительных средств обеспечения устойчивости, а также поскольку люди заставляют ее работать, несмотря на наличие множества ошибок. В ходе разбора случившихся аварий почти всегда отмечается, что в системе накоплена история «прото-сбоев», которые чуть не стали причиной аварии. Утверждение, что эти ситуации должны были быть выявлены заранее, обычно основано на упрощенном понимании работы систем. В то время как эта работа - и результирующая производительность системы - есть непрерывно меняющееся сочетание сбоев и восстановлений компонентов.

Закладывать на все задачи: дополнительное время. Дополнительный ресурс. Дополнительный стог соломки, если уж на то пошло, ну да.
Всегда, всегда, всегда  иметь набор действий для наименее желательного развития событий. 
План эвакуации. Быстрый и эффективный возврат к рабочему состоянию после единичного сбоя (или, вернее, серии сбоев, единичный не очень-то и замечаешь), потому что накопление сбоев дает катастрофу, а не отсутствие рабочего состояния.
И еще один неожиданный и забавный вывод: если работу системы останавливают просто сбои, это простая система.

Да, и вот еще что. Относительная несущественность внутренних ошибок (несущественных для сложной системы и очень существенных для простой) может привести к двум одинаково вредным выводам, хотя сами они противоположны:

- да тут за что ни возьмешься, ничего не работает как следует

- этой штуке все ни по чем, все выдержит

This entry was originally posted at http://three-is-one.dreamwidth.org/140413.html. Please comment there using OpenID.

перепост, В сундук, смысл жизни

Previous post Next post
Up