Оригинал взят у
a_str в
себе, ого, какая статья "Как ломаются сложные системы", очень сильно на подумать еще и потом еще раз.
Опасность - неотъемлемый атрибут сложных систем
Сложные системы тщательно и успешно защищаются от сбоев
Катастрофа подразумевает множество сбоев - одиночных нарушений недостаточно
Сложные системы содержат постоянно меняющуюся комбинацию скрытых сбоев
Сложность рассматриваемых систем делает невозможной работу без множественных внутренних ошибок. Поскольку каждая из них неспособна привести к аварии, на операционном уровне они рассматриваются как несущественные. Устранение всех этих ошибок признается экономически нерациональным; кроме того, проактивная оценка их влияния на возможность возникновения системной аварии затруднена. Набор ошибок в составе системы постоянно меняется.
Сложные системы работают в режиме ограниченной производительности
Из сказанного выше следует, что сложные системы всегда работают как поврежденные системы. Система продолжает функционировать, поскольку содержит множество дополнительных средств обеспечения устойчивости, а также поскольку люди заставляют ее работать, несмотря на наличие множества ошибок. В ходе разбора случившихся аварий почти всегда отмечается, что в системе накоплена история «прото-сбоев», которые чуть не стали причиной аварии. Утверждение, что эти ситуации должны были быть выявлены заранее, обычно основано на упрощенном понимании работы систем. В то время как эта работа - и результирующая производительность системы - есть непрерывно меняющееся сочетание сбоев и восстановлений компонентов.
Закладывать на все задачи: дополнительное время. Дополнительный ресурс. Дополнительный стог соломки, если уж на то пошло, ну да.
Всегда, всегда, всегда иметь набор действий для наименее желательного развития событий.
План эвакуации. Быстрый и эффективный возврат к рабочему состоянию после единичного сбоя (или, вернее, серии сбоев, единичный не очень-то и замечаешь), потому что накопление сбоев дает катастрофу, а не отсутствие рабочего состояния.
И еще один неожиданный и забавный вывод: если работу системы останавливают просто сбои, это простая система.
Да, и вот еще что. Относительная несущественность внутренних ошибок (несущественных для сложной системы и очень существенных для простой) может привести к двум одинаково вредным выводам, хотя сами они противоположны:
- да тут за что ни возьмешься, ничего не работает как следует
- этой штуке все ни по чем, все выдержит
This entry was originally posted at
http://three-is-one.dreamwidth.org/140413.html. Please comment there using
OpenID.