Пишик, который крутой SRE, а так же дуруг и ай бырат, пригнал ссылку на хорошую вводную статью о надёжности распределённых систем, в погоне за улучшением SLO. Было интересно из за методического подхода и применения измеримых показателей.
После прочтения, уяснил для себя что надёжность каждого критического компонента системы должна быть на порядок выше, чем финальные SLO, т.е. каждый компонент должен быть в десять раз надёжней чем вся система в целом (математические небожители из моей ленты здесь посмеются, но мне было неочевидно). В простой и ясной форме изложено на что следует обратить внимание при проектировании, тестировании и планировании ресурсов. Хорошая на мой взгляд статья.
"The Calculus of Service Availability" - BEN TREYNOR, MIKE DAHLIN, VIVEK RAU, BETSY BEYER