The Calculus of Service Availability - статья о надёжности распределённых систем

Jun 27, 2018 02:08

Пишик, который крутой SRE, а так же дуруг и ай бырат, пригнал ссылку на хорошую вводную статью о надёжности распределённых систем, в погоне за улучшением SLO. Было интересно из за методического подхода и применения измеримых показателей.
После прочтения, уяснил для себя что надёжность каждого критического компонента системы должна быть на порядок выше, чем финальные SLO, т.е. каждый компонент должен быть в десять раз надёжней чем вся система в целом (математические небожители из моей ленты здесь посмеются, но мне было неочевидно). В простой и ясной форме изложено на что следует обратить внимание при проектировании, тестировании и планировании ресурсов. Хорошая на мой взгляд статья.

"The Calculus of Service Availability" - BEN TREYNOR, MIKE DAHLIN, VIVEK RAU, BETSY BEYER

книги

Previous post Next post
Up