SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
SRE
Site Reliability Engineering
Engenharia de confiabilidade
Introdução
O que é SRE?
O que é SRE?
● Engenharia de confiabilidade de sites (SRE) é uma abordagem da engenharia de software
às operações de TI.
● O propósito do SRE é agregar confiabilidade ao sistema.
● Criar sistemas para realizar o trabalho feito manualmente (Toil) ou por equipes de operações.
● Buscar a maior velocidade de mudança sem violar um SLO (Service Level Objective)
● Monitoramento
● Resposta a emergências. MTTF (Mean Time to Failure) e MTTR (Mean Time to Repair)
● Eficiência e Performance
Capítulo 1
Medir e Garantir
Medir e Garantir
● Medir indicadores de performance, risco, custo, entrega, qualidade e
disponibilidade de uma aplicação e/ou produto.
● Avaliar arquitetura de infraestrutura, plataforma, qualidade de código,
segurança, fluxos de entrega, implementando monitoramento, alertas que
fazem sentido e encontrando pontos de melhoria de disponibilidade dos
serviços.
● SLO`s, SLI`s e SLA`s e Error Budgets.
SLA (Service Level Agreement)
Acordos de nível de serviço.
SLA (Service Level Agreement)
● Nível contratual, explícito ou implícito, que um provedor, de qualquer coisa,
IaaS, PaaS, SaaS estabelece com seu cliente referente a disponibilidade. Esse
contrato nunca deve ser 100% de disponibilidade. Inclui consequências por
deixar de atender aos SLOs que eles contêm.
SLO (Service Level Objective)
Objetivos de nível de serviço
SLO (Service Level Objective)
● É o contrato interno, entre os times e produto. Normalmente ele é muito mais
apertado e rígido que o SLA. É focado em melhorias, e adicionar mais 9`s aos
nossos serviços. Caso o SLA seja de 99,9% de disponibilidade, seu SLO deve
sempre mirar um 99,99 para mais.
● SLOS devem especificar como são medidos e as condições como são
validados.
○ 95% das chamadas GET dos clientes interessados em throughput serão construídas em < 1s
○ 99% das chamadas POST com payload <1kb dos clientes interessados em latência serão
concluídas em < 10ms
SLO (Service Level Objective)
● Engenheiros são um recurso escasso até mesmo nas maiores organizações. O
tempo da engenharia deve ser investido nas características mais importantes
dos serviços mais importantes
SLO (Service Level Objective)
● Um SLO adequadamente definido deve ser documentado em um local de destaque onde outras equipes
e partes interessadas possam revisá-lo. Esta documentação deve incluir as seguintes informações:
○ Os autores do SLO, os revisores (que verificaram a precisão técnica) e os aprovadores (que
tomaram a decisão comercial sobre se esse é o SLO correto).
○ A data em que foi aprovado e a data da próxima revisão.
○ Uma breve descrição do serviço para dar contexto ao leitor.
○ Os detalhes do SLO: os objetivos e as implementações do SLI.
○ Os detalhes de como o orçamento de erro é calculado e consumido.
○ A lógica por trás dos números e se eles foram derivados de dados experimentais ou
observacionais. Mesmo que os SLOs sejam totalmente ad hoc, esse fato deve ser
documentado para que futuros engenheiros que leiam o documento não tomem decisões
erradas com base em dados ad hoc.
SLI (Service Level Indicators)
Indicador de nível de serviço
SLI (Service Level Indicators)
● São as métricas que vamos utilizar para acompanhar como nossa situação
atual está em relação aos SLO's.
● Para seus primeiros SLIs, escolha algo que requeira um mínimo de trabalho de
engenharia.
● Seus SLIs devem ser específicos e mensuráveis.
● Sua primeira tentativa de SLI e SLO não precisa ser correta.
● exemplos:
○ Número de solicitações HTTP bem-sucedidas / total de solicitações HTTP (taxa de sucesso)
○ Número de chamadas gRPC concluídas com êxito em <100 ms / total de solicitações gRPC
Error Budget
Orçamento de Erro
Error Budget
● Margem de erro que temos para trabalhar nos nossos serviços. Normalmente
calculado como (100 - SLO) = Error Budget. Como 100 - 99,9 = 00,1% de erros
são aceitáveis.
● Uma forma justa de equilibrar novas features e preservar a disponibilidade
(equilibrar esforço versus riscos.).
● Error Budget oferece uma métrica clara e objetiva, onde os dois lados tenham
concordado.
● Uma vez que você esgote seu orçamento de erro (ou chegue perto de
esgotá-lo), você deve fazer algo para restaurar a estabilidade do seu sistema.
Error Budget
● Para adotar uma abordagem baseada em orçamento de erro para a Engenharia de Confiabilidade, você
precisamos atingir um estado em que o seguinte seja verdadeiro:
● Existem SLOs que todas as partes interessadas na organização aprovaram como adequados
para o produto.
● As pessoas responsáveis por garantir que o serviço atenda ao seu SLO concordaram que é
possível atender a este SLO em circunstâncias normais.
● A organização se comprometeu a usar o orçamento de erros para a tomada de decisões e
priorização. Esse compromisso é formalizado em uma política de orçamento de erro.
● Existe um processo em vigor para refinar o SLO. (Como melhorar o SLO?)
Error Budget
● A política de orçamento de erro também deve ser documentada e deve incluir as seguintes
informações:
● Os autores, revisores e aprovadores da política
● A data em que foi aprovado e a data da próxima revisão
● Uma breve descrição do serviço para dar contexto ao leitor
● As ações a serem tomadas em resposta ao esgotamento do orçamento
● Um caminho de escalonamento claro a seguir se houver desacordo sobre o cálculo ou se as
ações acordadas são apropriadas nas circunstâncias
● Dependendo do nível de experiência e especialização do público em orçamentos de erros,
pode ser benéfico incluir uma visão geral dos orçamentos de erros
Next
Como SRE se relaciona com DevOps
Medidas de controle
Cultura pós-morte: aprendendo com o fracasso
https://sre.google/sre-book/embracing-risk/
https://sre.google/sre-book/service-level-objectives/
https://blog.estabil.is/sre-error-budget/
https://www.nanoshots.com.br/2019/12/sre-slo-slis-nao-sabe-por-onde-com
ecar.html
https://fabriciogoncalves.com/
@espigah
https://www.linkedin.com/in/fabricio-goncalves-919a4424/

Mais conteúdo relacionado

Mais procurados

Uma introdução à SRE - Site reliability engineering
Uma introdução à SRE - Site reliability engineeringUma introdução à SRE - Site reliability engineering
Uma introdução à SRE - Site reliability engineeringThiago Ferreira
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...Tori Wieldt
 
QA. Load Testing
QA. Load TestingQA. Load Testing
QA. Load TestingAlex Galkin
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLADr Ganesh Iyer
 
Performance Requirement Gathering
Performance Requirement GatheringPerformance Requirement Gathering
Performance Requirement GatheringAtul Pant
 
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Pery Lemke
 
Shift Left Testing: A New Paradigm Shift To Quality
Shift Left Testing: A New Paradigm Shift To QualityShift Left Testing: A New Paradigm Shift To Quality
Shift Left Testing: A New Paradigm Shift To QualityPooja Wandile
 
CI/CD (DevOps) 101
CI/CD (DevOps) 101CI/CD (DevOps) 101
CI/CD (DevOps) 101Hazzim Anaya
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIKnoldus Inc.
 
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...DevOpsDays Tel Aviv
 
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020Matt Raible
 
Load and performance testing
Load and performance testingLoad and performance testing
Load and performance testingQualitest
 
Monitoring With Prometheus
Monitoring With PrometheusMonitoring With Prometheus
Monitoring With PrometheusKnoldus Inc.
 
LoadRunner Performance Testing
LoadRunner Performance TestingLoadRunner Performance Testing
LoadRunner Performance TestingAtul Pant
 
DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsRauno De Pasquale
 

Mais procurados (20)

Uma introdução à SRE - Site reliability engineering
Uma introdução à SRE - Site reliability engineeringUma introdução à SRE - Site reliability engineering
Uma introdução à SRE - Site reliability engineering
 
Sre summary
Sre summarySre summary
Sre summary
 
Selenium WebDriver com Docker
Selenium WebDriver com DockerSelenium WebDriver com Docker
Selenium WebDriver com Docker
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
 
QA. Load Testing
QA. Load TestingQA. Load Testing
QA. Load Testing
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
 
Performance Requirement Gathering
Performance Requirement GatheringPerformance Requirement Gathering
Performance Requirement Gathering
 
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
 
Shift Left Testing: A New Paradigm Shift To Quality
Shift Left Testing: A New Paradigm Shift To QualityShift Left Testing: A New Paradigm Shift To Quality
Shift Left Testing: A New Paradigm Shift To Quality
 
CI/CD (DevOps) 101
CI/CD (DevOps) 101CI/CD (DevOps) 101
CI/CD (DevOps) 101
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLI
 
Jenkins.pdf
Jenkins.pdfJenkins.pdf
Jenkins.pdf
 
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
 
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020
Java REST API Comparison: Micronaut, Quarkus, and Spring Boot - jconf.dev 2020
 
CI/CD on AWS
CI/CD on AWSCI/CD on AWS
CI/CD on AWS
 
Load and performance testing
Load and performance testingLoad and performance testing
Load and performance testing
 
Monitoring With Prometheus
Monitoring With PrometheusMonitoring With Prometheus
Monitoring With Prometheus
 
LoadRunner Performance Testing
LoadRunner Performance TestingLoadRunner Performance Testing
LoadRunner Performance Testing
 
DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE Concepts
 
LoadRunner walkthrough
LoadRunner walkthroughLoadRunner walkthrough
LoadRunner walkthrough
 

Semelhante a SRE - Engenharia de Confiabilidade de Sites

Prodemge WTQS - Minicurso técnicas de verificação de requisitos
Prodemge WTQS - Minicurso técnicas de verificação de requisitosProdemge WTQS - Minicurso técnicas de verificação de requisitos
Prodemge WTQS - Minicurso técnicas de verificação de requisitosGustavo Lopes
 
Gp 2014.2 apresentação 02-plano de projeto modificado
Gp 2014.2 apresentação 02-plano de projeto modificadoGp 2014.2 apresentação 02-plano de projeto modificado
Gp 2014.2 apresentação 02-plano de projeto modificadoGladismery Poetisa Poética
 
Customização e Implantação do ERPSystem na Empresa Total Cosmos
Customização e Implantação do ERPSystem na Empresa Total CosmosCustomização e Implantação do ERPSystem na Empresa Total Cosmos
Customização e Implantação do ERPSystem na Empresa Total CosmosMarco Coghi
 
úLtimo dia
úLtimo diaúLtimo dia
úLtimo diaBruce Ds
 
Apresentação1
Apresentação1Apresentação1
Apresentação1Bruce Ds
 
requisitos de software.pptx
requisitos de software.pptxrequisitos de software.pptx
requisitos de software.pptxAlanCunha14
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalNuno Baptista Rodrigues
 
Soluções para o Segmento de Pré-moldados
Soluções para o Segmento de Pré-moldadosSoluções para o Segmento de Pré-moldados
Soluções para o Segmento de Pré-moldadosTarcisio Bonessi Junior
 
[GUTS-RS] Testes de Performance
 [GUTS-RS] Testes de Performance [GUTS-RS] Testes de Performance
[GUTS-RS] Testes de PerformanceGUTS-RS
 
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...Carlos Alberto
 
Este simulado é composto de 40 questões
Este simulado é composto de 40 questõesEste simulado é composto de 40 questões
Este simulado é composto de 40 questõesbetoflash
 
Capacity Management e o CDB no ITIL-3 por Alex Batista
Capacity Management e o CDB no ITIL-3 por Alex BatistaCapacity Management e o CDB no ITIL-3 por Alex Batista
Capacity Management e o CDB no ITIL-3 por Alex BatistaJoao Galdino Mello de Souza
 
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. Mecânica
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. MecânicaApresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. Mecânica
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. MecânicaCarlos Alberto
 
RPA - Portfólio de Serviços iProcess
RPA - Portfólio de Serviços iProcessRPA - Portfólio de Serviços iProcess
RPA - Portfólio de Serviços iProcessEduardo Britto
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 

Semelhante a SRE - Engenharia de Confiabilidade de Sites (20)

Prodemge WTQS - Minicurso técnicas de verificação de requisitos
Prodemge WTQS - Minicurso técnicas de verificação de requisitosProdemge WTQS - Minicurso técnicas de verificação de requisitos
Prodemge WTQS - Minicurso técnicas de verificação de requisitos
 
Gp 2014.2 apresentação 02-plano de projeto modificado
Gp 2014.2 apresentação 02-plano de projeto modificadoGp 2014.2 apresentação 02-plano de projeto modificado
Gp 2014.2 apresentação 02-plano de projeto modificado
 
Customização e Implantação do ERPSystem na Empresa Total Cosmos
Customização e Implantação do ERPSystem na Empresa Total CosmosCustomização e Implantação do ERPSystem na Empresa Total Cosmos
Customização e Implantação do ERPSystem na Empresa Total Cosmos
 
Ptc 4-sem
Ptc 4-semPtc 4-sem
Ptc 4-sem
 
Blue it
Blue itBlue it
Blue it
 
úLtimo dia
úLtimo diaúLtimo dia
úLtimo dia
 
Blue it
Blue itBlue it
Blue it
 
Apresentação1
Apresentação1Apresentação1
Apresentação1
 
Blue it
Blue itBlue it
Blue it
 
requisitos de software.pptx
requisitos de software.pptxrequisitos de software.pptx
requisitos de software.pptx
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance Aplicacional
 
Soluções para o Segmento de Pré-moldados
Soluções para o Segmento de Pré-moldadosSoluções para o Segmento de Pré-moldados
Soluções para o Segmento de Pré-moldados
 
[GUTS-RS] Testes de Performance
 [GUTS-RS] Testes de Performance [GUTS-RS] Testes de Performance
[GUTS-RS] Testes de Performance
 
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...
TCC - "Sistema Automático de Medição do Diâmetro Interno de Rotores Via Calib...
 
PIF2019 - A19 - Matheus Terra - Clever X
PIF2019 - A19 - Matheus Terra - Clever XPIF2019 - A19 - Matheus Terra - Clever X
PIF2019 - A19 - Matheus Terra - Clever X
 
Este simulado é composto de 40 questões
Este simulado é composto de 40 questõesEste simulado é composto de 40 questões
Este simulado é composto de 40 questões
 
Capacity Management e o CDB no ITIL-3 por Alex Batista
Capacity Management e o CDB no ITIL-3 por Alex BatistaCapacity Management e o CDB no ITIL-3 por Alex Batista
Capacity Management e o CDB no ITIL-3 por Alex Batista
 
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. Mecânica
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. MecânicaApresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. Mecânica
Apresentação do meu Trabalho de Conclusão do Curso de Eng. Ind. Mecânica
 
RPA - Portfólio de Serviços iProcess
RPA - Portfólio de Serviços iProcessRPA - Portfólio de Serviços iProcess
RPA - Portfólio de Serviços iProcess
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 

Mais de Fabricio Goncalves

Mais de Fabricio Goncalves (6)

SRE - Engenharia de Confiabilidade de Sites 2
SRE - Engenharia de Confiabilidade de Sites 2SRE - Engenharia de Confiabilidade de Sites 2
SRE - Engenharia de Confiabilidade de Sites 2
 
Monolith - An epic journey
Monolith - An epic journeyMonolith - An epic journey
Monolith - An epic journey
 
Flash Power (pt 2)
Flash Power (pt 2)Flash Power (pt 2)
Flash Power (pt 2)
 
Flash Power (pt 1)
Flash Power (pt 1)Flash Power (pt 1)
Flash Power (pt 1)
 
Games withflare3d
Games withflare3dGames withflare3d
Games withflare3d
 
Flare3d jiglib.as
Flare3d jiglib.asFlare3d jiglib.as
Flare3d jiglib.as
 

SRE - Engenharia de Confiabilidade de Sites

  • 3. O que é SRE? ● Engenharia de confiabilidade de sites (SRE) é uma abordagem da engenharia de software às operações de TI. ● O propósito do SRE é agregar confiabilidade ao sistema. ● Criar sistemas para realizar o trabalho feito manualmente (Toil) ou por equipes de operações. ● Buscar a maior velocidade de mudança sem violar um SLO (Service Level Objective) ● Monitoramento ● Resposta a emergências. MTTF (Mean Time to Failure) e MTTR (Mean Time to Repair) ● Eficiência e Performance
  • 5. Medir e Garantir ● Medir indicadores de performance, risco, custo, entrega, qualidade e disponibilidade de uma aplicação e/ou produto. ● Avaliar arquitetura de infraestrutura, plataforma, qualidade de código, segurança, fluxos de entrega, implementando monitoramento, alertas que fazem sentido e encontrando pontos de melhoria de disponibilidade dos serviços. ● SLO`s, SLI`s e SLA`s e Error Budgets.
  • 6. SLA (Service Level Agreement) Acordos de nível de serviço.
  • 7. SLA (Service Level Agreement) ● Nível contratual, explícito ou implícito, que um provedor, de qualquer coisa, IaaS, PaaS, SaaS estabelece com seu cliente referente a disponibilidade. Esse contrato nunca deve ser 100% de disponibilidade. Inclui consequências por deixar de atender aos SLOs que eles contêm.
  • 8. SLO (Service Level Objective) Objetivos de nível de serviço
  • 9. SLO (Service Level Objective) ● É o contrato interno, entre os times e produto. Normalmente ele é muito mais apertado e rígido que o SLA. É focado em melhorias, e adicionar mais 9`s aos nossos serviços. Caso o SLA seja de 99,9% de disponibilidade, seu SLO deve sempre mirar um 99,99 para mais. ● SLOS devem especificar como são medidos e as condições como são validados. ○ 95% das chamadas GET dos clientes interessados em throughput serão construídas em < 1s ○ 99% das chamadas POST com payload <1kb dos clientes interessados em latência serão concluídas em < 10ms
  • 10. SLO (Service Level Objective) ● Engenheiros são um recurso escasso até mesmo nas maiores organizações. O tempo da engenharia deve ser investido nas características mais importantes dos serviços mais importantes
  • 11. SLO (Service Level Objective) ● Um SLO adequadamente definido deve ser documentado em um local de destaque onde outras equipes e partes interessadas possam revisá-lo. Esta documentação deve incluir as seguintes informações: ○ Os autores do SLO, os revisores (que verificaram a precisão técnica) e os aprovadores (que tomaram a decisão comercial sobre se esse é o SLO correto). ○ A data em que foi aprovado e a data da próxima revisão. ○ Uma breve descrição do serviço para dar contexto ao leitor. ○ Os detalhes do SLO: os objetivos e as implementações do SLI. ○ Os detalhes de como o orçamento de erro é calculado e consumido. ○ A lógica por trás dos números e se eles foram derivados de dados experimentais ou observacionais. Mesmo que os SLOs sejam totalmente ad hoc, esse fato deve ser documentado para que futuros engenheiros que leiam o documento não tomem decisões erradas com base em dados ad hoc.
  • 12. SLI (Service Level Indicators) Indicador de nível de serviço
  • 13. SLI (Service Level Indicators) ● São as métricas que vamos utilizar para acompanhar como nossa situação atual está em relação aos SLO's. ● Para seus primeiros SLIs, escolha algo que requeira um mínimo de trabalho de engenharia. ● Seus SLIs devem ser específicos e mensuráveis. ● Sua primeira tentativa de SLI e SLO não precisa ser correta. ● exemplos: ○ Número de solicitações HTTP bem-sucedidas / total de solicitações HTTP (taxa de sucesso) ○ Número de chamadas gRPC concluídas com êxito em <100 ms / total de solicitações gRPC
  • 15. Error Budget ● Margem de erro que temos para trabalhar nos nossos serviços. Normalmente calculado como (100 - SLO) = Error Budget. Como 100 - 99,9 = 00,1% de erros são aceitáveis. ● Uma forma justa de equilibrar novas features e preservar a disponibilidade (equilibrar esforço versus riscos.). ● Error Budget oferece uma métrica clara e objetiva, onde os dois lados tenham concordado. ● Uma vez que você esgote seu orçamento de erro (ou chegue perto de esgotá-lo), você deve fazer algo para restaurar a estabilidade do seu sistema.
  • 16. Error Budget ● Para adotar uma abordagem baseada em orçamento de erro para a Engenharia de Confiabilidade, você precisamos atingir um estado em que o seguinte seja verdadeiro: ● Existem SLOs que todas as partes interessadas na organização aprovaram como adequados para o produto. ● As pessoas responsáveis por garantir que o serviço atenda ao seu SLO concordaram que é possível atender a este SLO em circunstâncias normais. ● A organização se comprometeu a usar o orçamento de erros para a tomada de decisões e priorização. Esse compromisso é formalizado em uma política de orçamento de erro. ● Existe um processo em vigor para refinar o SLO. (Como melhorar o SLO?)
  • 17. Error Budget ● A política de orçamento de erro também deve ser documentada e deve incluir as seguintes informações: ● Os autores, revisores e aprovadores da política ● A data em que foi aprovado e a data da próxima revisão ● Uma breve descrição do serviço para dar contexto ao leitor ● As ações a serem tomadas em resposta ao esgotamento do orçamento ● Um caminho de escalonamento claro a seguir se houver desacordo sobre o cálculo ou se as ações acordadas são apropriadas nas circunstâncias ● Dependendo do nível de experiência e especialização do público em orçamentos de erros, pode ser benéfico incluir uma visão geral dos orçamentos de erros
  • 18. Next Como SRE se relaciona com DevOps Medidas de controle Cultura pós-morte: aprendendo com o fracasso