SlideShare uma empresa Scribd logo
Introdução à SRE
Um guia para melhorar a confiabilidade das aplicações em
produção
Igor Abade V. Leite | @igorabade
• Microsoft Regional Director
• CEO, CloudMotion (www.cloudmotion.com.br)
Ciclo de vida típico de um
software
Ideia Negócio Desenvolvimento Operações Clientes
Lembrando que…
... O objetivo não é apenas implantar o software, mas também garantir que
seja mantido adequadamente, uma vez em produção
Quanto tempo leva para um incidente chegar à equipe certa?
Dá para ser minutos, em vez de horas?
Com que frequência o mesmo incidente acontece de novo?
Dá para reduzir a nunca?
A confiabilidade é a capacidade
de um sistema ser capaz de
suportar alguns tipos de falha e
ainda permanecer funcional do
ponto de vista do usuário.
Site Reliability Engineering…
... é o que acontece quando um engenheiro de software é colocado para
resolver problemas de operações (infraestrutura)
50% de suas
contribuições em problemas de
Engenharia de Sistemas
–
infraestrutura, sistemas operacionais
& rede, bancos de dados
–
disponibilidade, observabilidade,
eficiência e confiabilidade dos serviços
50% de suas
contribuições em problemas de
Engenharia de Software
–
design da aplicação, estruturas de dados,
design de serviços e integrações
–
tarefas de desenvolvimento que contribuam
para a confiablilidade do sistema
Objetivos da equipe SRE
Suportar
sistemas em
produção
Contribuir
para trabalho
no projeto
• Abordagem SRE para Operações:
• Trate as operações como um problema de
engenharia de software
• Automatize tarefas normalmente feitas por
administrações de sistema (como implantações)
• Projete arquiteturas de serviço mais confiáveis e
operáveis desde o início; não deixe para depois
Os SREs gastam menos de 50% do seu tempo realizando trabalho operacional para permitir
que eles gastem mais tempo na melhoria da infra-estrutura e automação de tarefas
Por que outro papel?
• A evolução dos sistemas requer uma evolução dos
engenheiros de sistemas
• A confiabilidade é geralmente deixada para os arquitetos
projetarem, tipicamente no início de um projeto de produto
• Os requisitos não funcionais não são revisados com tanta
frequência
• A mudança de funcionalidade pode afetar os requisitos de
confiabilidade assumidos anteriormente
• A maioria das paralisações são tipicamente causadas por
mudanças, e uma mentalidade típica de Ops não
necessariamente se prepara para uma solução rápida
• Sistemas “definidos por software”
Muro da Confusão
Desenvolvimento
Evolução
Agilidade
Operações
Estabilidade
Controle
DevOps vs. SRE?
SRE implementa DevOps
Um conjunto de princípios e diretrizes culturais que ajuda
a quebrar os silos entre desenvolvimento e operações
(infra)
• Reduza silos
• Planeje para falhas
• Mudanças em pequenos lotes
• Ferramentas & automação
• Meça tudo
Um conjunto de práticas com ênfase em fortes
capacidades de engenharia que implementa as práticas de
DevOps e define um papel e uma equipe
• Reduza silos compartilhando a propriedade
• Planeje paras falha usando orçamentos de erro
• Mudanças em pequenos lotes com foco na estabilidade
• Ferramentas & automação de tarefas manuais
• Meça tudo monitorando as coisas certas
DevOps SRE
Como SRE e DevOps se relacionam
SREs conectam atividades de Operações
com Desenvolvimento
• SRE muitas vezes atuam como
“guardiões da produção”
• Software sem qualidade é rejeitado e
SREs ajudam a evitar potenciais
problemas operacionais
Responsabilidade Compartilhada
Equipes de desenvolvimento participam do
suporte a aplicações em produções
• O trabalho do SRE pode fluir para equipes
de desenvolvimento
• 5% do trabalho operacional fica com os
desenvolvedores
• Participa dos plantões (mais comum no
início)
• Coloque o desenvolvedor no plantão assim
que os objetivos de confiabilidade forem
atingidos
Implantando SRE nas empresas
Site Reliability Engineering
Implantação de SRE em uma empresa
• Equipes SRE bem-sucedidas
dependem do compromisso de
toda a empresa
• Os valores da empresa devem estar
alinhados com a forma como a SRE
opera
Mandato
organizacional
“Buy-in” da gestão
Responsabilidades
Compartilhadas
Modelos de equipes SRE
Equipes Centralizadas de SRE
• Backlog comum com as melhorias de
confiabilidade de toda a organização
• Implementado uniformemente
• SREs são trazidos como parte dos
processos de design, revisão, validação,
go-lives
• Nível limitado de influência dentro da
equipe Exemplo:
Facebook (via Engenharia de Produção)
Modelos de equipes SRE
SREs dentro das equipes
• SREs incorporados como membros
das equipes em tempo integral como
parte das equipes de produtos:
• Tratado como um membro da equipe de
produtos
• Contribuição constante com desenho da
confiabilidade e implementação do produto Exemplo:
Google, Bloomberg, Uber
Métricas-chave
Tempo médio
para restaurar
o serviço
(MTTR)
Lead time para
implantação /
rollback
Monitoramento
aprimorado
(detectar
problemas mais
cedo)
Estabelecer
orçamentos de
erro (gestão de
risco baseada
em orçamento)
Contratação e Onboarding
Competências
• Curiosidade natural por sistemas; foco em automação
• Idealmente, indivíduos multi-qualificados que tenham
experiência em escrever e manter software
• Familiaridade e/ou interesse em arquitetura de sistemas
Perfil
• Sys Admins que estejam dispostos a aprender scripting /
programação; ou
• Desenvolvedores que estejam dispostos a assumir funções
de infraestrutura
• SRE Bootcamps: sessões com insights
sobre a arquitetura do sistema, processo
de entrega de software e operações
• Plantão com membros seniores da SRE
• Participação nas chamadas de resposta a
incidentes
Contratação Onboarding
Orçamento de Erros
Site Reliability Engineering
Medindo a confiabilidade
• Fácil de medir através de meios automáticos (por
exemplo, tempo de atividade do servidor)
• Difícil julgar o sucesso para sistemas distribuídos
• Não diz muito sobre a experiência experiência do
usuário
• Mede o valor para usuários reais para os quais o
serviço está funcionando
• Melhor para medir sistemas distribuídos
Disponibilidade =
Uptime real
Uptime previsto
Disponibilidade =
Boas interações
Total interações
Orçamento de erro
100% - <meta de disponibilidade> =
Orçamento de “inconfiabilidade”
• Ou o “Orçamento de Erro”
• SRE e Gestão de Produtos definem
conjuntamente uma meta de disponibilidade
• Depois disso, um orçamento de erro é
estabelecido
• O monitoramento (via tempo de atividade) é
definido no local para medir o desempenho +
métricas em relação ao objetivo
• Um loop de feedback é criado para manter /
utilizar o orçamento
Benefícios de ter Orçamentos de Erro
• Os orçamentos de erro tornam-se
uma métrica rastreável explícita
que conecta o planejamento de
novas funcionalidades do produto
à confiabilidade do serviço
• Responsabilidade compartilhada pelo uptime
• Falhas de funcionalidade, bem como problemas de
infraestrutura, caem no mesmo orçamento de erro
• Incentivo comum para equipes de produtos e SREs
• Cria um equilíbrio entre confiabilidade e inovação
• As equipes de produtos podem priorizar recursos
• A equipe agora pode decidir onde e como gastar o
orçamento de erro
• Metas de confiabilidade tornam-se críveis e
alcançáveis
• Fornece uma abordagem mais pragmática para definir uma
disponibilidade realista
Janela de indisponibilidade
Meta Janela de indisponibilidade permitida
Por ano Por 30 dias
95 % 18.25 dias 1.5 dias
99 % 3.65 dias 7.2 horas
99.9 % 8.76 horas 43.2 minutos
99.99 % 52.6 minutos 4.32 minutos
99.999 % 5.26 minutos 25.9 segundos
A criação de uma meta de confiabilidade depende da natureza
do negócio
Pergunta: Por que 100% de confiabilidade não é uma boa ideia?
Níveis de Serviço
• A Gestão dos Produtos, em conjunto com
os SREs, define níveis de serviço para os
sistemas como parte do design do
produto
• Os níveis de serviço nos permitem:
• Equilibrar recursos que estão sendo construídos
com confiabilidade operacional
• Qualificar e quantificar a experiência do usuário
• Definir as expectativas dos usuários para
disponibilidade e desempenho
Níveis de serviço
Service Level Agreement
(SLA)
• Um contrato comercial
do prestador de
serviços + o cliente
• Perda de serviço pode
estar relacionada à
perda de negócios
• Normalmente, uma
violação de SLA
significaria alguma
forma de compensação
ao cliente
Service Level Objective
(SLO)
•Um limiar além do
qual uma melhoria do
serviço é necessária
•O ponto em que os
usuários podem
considerar a abertura
de chamado de
suporte, o "limiar da
dor“ - por exemplo, o
buffer do YouTube
•Impulsionado pelas
necessidades dos
negócios, não apenas
pelo desempenho
atual
Service Level Indicator
(SLI)
•Medida quantitativa
de um atributo do
serviço, como
throughput, latência
•Diretamente
mensurável e
observável pelos
usuários – não uma
métrica interna
(tempo de resposta
versus utilização da
CPU)
•Pode ser uma forma
de representar a
experiência do
usuário
Exemplo de Nível de Serviço
Service Level Indicator (SLI)
Latência de respostas HTTP bem-sucedidas (HTTP
200)
Service Level Objective (SLO)
Latência de 95% das respostas deve ser inferior a
200ms
Service Level Agreement (SLA)
Cliente compensado se a latência do percentil 95
exceder 300ms
Esgotando um orçamento de erro
Pergunta: o que você pode fazer se
esgotar o orçamento de erro?
• Nenhum novo recurso é lançado (por
um período de tempo)
• Muda a velocidade das atualizações
• Prioriza-se os esforços de engenharia
para aumentar a confiabilidade
Enquanto houver orçamento de
erro restante (em uma janela de
tempo), novos recursos podem
ser implantados
SRE “Golden Signals"
• Focado mais no tempo de atividade
para deduzir disponibilidade versus
experiência do usuário
• Monitorar métricas do sistema (como
CPU, memória, armazenamento) é
importante, mas pode não significar
nada para a experiência do cliente
• "Sobrecarga de ruído"
Saturação Erros
Tráfego Latência
É melhor definir SLIs & SLOs usando
esses “sinais dourados”, pois eles leva
em conta a percepção do usuário
sobre o sistema
Próximos passos
Site Reliability Engineering
Comece sua própria jornada SRE!
Reconheça
Falhas são inevitáveis, é
melhor planejar para isso
Buy-in
Liderança & alta gestão
Cultura
Crie uma cultura de auto-
aperfeiçoamento
Competências
Procure por indivíduos
multiqualificados que
foquem na colaboração
O que fazer
• Selecione um sistema “piloto”
• Identifique seus SLI/SLO
• Crie uma baseline para o estado
atual
• Atualize gradualmente os sistemas
e processos para atender ao SLO
• Enxágüe e repita ☺
O que NÃO fazer
• Renomear sua equipe de infraestrutura para SER
• Isso não é SRE!
• Tratar os SREs como equipes de infraestrutura
• E não como desenvolvedores de software
• SLO de 100%
• É melhor planejar para as falhas
• Muitas interações estão fora de seu controle
• Transformação em silos
• Acredite que as equipes estão dispostas a mudar
• Melhor envolvê-los como parte da jornada de transformação
• Ex.: Gestão de Mudanças, Gerenciamento de Incidentes,
Segurança
Para saber mais
Obrigado!
Um guia para melhorar a confiabilidade das aplicações em
produção
Igor Abade V. Leite | @igorabade
• Microsoft Regional Director
• CEO, CloudMotion (www.cloudmotion.com.br)

Mais conteúdo relacionado

Mais procurados

SRE From Scratch
SRE From ScratchSRE From Scratch
SRE From Scratch
Grier Johnson
 
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Pery Lemke
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)
Abeer R
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
ITSM Academy, Inc.
 
SRE passo a passo
SRE passo a passoSRE passo a passo
SRE passo a passo
Wilson Júnior
 
Site Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
Site Reliability Engineering (SRE) - Tech Talk by Keet SugathadasaSite Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
Site Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
Keet Sugathadasa
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLI
Knoldus Inc.
 
DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE Concepts
Rauno De Pasquale
 
DevOps Overview in my own words
DevOps Overview in my own wordsDevOps Overview in my own words
DevOps Overview in my own words
SUBHENDU KARMAKAR
 
Dev ops != Dev+Ops
Dev ops != Dev+OpsDev ops != Dev+Ops
Dev ops != Dev+Ops
Shalu Ahuja
 
Sre summary
Sre summarySre summary
Sre summary
Yogesh Shah
 
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
DevOpsDays Tel Aviv
 
SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...
DevClub_lv
 
Site-Reliability-Engineering-v2[6241].pdf
Site-Reliability-Engineering-v2[6241].pdfSite-Reliability-Engineering-v2[6241].pdf
Site-Reliability-Engineering-v2[6241].pdf
DeepakGupta747774
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
Dr Ganesh Iyer
 
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
NUS-ISS
 
DevOps & SRE at Google Scale
DevOps & SRE at Google ScaleDevOps & SRE at Google Scale
DevOps & SRE at Google Scale
Kaushik Bhattacharya
 
A Crash Course in Building Site Reliability
A Crash Course in Building Site ReliabilityA Crash Course in Building Site Reliability
A Crash Course in Building Site Reliability
Acquia
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!
New Relic
 
Building an SRE Organization @ Squarespace
Building an SRE Organization @ SquarespaceBuilding an SRE Organization @ Squarespace
Building an SRE Organization @ Squarespace
Franklin Angulo
 

Mais procurados (20)

SRE From Scratch
SRE From ScratchSRE From Scratch
SRE From Scratch
 
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
 
SRE passo a passo
SRE passo a passoSRE passo a passo
SRE passo a passo
 
Site Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
Site Reliability Engineering (SRE) - Tech Talk by Keet SugathadasaSite Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
Site Reliability Engineering (SRE) - Tech Talk by Keet Sugathadasa
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLI
 
DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE Concepts
 
DevOps Overview in my own words
DevOps Overview in my own wordsDevOps Overview in my own words
DevOps Overview in my own words
 
Dev ops != Dev+Ops
Dev ops != Dev+OpsDev ops != Dev+Ops
Dev ops != Dev+Ops
 
Sre summary
Sre summarySre summary
Sre summary
 
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
Implementing SRE practices: SLI/SLO deep dive - David Blank-Edelman - DevOpsD...
 
SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...
 
Site-Reliability-Engineering-v2[6241].pdf
Site-Reliability-Engineering-v2[6241].pdfSite-Reliability-Engineering-v2[6241].pdf
Site-Reliability-Engineering-v2[6241].pdf
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
 
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
 
DevOps & SRE at Google Scale
DevOps & SRE at Google ScaleDevOps & SRE at Google Scale
DevOps & SRE at Google Scale
 
A Crash Course in Building Site Reliability
A Crash Course in Building Site ReliabilityA Crash Course in Building Site Reliability
A Crash Course in Building Site Reliability
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!
 
Building an SRE Organization @ Squarespace
Building an SRE Organization @ SquarespaceBuilding an SRE Organization @ Squarespace
Building an SRE Organization @ Squarespace
 

Semelhante a Introdução à SRE (.Net Vale Tech Saturday - DevSecOps)

Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operações
Amazon Web Services LATAM
 
O que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBMO que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBM
Felipe Freire
 
DevOps e App Insights
DevOps e App InsightsDevOps e App Insights
DevOps e App Insights
Guilherme Cardoso
 
Análise e Design Orientado a Objetos.ppt
Análise e Design Orientado a Objetos.pptAnálise e Design Orientado a Objetos.ppt
Análise e Design Orientado a Objetos.ppt
TzveDyor
 
Métodos Ágeis - Aula 01
Métodos Ágeis - Aula 01Métodos Ágeis - Aula 01
Métodos Ágeis - Aula 01
Adriano Bertucci
 
Como implantar transformações organizacionais a partir de uma plataforma BPMS...
Como implantar transformações organizacionais a partir de uma plataforma BPMS...Como implantar transformações organizacionais a partir de uma plataforma BPMS...
Como implantar transformações organizacionais a partir de uma plataforma BPMS...
Lecom Tecnologia
 
– Como implantar transformações organizacionais a partir de uma plataforma BP...
– Como implantar transformações organizacionais a partir de uma plataforma BP...– Como implantar transformações organizacionais a partir de uma plataforma BP...
– Como implantar transformações organizacionais a partir de uma plataforma BP...
EloGroup
 
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
EloGroup
 
DevOps
DevOpsDevOps
DevOps
DevOpsDevOps
Capitulo 02 sommerville
Capitulo 02 sommervilleCapitulo 02 sommerville
Capitulo 02 sommerville
Fabricio Schlag
 
ALM com VSTS (v2)
ALM com VSTS (v2)ALM com VSTS (v2)
Métricas de software: modelos de contratação e planejamento de projetos
Métricas de software: modelos de contratação e planejamento de projetosMétricas de software: modelos de contratação e planejamento de projetos
Métricas de software: modelos de contratação e planejamento de projetos
José Claudemir Pacheco Júnior
 
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
Amazon Web Services LATAM
 
Goal-Driven Software Process
Goal-Driven Software ProcessGoal-Driven Software Process
Goal-Driven Software Process
André Agostinho
 
Microsoft ALM = Produtividade
Microsoft ALM = ProdutividadeMicrosoft ALM = Produtividade
Microsoft ALM = Produtividade
Adriano Bertucci
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negócios
Ramon Durães
 
O que uma enterprise deveria fazer nos primeiros 90 dias
O que uma enterprise deveria fazer nos primeiros 90 diasO que uma enterprise deveria fazer nos primeiros 90 dias
O que uma enterprise deveria fazer nos primeiros 90 dias
Amazon Web Services LATAM
 
DevOps... O caminho! - Monitoramento de aplicações com App Insights
DevOps... O caminho! - Monitoramento de aplicações com App InsightsDevOps... O caminho! - Monitoramento de aplicações com App Insights
DevOps... O caminho! - Monitoramento de aplicações com App Insights
Adriano Bertucci
 

Semelhante a Introdução à SRE (.Net Vale Tech Saturday - DevSecOps) (20)

Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operações
 
O que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBMO que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBM
 
DevOps e App Insights
DevOps e App InsightsDevOps e App Insights
DevOps e App Insights
 
Análise e Design Orientado a Objetos.ppt
Análise e Design Orientado a Objetos.pptAnálise e Design Orientado a Objetos.ppt
Análise e Design Orientado a Objetos.ppt
 
Métodos Ágeis - Aula 01
Métodos Ágeis - Aula 01Métodos Ágeis - Aula 01
Métodos Ágeis - Aula 01
 
Como implantar transformações organizacionais a partir de uma plataforma BPMS...
Como implantar transformações organizacionais a partir de uma plataforma BPMS...Como implantar transformações organizacionais a partir de uma plataforma BPMS...
Como implantar transformações organizacionais a partir de uma plataforma BPMS...
 
– Como implantar transformações organizacionais a partir de uma plataforma BP...
– Como implantar transformações organizacionais a partir de uma plataforma BP...– Como implantar transformações organizacionais a partir de uma plataforma BP...
– Como implantar transformações organizacionais a partir de uma plataforma BP...
 
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...
 
DevOps
DevOpsDevOps
DevOps
 
DevOps
DevOpsDevOps
DevOps
 
Capitulo 02 sommerville
Capitulo 02 sommervilleCapitulo 02 sommerville
Capitulo 02 sommerville
 
ALM com VSTS (v2)
ALM com VSTS (v2)ALM com VSTS (v2)
ALM com VSTS (v2)
 
Métricas de software: modelos de contratação e planejamento de projetos
Métricas de software: modelos de contratação e planejamento de projetosMétricas de software: modelos de contratação e planejamento de projetos
Métricas de software: modelos de contratação e planejamento de projetos
 
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...
 
Goal-Driven Software Process
Goal-Driven Software ProcessGoal-Driven Software Process
Goal-Driven Software Process
 
Revista Engenharia de Software n° 44
Revista Engenharia de Software n° 44Revista Engenharia de Software n° 44
Revista Engenharia de Software n° 44
 
Microsoft ALM = Produtividade
Microsoft ALM = ProdutividadeMicrosoft ALM = Produtividade
Microsoft ALM = Produtividade
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negócios
 
O que uma enterprise deveria fazer nos primeiros 90 dias
O que uma enterprise deveria fazer nos primeiros 90 diasO que uma enterprise deveria fazer nos primeiros 90 dias
O que uma enterprise deveria fazer nos primeiros 90 dias
 
DevOps... O caminho! - Monitoramento de aplicações com App Insights
DevOps... O caminho! - Monitoramento de aplicações com App InsightsDevOps... O caminho! - Monitoramento de aplicações com App Insights
DevOps... O caminho! - Monitoramento de aplicações com App Insights
 

Mais de Igor Abade

DevOps em grandes empresas - Mito ou Realidade?
DevOps em grandes empresas - Mito ou Realidade?DevOps em grandes empresas - Mito ou Realidade?
DevOps em grandes empresas - Mito ou Realidade?
Igor Abade
 
Serverless Computing no Microsoft Azure
Serverless Computing no Microsoft AzureServerless Computing no Microsoft Azure
Serverless Computing no Microsoft Azure
Igor Abade
 
Chega de receita de bolo: gerenciando infraestrutura como código
Chega de receita de bolo: gerenciando infraestrutura como códigoChega de receita de bolo: gerenciando infraestrutura como código
Chega de receita de bolo: gerenciando infraestrutura como código
Igor Abade
 
Microsserviços .NET no Azure
Microsserviços .NET no AzureMicrosserviços .NET no Azure
Microsserviços .NET no Azure
Igor Abade
 
Introdução ao Habitat
Introdução ao HabitatIntrodução ao Habitat
Introdução ao Habitat
Igor Abade
 
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abadeAcelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
Igor Abade
 
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTSProvisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
Igor Abade
 
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
Igor Abade
 
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
Igor Abade
 
Desktop App Converter: Trazendo Apps Win32 para a Windows Store
Desktop App Converter: Trazendo Apps Win32 para a Windows StoreDesktop App Converter: Trazendo Apps Win32 para a Windows Store
Desktop App Converter: Trazendo Apps Win32 para a Windows Store
Igor Abade
 
Acelere - e melhore! - o feedback com testes automatizados rápidos
Acelere - e melhore! - o feedback com testes automatizados rápidosAcelere - e melhore! - o feedback com testes automatizados rápidos
Acelere - e melhore! - o feedback com testes automatizados rápidos
Igor Abade
 
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
Igor Abade
 
Suporte a macros na sua aplicação com PowerShell
Suporte a macros na sua aplicação com PowerShellSuporte a macros na sua aplicação com PowerShell
Suporte a macros na sua aplicação com PowerShell
Igor Abade
 
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
Igor Abade
 
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
Igor Abade
 
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
Igor Abade
 
Além do pen-drive: empacotando seu software para distribuição e implantação (...
Além do pen-drive: empacotando seu software para distribuição e implantação (...Além do pen-drive: empacotando seu software para distribuição e implantação (...
Além do pen-drive: empacotando seu software para distribuição e implantação (...
Igor Abade
 
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
Igor Abade
 
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
Igor Abade
 
Muito além das startups: Build-Measure-Learn em sistemas corporativos
Muito além das startups: Build-Measure-Learn em sistemas corporativosMuito além das startups: Build-Measure-Learn em sistemas corporativos
Muito além das startups: Build-Measure-Learn em sistemas corporativos
Igor Abade
 

Mais de Igor Abade (20)

DevOps em grandes empresas - Mito ou Realidade?
DevOps em grandes empresas - Mito ou Realidade?DevOps em grandes empresas - Mito ou Realidade?
DevOps em grandes empresas - Mito ou Realidade?
 
Serverless Computing no Microsoft Azure
Serverless Computing no Microsoft AzureServerless Computing no Microsoft Azure
Serverless Computing no Microsoft Azure
 
Chega de receita de bolo: gerenciando infraestrutura como código
Chega de receita de bolo: gerenciando infraestrutura como códigoChega de receita de bolo: gerenciando infraestrutura como código
Chega de receita de bolo: gerenciando infraestrutura como código
 
Microsserviços .NET no Azure
Microsserviços .NET no AzureMicrosserviços .NET no Azure
Microsserviços .NET no Azure
 
Introdução ao Habitat
Introdução ao HabitatIntrodução ao Habitat
Introdução ao Habitat
 
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abadeAcelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abade
 
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTSProvisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTS
 
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)
 
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)
 
Desktop App Converter: Trazendo Apps Win32 para a Windows Store
Desktop App Converter: Trazendo Apps Win32 para a Windows StoreDesktop App Converter: Trazendo Apps Win32 para a Windows Store
Desktop App Converter: Trazendo Apps Win32 para a Windows Store
 
Acelere - e melhore! - o feedback com testes automatizados rápidos
Acelere - e melhore! - o feedback com testes automatizados rápidosAcelere - e melhore! - o feedback com testes automatizados rápidos
Acelere - e melhore! - o feedback com testes automatizados rápidos
 
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)
 
Suporte a macros na sua aplicação com PowerShell
Suporte a macros na sua aplicação com PowerShellSuporte a macros na sua aplicação com PowerShell
Suporte a macros na sua aplicação com PowerShell
 
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)
 
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)
 
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
Keynote - Trilha Negócios (DevOps Summit Brasil 2016)
 
Além do pen-drive: empacotando seu software para distribuição e implantação (...
Além do pen-drive: empacotando seu software para distribuição e implantação (...Além do pen-drive: empacotando seu software para distribuição e implantação (...
Além do pen-drive: empacotando seu software para distribuição e implantação (...
 
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...
 
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
Acelerando a criação de testes usando IntelliTest (Visual Studio Summit 2015)
 
Muito além das startups: Build-Measure-Learn em sistemas corporativos
Muito além das startups: Build-Measure-Learn em sistemas corporativosMuito além das startups: Build-Measure-Learn em sistemas corporativos
Muito além das startups: Build-Measure-Learn em sistemas corporativos
 

Introdução à SRE (.Net Vale Tech Saturday - DevSecOps)

  • 1. Introdução à SRE Um guia para melhorar a confiabilidade das aplicações em produção Igor Abade V. Leite | @igorabade • Microsoft Regional Director • CEO, CloudMotion (www.cloudmotion.com.br)
  • 2. Ciclo de vida típico de um software Ideia Negócio Desenvolvimento Operações Clientes
  • 3. Lembrando que… ... O objetivo não é apenas implantar o software, mas também garantir que seja mantido adequadamente, uma vez em produção Quanto tempo leva para um incidente chegar à equipe certa? Dá para ser minutos, em vez de horas? Com que frequência o mesmo incidente acontece de novo? Dá para reduzir a nunca?
  • 4. A confiabilidade é a capacidade de um sistema ser capaz de suportar alguns tipos de falha e ainda permanecer funcional do ponto de vista do usuário.
  • 5. Site Reliability Engineering… ... é o que acontece quando um engenheiro de software é colocado para resolver problemas de operações (infraestrutura) 50% de suas contribuições em problemas de Engenharia de Sistemas – infraestrutura, sistemas operacionais & rede, bancos de dados – disponibilidade, observabilidade, eficiência e confiabilidade dos serviços 50% de suas contribuições em problemas de Engenharia de Software – design da aplicação, estruturas de dados, design de serviços e integrações – tarefas de desenvolvimento que contribuam para a confiablilidade do sistema
  • 6. Objetivos da equipe SRE Suportar sistemas em produção Contribuir para trabalho no projeto • Abordagem SRE para Operações: • Trate as operações como um problema de engenharia de software • Automatize tarefas normalmente feitas por administrações de sistema (como implantações) • Projete arquiteturas de serviço mais confiáveis e operáveis desde o início; não deixe para depois Os SREs gastam menos de 50% do seu tempo realizando trabalho operacional para permitir que eles gastem mais tempo na melhoria da infra-estrutura e automação de tarefas
  • 7. Por que outro papel? • A evolução dos sistemas requer uma evolução dos engenheiros de sistemas • A confiabilidade é geralmente deixada para os arquitetos projetarem, tipicamente no início de um projeto de produto • Os requisitos não funcionais não são revisados com tanta frequência • A mudança de funcionalidade pode afetar os requisitos de confiabilidade assumidos anteriormente • A maioria das paralisações são tipicamente causadas por mudanças, e uma mentalidade típica de Ops não necessariamente se prepara para uma solução rápida • Sistemas “definidos por software”
  • 9. DevOps vs. SRE? SRE implementa DevOps Um conjunto de princípios e diretrizes culturais que ajuda a quebrar os silos entre desenvolvimento e operações (infra) • Reduza silos • Planeje para falhas • Mudanças em pequenos lotes • Ferramentas & automação • Meça tudo Um conjunto de práticas com ênfase em fortes capacidades de engenharia que implementa as práticas de DevOps e define um papel e uma equipe • Reduza silos compartilhando a propriedade • Planeje paras falha usando orçamentos de erro • Mudanças em pequenos lotes com foco na estabilidade • Ferramentas & automação de tarefas manuais • Meça tudo monitorando as coisas certas DevOps SRE
  • 10. Como SRE e DevOps se relacionam SREs conectam atividades de Operações com Desenvolvimento • SRE muitas vezes atuam como “guardiões da produção” • Software sem qualidade é rejeitado e SREs ajudam a evitar potenciais problemas operacionais
  • 11. Responsabilidade Compartilhada Equipes de desenvolvimento participam do suporte a aplicações em produções • O trabalho do SRE pode fluir para equipes de desenvolvimento • 5% do trabalho operacional fica com os desenvolvedores • Participa dos plantões (mais comum no início) • Coloque o desenvolvedor no plantão assim que os objetivos de confiabilidade forem atingidos
  • 12. Implantando SRE nas empresas Site Reliability Engineering
  • 13. Implantação de SRE em uma empresa • Equipes SRE bem-sucedidas dependem do compromisso de toda a empresa • Os valores da empresa devem estar alinhados com a forma como a SRE opera Mandato organizacional “Buy-in” da gestão Responsabilidades Compartilhadas
  • 14. Modelos de equipes SRE Equipes Centralizadas de SRE • Backlog comum com as melhorias de confiabilidade de toda a organização • Implementado uniformemente • SREs são trazidos como parte dos processos de design, revisão, validação, go-lives • Nível limitado de influência dentro da equipe Exemplo: Facebook (via Engenharia de Produção)
  • 15. Modelos de equipes SRE SREs dentro das equipes • SREs incorporados como membros das equipes em tempo integral como parte das equipes de produtos: • Tratado como um membro da equipe de produtos • Contribuição constante com desenho da confiabilidade e implementação do produto Exemplo: Google, Bloomberg, Uber
  • 16. Métricas-chave Tempo médio para restaurar o serviço (MTTR) Lead time para implantação / rollback Monitoramento aprimorado (detectar problemas mais cedo) Estabelecer orçamentos de erro (gestão de risco baseada em orçamento)
  • 17. Contratação e Onboarding Competências • Curiosidade natural por sistemas; foco em automação • Idealmente, indivíduos multi-qualificados que tenham experiência em escrever e manter software • Familiaridade e/ou interesse em arquitetura de sistemas Perfil • Sys Admins que estejam dispostos a aprender scripting / programação; ou • Desenvolvedores que estejam dispostos a assumir funções de infraestrutura • SRE Bootcamps: sessões com insights sobre a arquitetura do sistema, processo de entrega de software e operações • Plantão com membros seniores da SRE • Participação nas chamadas de resposta a incidentes Contratação Onboarding
  • 18. Orçamento de Erros Site Reliability Engineering
  • 19. Medindo a confiabilidade • Fácil de medir através de meios automáticos (por exemplo, tempo de atividade do servidor) • Difícil julgar o sucesso para sistemas distribuídos • Não diz muito sobre a experiência experiência do usuário • Mede o valor para usuários reais para os quais o serviço está funcionando • Melhor para medir sistemas distribuídos Disponibilidade = Uptime real Uptime previsto Disponibilidade = Boas interações Total interações
  • 20. Orçamento de erro 100% - <meta de disponibilidade> = Orçamento de “inconfiabilidade” • Ou o “Orçamento de Erro” • SRE e Gestão de Produtos definem conjuntamente uma meta de disponibilidade • Depois disso, um orçamento de erro é estabelecido • O monitoramento (via tempo de atividade) é definido no local para medir o desempenho + métricas em relação ao objetivo • Um loop de feedback é criado para manter / utilizar o orçamento
  • 21. Benefícios de ter Orçamentos de Erro • Os orçamentos de erro tornam-se uma métrica rastreável explícita que conecta o planejamento de novas funcionalidades do produto à confiabilidade do serviço • Responsabilidade compartilhada pelo uptime • Falhas de funcionalidade, bem como problemas de infraestrutura, caem no mesmo orçamento de erro • Incentivo comum para equipes de produtos e SREs • Cria um equilíbrio entre confiabilidade e inovação • As equipes de produtos podem priorizar recursos • A equipe agora pode decidir onde e como gastar o orçamento de erro • Metas de confiabilidade tornam-se críveis e alcançáveis • Fornece uma abordagem mais pragmática para definir uma disponibilidade realista
  • 22. Janela de indisponibilidade Meta Janela de indisponibilidade permitida Por ano Por 30 dias 95 % 18.25 dias 1.5 dias 99 % 3.65 dias 7.2 horas 99.9 % 8.76 horas 43.2 minutos 99.99 % 52.6 minutos 4.32 minutos 99.999 % 5.26 minutos 25.9 segundos A criação de uma meta de confiabilidade depende da natureza do negócio Pergunta: Por que 100% de confiabilidade não é uma boa ideia?
  • 23. Níveis de Serviço • A Gestão dos Produtos, em conjunto com os SREs, define níveis de serviço para os sistemas como parte do design do produto • Os níveis de serviço nos permitem: • Equilibrar recursos que estão sendo construídos com confiabilidade operacional • Qualificar e quantificar a experiência do usuário • Definir as expectativas dos usuários para disponibilidade e desempenho
  • 24. Níveis de serviço Service Level Agreement (SLA) • Um contrato comercial do prestador de serviços + o cliente • Perda de serviço pode estar relacionada à perda de negócios • Normalmente, uma violação de SLA significaria alguma forma de compensação ao cliente Service Level Objective (SLO) •Um limiar além do qual uma melhoria do serviço é necessária •O ponto em que os usuários podem considerar a abertura de chamado de suporte, o "limiar da dor“ - por exemplo, o buffer do YouTube •Impulsionado pelas necessidades dos negócios, não apenas pelo desempenho atual Service Level Indicator (SLI) •Medida quantitativa de um atributo do serviço, como throughput, latência •Diretamente mensurável e observável pelos usuários – não uma métrica interna (tempo de resposta versus utilização da CPU) •Pode ser uma forma de representar a experiência do usuário
  • 25. Exemplo de Nível de Serviço Service Level Indicator (SLI) Latência de respostas HTTP bem-sucedidas (HTTP 200) Service Level Objective (SLO) Latência de 95% das respostas deve ser inferior a 200ms Service Level Agreement (SLA) Cliente compensado se a latência do percentil 95 exceder 300ms
  • 26. Esgotando um orçamento de erro Pergunta: o que você pode fazer se esgotar o orçamento de erro? • Nenhum novo recurso é lançado (por um período de tempo) • Muda a velocidade das atualizações • Prioriza-se os esforços de engenharia para aumentar a confiabilidade Enquanto houver orçamento de erro restante (em uma janela de tempo), novos recursos podem ser implantados
  • 27. SRE “Golden Signals" • Focado mais no tempo de atividade para deduzir disponibilidade versus experiência do usuário • Monitorar métricas do sistema (como CPU, memória, armazenamento) é importante, mas pode não significar nada para a experiência do cliente • "Sobrecarga de ruído" Saturação Erros Tráfego Latência É melhor definir SLIs & SLOs usando esses “sinais dourados”, pois eles leva em conta a percepção do usuário sobre o sistema
  • 29. Comece sua própria jornada SRE! Reconheça Falhas são inevitáveis, é melhor planejar para isso Buy-in Liderança & alta gestão Cultura Crie uma cultura de auto- aperfeiçoamento Competências Procure por indivíduos multiqualificados que foquem na colaboração
  • 30. O que fazer • Selecione um sistema “piloto” • Identifique seus SLI/SLO • Crie uma baseline para o estado atual • Atualize gradualmente os sistemas e processos para atender ao SLO • Enxágüe e repita ☺
  • 31. O que NÃO fazer • Renomear sua equipe de infraestrutura para SER • Isso não é SRE! • Tratar os SREs como equipes de infraestrutura • E não como desenvolvedores de software • SLO de 100% • É melhor planejar para as falhas • Muitas interações estão fora de seu controle • Transformação em silos • Acredite que as equipes estão dispostas a mudar • Melhor envolvê-los como parte da jornada de transformação • Ex.: Gestão de Mudanças, Gerenciamento de Incidentes, Segurança
  • 33. Obrigado! Um guia para melhorar a confiabilidade das aplicações em produção Igor Abade V. Leite | @igorabade • Microsoft Regional Director • CEO, CloudMotion (www.cloudmotion.com.br)