SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
1.
Aqui, apresentamos duas histórias, contadas por duas empresas muito diferentes, que descrevem suas jornadas
em direção à adoção de um SLO
Evernote é um aplicativo de plataforma cruzada que ajuda indivíduos e equipes a
criar, montar e compartilhar informações.
Com mais de 220 milhões de usuários em todo o mundo, armazenamos mais de
12 bilhões de informações - uma mistura de notas baseadas em texto, arquivos e
anexos / imagens - dentro da plataforma.
Nos bastidores, o serviço Evernote é compatível com mais de 750 instâncias do
MySQL.
● Mover o trabalho de engenharia para longe dos datacenters e para mais perto
do produto com o qual os clientes realmente se importam;
● Revisar o modelo de trabalho para suportar um aumento na velocidade de
entrega enquanto mantém a qualidade geral do serviço;
● Renovar como olhamos SLAs para garantir o aumento do foco em como as
falhas afetam nossa grande base de cliente;
You wrote it, you run it
You wrote it, we run it for you SLO-centric SRE approach
À medida que oscilávamos descontroladamente entre esses dois objetivos, as equipes de operações e desenvolvimento
desenvolveram um relacionamento frustrado e tenso. Queríamos chegar a um meio mais feliz que equilibrasse melhor as diversas
necessidades das equipes envolvidas.
OPS
Devs
. A outra se preocupa com a extensão e
evolução desse serviço para atender às
necessidades dos clientes no futuro
OPS
Devs
SRE / DevOps
Essas duas disciplinas se moveram uma em
direção à outra nos últimos anos, conforme
movimentos como SRE e DevOps enfatizam o
desenvolvimento de software aplicado às
operações
●
●
Depois de usar SLOs ativamente por cerca
de nove meses, o Evernote já está na
versão 3 de sua prática de SLO!
● Queríamos garantir que estivéssemos inicialmente focados na necessidade mais importante e
comum do cliente: a disponibilidade do serviço
Mantivemos nossa primeira passagem
simples, concentrando-nos no tempo de
atividade
● Uma definição dos SLOs
○ Esta foi uma medida de tempo de atividade: 99,95% de tempo de atividade medido em uma janela mensal,
definida para determinados serviços e métodos
● O que medir e como medir
○ O que medir
■ Especificamos um ponto de extremidade de serviço que poderíamos chamar para testar se o serviço estava funcionando
conforme o esperado
○ Como medir
■ Queríamos um testador que chamasse a página de status periodicamente. Queríamos que o testador estivesse localizado
completamente fora e independente de nosso ambiente para que pudéssemos testar todos os nossos componentes,
incluindo nossa pilha de Load Balance
● Como calcular SLOs a partir de dados de monitoramento
○ Documentamos cuidadosamente como calculamos o SLO a partir dos dados brutos que recebemos do
Pingdom
○ Nossos cálculos de SLO trataram a manutenção como um tempo de inatividade.
● Depois de definir nossos SLOs, tínhamos que fazer algo com eles. Queríamos que os SLOs gerassem
mudanças de software e operações que deixassem nossos clientes mais felizes e os mantivessem
felizes. Qual a melhor forma de fazer isso?
Usamos o conceito de orçamento de SLO / erro como um método para alocar recursos no futuro. Por
exemplo, se perdemos o SLO do mês passado, esse comportamento nos ajuda a priorizar as correções,
melhorias e correções de bugs relevantes. Nós mantemos as coisas simples: as equipes do Evernote e
do Google conduzem uma análise mensal do desempenho do SLO
●
:
● Quão confiável é o seu serviço? É construído para três 9s, três e meio 9s ou quatro 9s (ou
melhor)? Há um tempo de inatividade planejado?
● Que tipo de latência posso esperar nos limites superiores?
● Você pode lidar com o volume de solicitações que vou enviar? Como você lida com a
sobrecarga? Seu serviço atingiu seus SLOs ao longo do tempo?
●
○
Evangelização
Linguagem comum Automação Incentivo
Estabelecer uma linguagem comum foi fundamental para colocar todos na mesma página. Também queríamos manter
essa estrutura o mais simples possível para ajudar a espalhar a ideia mais rapidamente.
Para começar, demos uma olhada crítica nas métricas que monitoramos em nossos vários serviços e descobrimos alguns
padrões.
Cada serviço monitorava alguma forma de seu volume de tráfego , latência , erros e utilização - métricas que mapeiam de
perto os Quatro Sinais Dourados do Google SRE .
Além disso, muitos serviços monitoravam o tempo de atividade ou a disponibilidade de maneira distinta dos erros.
Infelizmente, em geral, todas as categorias de métricas eram monitoradas de maneira inconsistente, tinham nomes
diferentes ou tinham dados insuficientes.
●
○
■
■
■
■
Evangelização
Linguagem comum Automação Incentivo
●
○
Evangelização
Linguagem comum Automação Incentivo
●
○
Evangelização
Linguagem comum Automação Incentivo
●
○
●
○
●
○
●
○
●
○
■
■
■
●
○
●
○
●
○
●
○
●
○
●
●
●
●
Como os desenvolvedores agora eram responsáveis pela operação de seu
software, eles precisavam estabelecer SLOs para demonstrar sua capacidade de
criar e oferecer suporte a software confiável
●
●
●
●
Logo todos na empresa conheciam a VALET, e nossa nova cultura de SLOs
começou a se estabelecer.
●
○
●
○
●
○
○
○
SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3

Mais conteúdo relacionado

Mais procurados

Aula 04 - Diagrama de casos de uso
Aula 04 - Diagrama de casos de usoAula 04 - Diagrama de casos de uso
Aula 04 - Diagrama de casos de usoLeinylson Fontinele
 
[GaragemTalks2019] Cultura de Testes e Qualidade de Software
[GaragemTalks2019] Cultura de Testes e Qualidade de Software[GaragemTalks2019] Cultura de Testes e Qualidade de Software
[GaragemTalks2019] Cultura de Testes e Qualidade de SoftwareJúlio de Lima
 
Mindset de QA em Diferentes Contextos
Mindset de QA em Diferentes ContextosMindset de QA em Diferentes Contextos
Mindset de QA em Diferentes ContextosJúlio de Lima
 
Iniciando com AWS Lambda e serverless em cloud
Iniciando com AWS Lambda e serverless em cloudIniciando com AWS Lambda e serverless em cloud
Iniciando com AWS Lambda e serverless em cloudAmazon Web Services LATAM
 
UML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesUML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesRodrigo Cascarrolho
 
Engenharia de Software - Conceitos e Modelos de Desenvolvimento
Engenharia de Software - Conceitos e Modelos de Desenvolvimento Engenharia de Software - Conceitos e Modelos de Desenvolvimento
Engenharia de Software - Conceitos e Modelos de Desenvolvimento Sérgio Souza Costa
 
Introdução à Programação Web com Angular
Introdução à Programação Web com AngularIntrodução à Programação Web com Angular
Introdução à Programação Web com AngularElmano Cavalcanti
 
Introdução a Automação de Teste de Software
Introdução a Automação de Teste de SoftwareIntrodução a Automação de Teste de Software
Introdução a Automação de Teste de SoftwareCamilo Ribeiro
 
Performance Testing using Jmeter and Capacity Testing
Performance Testing using Jmeter and Capacity TestingPerformance Testing using Jmeter and Capacity Testing
Performance Testing using Jmeter and Capacity TestingAkshay Patole
 
Uml Diagramas Estruturais
Uml   Diagramas EstruturaisUml   Diagramas Estruturais
Uml Diagramas Estruturaisthaisedd
 
Sistema de Gerenciamento de Locadora de Vídeo - Apresentação
Sistema de Gerenciamento de Locadora de Vídeo - ApresentaçãoSistema de Gerenciamento de Locadora de Vídeo - Apresentação
Sistema de Gerenciamento de Locadora de Vídeo - ApresentaçãoGleyciana Garrido
 

Mais procurados (15)

Aula 04 - Diagrama de casos de uso
Aula 04 - Diagrama de casos de usoAula 04 - Diagrama de casos de uso
Aula 04 - Diagrama de casos de uso
 
[GaragemTalks2019] Cultura de Testes e Qualidade de Software
[GaragemTalks2019] Cultura de Testes e Qualidade de Software[GaragemTalks2019] Cultura de Testes e Qualidade de Software
[GaragemTalks2019] Cultura de Testes e Qualidade de Software
 
Mindset de QA em Diferentes Contextos
Mindset de QA em Diferentes ContextosMindset de QA em Diferentes Contextos
Mindset de QA em Diferentes Contextos
 
Iniciando com AWS Lambda e serverless em cloud
Iniciando com AWS Lambda e serverless em cloudIniciando com AWS Lambda e serverless em cloud
Iniciando com AWS Lambda e serverless em cloud
 
Deep Dive: AWS CloudFormation
Deep Dive: AWS CloudFormationDeep Dive: AWS CloudFormation
Deep Dive: AWS CloudFormation
 
Diagrama de Casos de Uso
Diagrama de Casos de UsoDiagrama de Casos de Uso
Diagrama de Casos de Uso
 
UML - Criando Diagramas Eficientes
UML - Criando Diagramas EficientesUML - Criando Diagramas Eficientes
UML - Criando Diagramas Eficientes
 
Engenharia de Software - Conceitos e Modelos de Desenvolvimento
Engenharia de Software - Conceitos e Modelos de Desenvolvimento Engenharia de Software - Conceitos e Modelos de Desenvolvimento
Engenharia de Software - Conceitos e Modelos de Desenvolvimento
 
POO - 18 - Sobrecarga e Sobreposição de Métodos
POO - 18 - Sobrecarga e Sobreposição de MétodosPOO - 18 - Sobrecarga e Sobreposição de Métodos
POO - 18 - Sobrecarga e Sobreposição de Métodos
 
Auditoria de Software.ppt
Auditoria de Software.pptAuditoria de Software.ppt
Auditoria de Software.ppt
 
Introdução à Programação Web com Angular
Introdução à Programação Web com AngularIntrodução à Programação Web com Angular
Introdução à Programação Web com Angular
 
Introdução a Automação de Teste de Software
Introdução a Automação de Teste de SoftwareIntrodução a Automação de Teste de Software
Introdução a Automação de Teste de Software
 
Performance Testing using Jmeter and Capacity Testing
Performance Testing using Jmeter and Capacity TestingPerformance Testing using Jmeter and Capacity Testing
Performance Testing using Jmeter and Capacity Testing
 
Uml Diagramas Estruturais
Uml   Diagramas EstruturaisUml   Diagramas Estruturais
Uml Diagramas Estruturais
 
Sistema de Gerenciamento de Locadora de Vídeo - Apresentação
Sistema de Gerenciamento de Locadora de Vídeo - ApresentaçãoSistema de Gerenciamento de Locadora de Vídeo - Apresentação
Sistema de Gerenciamento de Locadora de Vídeo - Apresentação
 

Semelhante a SRE - Engenharia de confiabilidade de sites 3

Guia de Otimização de Performance de Sites (Page Speed)
Guia de Otimização de Performance de Sites (Page Speed)Guia de Otimização de Performance de Sites (Page Speed)
Guia de Otimização de Performance de Sites (Page Speed)Gabriel Zavitoski
 
1º Curitiba Scrum Day
1º Curitiba Scrum Day1º Curitiba Scrum Day
1º Curitiba Scrum Dayjrompkovski
 
Olivas Digital 2020 - Quem somos
Olivas Digital 2020 - Quem somosOlivas Digital 2020 - Quem somos
Olivas Digital 2020 - Quem somosFred Carbonare
 
Sistema de Integração de Informações Médicas (SIIM)
Sistema de Integração de Informações Médicas (SIIM)Sistema de Integração de Informações Médicas (SIIM)
Sistema de Integração de Informações Médicas (SIIM)Jerônimo Medina Madruga
 
Apresentação do Acelerato Projetos
Apresentação do Acelerato ProjetosApresentação do Acelerato Projetos
Apresentação do Acelerato ProjetosAcelerato
 
Introdução a Metodologia XP (E Xtreme Programming)
Introdução a Metodologia XP (E Xtreme Programming)Introdução a Metodologia XP (E Xtreme Programming)
Introdução a Metodologia XP (E Xtreme Programming)Rennan Martini
 
Princípios da Gestão de Fluxos de Valor
Princípios da Gestão de Fluxos de ValorPrincípios da Gestão de Fluxos de Valor
Princípios da Gestão de Fluxos de ValorAndré Luís Cardoso
 
Workshop Agilizando Projetos com SCRUM
Workshop Agilizando Projetos com SCRUMWorkshop Agilizando Projetos com SCRUM
Workshop Agilizando Projetos com SCRUMElumini Outdoing IT
 
ALM - Testes Exploratórios
ALM - Testes ExploratóriosALM - Testes Exploratórios
ALM - Testes ExploratóriosAlan Carlos
 
Precisamos de um barco maior introdução ao dimensionamento de aplicações
Precisamos de um barco maior introdução ao dimensionamento de aplicaçõesPrecisamos de um barco maior introdução ao dimensionamento de aplicações
Precisamos de um barco maior introdução ao dimensionamento de aplicaçõesJackson F. de A. Mafra
 
Metodologia Ágil Scrum
Metodologia Ágil ScrumMetodologia Ágil Scrum
Metodologia Ágil ScrumAricelio Souza
 
Desenvolvendo produtos de forma ágil com scrum
Desenvolvendo produtos de forma ágil com scrumDesenvolvendo produtos de forma ágil com scrum
Desenvolvendo produtos de forma ágil com scrumRômulo Gomes
 
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdfa29398
 
SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaLeandro Silva
 

Semelhante a SRE - Engenharia de confiabilidade de sites 3 (20)

Guia de Otimização de Performance de Sites (Page Speed)
Guia de Otimização de Performance de Sites (Page Speed)Guia de Otimização de Performance de Sites (Page Speed)
Guia de Otimização de Performance de Sites (Page Speed)
 
1º Curitiba Scrum Day
1º Curitiba Scrum Day1º Curitiba Scrum Day
1º Curitiba Scrum Day
 
Olivas Digital 2020 - Quem somos
Olivas Digital 2020 - Quem somosOlivas Digital 2020 - Quem somos
Olivas Digital 2020 - Quem somos
 
Sistema de Integração de Informações Médicas (SIIM)
Sistema de Integração de Informações Médicas (SIIM)Sistema de Integração de Informações Médicas (SIIM)
Sistema de Integração de Informações Médicas (SIIM)
 
Apresentação do Acelerato Projetos
Apresentação do Acelerato ProjetosApresentação do Acelerato Projetos
Apresentação do Acelerato Projetos
 
Introdução a Metodologia XP (E Xtreme Programming)
Introdução a Metodologia XP (E Xtreme Programming)Introdução a Metodologia XP (E Xtreme Programming)
Introdução a Metodologia XP (E Xtreme Programming)
 
Kanban - 10 passos
Kanban - 10 passos Kanban - 10 passos
Kanban - 10 passos
 
Metodologias Ágeis: case de sucesso
Metodologias Ágeis: case de sucessoMetodologias Ágeis: case de sucesso
Metodologias Ágeis: case de sucesso
 
Princípios da Gestão de Fluxos de Valor
Princípios da Gestão de Fluxos de ValorPrincípios da Gestão de Fluxos de Valor
Princípios da Gestão de Fluxos de Valor
 
Workshop Agilizando Projetos com SCRUM
Workshop Agilizando Projetos com SCRUMWorkshop Agilizando Projetos com SCRUM
Workshop Agilizando Projetos com SCRUM
 
ALM - Testes Exploratórios
ALM - Testes ExploratóriosALM - Testes Exploratórios
ALM - Testes Exploratórios
 
Precisamos de um barco maior introdução ao dimensionamento de aplicações
Precisamos de um barco maior introdução ao dimensionamento de aplicaçõesPrecisamos de um barco maior introdução ao dimensionamento de aplicações
Precisamos de um barco maior introdução ao dimensionamento de aplicações
 
Metodologia Ágil Scrum
Metodologia Ágil ScrumMetodologia Ágil Scrum
Metodologia Ágil Scrum
 
Gestão Ágil com Fluxo Unificado
Gestão Ágil com Fluxo UnificadoGestão Ágil com Fluxo Unificado
Gestão Ágil com Fluxo Unificado
 
Sistema DUo
Sistema DUoSistema DUo
Sistema DUo
 
Desenvolvendo produtos de forma ágil com scrum
Desenvolvendo produtos de forma ágil com scrumDesenvolvendo produtos de forma ágil com scrum
Desenvolvendo produtos de forma ágil com scrum
 
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf
2 - APS – Processo, Modelação e Desenvolvimento Agil.pdf
 
SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégia
 
Status Report do TCC: SIN-NA7
Status Report do TCC: SIN-NA7Status Report do TCC: SIN-NA7
Status Report do TCC: SIN-NA7
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 

Mais de Fabricio Goncalves

Mais de Fabricio Goncalves (8)

SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4SRE - Engenharia de confiabilidade de sites 4
SRE - Engenharia de confiabilidade de sites 4
 
SRE - Engenharia de Confiabilidade de Sites 2
SRE - Engenharia de Confiabilidade de Sites 2SRE - Engenharia de Confiabilidade de Sites 2
SRE - Engenharia de Confiabilidade de Sites 2
 
SRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de SitesSRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de Sites
 
Monolith - An epic journey
Monolith - An epic journeyMonolith - An epic journey
Monolith - An epic journey
 
Flash Power (pt 2)
Flash Power (pt 2)Flash Power (pt 2)
Flash Power (pt 2)
 
Flash Power (pt 1)
Flash Power (pt 1)Flash Power (pt 1)
Flash Power (pt 1)
 
Games withflare3d
Games withflare3dGames withflare3d
Games withflare3d
 
Flare3d jiglib.as
Flare3d jiglib.asFlare3d jiglib.as
Flare3d jiglib.as
 

SRE - Engenharia de confiabilidade de sites 3

  • 1.
  • 2.
  • 3.
  • 4. 1. Aqui, apresentamos duas histórias, contadas por duas empresas muito diferentes, que descrevem suas jornadas em direção à adoção de um SLO
  • 5.
  • 6. Evernote é um aplicativo de plataforma cruzada que ajuda indivíduos e equipes a criar, montar e compartilhar informações. Com mais de 220 milhões de usuários em todo o mundo, armazenamos mais de 12 bilhões de informações - uma mistura de notas baseadas em texto, arquivos e anexos / imagens - dentro da plataforma. Nos bastidores, o serviço Evernote é compatível com mais de 750 instâncias do MySQL.
  • 7. ● Mover o trabalho de engenharia para longe dos datacenters e para mais perto do produto com o qual os clientes realmente se importam; ● Revisar o modelo de trabalho para suportar um aumento na velocidade de entrega enquanto mantém a qualidade geral do serviço; ● Renovar como olhamos SLAs para garantir o aumento do foco em como as falhas afetam nossa grande base de cliente;
  • 8. You wrote it, you run it You wrote it, we run it for you SLO-centric SRE approach À medida que oscilávamos descontroladamente entre esses dois objetivos, as equipes de operações e desenvolvimento desenvolveram um relacionamento frustrado e tenso. Queríamos chegar a um meio mais feliz que equilibrasse melhor as diversas necessidades das equipes envolvidas.
  • 9. OPS Devs . A outra se preocupa com a extensão e evolução desse serviço para atender às necessidades dos clientes no futuro
  • 10. OPS Devs SRE / DevOps Essas duas disciplinas se moveram uma em direção à outra nos últimos anos, conforme movimentos como SRE e DevOps enfatizam o desenvolvimento de software aplicado às operações
  • 11.
  • 12. ● ● Depois de usar SLOs ativamente por cerca de nove meses, o Evernote já está na versão 3 de sua prática de SLO!
  • 13. ● Queríamos garantir que estivéssemos inicialmente focados na necessidade mais importante e comum do cliente: a disponibilidade do serviço Mantivemos nossa primeira passagem simples, concentrando-nos no tempo de atividade
  • 14. ● Uma definição dos SLOs ○ Esta foi uma medida de tempo de atividade: 99,95% de tempo de atividade medido em uma janela mensal, definida para determinados serviços e métodos ● O que medir e como medir ○ O que medir ■ Especificamos um ponto de extremidade de serviço que poderíamos chamar para testar se o serviço estava funcionando conforme o esperado ○ Como medir ■ Queríamos um testador que chamasse a página de status periodicamente. Queríamos que o testador estivesse localizado completamente fora e independente de nosso ambiente para que pudéssemos testar todos os nossos componentes, incluindo nossa pilha de Load Balance ● Como calcular SLOs a partir de dados de monitoramento ○ Documentamos cuidadosamente como calculamos o SLO a partir dos dados brutos que recebemos do Pingdom ○ Nossos cálculos de SLO trataram a manutenção como um tempo de inatividade.
  • 15. ● Depois de definir nossos SLOs, tínhamos que fazer algo com eles. Queríamos que os SLOs gerassem mudanças de software e operações que deixassem nossos clientes mais felizes e os mantivessem felizes. Qual a melhor forma de fazer isso? Usamos o conceito de orçamento de SLO / erro como um método para alocar recursos no futuro. Por exemplo, se perdemos o SLO do mês passado, esse comportamento nos ajuda a priorizar as correções, melhorias e correções de bugs relevantes. Nós mantemos as coisas simples: as equipes do Evernote e do Google conduzem uma análise mensal do desempenho do SLO
  • 16.
  • 17.
  • 18.
  • 19. : ● Quão confiável é o seu serviço? É construído para três 9s, três e meio 9s ou quatro 9s (ou melhor)? Há um tempo de inatividade planejado? ● Que tipo de latência posso esperar nos limites superiores? ● Você pode lidar com o volume de solicitações que vou enviar? Como você lida com a sobrecarga? Seu serviço atingiu seus SLOs ao longo do tempo?
  • 20.
  • 21. ● ○ Evangelização Linguagem comum Automação Incentivo Estabelecer uma linguagem comum foi fundamental para colocar todos na mesma página. Também queríamos manter essa estrutura o mais simples possível para ajudar a espalhar a ideia mais rapidamente. Para começar, demos uma olhada crítica nas métricas que monitoramos em nossos vários serviços e descobrimos alguns padrões. Cada serviço monitorava alguma forma de seu volume de tráfego , latência , erros e utilização - métricas que mapeiam de perto os Quatro Sinais Dourados do Google SRE . Além disso, muitos serviços monitoravam o tempo de atividade ou a disponibilidade de maneira distinta dos erros. Infelizmente, em geral, todas as categorias de métricas eram monitoradas de maneira inconsistente, tinham nomes diferentes ou tinham dados insuficientes.
  • 28. ● ● ● ● Como os desenvolvedores agora eram responsáveis pela operação de seu software, eles precisavam estabelecer SLOs para demonstrar sua capacidade de criar e oferecer suporte a software confiável
  • 29. ● ● ● ● Logo todos na empresa conheciam a VALET, e nossa nova cultura de SLOs começou a se estabelecer.