SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

•

0 gostou•280 visualizações

Nessa palestra falamos sobre a cultura devops e como desenvolvimento e operações evoluíram para um modelo mais moderno e equilibrado.

Tecnologia

Site Reliability Engineering
Como desenvolvimento e operações evoluíram para um
modelo mais moderno e equilibrado

- Desenvolvimento: Toda atividade relacionada a desenvolver novas features,
corrigir bugs e reduzir o débito técnico
- Operações: Atividades voltadas à manutenção e configuração de servidores e
infraestrutura
- Deploy: Ação de publicar novas versões de um determinado software
Glossário

Devs
Objetivos: Desenvolver e publicar software, com
alterações e novas features
Antes de tudo, como era antes?
Sysadmins:
Objetivos: Manter os sistemas estáveis e
funcionais

Surgem os conﬂitos de interesse
Times disfuncionais e custos
diretos e indiretos
Toda nova publicação
pode potencialmente
quebrar os sistemas
rodando
Demoras e restrições
para publicar novas
features e correções de
bug geram o custo de
oportunidade
+

Cultura
Devops
Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do
ciclo de desenvolvimento e promover entrega contínua

Desenvolvimento
Integração contínua (CI)
Testes automatizados
Entrega Contínua (CD)
Configuração
Monitoramento
Práticas DevOps

SRE
Conceito introduzido pelo Google com diversas práticas e conceitos visando a
confiabilidade de sistemas.

Sistemas instáveis degradam a
confiança do usuário e trazem
diversos prejuízos.
Gerenciando o
risco e
melhorando a
estabilidade

Nem sempre um sistema estável ao
extremo é a melhor solução
Custos e riscos de
uma alta
disponibilidade

Custo de recursos redundantes
Para termos uma disponibilidade alta, uma das estratégias mais comuns é a
redundância de recursos, onde disponibilizamos a mesma aplicação em vários
servidores diferentes

Custo de oportunidade
Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas
features e produtos

SLIs, SLOs e SLAs
SLI (Service level indicator): qualquer tipo de
métrica relacionada com a disponibilidade, como
latência, throughput e quantidade de erros.
SLO (Service level objective): é o alvo desejado
para os SLIs definidos, geralmente usado
internamente.
SLA (Service level agreement): Um acordo,
geralmente formalizado por contratos e com
obrigações legais vinculadas.
Exemplo:
SLI: Latência dos requests
SLO: Deve ser menor que 300 milissegundos, para
uso interno do time
SLA: Deve ser menor que 500 milissegundos, com
consequências atreladas (multas ou outras
implicações legais)

O que é uma disponibilidade desejável?
Existem vários fatores a se considerar, como:
- Criticidade do serviço
- Riscos envolvidos nas falhas sistêmicas
- Esse serviço é ligado diretamente à receita da empresa?
- Existem competidores no mercado? Qual a disponibilidade que eles oferecem?

Um exemplo real: app engine do google cloud

Error budgets
Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo
como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex:
- Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre.
- Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase
passando os objetivos, então devemos trabalhar mais em estabilidade
Novas features Estabilidade

Metriﬁcando quantidade de erros por semana

Mas e o cargo de SRE/Devops?
- Geralmente as pessoas nesse papel irão
cuidar da estrutura e auxiliar diversos times
com automações, ferramentas de
observabilidade e entrega contínua por conta
do background mais especializado
- Importante lembrar que gerir a
confiabilidade dos sistemas é dever de todos.
Isso evita aquela separação entre
desenvolvimento e operações mencionada
anteriormente.

“Hope is not a
strategy.”
- Traditional SRE saying

Obrigado!
Dúvidas, sugestões?
Referências e livros completos:
https://sre.google/books/

Mais conteúdo relacionado

Mais procurados

Cncf checkov and bridgecrewLibbySchulze

DevOps, Common use cases, Architectures, Best PracticesShiva Narayanaswamy

How Small Team Get Ready for SRE (public version)Setyo Legowo

SRE and GitOps for Building Robust Kubernetes Platforms.pdfWeaveworks

SRE in StartupLadislav Prskavec

DevOps Implementation RoadmapSofiaCarter4

The Next Wave of Reliability EngineeringMichael Kehoe

DevOps vs. Site Reliability Engineering (SRE) in Age of KubernetesDevOps.com

Kubernetes 101 - A Cluster Operating Systemmikaelbarbero

Kubernetes Installation on Ubuntu | EdurekaEdureka!

Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...ITSM Academy, Inc.

Bjorn Rabenstein. SRE, DevOps, Google, and youIT Arena

Docker & kubernetesNexThoughts Technologies

Flusso Continuous Integration & Continuous DeliveryJoost van der Griendt

SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...New Relic

Cloud Managed ServicesJade Global

Cloud Native Apps with GitOps Weaveworks

SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...Tori Wieldt

SRE Demystified - 01 - SLO SLI and SLADr Ganesh Iyer

Keep CALMS and DevSecOps Luciano Moreira da Cruz

Mais procurados (20)

Cncf checkov and bridgecrew

DevOps, Common use cases, Architectures, Best Practices

How Small Team Get Ready for SRE (public version)

SRE and GitOps for Building Robust Kubernetes Platforms.pdf

SRE in Startup

DevOps Implementation Roadmap

The Next Wave of Reliability Engineering

DevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes

Kubernetes 101 - A Cluster Operating System

Kubernetes Installation on Ubuntu | Edureka

Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...

Bjorn Rabenstein. SRE, DevOps, Google, and you

Docker & kubernetes

Flusso Continuous Integration & Continuous Delivery

SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...

Cloud Managed Services

Cloud Native Apps with GitOps

SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...

SRE Demystified - 01 - SLO SLI and SLA

Keep CALMS and DevSecOps

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

SRE - Esperança não é uma estratégiaLeandro Silva

GCS - Aula 09 - GCS ÁgilMisael Santos

Workshop soa, microservices e devopsDiego Pacheco

Phprs meetup - deploys automatizados com gitlabJackson F. de A. Mafra

Introdução Qualidade de SoftwareWellington Oliveira

Rejuvenescimento SoftwareMarcus Oliveira

Impacto do DevOps nos negóciosRamon Durães

Como Trazer o Legado para SOADavi Silva

Real World S O APaulo Traça

A Arte dos Testes de Performance AplicacionalNuno Baptista Rodrigues

Projeto de Migração de Plataforma - Reunião de Andamentoramonazevedo

Qualidade de softwareRodrigo Oliveira, Msc, PMP

Gerenciamento de contratos sem planilhas e com baixo investimentocomercial-suse

Saa s software como serviço (slides)Daniela Nunes

Tees FinalMarcus Oliveira

Resumo capítulo 1 livro Engenharia de Software ModernaLucasBastos305659

DevOps e App InsightsGuilherme Cardoso

Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)André Dias

Best2bee Business ModelMiguel Vilaca

Software na medida certa: desmistificando pontos de função - apresentado no I...Fatto Consultoria e Sistemas

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas (20)

SRE - Esperança não é uma estratégia

GCS - Aula 09 - GCS Ágil

Workshop soa, microservices e devops

Phprs meetup - deploys automatizados com gitlab

Introdução Qualidade de Software

Rejuvenescimento Software

Impacto do DevOps nos negócios

Como Trazer o Legado para SOA

Real World S O A

A Arte dos Testes de Performance Aplicacional

Projeto de Migração de Plataforma - Reunião de Andamento

Qualidade de software

Gerenciamento de contratos sem planilhas e com baixo investimento

Saa s software como serviço (slides)

Tees Final

Resumo capítulo 1 livro Engenharia de Software Moderna

DevOps e App Insights

Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)

Best2bee Business Model

Software na medida certa: desmistificando pontos de função - apresentado no I...

SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

1. Site Reliability Engineering Como desenvolvimento e operações evoluíram para um modelo mais moderno e equilibrado

2. - Desenvolvimento: Toda atividade relacionada a desenvolver novas features, corrigir bugs e reduzir o débito técnico - Operações: Atividades voltadas à manutenção e configuração de servidores e infraestrutura - Deploy: Ação de publicar novas versões de um determinado software Glossário

3. Devs Objetivos: Desenvolver e publicar software, com alterações e novas features Antes de tudo, como era antes? Sysadmins: Objetivos: Manter os sistemas estáveis e funcionais

4. Surgem os conﬂitos de interesse Times disfuncionais e custos diretos e indiretos Toda nova publicação pode potencialmente quebrar os sistemas rodando Demoras e restrições para publicar novas features e correções de bug geram o custo de oportunidade +

6. Cultura Devops Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do ciclo de desenvolvimento e promover entrega contínua

7. Desenvolvimento Integração contínua (CI) Testes automatizados Entrega Contínua (CD) Configuração Monitoramento Práticas DevOps

8. SRE Conceito introduzido pelo Google com diversas práticas e conceitos visando a confiabilidade de sistemas.

9. Sistemas instáveis degradam a confiança do usuário e trazem diversos prejuízos. Gerenciando o risco e melhorando a estabilidade

10. Nem sempre um sistema estável ao extremo é a melhor solução Custos e riscos de uma alta disponibilidade

11. Custo de recursos redundantes Para termos uma disponibilidade alta, uma das estratégias mais comuns é a redundância de recursos, onde disponibilizamos a mesma aplicação em vários servidores diferentes

12. Custo de oportunidade Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas features e produtos

13. SLIs, SLOs e SLAs SLI (Service level indicator): qualquer tipo de métrica relacionada com a disponibilidade, como latência, throughput e quantidade de erros. SLO (Service level objective): é o alvo desejado para os SLIs definidos, geralmente usado internamente. SLA (Service level agreement): Um acordo, geralmente formalizado por contratos e com obrigações legais vinculadas. Exemplo: SLI: Latência dos requests SLO: Deve ser menor que 300 milissegundos, para uso interno do time SLA: Deve ser menor que 500 milissegundos, com consequências atreladas (multas ou outras implicações legais)

14. O que é uma disponibilidade desejável? Existem vários fatores a se considerar, como: - Criticidade do serviço - Riscos envolvidos nas falhas sistêmicas - Esse serviço é ligado diretamente à receita da empresa? - Existem competidores no mercado? Qual a disponibilidade que eles oferecem?

15. O que é uma disponibilidade desejável?

16. O que é uma disponibilidade desejável?

17. Um exemplo real: app engine do google cloud

18. Error budgets Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex: - Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre. - Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase passando os objetivos, então devemos trabalhar mais em estabilidade Novas features Estabilidade

19. Metriﬁcando quantidade de erros por semana

20. Metriﬁcando tempos de resposta

21. Mas e o cargo de SRE/Devops? - Geralmente as pessoas nesse papel irão cuidar da estrutura e auxiliar diversos times com automações, ferramentas de observabilidade e entrega contínua por conta do background mais especializado - Importante lembrar que gerir a confiabilidade dos sistemas é dever de todos. Isso evita aquela separação entre desenvolvimento e operações mencionada anteriormente.

22. “Hope is not a strategy.” - Traditional SRE saying

23. Obrigado! Dúvidas, sugestões? Referências e livros completos: https://sre.google/books/

SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas (20)

SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas