O documento introduz o conceito de Site Reliability Engineering (SRE) e fornece diretrizes para equipes implementarem práticas SRE para melhorar a confiabilidade dos sistemas em produção, como definir orçamentos de erro e níveis de serviço.
An overview of Google's Site Reliability Engineering with a view toward possible incorporation in the IEEE P2675 DevOps security standard. (Creative Commons with credit.)
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...Tori Wieldt
How do you make DevOps magic when you aren’t Google? This talk will help whether you’re still figuring out how to create a site reliability practice at your company or you’re trying to improve the processes and habits of an existing SRE team.
Overview of Site Reliability Engineering (SRE) & best practicesAshutosh Agarwal
In any software organization, stability & innovation are always at loggerheads - the faster you move, the more things will break. This talk defines what SRE org looks like at high-tech organizations (Google, Uber).
An overview of Google's Site Reliability Engineering with a view toward possible incorporation in the IEEE P2675 DevOps security standard. (Creative Commons with credit.)
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...Tori Wieldt
How do you make DevOps magic when you aren’t Google? This talk will help whether you’re still figuring out how to create a site reliability practice at your company or you’re trying to improve the processes and habits of an existing SRE team.
Overview of Site Reliability Engineering (SRE) & best practicesAshutosh Agarwal
In any software organization, stability & innovation are always at loggerheads - the faster you move, the more things will break. This talk defines what SRE org looks like at high-tech organizations (Google, Uber).
How to bootstrap an SRE team into your company. How to hire them, what to have them work on and how to interact with them as a team. Finally some thought on general practices to consider before your SREs arrive. There are also kitten pictures.
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Pery Lemke
SRE (Site Reliability Engineer) é um mindset mais antigo que DevOps, porém somente agora vem se tornando popular, mas você sabe o que é?
Criada originalmente pelo Google e aplicado em diversas empresas no mundo, SRE é uma função e uma cultura que está tornando ainda mais dinâmica a área de (Infraestrutura|Operações) de TI.
Esta talk visa mostrar o impacto do SRE na geração de valor das empresas em que o mesmo está sendo aplicado.
Getting started with Site Reliability Engineering (SRE)Abeer R
"Getting started with Site Reliability Engineering (SRE): A guide to improving systems reliability at production"
This is an intro guide to share some of the common concepts of SRE to a non-technical audience. We will look at both technical and organizational changes that should be adopted to increase operational efficiency, ultimately benefiting for global optimizations - such as minimize downtime, improve systems architecture & infrastructure:
- improving incident response
- Defining error budgets
- Better monitoring of systems
- Getting the best out of systems alerting
- Eliminating manual, repetitive actions (toils) by automation
- Designing better on-call shifts/rotations
How to design the role of the Site Reliability Engineer (who effectively works between application development teams and operations support teams)
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...ITSM Academy, Inc.
Presenter: Perry Statham
SRE Squad Leader with IBM Cloud DevOps Services
In this presentation, the IBM DevOps Services SRE team will give a brief introduction to Site Reliability Engineering, then show how they adopted its principals in their existing enterprise organization.
Site Reliability Engineering (SRE) - Tech Talk by Keet SugathadasaKeet Sugathadasa
When it comes to Site Reliability Engineering, short for SRE, the resources available online are only limited to the books published by Google themselves. They do share some useful case studies that will help us understand what SRE is, and how to understand the concepts given in it, but they do not clearly explain how to build your own SRE team for your organization. The concept of SRE was cooked fresh within the walls of Google and later released to the general public as a practice for anyone to follow.
In this presentation I would like to give a brief introduction to SRE and why it is important to any Software Engineering organization. This is based on my experiences and learnings from leading a Site Reliability Engineering team for leading organizations in the US and Norway.
This presentation was conducted by me as a Tech Talk as an Associate Technical Lead at Creative Software Sri Lanka.
Service Level Terminology : SLA ,SLO & SLIKnoldus Inc.
Measuring outcomes is always at the top of our mind when approaching goals. While we do have specific targets we may be aiming for, circling back to confirm that the resulting outcome is in fact what you were after is extremely important. Small course corrections are required. Outcomes may be more general but often attract the attention and support of decision-makers earlier.
Key measurements and thresholds to hold us accountable for our efforts as well as communicate expectations across the entire organization needed to be established. Nearly every resource you find regarding site reliability engineering will talk about key metrics used to establish high-level objectives, indicators of the movement toward or away from those objectives, and ultimately what agreements are in place should objectives be unfulfilled.
SLIs will help us know how we are performing against our SLOs and our SLA will outline the consequences (good or bad) of meeting those objectives. Once we have data to observe, we will begin orienting ourselves to it and establish what we believe our SLIs and SLOs to be.
Here’s an outline of the webinar -
~ Learn what an SRE is and isn't.
~ Understand the difference between service-level indicators (SLI), service-level objectives (SLO), and service-level agreements (SLA).
~ Gain an understanding of error budgets and how to calculate reliability cost.
~ Learn how SREs can embed themselves within development teams to increase operational stability
Independently from the DevOps movement but starting from the same problems, Google developed its own strategy defining a new specific role called SRE (Site Reliability Engineer). This introduction tries to explain the history and the concept of this methodology and to compare it with the DevOps manifesto to understand what does it mean to adopt DevOps and what does it mean to be an SRE and what the two things are sharing and where they diverge.
What is DevOps?
Why DevOps?
How DevOps works?
DevOps impacts in testing.
Continuous Delivery.
Continuous Integration.
Continuous Testing and Automated Deployment.
DevOps, sibling of Agile is born of the need to improve IT service delivery agility to the more stable environment.
DevOps movement emphasizes tearing the boundaries between makers (Development) & caretakers (Operations) of IT services/products.
SRE (service reliability engineer) on big DevOps platform running on the clou...DevClub_lv
SRE (service reliability engineer). The talk is to explain the SRE philosophy and the principles of production engineering and operations in clouds.
(Language – English)
Pavlo is ADOP (Accenture DevOps Platform) Service Reliability Team Lead, SRE practitioner. Has more then 18 years of IT experience in Ops and Dev.
According to Google, SRE is what you get when you treat operations as if it’s a software problem. In this video, I briefly explain the term SRE (Site Reliability Engineering) and introduce key metrics for an SRE team SLI, SLO, and SLA.
Youtube Channel here: https://www.youtube.com/playlist?list=PLm_COkBtXzFq5uxmamT0tqXo-aKftLC1U
Site Reliability Engineer (SRE), We Keep The Lights On 24/7NUS-ISS
There are many phases in the software development cycle, from requirements to development and testing, but at the tail of the process, is an often overlooked aspect: deployment and delivery. With the paradigm shift of delivering on-site software to offering software-as-a-service, Site Reliability Engineering is beginning to take a greater role in product delivery.
This session aims to give a glimpse of the work that goes into site reliability engineering (SRE) and effort that goes into keeping a service going 24/7.
How Google works and how can you benefit from it? Test drive now a complete Microservices application with Istio, gRPC, Redis, BigQuery, Spring Boot, Spring Cloud and Stackdriver on Google Cloud Platform: https://git.io/fhzCx
<p>From <a href="https://en.wikipedia.org/wiki/Site_reliability_engineering" target="_blank">Wikipedia</a>: Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.<p>
<p>Over the past year Acquia has built their own SRE team to help their products and services scale with the demand of our growing number of customers. We wish to share our experience so that others are enabled to do the same and reap the rewards.</p>
<p>This presentation will discuss how the SRE team came about at Acquia, what achievements we have made so far, and the lessons we have learned along the way. We will then show the steps on how to introduce SRE to your workplace so you can deliver more reliable and scalable services to your customers! We will specifically cover:</p>
<ul>
<li>SRE's basic concepts and history from Google</li>
<li>The management support you will need to get started</li>
<li>Introducing the idea of service level objectives and error budgets</li>
<li>Operational Responsibility Assessments as a tool to measure risk</li>
<li>Creating a Launch Readiness Checklist to standardize and improve product launches</li>
<li>Finding ideal candidates for your SRE team</li></ul>
<p>The intended audience are software engineers, system administrators, and managers that have a desire to improve how they do their work and how their products/services perform.</p>
Venha aprender com nossos arquitetos de soluções e engenheiros de suporte sobre a experiênia deles ajudando os maiores e mais complexos clientes AWS na arquitetura, operação e monitoração de seus sistemas. Vamos apresentar os frameworks Well Architected e o COR, e como eles podem ajudar os clientes a conhecer, utilizar e disseminar boas práticas, além de fornecer um processo estruturado e contínuo de avaliação e evolução da arquitetura de seus sistemas.
https://aws.amazon.com/pt/architecture/well-architected/
How to bootstrap an SRE team into your company. How to hire them, what to have them work on and how to interact with them as a team. Finally some thought on general practices to consider before your SREs arrive. There are also kitten pictures.
Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Opera...Pery Lemke
SRE (Site Reliability Engineer) é um mindset mais antigo que DevOps, porém somente agora vem se tornando popular, mas você sabe o que é?
Criada originalmente pelo Google e aplicado em diversas empresas no mundo, SRE é uma função e uma cultura que está tornando ainda mais dinâmica a área de (Infraestrutura|Operações) de TI.
Esta talk visa mostrar o impacto do SRE na geração de valor das empresas em que o mesmo está sendo aplicado.
Getting started with Site Reliability Engineering (SRE)Abeer R
"Getting started with Site Reliability Engineering (SRE): A guide to improving systems reliability at production"
This is an intro guide to share some of the common concepts of SRE to a non-technical audience. We will look at both technical and organizational changes that should be adopted to increase operational efficiency, ultimately benefiting for global optimizations - such as minimize downtime, improve systems architecture & infrastructure:
- improving incident response
- Defining error budgets
- Better monitoring of systems
- Getting the best out of systems alerting
- Eliminating manual, repetitive actions (toils) by automation
- Designing better on-call shifts/rotations
How to design the role of the Site Reliability Engineer (who effectively works between application development teams and operations support teams)
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...ITSM Academy, Inc.
Presenter: Perry Statham
SRE Squad Leader with IBM Cloud DevOps Services
In this presentation, the IBM DevOps Services SRE team will give a brief introduction to Site Reliability Engineering, then show how they adopted its principals in their existing enterprise organization.
Site Reliability Engineering (SRE) - Tech Talk by Keet SugathadasaKeet Sugathadasa
When it comes to Site Reliability Engineering, short for SRE, the resources available online are only limited to the books published by Google themselves. They do share some useful case studies that will help us understand what SRE is, and how to understand the concepts given in it, but they do not clearly explain how to build your own SRE team for your organization. The concept of SRE was cooked fresh within the walls of Google and later released to the general public as a practice for anyone to follow.
In this presentation I would like to give a brief introduction to SRE and why it is important to any Software Engineering organization. This is based on my experiences and learnings from leading a Site Reliability Engineering team for leading organizations in the US and Norway.
This presentation was conducted by me as a Tech Talk as an Associate Technical Lead at Creative Software Sri Lanka.
Service Level Terminology : SLA ,SLO & SLIKnoldus Inc.
Measuring outcomes is always at the top of our mind when approaching goals. While we do have specific targets we may be aiming for, circling back to confirm that the resulting outcome is in fact what you were after is extremely important. Small course corrections are required. Outcomes may be more general but often attract the attention and support of decision-makers earlier.
Key measurements and thresholds to hold us accountable for our efforts as well as communicate expectations across the entire organization needed to be established. Nearly every resource you find regarding site reliability engineering will talk about key metrics used to establish high-level objectives, indicators of the movement toward or away from those objectives, and ultimately what agreements are in place should objectives be unfulfilled.
SLIs will help us know how we are performing against our SLOs and our SLA will outline the consequences (good or bad) of meeting those objectives. Once we have data to observe, we will begin orienting ourselves to it and establish what we believe our SLIs and SLOs to be.
Here’s an outline of the webinar -
~ Learn what an SRE is and isn't.
~ Understand the difference between service-level indicators (SLI), service-level objectives (SLO), and service-level agreements (SLA).
~ Gain an understanding of error budgets and how to calculate reliability cost.
~ Learn how SREs can embed themselves within development teams to increase operational stability
Independently from the DevOps movement but starting from the same problems, Google developed its own strategy defining a new specific role called SRE (Site Reliability Engineer). This introduction tries to explain the history and the concept of this methodology and to compare it with the DevOps manifesto to understand what does it mean to adopt DevOps and what does it mean to be an SRE and what the two things are sharing and where they diverge.
What is DevOps?
Why DevOps?
How DevOps works?
DevOps impacts in testing.
Continuous Delivery.
Continuous Integration.
Continuous Testing and Automated Deployment.
DevOps, sibling of Agile is born of the need to improve IT service delivery agility to the more stable environment.
DevOps movement emphasizes tearing the boundaries between makers (Development) & caretakers (Operations) of IT services/products.
SRE (service reliability engineer) on big DevOps platform running on the clou...DevClub_lv
SRE (service reliability engineer). The talk is to explain the SRE philosophy and the principles of production engineering and operations in clouds.
(Language – English)
Pavlo is ADOP (Accenture DevOps Platform) Service Reliability Team Lead, SRE practitioner. Has more then 18 years of IT experience in Ops and Dev.
According to Google, SRE is what you get when you treat operations as if it’s a software problem. In this video, I briefly explain the term SRE (Site Reliability Engineering) and introduce key metrics for an SRE team SLI, SLO, and SLA.
Youtube Channel here: https://www.youtube.com/playlist?list=PLm_COkBtXzFq5uxmamT0tqXo-aKftLC1U
Site Reliability Engineer (SRE), We Keep The Lights On 24/7NUS-ISS
There are many phases in the software development cycle, from requirements to development and testing, but at the tail of the process, is an often overlooked aspect: deployment and delivery. With the paradigm shift of delivering on-site software to offering software-as-a-service, Site Reliability Engineering is beginning to take a greater role in product delivery.
This session aims to give a glimpse of the work that goes into site reliability engineering (SRE) and effort that goes into keeping a service going 24/7.
How Google works and how can you benefit from it? Test drive now a complete Microservices application with Istio, gRPC, Redis, BigQuery, Spring Boot, Spring Cloud and Stackdriver on Google Cloud Platform: https://git.io/fhzCx
<p>From <a href="https://en.wikipedia.org/wiki/Site_reliability_engineering" target="_blank">Wikipedia</a>: Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.<p>
<p>Over the past year Acquia has built their own SRE team to help their products and services scale with the demand of our growing number of customers. We wish to share our experience so that others are enabled to do the same and reap the rewards.</p>
<p>This presentation will discuss how the SRE team came about at Acquia, what achievements we have made so far, and the lessons we have learned along the way. We will then show the steps on how to introduce SRE to your workplace so you can deliver more reliable and scalable services to your customers! We will specifically cover:</p>
<ul>
<li>SRE's basic concepts and history from Google</li>
<li>The management support you will need to get started</li>
<li>Introducing the idea of service level objectives and error budgets</li>
<li>Operational Responsibility Assessments as a tool to measure risk</li>
<li>Creating a Launch Readiness Checklist to standardize and improve product launches</li>
<li>Finding ideal candidates for your SRE team</li></ul>
<p>The intended audience are software engineers, system administrators, and managers that have a desire to improve how they do their work and how their products/services perform.</p>
Venha aprender com nossos arquitetos de soluções e engenheiros de suporte sobre a experiênia deles ajudando os maiores e mais complexos clientes AWS na arquitetura, operação e monitoração de seus sistemas. Vamos apresentar os frameworks Well Architected e o COR, e como eles podem ajudar os clientes a conhecer, utilizar e disseminar boas práticas, além de fornecer um processo estruturado e contínuo de avaliação e evolução da arquitetura de seus sistemas.
https://aws.amazon.com/pt/architecture/well-architected/
[Café com BPM - Setor Privado] Como implantar transformações organizacionais ...EloGroup
O evento, realizado pela EloGroup e direcionado a profissionais de gestão e tecnologia, teve como objetivo discutir novas ideias, métodos e experiências que repensem como transformar uma organização e apresentar casos práticos de implementação em organizações públicas e privadas.
Gerenciamento do ciclo de vida de software com o Visual Studio Team System.
Apresentação baseada em material oficial da Microsoft para apresentação da ferramenta na empresa que trabalho. Adicionei algumas possibilidades como o template do SCRUM da Conchando e a integração das Team Builds com o Final Builder.
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AW...Amazon Web Services LATAM
Jornada para a Nuvem: Como planejar e executar sua migração com a ajuda do AWS Cloud Adoption Framework (CAF) - AWS Cloud Experience - Começando na AWS
O Visual Studio Summit 2015 reuniu desenvolvedores de software de todo o Brasil e o MVP Ramon Durães iniciou o evento com a palestra "Impacto do DevOps nos negócios" discutindo a importância da agilidade, qualidade e segurança no desenvolvimento de software para atender o consumidor 5.0
É essencial que o seu programa de Nuvem comece da melhor forma possível e entregue valor para o negócio rapidamente, pois é uma iniciativa de grande visibilidade na companhia. Nesta sessão, falaremos sobre as capacidades e atividades necessárias para executar aplicações corporativas em produção nos seus primeiros 90 dias de AWS.
https://aws.amazon.com/pt/enterprise/
DevOps em grandes empresas - Mito ou Realidade?Igor Abade
Não é por acaso que o tema DevOps continua em alta nas empresas, mesmo não sendo exatamente um assunto novo. As promessas de DevOps - aumento na velocidade das entregas de TI sem perda de qualidade, através de uma melhor interação entre os diversos times envolvidos - parece um sonho difícil de atingir, principalmente em empresas mais "tradicionais". Será que DevOps é algo reservado apenas a startups e seus "squads"? Venha discutir nesta palestra quais são os desafios para se adotar práticas de DevOps em empresas de grande porte
Já ouviu falar de "serverless computing"? Sabe o que é e, principalmente, como usar serverless computing no Azure? Veja nesta palestra como vários dos mais novos serviços do Azure - como Azure Functions e Azure Logic Apps - permitem extrair o máximo do ambiente de computação na nuvem da Microsoft.
Chega de receita de bolo: gerenciando infraestrutura como códigoIgor Abade
Cansado de criar manuais de implantação (as famosas "receitas de bolo") que ninguém lê nem mantém atualizados? Que tal criar documentos "executáveis", que não apenas descrevem mas também CRIAM sua infraestrutura? Venha ver nesta palesta tecnologias como Chef, PowerShell DSC e Azure ARM Templates que ajudam com a tão falada "Infraestrutura como Código" no ambiente Windows.
Atualmente o Azure tem uma grande variedade de opções para a hospedagem e execução de microsserviços - desde o bom e velho Azure App Service até os mais novos Azure Functions e Azure Container Services. Mas você sabe qual usar?
Venha ver nesta palestra qual a diferença entre cada um dos modelos de hospedagem de microsserviços .NET na plataforma Azure, e dicas de como escolher o melhor para a sua necessidade.
O Habitat (www.habitat.sh) é um novo projeto de código aberto do Chef que define a configuração, o gerenciamento e o comportamento do aplicativo em torno do próprio aplicativo, e não da infraestrutura em que o aplicativo é executado. Isso permite que o Habitat seja implantado e executado em vários ambientes de infra-estrutura, como direto no computador, VM, containers e PaaS. Veja nesta palestra como o Habitat ajuda a resolver muitos problemas de gestão de aplicativos que containers, por si só, não resolvem.
Acelere - e melhore! - o feedback com testes automatizados rápidos - igor abadeIgor Abade
Muita gente acredita que automação de testes é um Santo Graal e que Selenium é a resposta a todos os problemas de qualidade em aplicações Web. Mas se seus testes forem lentos e frágeis, de que eles servem? Venha ver como usar ferramentas como PhantomJS e Web Performance Tests para acelerar e simplificar a execução de testes automatizados de apps Web
Provisionando ambientes de Dev e Teste com Azure DevTest Labs e VSTSIgor Abade
Devs e testers adorariam ter autonomia para provisionar seus próprios ambientes. Já o time de infraestrutura não considera nem sequer conversar a respeito, já que isso normalmente tem diversas implicações práticas. Venha ver como a Azure DevTest Labs (Azure DTL) simplifica o reuso e a definição de políticas, cotas e limites de uso, a fim de permitir que desenvolvedores possam criar suas VMs sem que isso cause um rombo no orçamento da área no fim do mês.
Testes Exploratórios não são sinônimo de bagunça! (TDC 2016 POA)Igor Abade
Para muita gente teste exploratório é sinônimo de algo sem processo nem organização – apenas um pretexto para sair navegando pela aplicação e tentar achar algum erro. Nada mais longe da verdade! Venha ver nesta palestra como um simples plugin no Chrome pode ajudar a organizar seu processo de testes exploratórios, ajudando na coleta e registro de evidências.
Gestão de ciclo de vida de Banco de Dados: Já passou da hora! (TDC POA 2016)Igor Abade
Apesar de todos os avanços que DevOps tem trazido para o mundo do desenvolvimento de sistemas, bancos de dados (em especial os RDBMS) têm ficado para trás. Ainda que haja ferramentas disponíveis para controle de versão e automação, poucas são as empresas que as usam. Venha conhecer algumas dessas ferramentas e estratégias que pode ajudar na gestão do ciclo de vida de seu banco de dados.
Acelere - e melhore! - o feedback com testes automatizados rápidosIgor Abade
Muita gente acredita que automação de testes é um Santo Graal e que Selenium é a resposta a todos os problemas de qualidade em aplicações Web. Mas se seus testes forem lentos e frágeis, de que eles servem? Venha ver como usar ferramentas como PhantomJS e Web Performance Tests para acelerar e simplificar a execução de testes automatizados de apps Web.
Testes exploratórios não são sinônimo de bagunça! (TDC 2016 SP)Igor Abade
Para muita gente teste exploratório é sinônimo de algo sem processo nem organização – apenas um pretexto para sair navegando pela aplicação e tentar achar algum erro. Nada mais longe da verdade! Venha ver nesta palestra como um simples plugin no Chrome pode ajudar a organizar seu processo de testes exploratórios, ajudando na coleta e registro de evidências.
Suporte a macros na sua aplicação com PowerShellIgor Abade
Já pensou em oferecer suporte a macros na sua aplicação, como fazem as aplicações do Microsoft Office? Ou permitir que seu usuário customize seu ERP usando… PowerShell? Venha aprender nesta palestra como embarcar o PowerShell *dentro* de sua aplicação para usá-lo como linguagem de macro.
Smoke tests, deployment e rollback automatizados (Mobile & Cloud Hack Days 2016)Igor Abade
Já pensou se você pudesse ter um processo de deployment 100% automatizado, onde a validação do ambiente – e até mesmo a decisão de rollback – pudessem ocorrer de forma automática? Nesta palestra vamos mostrar como devs e IT Pros podem trabalhar juntos para montar um pipeline automatizado de deployment, com foco no processo de smoke tests e de promoção/rollback automáticos.
Smoke tests, deployment e rollback automatizados (DevOps Summit Brasil 2016)Igor Abade
Já pensou se você pudesse ter um processo de deployment 100% automatizado, onde a validação do ambiente - e até mesmo a decisão de rollback - pudessem ocorrer de forma automática?
Nesta palestra vamos mostrar como devs e IT Pros podem trabalhar juntos para montar um pipeline automatizado de deployment, com foco no processo de smoke tests e de promoção/rollback automáticos.
Além do pen-drive: empacotando seu software para distribuição e implantação (...Igor Abade
Até mesmo os melhores softwares podem sofrer de um problema crônico: seu "processo de deployment" consiste simplesmente em copiar alguns arquivos num pen-drive e mandar para o "pessoal de infra". Venha conhecer técnicas mais robustas para distribuição de binários em .NET, desde WiX e MSI a Web Deploy e Release Management, passando por ClickOnce e Chocolatey!
Aprenda mais sobre sua aplicação e seus usuários com Application Insights (DN...Igor Abade
Desenvolver aplicações está cada vez mais difícil, em especial com a proliferação de dispositivos móveis e web sites. Você sabe quando sua aplicação deu erro? Ou quais recursos seu usuário acessa? E o desempenho em produção, está adequado? Venha conhecer o Application Insights, serviço da Microsoft que permite a captura de 'telemetria' de sua aplicação - na nuvem ou on-premises - para que você saiba exatamente o que acontece com seus sistemas em produção
Muito além das startups: Build-Measure-Learn em sistemas corporativos
Introdução à SRE (.Net Vale Tech Saturday - DevSecOps)
1. Introdução à SRE
Um guia para melhorar a confiabilidade das aplicações em
produção
Igor Abade V. Leite | @igorabade
• Microsoft Regional Director
• CEO, CloudMotion (www.cloudmotion.com.br)
2. Ciclo de vida típico de um
software
Ideia Negócio Desenvolvimento Operações Clientes
3. Lembrando que…
... O objetivo não é apenas implantar o software, mas também garantir que
seja mantido adequadamente, uma vez em produção
Quanto tempo leva para um incidente chegar à equipe certa?
Dá para ser minutos, em vez de horas?
Com que frequência o mesmo incidente acontece de novo?
Dá para reduzir a nunca?
4. A confiabilidade é a capacidade
de um sistema ser capaz de
suportar alguns tipos de falha e
ainda permanecer funcional do
ponto de vista do usuário.
5. Site Reliability Engineering…
... é o que acontece quando um engenheiro de software é colocado para
resolver problemas de operações (infraestrutura)
50% de suas
contribuições em problemas de
Engenharia de Sistemas
–
infraestrutura, sistemas operacionais
& rede, bancos de dados
–
disponibilidade, observabilidade,
eficiência e confiabilidade dos serviços
50% de suas
contribuições em problemas de
Engenharia de Software
–
design da aplicação, estruturas de dados,
design de serviços e integrações
–
tarefas de desenvolvimento que contribuam
para a confiablilidade do sistema
6. Objetivos da equipe SRE
Suportar
sistemas em
produção
Contribuir
para trabalho
no projeto
• Abordagem SRE para Operações:
• Trate as operações como um problema de
engenharia de software
• Automatize tarefas normalmente feitas por
administrações de sistema (como implantações)
• Projete arquiteturas de serviço mais confiáveis e
operáveis desde o início; não deixe para depois
Os SREs gastam menos de 50% do seu tempo realizando trabalho operacional para permitir
que eles gastem mais tempo na melhoria da infra-estrutura e automação de tarefas
7. Por que outro papel?
• A evolução dos sistemas requer uma evolução dos
engenheiros de sistemas
• A confiabilidade é geralmente deixada para os arquitetos
projetarem, tipicamente no início de um projeto de produto
• Os requisitos não funcionais não são revisados com tanta
frequência
• A mudança de funcionalidade pode afetar os requisitos de
confiabilidade assumidos anteriormente
• A maioria das paralisações são tipicamente causadas por
mudanças, e uma mentalidade típica de Ops não
necessariamente se prepara para uma solução rápida
• Sistemas “definidos por software”
9. DevOps vs. SRE?
SRE implementa DevOps
Um conjunto de princípios e diretrizes culturais que ajuda
a quebrar os silos entre desenvolvimento e operações
(infra)
• Reduza silos
• Planeje para falhas
• Mudanças em pequenos lotes
• Ferramentas & automação
• Meça tudo
Um conjunto de práticas com ênfase em fortes
capacidades de engenharia que implementa as práticas de
DevOps e define um papel e uma equipe
• Reduza silos compartilhando a propriedade
• Planeje paras falha usando orçamentos de erro
• Mudanças em pequenos lotes com foco na estabilidade
• Ferramentas & automação de tarefas manuais
• Meça tudo monitorando as coisas certas
DevOps SRE
10. Como SRE e DevOps se relacionam
SREs conectam atividades de Operações
com Desenvolvimento
• SRE muitas vezes atuam como
“guardiões da produção”
• Software sem qualidade é rejeitado e
SREs ajudam a evitar potenciais
problemas operacionais
11. Responsabilidade Compartilhada
Equipes de desenvolvimento participam do
suporte a aplicações em produções
• O trabalho do SRE pode fluir para equipes
de desenvolvimento
• 5% do trabalho operacional fica com os
desenvolvedores
• Participa dos plantões (mais comum no
início)
• Coloque o desenvolvedor no plantão assim
que os objetivos de confiabilidade forem
atingidos
13. Implantação de SRE em uma empresa
• Equipes SRE bem-sucedidas
dependem do compromisso de
toda a empresa
• Os valores da empresa devem estar
alinhados com a forma como a SRE
opera
Mandato
organizacional
“Buy-in” da gestão
Responsabilidades
Compartilhadas
14. Modelos de equipes SRE
Equipes Centralizadas de SRE
• Backlog comum com as melhorias de
confiabilidade de toda a organização
• Implementado uniformemente
• SREs são trazidos como parte dos
processos de design, revisão, validação,
go-lives
• Nível limitado de influência dentro da
equipe Exemplo:
Facebook (via Engenharia de Produção)
15. Modelos de equipes SRE
SREs dentro das equipes
• SREs incorporados como membros
das equipes em tempo integral como
parte das equipes de produtos:
• Tratado como um membro da equipe de
produtos
• Contribuição constante com desenho da
confiabilidade e implementação do produto Exemplo:
Google, Bloomberg, Uber
16. Métricas-chave
Tempo médio
para restaurar
o serviço
(MTTR)
Lead time para
implantação /
rollback
Monitoramento
aprimorado
(detectar
problemas mais
cedo)
Estabelecer
orçamentos de
erro (gestão de
risco baseada
em orçamento)
17. Contratação e Onboarding
Competências
• Curiosidade natural por sistemas; foco em automação
• Idealmente, indivíduos multi-qualificados que tenham
experiência em escrever e manter software
• Familiaridade e/ou interesse em arquitetura de sistemas
Perfil
• Sys Admins que estejam dispostos a aprender scripting /
programação; ou
• Desenvolvedores que estejam dispostos a assumir funções
de infraestrutura
• SRE Bootcamps: sessões com insights
sobre a arquitetura do sistema, processo
de entrega de software e operações
• Plantão com membros seniores da SRE
• Participação nas chamadas de resposta a
incidentes
Contratação Onboarding
19. Medindo a confiabilidade
• Fácil de medir através de meios automáticos (por
exemplo, tempo de atividade do servidor)
• Difícil julgar o sucesso para sistemas distribuídos
• Não diz muito sobre a experiência experiência do
usuário
• Mede o valor para usuários reais para os quais o
serviço está funcionando
• Melhor para medir sistemas distribuídos
Disponibilidade =
Uptime real
Uptime previsto
Disponibilidade =
Boas interações
Total interações
20. Orçamento de erro
100% - <meta de disponibilidade> =
Orçamento de “inconfiabilidade”
• Ou o “Orçamento de Erro”
• SRE e Gestão de Produtos definem
conjuntamente uma meta de disponibilidade
• Depois disso, um orçamento de erro é
estabelecido
• O monitoramento (via tempo de atividade) é
definido no local para medir o desempenho +
métricas em relação ao objetivo
• Um loop de feedback é criado para manter /
utilizar o orçamento
21. Benefícios de ter Orçamentos de Erro
• Os orçamentos de erro tornam-se
uma métrica rastreável explícita
que conecta o planejamento de
novas funcionalidades do produto
à confiabilidade do serviço
• Responsabilidade compartilhada pelo uptime
• Falhas de funcionalidade, bem como problemas de
infraestrutura, caem no mesmo orçamento de erro
• Incentivo comum para equipes de produtos e SREs
• Cria um equilíbrio entre confiabilidade e inovação
• As equipes de produtos podem priorizar recursos
• A equipe agora pode decidir onde e como gastar o
orçamento de erro
• Metas de confiabilidade tornam-se críveis e
alcançáveis
• Fornece uma abordagem mais pragmática para definir uma
disponibilidade realista
22. Janela de indisponibilidade
Meta Janela de indisponibilidade permitida
Por ano Por 30 dias
95 % 18.25 dias 1.5 dias
99 % 3.65 dias 7.2 horas
99.9 % 8.76 horas 43.2 minutos
99.99 % 52.6 minutos 4.32 minutos
99.999 % 5.26 minutos 25.9 segundos
A criação de uma meta de confiabilidade depende da natureza
do negócio
Pergunta: Por que 100% de confiabilidade não é uma boa ideia?
23. Níveis de Serviço
• A Gestão dos Produtos, em conjunto com
os SREs, define níveis de serviço para os
sistemas como parte do design do
produto
• Os níveis de serviço nos permitem:
• Equilibrar recursos que estão sendo construídos
com confiabilidade operacional
• Qualificar e quantificar a experiência do usuário
• Definir as expectativas dos usuários para
disponibilidade e desempenho
24. Níveis de serviço
Service Level Agreement
(SLA)
• Um contrato comercial
do prestador de
serviços + o cliente
• Perda de serviço pode
estar relacionada à
perda de negócios
• Normalmente, uma
violação de SLA
significaria alguma
forma de compensação
ao cliente
Service Level Objective
(SLO)
•Um limiar além do
qual uma melhoria do
serviço é necessária
•O ponto em que os
usuários podem
considerar a abertura
de chamado de
suporte, o "limiar da
dor“ - por exemplo, o
buffer do YouTube
•Impulsionado pelas
necessidades dos
negócios, não apenas
pelo desempenho
atual
Service Level Indicator
(SLI)
•Medida quantitativa
de um atributo do
serviço, como
throughput, latência
•Diretamente
mensurável e
observável pelos
usuários – não uma
métrica interna
(tempo de resposta
versus utilização da
CPU)
•Pode ser uma forma
de representar a
experiência do
usuário
25. Exemplo de Nível de Serviço
Service Level Indicator (SLI)
Latência de respostas HTTP bem-sucedidas (HTTP
200)
Service Level Objective (SLO)
Latência de 95% das respostas deve ser inferior a
200ms
Service Level Agreement (SLA)
Cliente compensado se a latência do percentil 95
exceder 300ms
26. Esgotando um orçamento de erro
Pergunta: o que você pode fazer se
esgotar o orçamento de erro?
• Nenhum novo recurso é lançado (por
um período de tempo)
• Muda a velocidade das atualizações
• Prioriza-se os esforços de engenharia
para aumentar a confiabilidade
Enquanto houver orçamento de
erro restante (em uma janela de
tempo), novos recursos podem
ser implantados
27. SRE “Golden Signals"
• Focado mais no tempo de atividade
para deduzir disponibilidade versus
experiência do usuário
• Monitorar métricas do sistema (como
CPU, memória, armazenamento) é
importante, mas pode não significar
nada para a experiência do cliente
• "Sobrecarga de ruído"
Saturação Erros
Tráfego Latência
É melhor definir SLIs & SLOs usando
esses “sinais dourados”, pois eles leva
em conta a percepção do usuário
sobre o sistema
29. Comece sua própria jornada SRE!
Reconheça
Falhas são inevitáveis, é
melhor planejar para isso
Buy-in
Liderança & alta gestão
Cultura
Crie uma cultura de auto-
aperfeiçoamento
Competências
Procure por indivíduos
multiqualificados que
foquem na colaboração
30. O que fazer
• Selecione um sistema “piloto”
• Identifique seus SLI/SLO
• Crie uma baseline para o estado
atual
• Atualize gradualmente os sistemas
e processos para atender ao SLO
• Enxágüe e repita ☺
31. O que NÃO fazer
• Renomear sua equipe de infraestrutura para SER
• Isso não é SRE!
• Tratar os SREs como equipes de infraestrutura
• E não como desenvolvedores de software
• SLO de 100%
• É melhor planejar para as falhas
• Muitas interações estão fora de seu controle
• Transformação em silos
• Acredite que as equipes estão dispostas a mudar
• Melhor envolvê-los como parte da jornada de transformação
• Ex.: Gestão de Mudanças, Gerenciamento de Incidentes,
Segurança
33. Obrigado!
Um guia para melhorar a confiabilidade das aplicações em
produção
Igor Abade V. Leite | @igorabade
• Microsoft Regional Director
• CEO, CloudMotion (www.cloudmotion.com.br)