SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
Planejamento de Desastre!
CMG Brasil 2014
camposr@gmail.com!
@xinu
$ whoami
• Orgulhosamente crimpando cabos desde 1992
• Descobri o que era colisão de IP quando meu chefe acreditou
que o aniversário dele seria uma boa subnet em 1993
• Derrubei um portal web inteiro testando uma versão
experimental de Linux em S/390 em 1999
• Já vi equipamentos high end falhando espetacularmente
devido a bugs e erros operacionais
(1992,1993,1994,1995,1996,1997,1998,…,2014,…)
• Tem sido sofrido mas adoro o meu trabalho!
“Lasciate ogni speranza,
voi ch'entrate"
Dante Alighieri no vestíbulo do inferno
Sh*t happens
Na noite de 27 de Outubro de 2011
uma série de erros derrubou um cluster
inteiro de serviços na nuvem.
Todos os clientes foram afetados.
Levamos 72 horas para recuperar os
serviços.
Alguns clientes perderam seus dados
para sempre…
Um sumário
• Equipamento High-end
• Totalmente redundante
• Alta disponibilidade
• Todos os ovos em uma cesta muito cara
Um sumário
• O time de engenharia contrariou todas as
tendências em sistemas distribuídos e optou por
uma arquitetura centralizada para storage
• Todas as VMs seriam armazenadas na SAN, em
um único frame de Storage de última geração
• A disponibilidade seria garantida por componentes
totalmente redundantes do Storage
• Seria mais fácil de gerenciar…
Raio da Explosão
210
Network
Storage
Servers
Virtualization
Guest OS
Middleware
Runtime
Data
Application
Raio da Explosão
210
Network
Storage
Servers
Virtualization
Guest OS
Middleware
Runtime
Data
Application
Power Supply
Lições Aprendidas
Uptime != Disponível
Componente Downtime por ano
99% 3,65 dias
99,9% 8,76 horas
99,99% 52,56 minutos
99,999% 5,26 minutos
Tempo de Reparo
Para cada componente que falha no ambiente
o tempo de reparo de suas dependências
pode e irá exceder o SLA do componente.
!
eg.: se o fornecimento de energia tiver
99,9999% (31,5 segundos / ano) a
disponibilidade do ambiente será bem menos
do que isso.
• Impacto baixo, controlado
• Geralmente documentado
• Método e ferramentas para
correção conhecidos
• Geralmente o time de operações
atua independentemente
Falhas
• Alto impacto
• Caótico e inesperado
• Métodos e ferramentas
disponíveis podem não ser
suficientes
• É um problema de tecnologia e
de negócio
Desastres
Existem falhas e desastres
• Algumas empresas lidam com
as duas situações da mesma
forma
• Não faça isso…
• Não há como se planejar para
tudo
Até onde você precisa ir?
• Muitas vezes terá de fazer uma “escolha de Sofia”
• Seus sistemas de BI precisam de um plano de
recuperação de desastre?
• Seu CMS precisa de um plano de recuperação de
desastre?
• Todos precisam do mesmo nível de desempenho do seu
site principal?
Até onde você precisa ir?
• Warroom no Datacenter
• Telefones? Impressoras? Agendas (de papel)?
• Ativo-Ativo, Ativo-Passivo
• Impactos profundos na arquitetura de rede e storage
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
Downtime
Horas
Dias
Semanas
∞
Quem decide se é um desastre?
• Resposta rápida: ninguém.
• Você deve ter um processo documentado para
categorizar incidentes
• Se não houver tal procedimento você dependerá
de julgamento humano
High PriorityMedium Priority
Medium PriorityLow Priority
Valor de Negócio
Abrangência
Quem decide se é um desastre?
High
Priority
Medium Priority
Medium
Priority
Low Priority
Valor de Negócio
Abrangência
Quem decide se é um desastre?
Regra #1-Não entre em pânico
Temos um desastre
• Reação típica: LIGUE PARA TODOS AGORA!!
• Não faça isto…
• Comece a pensar em turnos
• Tenha uma política de comunicação definida
Temos um desastre
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Garanta retenção automatizada de logs
• Tenha um processo de registro de
mudança eficiente
• Sistemas de relacionamento de eventos
são essenciais
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Chame seus SMS
• Chame o fornecedor se for o caso
• Mantenha um staff operacional mínimo
• Comece a pensar em turnos
• Alimentação e condições de trabalho
• Hospedagem e transporte
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Estabeleça um ponto de contato
responsável por cada componente
• Estabeleça checkpoints e um período de
tempo entre eles
• Dentro do possível libere os especialistas
e tire tarefas operacionais deles
• Mantenha a área de negócio ciente
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Reforce e alinhe expectativas claras do
que está contemplado no seu plano
• Mantenha a rotina de checkpoints
• Revise a escala de plantões e
acionamentos
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Exercite a cautela ao notificar os clientes
internos e externos de que o serviço foi
recuperado
• Tenha uma rotina de check-up definida
A linha do tempo
Detecção Diagnóstico Recuperação
Operação
Degradada
Recuperação
Análise
Post-Mortem
• Defina um processo de post-mortem antes
do incidente
• O mesmo deve ser conciso e não pode ser
um “dossiê"
• Inicie o plano de retorno ao site principal
Um plano não testado é só
um pedaço de papel
Testes no século XXI
• Em produção… sim, em produção
• Netflix Chaos Monkey
• Blazemeter
• SOASTA
Perguntas

Mais conteúdo relacionado

Destaque

Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...
Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...
Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...Joao Galdino Mello de Souza
 
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...Joao Galdino Mello de Souza
 
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...Joao Galdino Mello de Souza
 
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...Joao Galdino Mello de Souza
 
Os principais desafios de Implementar um Processo de Planejamento de Gestão ...
Os principais desafios de Implementar um Processo de Planejamento  de Gestão ...Os principais desafios de Implementar um Processo de Planejamento  de Gestão ...
Os principais desafios de Implementar um Processo de Planejamento de Gestão ...Joao Galdino Mello de Souza
 
Como configurar seu zSystem para workloads rebeldes
Como configurar seu zSystem para workloads rebeldesComo configurar seu zSystem para workloads rebeldes
Como configurar seu zSystem para workloads rebeldesJoao Galdino Mello de Souza
 
Capacity planning para ambiente distribuído, por Marcelo Otto
Capacity planning para ambiente distribuído, por Marcelo OttoCapacity planning para ambiente distribuído, por Marcelo Otto
Capacity planning para ambiente distribuído, por Marcelo OttoJoao Galdino Mello de Souza
 
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...Joao Galdino Mello de Souza
 
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...Joao Galdino Mello de Souza
 
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...Estudo comparativo entre treinamento supervisionado e não supervisionado em a...
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...Joao Galdino Mello de Souza
 
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...Joao Galdino Mello de Souza
 
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...Joao Galdino Mello de Souza
 
Cloud Computing - Continuidade do Negócio através da tolerância a desastres
Cloud Computing - Continuidade do Negócio através da tolerância a desastresCloud Computing - Continuidade do Negócio através da tolerância a desastres
Cloud Computing - Continuidade do Negócio através da tolerância a desastresJoao Galdino Mello de Souza
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Joao Galdino Mello de Souza
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxDell Technologies
 

Destaque (19)

Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...
Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...
Comparação de Desempenho entre máquinas virtuais e containers - por Bruno Rod...
 
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...
Análise de Segurança e Desempenho na Detecção de Intrusão em Redes de Automaç...
 
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...
Abordagens de Implementação de ILM como estratégia auxiliar no Gerenciamento ...
 
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...
APM: Gerenciamento de Desempenho de Aplicações - Monitoramento de rede VOIP, ...
 
Os principais desafios de Implementar um Processo de Planejamento de Gestão ...
Os principais desafios de Implementar um Processo de Planejamento  de Gestão ...Os principais desafios de Implementar um Processo de Planejamento  de Gestão ...
Os principais desafios de Implementar um Processo de Planejamento de Gestão ...
 
Quantas Instruções por Ciclo?
Quantas Instruções por Ciclo?Quantas Instruções por Ciclo?
Quantas Instruções por Ciclo?
 
Quantas Instruções por Ciclo?
Quantas Instruções por Ciclo?Quantas Instruções por Ciclo?
Quantas Instruções por Ciclo?
 
Como configurar seu zSystem para workloads rebeldes
Como configurar seu zSystem para workloads rebeldesComo configurar seu zSystem para workloads rebeldes
Como configurar seu zSystem para workloads rebeldes
 
Capacity planning para ambiente distribuído, por Marcelo Otto
Capacity planning para ambiente distribuído, por Marcelo OttoCapacity planning para ambiente distribuído, por Marcelo Otto
Capacity planning para ambiente distribuído, por Marcelo Otto
 
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...
SIMD no z13 - Conhecendo as novas funções Vetoriais do Mainframe por Flavio B...
 
Conceitos de Gerenciamento de Capacidade
Conceitos de Gerenciamento de CapacidadeConceitos de Gerenciamento de Capacidade
Conceitos de Gerenciamento de Capacidade
 
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...
Plano de Capacidade e Desempenho com geração de indicadores – por Erlon Marcu...
 
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...Estudo comparativo entre treinamento supervisionado e não supervisionado em a...
Estudo comparativo entre treinamento supervisionado e não supervisionado em a...
 
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...
Software Optimization and Tuning Techniques for z13 (As mentiras do ontem, um...
 
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...
Internet das Coisas (IoT) – Um estudo de caso para economia de energia elétri...
 
Cloud Computing - Continuidade do Negócio através da tolerância a desastres
Cloud Computing - Continuidade do Negócio através da tolerância a desastresCloud Computing - Continuidade do Negócio através da tolerância a desastres
Cloud Computing - Continuidade do Negócio através da tolerância a desastres
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)
 
Automação do Workload e a TI Bimodal
Automação do Workload e a TI BimodalAutomação do Workload e a TI Bimodal
Automação do Workload e a TI Bimodal
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - Linux
 

Semelhante a Planejamento de desastres

Aula 7 - Técnicas de Planejamento
Aula 7 - Técnicas de PlanejamentoAula 7 - Técnicas de Planejamento
Aula 7 - Técnicas de PlanejamentoFilipo Mór
 
Como automatizar Sistemas Legados utilizando ferramentas de DevOps
Como automatizar Sistemas Legados utilizando ferramentas de DevOpsComo automatizar Sistemas Legados utilizando ferramentas de DevOps
Como automatizar Sistemas Legados utilizando ferramentas de DevOpsRafael Salerno de Oliveira
 
Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital PreservationRoberto Beraldo Chaiben
 
Estratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineEstratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineGuto Xavier
 
Armadilhas no Desenvolvimento de Software
Armadilhas no Desenvolvimento de SoftwareArmadilhas no Desenvolvimento de Software
Armadilhas no Desenvolvimento de Softwarejamersonlima
 
Infraestrutura de Servidores - Anchieta
Infraestrutura de Servidores - AnchietaInfraestrutura de Servidores - Anchieta
Infraestrutura de Servidores - AnchietaEdilson Feitoza
 
TI Verde - Tecnologia da Informação Verde
TI Verde - Tecnologia da Informação VerdeTI Verde - Tecnologia da Informação Verde
TI Verde - Tecnologia da Informação VerdeJuliana Luz
 
Gerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresGerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresLucas Mendes
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 
Aula 04 qs - sistemas embarcados
Aula 04   qs - sistemas embarcadosAula 04   qs - sistemas embarcados
Aula 04 qs - sistemas embarcadosJunior Gomes
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan SeidlTI Safe
 
CV - JCP Maio 2015_Brasil_atz
CV - JCP Maio 2015_Brasil_atzCV - JCP Maio 2015_Brasil_atz
CV - JCP Maio 2015_Brasil_atzKarlos Paiva
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídosluanrjesus
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentasluanrjesus
 
Velozes e furiosos com extreme programming.
Velozes e furiosos com extreme programming. Velozes e furiosos com extreme programming.
Velozes e furiosos com extreme programming. Alessandro Binhara
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemAmazon Web Services LATAM
 
performance para qualidade de desenvolvimento de software
performance para qualidade de desenvolvimento de softwareperformance para qualidade de desenvolvimento de software
performance para qualidade de desenvolvimento de softwareAntonio Lobato
 

Semelhante a Planejamento de desastres (20)

Aula 7 - Técnicas de Planejamento
Aula 7 - Técnicas de PlanejamentoAula 7 - Técnicas de Planejamento
Aula 7 - Técnicas de Planejamento
 
Como automatizar Sistemas Legados utilizando ferramentas de DevOps
Como automatizar Sistemas Legados utilizando ferramentas de DevOpsComo automatizar Sistemas Legados utilizando ferramentas de DevOps
Como automatizar Sistemas Legados utilizando ferramentas de DevOps
 
Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital Preservation
 
Estratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineEstratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços online
 
Armadilhas no Desenvolvimento de Software
Armadilhas no Desenvolvimento de SoftwareArmadilhas no Desenvolvimento de Software
Armadilhas no Desenvolvimento de Software
 
Infraestrutura de Servidores - Anchieta
Infraestrutura de Servidores - AnchietaInfraestrutura de Servidores - Anchieta
Infraestrutura de Servidores - Anchieta
 
TI Verde - Tecnologia da Informação Verde
TI Verde - Tecnologia da Informação VerdeTI Verde - Tecnologia da Informação Verde
TI Verde - Tecnologia da Informação Verde
 
Gerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadoresGerenciamento de Projeto Rede de computadores
Gerenciamento de Projeto Rede de computadores
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 
Aula 04 qs - sistemas embarcados
Aula 04   qs - sistemas embarcadosAula 04   qs - sistemas embarcados
Aula 04 qs - sistemas embarcados
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
 
CV - JCP Maio 2015_Brasil_atz
CV - JCP Maio 2015_Brasil_atzCV - JCP Maio 2015_Brasil_atz
CV - JCP Maio 2015_Brasil_atz
 
Times plataforma-tdc2020
Times plataforma-tdc2020Times plataforma-tdc2020
Times plataforma-tdc2020
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
 
Introdução ao XP
Introdução ao XPIntrodução ao XP
Introdução ao XP
 
Arranjos Físico
 Arranjos Físico Arranjos Físico
Arranjos Físico
 
Velozes e furiosos com extreme programming.
Velozes e furiosos com extreme programming. Velozes e furiosos com extreme programming.
Velozes e furiosos com extreme programming.
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvem
 
performance para qualidade de desenvolvimento de software
performance para qualidade de desenvolvimento de softwareperformance para qualidade de desenvolvimento de software
performance para qualidade de desenvolvimento de software
 

Mais de Joao Galdino Mello de Souza

Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Joao Galdino Mello de Souza
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Joao Galdino Mello de Souza
 
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Joao Galdino Mello de Souza
 
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Joao Galdino Mello de Souza
 
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Joao Galdino Mello de Souza
 
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Joao Galdino Mello de Souza
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Joao Galdino Mello de Souza
 
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Joao Galdino Mello de Souza
 
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Joao Galdino Mello de Souza
 
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Joao Galdino Mello de Souza
 
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Joao Galdino Mello de Souza
 
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Joao Galdino Mello de Souza
 
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Joao Galdino Mello de Souza
 
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Joao Galdino Mello de Souza
 
Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Joao Galdino Mello de Souza
 
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Joao Galdino Mello de Souza
 
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Joao Galdino Mello de Souza
 
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Joao Galdino Mello de Souza
 
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)Joao Galdino Mello de Souza
 

Mais de Joao Galdino Mello de Souza (20)

Explorando a API Rest Jira Cloud
Explorando a API Rest Jira CloudExplorando a API Rest Jira Cloud
Explorando a API Rest Jira Cloud
 
Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
 
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
 
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
 
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
 
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
 
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
 
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
 
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
 
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
 
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
 
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
 
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
 
Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)
 
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
 
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
 
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
 
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
 

Planejamento de desastres

  • 1. Planejamento de Desastre! CMG Brasil 2014 camposr@gmail.com! @xinu
  • 2. $ whoami • Orgulhosamente crimpando cabos desde 1992 • Descobri o que era colisão de IP quando meu chefe acreditou que o aniversário dele seria uma boa subnet em 1993 • Derrubei um portal web inteiro testando uma versão experimental de Linux em S/390 em 1999 • Já vi equipamentos high end falhando espetacularmente devido a bugs e erros operacionais (1992,1993,1994,1995,1996,1997,1998,…,2014,…) • Tem sido sofrido mas adoro o meu trabalho!
  • 3. “Lasciate ogni speranza, voi ch'entrate" Dante Alighieri no vestíbulo do inferno
  • 5. Na noite de 27 de Outubro de 2011 uma série de erros derrubou um cluster inteiro de serviços na nuvem.
  • 6. Todos os clientes foram afetados.
  • 7. Levamos 72 horas para recuperar os serviços.
  • 8. Alguns clientes perderam seus dados para sempre…
  • 9. Um sumário • Equipamento High-end • Totalmente redundante • Alta disponibilidade • Todos os ovos em uma cesta muito cara
  • 10. Um sumário • O time de engenharia contrariou todas as tendências em sistemas distribuídos e optou por uma arquitetura centralizada para storage • Todas as VMs seriam armazenadas na SAN, em um único frame de Storage de última geração • A disponibilidade seria garantida por componentes totalmente redundantes do Storage • Seria mais fácil de gerenciar…
  • 12. Raio da Explosão 210 Network Storage Servers Virtualization Guest OS Middleware Runtime Data Application Power Supply
  • 14. Uptime != Disponível Componente Downtime por ano 99% 3,65 dias 99,9% 8,76 horas 99,99% 52,56 minutos 99,999% 5,26 minutos
  • 15. Tempo de Reparo Para cada componente que falha no ambiente o tempo de reparo de suas dependências pode e irá exceder o SLA do componente. ! eg.: se o fornecimento de energia tiver 99,9999% (31,5 segundos / ano) a disponibilidade do ambiente será bem menos do que isso.
  • 16. • Impacto baixo, controlado • Geralmente documentado • Método e ferramentas para correção conhecidos • Geralmente o time de operações atua independentemente Falhas
  • 17. • Alto impacto • Caótico e inesperado • Métodos e ferramentas disponíveis podem não ser suficientes • É um problema de tecnologia e de negócio Desastres
  • 18. Existem falhas e desastres • Algumas empresas lidam com as duas situações da mesma forma • Não faça isso… • Não há como se planejar para tudo
  • 19. Até onde você precisa ir? • Muitas vezes terá de fazer uma “escolha de Sofia” • Seus sistemas de BI precisam de um plano de recuperação de desastre? • Seu CMS precisa de um plano de recuperação de desastre? • Todos precisam do mesmo nível de desempenho do seu site principal?
  • 20. Até onde você precisa ir? • Warroom no Datacenter • Telefones? Impressoras? Agendas (de papel)? • Ativo-Ativo, Ativo-Passivo • Impactos profundos na arquitetura de rede e storage
  • 21. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem Downtime Horas Dias Semanas ∞
  • 22. Quem decide se é um desastre? • Resposta rápida: ninguém. • Você deve ter um processo documentado para categorizar incidentes • Se não houver tal procedimento você dependerá de julgamento humano
  • 23. High PriorityMedium Priority Medium PriorityLow Priority Valor de Negócio Abrangência Quem decide se é um desastre?
  • 24. High Priority Medium Priority Medium Priority Low Priority Valor de Negócio Abrangência Quem decide se é um desastre?
  • 25. Regra #1-Não entre em pânico Temos um desastre
  • 26. • Reação típica: LIGUE PARA TODOS AGORA!! • Não faça isto… • Comece a pensar em turnos • Tenha uma política de comunicação definida Temos um desastre
  • 27. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Garanta retenção automatizada de logs • Tenha um processo de registro de mudança eficiente • Sistemas de relacionamento de eventos são essenciais
  • 28. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Chame seus SMS • Chame o fornecedor se for o caso • Mantenha um staff operacional mínimo • Comece a pensar em turnos • Alimentação e condições de trabalho • Hospedagem e transporte
  • 29. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Estabeleça um ponto de contato responsável por cada componente • Estabeleça checkpoints e um período de tempo entre eles • Dentro do possível libere os especialistas e tire tarefas operacionais deles • Mantenha a área de negócio ciente
  • 30. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Reforce e alinhe expectativas claras do que está contemplado no seu plano • Mantenha a rotina de checkpoints • Revise a escala de plantões e acionamentos
  • 31. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Exercite a cautela ao notificar os clientes internos e externos de que o serviço foi recuperado • Tenha uma rotina de check-up definida
  • 32. A linha do tempo Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise Post-Mortem • Defina um processo de post-mortem antes do incidente • O mesmo deve ser conciso e não pode ser um “dossiê" • Inicie o plano de retorno ao site principal
  • 33. Um plano não testado é só um pedaço de papel
  • 34. Testes no século XXI • Em produção… sim, em produção • Netflix Chaos Monkey • Blazemeter • SOASTA