O documento discute melhores práticas de planejamento de capacidade aplicadas em um projeto de recuperação de desastres (DR). Ele descreve como o projeto, inicialmente focado em continuidade de negócios, também abordou problemas de desempenho e capacidade no ambiente de produção, melhorando significativamente o desempenho de uma aplicação crítica por meio de otimizações de hardware e armazenamento.
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Melhores práticas de planejamento de capacidade aplicadas num projeto de Transformação DC Produtivo e DR (Disaster Recovery)
1. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
15 de maio de 2018
Jhony Ferreira
Melhores práticas de planejamento
de capacidade aplicadas num
projeto de DR (Disaster Recovery)
2. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Contexto e objetivo
Apresentar técnicas de Capacity Planning num projeto de IT
Disaster Recovery.
Neste projeto, a princípio, pretendíamos apenas endereçar a
necessidade de Continuidade do Negócio do ponto de vista de
infraestrutura de TI.
No entanto, conseguimos também endereçar outros problemas de
Performance e Capacidade que tínhamos no ambiente de Produção.
3. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
A diretriz era de se implementar DR visando suportar a continuidade do negócio
em caso de desastres. Mas, o que é DR e como definir seu escopo?
Disaster recovery (DR) envolve um conjunto de políticas e procedimentos para permitir a
recuperação ou continuação de infra-estrutura e sistemas de tecnologia vitais na sequência
de uma catástrofe natural ou humana. A recuperação de desastres neste caso se concentra
nos sistemas de TI ou tecnologia que suportam funções críticas ao negócio.
Backups feitos
em fitas e
enviados ao
off-site em
intervalos
regulares
Backups feitos
em disco on-
site e
automaticame
nte copiados
para os discos
off-site
Soluções de
Cloud privada
com
gerenciament
o de replica de
dados
Replicação
Síncrona e
Assíncrona de
dados para
um outro
datacenter
Outros...
Exemplos de estratégias de DR
Principais conceitos:
BIA – Business Impact Analysis
RPO – Recovery Point Objective
RTO – Recovery Time Objective
DRP – Disaster Recovery Plan
BCP – Business Continuity Plan
Replicação
Síncrona e
Assíncrona de
dados para
um outro
datacenter
4. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
O mais importante ao projetar uma solução de DR é prestar muita atenção ao seus
requisitos, em especial ao BIA, RTO e RPO.
Neste tipo de trabalho, definem-se apenas as aplicações mais críticas, pois caso contrário o ambiente de
DR teria que ser tão grande quanto o ambiente de Produção, o que na maioria das vezes é inviável
economicamente. Por conta disso, também existe a categorização da aplicações em HOT, WARM e COLD
BIA – Business Impact Analysis: Análisa e filtra os principais sistemas, seu nível de
importância para as empresas e os respectivos RPO e RTO.
Recovery Point Objective (RPO) refere-se ao ponto no passado ao qual você vai recuperar os dados
do sistema.
Recovery Time Objective (RTO) refere-se ao ponto no futuro em que você estará funcionando
novamente.
Na linha do tempo, o RTO é o
ponto no futuro em que você
estará de volta com suas
aplicações. O espaço entre o
desastre e o RTO é o período
para o qual seu aplicativo
estará desativado e não
funcionará.
Pense no diagrama como um
cronograma de eventos durante
os quais ocorre um desastre. O
RPO será o ponto em que você
terá todos os dados até esse
ponto recuperados. O
espaço/dados entre o desastre e o
RPO provavelmente será perdido
como resultado do desastre.
5. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Uma vez que temos a definição clara e os ambientes devidamente categorizados,
podemos então trabalhar na melhor solução de arquitetura para o Projeto.
COLD DR:
Um site de DR COLD é pouco mais do que um espaço apropriadamente configurado em
um edifício. Tudo necessário para restaurar o serviço aos seus usuários deve ser
adquirido e entregue ao site antes que o processo de recuperação possa começar. Como
você pode imaginar, o tempo para tornar um site de DR COLD completamente
operacional pode ser substancial.
WARM DR:
Um site DR WARM já contém disponível os hardwares necessários. Entretanto, para
restaurar o serviço, os últimos backups devem ser entregues para que então o processo
de restauração e configurações lógica sejam iniciados.
HOT DR:
Os sites de DR HOT têm uma imagem espelhada virtualmente do seu centro de dados
Produtivo, com todos os sistemas configurados e recebendo na integra os últimos de
seus dados da Produção. Como você pode imaginar, um site de DR HOT geralmente pode
ser levado à produção total em apenas algumas horas ou até mesmo em alguns
minutos.
6. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
No caso em referência, tivemos muitos sistemas classificados como
escopo de DR, e todos categorizados como HOT. Para construir um site DR HOT,
ficando dentro do budget aprovado, optamos por HW Replicação ASYNC.
LEMBRE-SE: São nestes momentos de definição de solução
que em qualquer projeto possuímos a oportunidade
de inovar e melhorar.
7. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
“LEMBRE-SE: São nestes momentos que....” Existia uma aplicação XYZ muito
crítica para o negócio e com performance muito ruim...
USUÁRIOS INSASTIFEITOS
BUSINESS IMPACTADO
8. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
A alteração da lógica não era vista como viável pelo time de
desenvolvimento de sistemas. Então a ideia foi endereçar este problema através do
projeto de DR
Topologia da Aplicação:
Praticamente 100% do tempo em statements de DB
9. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
O primeiro passo foi atuar em melhorias a nível de IOPs para os statements da
aplicação que não davam vazão no processamento
Storage RAID10 Storage Flash
CHANGE
Storage (Overview)
4,0TB em Storage Flash provê aprox. 194.000 IOPS
4,0TB em SAS 15k (RAID10) provê 9.600 IOPS
COMPARAÇÃO:
(20x)
Isso representou um ganho de 20,2 vezes
mais velocidade de IOPs !!!
10. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Em paralelo, foi melhorar o hardware envolvido e o processamento da aplicação, a
fim de evitar problemas de falta de processamento por IOPs
COMPARAÇÃO HARDWARE
ONDE:
rPerf/Core -> Unidade de medida para AIX;
CPW/Core -> Unidade de medida para AS/400;
12.80
14.38
11.63
17.58 17.90
20.34
0.00
5.00
10.00
15.00
20.00
25.00
rPerf/Core
B C D E F G
3500
7037.50
6450.00
6887.50
9604.17
10791.67
0
2000
4000
6000
8000
10000
12000
CPW/Core
A B C D E G
No caso do AIX a melhora de performance por core é
de aproximadamente 75%
No caso do AS/400 a melhora de performance é
de aproximadamente 208%
A B C D E F G
rPerf/Core N/A 12,80 14,38 11,63 17,58 17,90 20,34
CPW/Core 3500 7037,50 6450,00 6887,50 9604,17 N/A 10791,67
EQUIPAMENTOS EXISTENTES NOVOS HWs
A fim de evitar gargalo de utilização de Proc na nova Infraestrutura também substitui os modelos de
equipamentos com PROC de SMT4 para SMT8 (Simultaneous MultiThreading) principalmente para
vazão em IOPs sem afetar outros Process IDs.
11. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Recalculada a nova config (Entitled Cap.) necessária dos novos equipamentos,
respeitando os relatórios de CP, assim como a reconfiguração de Mode (capped & uncapped)
OVPs (Online virtual process), MaximumVP e MinimumVP
Name CPU "D" rPerf "D" rPerf "D" rPerf "G" CPU "G"
LPAR 1 1,0 11,6 11,6 20,3 0,6
LPAR 2 2,0 11,6 23,3 20,3 1,1
LPAR 3 2,0 11,6 23,3 20,3 1,1
LPAR 4 2,0 11,6 23,3 20,3 1,1
LPAR 5 2,0 11,6 23,3 20,3 1,1
LPAR 6 2,0 11,6 23,3 20,3 1,1
LPAR 7 2,0 11,6 23,3 20,3 1,1
LPAR 8 2,0 11,6 23,3 20,3 1,1
LPAR 9 2,0 11,6 23,3 20,3 1,1
LPAR 10 1,0 11,6 11,6 20,3 0,6
LPAR 11 3,0 11,6 34,9 20,3 1,7
LPAR 12 5,0 11,6 58,2 20,3 2,9
LPAR 13 3,0 11,6 34,9 20,3 1,7
LPAR 14 5,0 11,6 58,2 20,3 2,9
LPAR 15 3,0 11,6 34,9 20,3 1,7
LPAR 16 12,0 11,6 139,6 20,3 6,9
TTL 49,0 28,1
Conversão de Procs "D" para "G"
12. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
E enfim, os resultados significativos.
Foram executados o mesmo BACKUP antes e depois das melhorias:
Tempo total ANTES: 1:22 hs
Tempo total DEPOIS: 42 min
Ganho: 50 %
13. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Foram executados os mesmos JOBs para comparação
antes e depois das melhorias.
Tempo total ANTES: 17.533 seg (4,87 hs)
Tempo total DEPOIS: 3.809 seg (1,04 hs)
Ganho: 77 %
Indicadores com altos ganhos de performance e capacidade
14. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
O problema de um dos ambientes mais criticos da Companhia foi
completamente resolvido!!
USUÁRIOS FELIZES
BUSINESS A TODO VAPOR
ANTES: DEPOIS:
583 vezes mais
rápido!!!
15. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
OBRIGADO
Jhony R. Ferreira
IT Infrastructure Specialist
019 9 8182-9010
Jhony.rferreira@gmail.com
linkedin.com/in/jhony-ferreira/