Maria Isabel Soutello (IsabelSoutello) - migdsbel@gmail.com
Em período de pico pode ser necessário aumentar os processadores online numa partição sem prejuízo das outras no mesmo CEC e/ou mexer no peso direcionando mais capacidade para atender a demanda extra.
Medidas como “load average” e “# processors parked” quando salvas durante período monitorado e analisadas, podem corrigir ou refinar “tamanho” das LPARs, definido inicialmente no plano de capacidade.
Relação entre “load average” e # processors online” é mais exata que “% MVS utilization” para determinar número ideal de CPs lógicos, e “# processors parked” ajuda determinar % LPAR weight ou garantia no CEC.
Semelhante a Monitoramento contínuo em dia de pico de consumo ajuda a determinar o número ideal de processadores LOGICOS definidos numa partição ZOS mainframe
Semelhante a Monitoramento contínuo em dia de pico de consumo ajuda a determinar o número ideal de processadores LOGICOS definidos numa partição ZOS mainframe (20)
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Monitoramento contínuo em dia de pico de consumo ajuda a determinar o número ideal de processadores LOGICOS definidos numa partição ZOS mainframe
1. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
15/05/2018
Isabel Soutello – migdsbel@gmail.com
Monitoramento contínuo em dia de pico
como auxílio no ajuste fino de
capacidade de LPAR mainframe
2. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Cenário ou contexto
O Planejamento de Capacidade com base em análise de
longo prazo nos dá condições de definir CECs com diversas
partições e estimar o tamanho necessário (processadores e pesos)
de cada uma para atender o processamento na maior parte do
tempo.
Recomenda-se ter num mesmo CEC partições com cargas
diferentes sejam ou não de um mesmo Sysplex e cujos picos de
carga ocorram em períodos diferentes (horas ou dias).
Ambiente Mainframe, CECs com mais de uma LPAR zOS,
cargas diversas em cada LPAR
3. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Por que monitorar o dia de pico?
Monitoramento contínuo em dia de pico
Geralmente é o dia que o processamento transacional pode
apresentar problema de tempo de resposta devido a taxa de
volume de transações muito alta pontual.
Evitar incidente de capacidade, mesmo sabendo que a
partição está bem dimensionada para a maior parte do tempo.
Custo da monitoração se torna beneficio maior.
4. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Método / ferramenta
Ações necessárias: instalação da parte cliente na estação
(micro com Windows), ativação do processo servidor de rede
GMPSERVE nas partições zOS, além dos processos básicos do
RMF e RMFGAT já utilizados.
Definições no membro do RMF da PARMLIB, geralmente
já utilizadas com a instalação do RMF
Salva dos dados, coletados durante intervalo escolhido,
em arquivo .CSV e posteriormente importados em planilha por ex.
Excel.
Monitoração continua (minuto) com RMF-PM versão
client-server
5. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Monitoramento contínuo em dia de pico
Somente utilização % de CPU (MVS %) é uma medida fraca
embora seja geralmente a mais usada por equipes de Operação.
Já vimos partição com utilização a 95% sem nenhuma contenção
de processadores em compensação outra com 75% sofrendo
contenção.
Por que?
Depende muito do comportamento da carga da partição.
Quais medidas monitorar?
6. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas adequadas e tipos de carga
Número de CPs necessários vs. CPs disponiveis fica mais preciso.
Costumamos chamar de fila o número de processos que excedem
o de processadores.
Por observação durante a monitoração e cruzamento dos dados
em análise posterior (já que os dados de cada série podem
facilmente ser salvos) notamos que uma LPAR com carga
majoritariamente online esta relação deve ser no máximo 2:1 (ou
fila de 1:1)
LOAD AVERAGE – NÚMERO DE PROCESSOS EM
EXECUÇÃO NOS PROCESSADORES OU
AGUARDANDO PROCESSADOR (READY QUEUE)
# PROCESSORS ONLINE – NÚMERO DE
PROCESSADORES ATIVOS NA PARTIÇÃO
7. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas adequadas e tipos de carga
Já em partições com muita carga batch esta relação pode chegar a
3:1 ou até 4:1 sem grandes prejuízos para tempo de resposta e
para as janelas de execução, desde que “goals” estejam bem
definidos no WLM.
Ação de aumento correto de # CPs online na LPAR minimiza o
“prejuízo” das transações mal atendidas por falta de
processadores. Geralmente o CEC todo não está a 100% e
portanto a partição com maior demanda pode ser beneficiada sem
prejudicar o conjunto.
LOAD AVERAGE – NÚMERO DE PROCESSOS EM
EXECUÇÃO NOS PROCESSADORES OU
AGUARDANDO PROCESSADOR (READY QUEUE)
# PROCESSORS ONLINE – NÚMERO DE
PROCESSADORES ATIVOS NA PARTIÇÃO
8. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Aumento de # CPs online para atender “fila” temporária
9. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas adicionais com “Hyperdispatch”
Classificação de processadores em:
Esta distribuição é feita quando se usa Hyperdispatch (distribuição
vertical em vez de horizontal) e o cálculo é feito em função do peso
e processadores atribuídos a LPAR. Não é preciso conhecer
fórmula, o monitor mostra a cada mudança de # processadores ou
peso.
Os processadores “High” são os “dedicados” a esta partição, os
“Médium” podem atender outra partição mas dão preferencia a
esta e os “Low” são os processadores “excedentes” ou totalmente
compartilhados entre as LPARs do CEC.
# PROCESSORS WITH HIGH SHARE
# PROCESSORS WITH MEDIUM SHARE
# PROCESSORS WITH LOW SHARE
10. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas adicionais com Hyperdispatch
Processadores “Low” ficam estacionados ou inativos na LPAR
Por não serem necessários na maior parte do tempo, ficando
inativos evitam “overhead” de troca de processadores
desnecessária.
Quando demandados por um excesso temporário de carga, podem
diminuir ou até cair a zero, entrando em ação para atender esta
LPAR que está com alta demanda.
Se notamos que os processadores “parked” se tornam zero por
muito tempo ou com muita frequência, é o caso de rever também o
peso da LPAR, de modo a atender a carga com melhor
performance.
Obs. : vale também para processadores zIIP.
# PROCESSORS PARKED – PROCESSADORES QUE
NÃO ESTÃO EM USO NA PARTIÇÃO
11. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Uso dos processadores “parked” indica necessidade aumento de peso
12. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Com pesos alterados, além do aumento de CPs
pesos CP online High Medium Low
LPAR XXXX (carga predominate online) 68 30 24 1 6
LPAR YYYY (carga predominate batch) 32 15 11 2 2
total CPs logicos 45 35 3 8
total CPs fisicos 100 35
Configuração CEC alterada para pico
13. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Conclusões – ganho de performance
É bom monitorar todas as partições de um Sysplex e do CEC.
Se bem ajustadas todas essas medidas nos dão a
possibilidade de obter a melhor performance das partições sendo
monitoradas, pois teremos menos “dança de processadores” de
uma partição para outra que leva a perda de performance pelo não
aproveitamento dos “cache” de processadores, principalmente se
as partições que os compartilham estão em diferentes “drawers”.
O número total de processadores atende o “load average” do
momento e com os processadores parked, somente os
processadores necessários atendem a partição, evitando
“overhead”.
14. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas complementares para análise
Uma relação entre % utilização do MVS e fila (load
average) x número de processadores, pode ser deduzida, pela
repetição mensal da monitoração/análise pois perfil geralmente se
repete em situação de pico de demanda de acordo com
característica da carga, mas ainda assim há situações especificas.
Fazer uma boa definição de “report class” agrupando
processos e/ou transações de mesmo objetivo, ajuda para
identificação imediata dos principais causadores de alta demanda
de consumo no pico .
Medidas que ajudam a entender o ambiente e carga da
partição.
15. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas complementares para análise
“Transaction ended rate” (by workload e by report class).
Com isso, na monitoração é possível identificar a curva de
transações/segundo das report class e compara-las com do
workload completo. Por ex. entre 10:00 e 10:10 (pico horário do dia
de pico) as transações por segundo da report class RINFO
representam 35% das transações por segundo do WORKLOAD
CICS.
As medidas “% using by report class” e/ou “% delay by report
class” ajudam a descobrir o conjunto de processos que responde
por um maior consumo no período de pico.
Workload e report class
16. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Transações por Report x WKLD
17. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medidas complementares para análise
“Processor - % using by job” representa o % de tempo
entre 2 medidas que o processo esteve usando CPU.
Ajuda a verificar se não temos processos que já são
“CPU bound” por natureza executando em “service class” com
prioridade alta.
Se este valor maior que 100, significa processo
extrapolando mais de 1 processador.
Processos
18. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Links e Referências
https://www-03.ibm.com/
systems/z/os/zos/features/rmf/tools/rmftools.html
The IBM RMF PM Java ™ Technology
version 2.4.87 – General Help
Planning Considerations for HiperDispatch Mode Version 2 -
Steve Grabarits Gary King Bernie Pierce
Version Date: May 11, 2011 - Techdocs
19. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Muito Obrigada!
Colaboração:
Fernando Ferreira (IBM)
Alvaro Salla (MAFFEI)
Notas do Editor
Apresentação
Pessoal
Nome e experiência
Correção e-mail
Planejamento é médio e longo prazo.
Determinação de topologia ou distribuição de cargas por CECs e partições
Configuração de tamanho das partições MIPS mínimo e máximo, compartilhamento de processadores
Lógicos podem ser até 2 x o número de físicos
Dados completos das ferramenta de planejamento, obtidos dos registros SMF, consolidados por períodos maiores, são geralmente médias e alguns picos
História da turma da autópsia, não participação durante problema ou incidente de capacidade como consequência de outro problema por ex hardware ou aplicação.
Situações: dias de pico, novas implantações gerando possíveis problemas, mudanças regulatórias influenciando volume, testes de carga situações de negocio, exercícios de contingencia.
Medidas são geradas pelo sistema operacional zOS e capturadas pelo módulo RMF
Existem centenas ou milhares de medidas de processador, memória, io refer. a cargas e processos
Transmitidas via TCPIP para estação cliente
Intervalo pode ser todo período monitorado, ou escolhido na salva
Existem cargas com uso mais intenso de CPU e outras nem tanto
Geralmente quem define goals mais com base na entrega do serviço nem sempre conhece a característica ou comportamento da aplicação (desenv).
A medida de contenção é a fila.
Se identificado rápido o gargalo, ação diminui o tempo de sofrimento das transações, carga, ou programa até passar o sufoco
Não é necessário abrir até o limite de processadores físicos, pois pode piorar performance
Ex: Tempo de problema reduzido de meia hora para 5 min. Se demora pode virar bola de neve, com prejuízo cada vez maior
25 CPs até 50 processos
Ultrapassou 60 processos, abertos + 5 CPs
Fechados somente após problema contornado
Hyperdspatch começou a partir da z10. Membro SYSOPT da PARMLIB.
RMF - Confusão na nomenclatura da distrib. vertical, “high share” não são os mais largamente compartilhados, estes são os low.
O high são alocados sempre no mesmo físico. Como se tivessem um peso 100%
Os médium podem ser alocados em qualquer físico mas possuem um “peso” que gera afinidade.
Os low podem nunca ser alocados no mesmo físico (fim da fila) e portanto tb não no mesmo book/drawer,
Se aumentar o número de CPs, sem mexer no peso, aumenta o número de VL.
Muitos VL com alto nível de "unparked", pode-se pagar o preço de acessar o cache remoto, mesmo com um número pequeno de PUs.
Ex: Os parked foram diminuindo até chegar a zero, o que indica que para outras partições não estavam sendo demandados, e todos os abertos ou online passaram a atender a partição em questão.
Ficaria outra distribuição melhor se mexer também nos pesos, mas nem sempre necessário.
Pra fazer boa definição, tem que correr atrás da informação com outras áreas, a menos que chegue através de campanhas, comunicados/leis, projetos.
Volume de Transações por segundo. Report class ajuda mais nas cargas online, já que o RMF não mostra dados de transações, so de processos.
Descobrir causadores no início da elevação pode ajudar a evitar problema maior de contenção
Cuidado má interpretação de medidas, se alguém de fora ver % de utilização acha que o job está usando aquela % da capacidade
Não é raro programas CPU bound com prioridade agressiva, sem ganho e atrapalhando outros processos
www.ibm.com/support/techdocs é o link para os techdocs
Mais informações também no RMF users guide.