SlideShare uma empresa Scribd logo
1 de 40
Monitoração Inteligente  Denis A. Vieira Jr. Ricardo Clemente
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Visão geral e arquitetura do sistema ,[object Object],BARRAMENTO DE EVENTOS MOTOR CORRELAÇÃO APRENDIZADO DE MÁQUINA COLETOR VISUALIZAÇÃO
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Visão geral e arquitetura do sistema
Barramento de eventos ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Barramento de eventos ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],$ curl -d "type=queue&body={'idle'=70, 'sys’=20, 'usr'=10, 'host'='ws122' }&eventtype=CPU" http://barramento/message/events;
Tecnologia de correlação ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Tecnologia de correlação Processamento de consultas Memória Dados Dados Dados Relações persistentes consulta resposta Processamento de consultas Memória dados dados consulta contínua resposta fluxos de dados “ banco de dados ao contrário”
Tecnologia de correlação ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Tecnologia de correlação Big Players
Tecnologia de correlação ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Motor de correlação Se a sessão aumentar 10% no front-end dentro de 3 minutos e a média das cpus da farm do front não subir 5%  e no banco o número de queries lentas for maior que 10, então está caracterizada uma contenção no banco de dados gerando enfileiramento de usuários Aplicação
Motor de correlação Aplicação Mysql  Server Vip t – 3 min t t – 3 min t t cpu_usr slow_query session
Motor de correlação SELECT  Server.host , Server.cpu_usr, Server_PAST.cpu_usr, Vip.session, Vip_PAST.session,  Mysql.slow_query  FROM Server.win:time(1 min) as  Server ,  Server.win:ext_timed(current_timestamp(), 3 min) as  Server_PAST ,  Vip.win:time(1 min) as  Vip ,  Vip.win:ext_timed(current_timestamp(), 3 min) as  Vip_PAST  ,  Mysql.win:time (1min) as  Mysql   HAVING Vip.session > Vip_PAST.session * 1.10  AND avg(Server.cpu_usr)  < avg (Server_PAST.cpu_usr) * 1.05  AND Mysql.slow_query > 10 Aplicação
Motor de correlação ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Motor de correlação Fonte: Esper Performance - http://docs.codehaus.org/display/ESPER/Esper+performance Performance Esper Item Especificação HW Servidor  Esper 2 x Intel Xeon 5130 2GHz (4 cores total), 16GB RAM  VM config -Xms2g -Xmx2g -Xns128m -Xgc:gencon Consulta # cons. evt/s Latência Latência média Nota select '$' as ticker from Market(ticker='$').win:length(1000).stat:weighted_avg('price', 'volume') output last every 30 seconds 1000 519 728  99.66% < 10us  2.8us  CPU com 85%, 70 Mbit/s
Motor de correlação Processamento no Motor de Correlação
Visualização – Console Consultando o ambiente em tempo real
Visualização – Troubleshooting Antecipando e resolvendo mais rápido incidentes
Visualização - Dashboard Visão consolidada de serviços
E para as regras que não são conhecidas?
Aprendizado de máquina ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Aprendizado de máquina 60 sinais de entrada
Aprendizado de máquina Resumido em 1 componente principal + matriz de geração
Aprendizado de máquina componente principal 2 sensibilidade três anomalias
Projeto ,[object Object],[object Object],[object Object],[object Object],[object Object]
Projeto na Globo.com – Próximos desafios ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Monitoração Inteligente  Considerações finais
Referências http://delicious.com/fisl10
Dúvidas ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Mais conteúdo relacionado

Destaque

Uma visão do impacto do digital nos consumidores e nos negócios
Uma visão do impacto do digital nos consumidores e nos negócios Uma visão do impacto do digital nos consumidores e nos negócios
Uma visão do impacto do digital nos consumidores e nos negócios Erick Iucksh Santos
 
#você.serpro: A rede social corporativa do Serpro
#você.serpro: A rede social corporativa do Serpro#você.serpro: A rede social corporativa do Serpro
#você.serpro: A rede social corporativa do SerproLeandro Nunes
 
Conheça técnicas para aumentar o ROI do projeto de monitoramento
Conheça técnicas para aumentar o ROI do projeto de monitoramentoConheça técnicas para aumentar o ROI do projeto de monitoramento
Conheça técnicas para aumentar o ROI do projeto de monitoramentoNetwall
 
Futurecom 2012-Monitoração de Aplicações Críticas de Negócio
Futurecom 2012-Monitoração de Aplicações Críticas de NegócioFuturecom 2012-Monitoração de Aplicações Críticas de Negócio
Futurecom 2012-Monitoração de Aplicações Críticas de NegócioJose Ricardo Maia Moraes
 
Monitoração de Aplicações Distribuídas
Monitoração de Aplicações DistribuídasMonitoração de Aplicações Distribuídas
Monitoração de Aplicações DistribuídasMarkus Christen
 
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...Intelie
 
O melhor da monitoração de web performance
O melhor da monitoração de web performanceO melhor da monitoração de web performance
O melhor da monitoração de web performanceDavidson Fellipe
 
Oracle OEM Grid Control 11g
Oracle OEM Grid Control 11gOracle OEM Grid Control 11g
Oracle OEM Grid Control 11gRodrigo Almeida
 
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...Ivan Luizio Magalhães
 
Monitoramento de Redes com Nagios
Monitoramento de Redes com NagiosMonitoramento de Redes com Nagios
Monitoramento de Redes com NagiosDaniel Lara
 
Monitoração avançada com Zabbix 2
Monitoração avançada com Zabbix 2Monitoração avançada com Zabbix 2
Monitoração avançada com Zabbix 2Jose Augusto Carvalho
 

Destaque (14)

Uma visão do impacto do digital nos consumidores e nos negócios
Uma visão do impacto do digital nos consumidores e nos negócios Uma visão do impacto do digital nos consumidores e nos negócios
Uma visão do impacto do digital nos consumidores e nos negócios
 
#você.serpro: A rede social corporativa do Serpro
#você.serpro: A rede social corporativa do Serpro#você.serpro: A rede social corporativa do Serpro
#você.serpro: A rede social corporativa do Serpro
 
Conheça técnicas para aumentar o ROI do projeto de monitoramento
Conheça técnicas para aumentar o ROI do projeto de monitoramentoConheça técnicas para aumentar o ROI do projeto de monitoramento
Conheça técnicas para aumentar o ROI do projeto de monitoramento
 
Futurecom 2012-Monitoração de Aplicações Críticas de Negócio
Futurecom 2012-Monitoração de Aplicações Críticas de NegócioFuturecom 2012-Monitoração de Aplicações Críticas de Negócio
Futurecom 2012-Monitoração de Aplicações Críticas de Negócio
 
Zabbix
ZabbixZabbix
Zabbix
 
Monitoração de Aplicações Distribuídas
Monitoração de Aplicações DistribuídasMonitoração de Aplicações Distribuídas
Monitoração de Aplicações Distribuídas
 
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...
Gartner ITxpo 2015 - 3 casos de operações digitais mais inteligentes usando r...
 
O melhor da monitoração de web performance
O melhor da monitoração de web performanceO melhor da monitoração de web performance
O melhor da monitoração de web performance
 
Oracle OEM Grid Control 11g
Oracle OEM Grid Control 11gOracle OEM Grid Control 11g
Oracle OEM Grid Control 11g
 
Monitoração com Nagios
Monitoração com NagiosMonitoração com Nagios
Monitoração com Nagios
 
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...
Os 7 mitos da monitoração de Serviços de TI - Indo além da monitoração da inf...
 
Monitoramento de Redes com Nagios
Monitoramento de Redes com NagiosMonitoramento de Redes com Nagios
Monitoramento de Redes com Nagios
 
17 aula sistema de monitoração
17 aula sistema de  monitoração17 aula sistema de  monitoração
17 aula sistema de monitoração
 
Monitoração avançada com Zabbix 2
Monitoração avançada com Zabbix 2Monitoração avançada com Zabbix 2
Monitoração avançada com Zabbix 2
 

Semelhante a Monitoracao Inteligente na Globo.com

Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOApaulosampei
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data CollectionBRAVA Tecnologia
 
Análise essencial
Análise essencialAnálise essencial
Análise essencialTiago Serra
 
Planejamento E Gerenciamento de Capacidade Para Sistemas Distribuídos
Planejamento E Gerenciamento de Capacidade Para Sistemas DistribuídosPlanejamento E Gerenciamento de Capacidade Para Sistemas Distribuídos
Planejamento E Gerenciamento de Capacidade Para Sistemas DistribuídosRodrigo Campos
 
Analise essencial
Analise essencialAnalise essencial
Analise essencialTiagoSerra
 
Arquitetura Microsoft.pptx
Arquitetura Microsoft.pptxArquitetura Microsoft.pptx
Arquitetura Microsoft.pptxmikasantana2
 
Introdução aos Testes de Desempenho
Introdução aos Testes de DesempenhoIntrodução aos Testes de Desempenho
Introdução aos Testes de DesempenhoBase2 Tecnologia
 
Projetos de Software com Visual Studio Team System
Projetos de Software com Visual Studio Team SystemProjetos de Software com Visual Studio Team System
Projetos de Software com Visual Studio Team SystemRicardo Serradas
 
Analise de Requisitos
Analise de RequisitosAnalise de Requisitos
Analise de Requisitoselliando dias
 
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...Joao Galdino Mello de Souza
 
Logistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoLogistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoPixelBits
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalNuno Baptista Rodrigues
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...André Leon S. Gradvohl
 
Uso Do Arena Em Simulacao
Uso Do Arena Em SimulacaoUso Do Arena Em Simulacao
Uso Do Arena Em SimulacaoPrydigo
 
Elipse Webinar: Análise de Dados com Python e Dashboard Web
Elipse Webinar: Análise de Dados com Python e Dashboard WebElipse Webinar: Análise de Dados com Python e Dashboard Web
Elipse Webinar: Análise de Dados com Python e Dashboard WebElipse Software
 

Semelhante a Monitoracao Inteligente na Globo.com (20)

Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOA
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data Collection
 
Análise essencial
Análise essencialAnálise essencial
Análise essencial
 
Planejamento E Gerenciamento de Capacidade Para Sistemas Distribuídos
Planejamento E Gerenciamento de Capacidade Para Sistemas DistribuídosPlanejamento E Gerenciamento de Capacidade Para Sistemas Distribuídos
Planejamento E Gerenciamento de Capacidade Para Sistemas Distribuídos
 
Analise essencial
Analise essencialAnalise essencial
Analise essencial
 
Arquitetura Microsoft.pptx
Arquitetura Microsoft.pptxArquitetura Microsoft.pptx
Arquitetura Microsoft.pptx
 
Introdução aos Testes de Desempenho
Introdução aos Testes de DesempenhoIntrodução aos Testes de Desempenho
Introdução aos Testes de Desempenho
 
Dba Ciclo Palestra P5 V1a
Dba Ciclo Palestra P5 V1aDba Ciclo Palestra P5 V1a
Dba Ciclo Palestra P5 V1a
 
ProIndústria 2018 - dia 23 - H201 - A05
ProIndústria 2018 - dia 23 - H201 - A05ProIndústria 2018 - dia 23 - H201 - A05
ProIndústria 2018 - dia 23 - H201 - A05
 
Projetos de Software com Visual Studio Team System
Projetos de Software com Visual Studio Team SystemProjetos de Software com Visual Studio Team System
Projetos de Software com Visual Studio Team System
 
S1 - Analise de Redes.pdf
S1 - Analise de Redes.pdfS1 - Analise de Redes.pdf
S1 - Analise de Redes.pdf
 
Analise de Requisitos
Analise de RequisitosAnalise de Requisitos
Analise de Requisitos
 
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
 
Logistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoLogistica e Sistemas de Automação
Logistica e Sistemas de Automação
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance Aplicacional
 
Computacao
ComputacaoComputacao
Computacao
 
TSPD PPT
TSPD PPTTSPD PPT
TSPD PPT
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
 
Uso Do Arena Em Simulacao
Uso Do Arena Em SimulacaoUso Do Arena Em Simulacao
Uso Do Arena Em Simulacao
 
Elipse Webinar: Análise de Dados com Python e Dashboard Web
Elipse Webinar: Análise de Dados com Python e Dashboard WebElipse Webinar: Análise de Dados com Python e Dashboard Web
Elipse Webinar: Análise de Dados com Python e Dashboard Web
 

Monitoracao Inteligente na Globo.com

  • 1. Monitoração Inteligente Denis A. Vieira Jr. Ricardo Clemente
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Tecnologia de correlação Processamento de consultas Memória Dados Dados Dados Relações persistentes consulta resposta Processamento de consultas Memória dados dados consulta contínua resposta fluxos de dados “ banco de dados ao contrário”
  • 19.
  • 21.
  • 22. Motor de correlação Se a sessão aumentar 10% no front-end dentro de 3 minutos e a média das cpus da farm do front não subir 5% e no banco o número de queries lentas for maior que 10, então está caracterizada uma contenção no banco de dados gerando enfileiramento de usuários Aplicação
  • 23. Motor de correlação Aplicação Mysql Server Vip t – 3 min t t – 3 min t t cpu_usr slow_query session
  • 24. Motor de correlação SELECT Server.host , Server.cpu_usr, Server_PAST.cpu_usr, Vip.session, Vip_PAST.session, Mysql.slow_query FROM Server.win:time(1 min) as Server , Server.win:ext_timed(current_timestamp(), 3 min) as Server_PAST , Vip.win:time(1 min) as Vip , Vip.win:ext_timed(current_timestamp(), 3 min) as Vip_PAST , Mysql.win:time (1min) as Mysql HAVING Vip.session > Vip_PAST.session * 1.10 AND avg(Server.cpu_usr) < avg (Server_PAST.cpu_usr) * 1.05 AND Mysql.slow_query > 10 Aplicação
  • 25.
  • 26. Motor de correlação Fonte: Esper Performance - http://docs.codehaus.org/display/ESPER/Esper+performance Performance Esper Item Especificação HW Servidor Esper 2 x Intel Xeon 5130 2GHz (4 cores total), 16GB RAM VM config -Xms2g -Xmx2g -Xns128m -Xgc:gencon Consulta # cons. evt/s Latência Latência média Nota select '$' as ticker from Market(ticker='$').win:length(1000).stat:weighted_avg('price', 'volume') output last every 30 seconds 1000 519 728 99.66% < 10us 2.8us CPU com 85%, 70 Mbit/s
  • 27. Motor de correlação Processamento no Motor de Correlação
  • 28. Visualização – Console Consultando o ambiente em tempo real
  • 29. Visualização – Troubleshooting Antecipando e resolvendo mais rápido incidentes
  • 30. Visualização - Dashboard Visão consolidada de serviços
  • 31. E para as regras que não são conhecidas?
  • 32.
  • 33. Aprendizado de máquina 60 sinais de entrada
  • 34. Aprendizado de máquina Resumido em 1 componente principal + matriz de geração
  • 35. Aprendizado de máquina componente principal 2 sensibilidade três anomalias
  • 36.
  • 37.
  • 38. Monitoração Inteligente Considerações finais
  • 40.

Notas do Editor

  1. Monitoração Pontual – Informação desconexa. Sem correlação. Basrada em Threshold comum Precaução – Situações passiveis de previsão… aumento de conexões em um intervalo de tempo etc. tendencias Visão realista da produção – Visibilidade real (nao podemos enxergar a producao com caixinhas somente, onde olhamos para os itens de monitoracao isoladamente, precisamos enxergar a producao como um todo, onde devemos ver uma noção real do que está acontecendo naquele momento). O ecosistema da produção é vivo, mutável)
  2. Aprendizado (Sistema inferir nas anomalias e avisar quando achar algo estranho) – É o mais dificil de se conseguir manter com credibilidade. Automação – Poder executar tarefas pontuais Credibilidade - excesso de informação, regime de plantão, pressão
  3. Sitescope nivel de aplicacao Siteseer (externo)
  4. Os appenders para frameworks de logs para integração com o sistema (via rest ou o que for) enviar eventos de logs para o sistema de correlação ao invés de gravar em um arquivo de log simplesmente. Experiencia para antecipar situacoes onde o dia a dia traz o conhecimento para criarmos regras e alimentarmos a base de conhecimento da ferramenta e assim conseguirmos antecipar situações que possam vir a acontecer (aumento de conexoes / aumento de memoria / consumo de CPU) Interface de monitoracao unica – de varios apps para nagios/correlacao Deteccao de causa raiz (base de conhecimento criada na ferramenta através do conhecimento do dia a dia)
  5. Os appenders para frameworks de logs para integração com o sistema (via rest ou o que for) enviar eventos de logs para o sistema de correlação ao invés de gravar em um arquivo de log simplesmente.