Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura computacional por Daniel Segabinazzi, José Luiz Filho e Leandro Akune - IPT
O modelo de utilização dos recursos computacionais vem passando por grandes transformações o que implica numa grande quantidade de registros gerados. Seja numa estrutura clássica ou no conceito de entrega de serviço, muitos registros são gerados e armazenados nos logs de cada recurso oferecido. Existem propostas de consolidar todos esses logs a fim de facilitar a análise das ocorrências, porém ainda assim é uma grande quantidade de dados concentrada e nem sempre num formado padronizado e estruturado de armazenamento. Esse artigo aborda essa questão de como classificar, extrair dados relevantes de diferentes fontes de armazenamento e apontar onde está a causa raiz de um comportamento anômalo a fim de minimizar o impacto dessa condição que afeta a disponibilidade dos recursos computacionais.
Semelhante a Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura computacional por Daniel Segabinazzi, José Luiz Filho e Leandro Akune - IPT
2016 - WebGis para apoio ao licenciamento e regularização ambientalGeorge Porto Ferreira
Semelhante a Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura computacional por Daniel Segabinazzi, José Luiz Filho e Leandro Akune - IPT (20)
Agenda atualizada - 14TH CMG BRASIL PERFORMANCE AND CAPACITY PLANNING CONFERENCE
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura computacional por Daniel Segabinazzi, José Luiz Filho e Leandro Akune - IPT
1. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
2017
Daniel Segabinazzi Borba
José Luiz Filho
Leandro Yukio Akune
Análise da causa raiz e do comportamento
anômalo em ambientes de infraestrutura
computacional
2. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Agenda
1. Introdução
1.1 Contextualização; Objetivos; Justificativa; e Estrutura.
2. Referencial teórico
2.1 Armazenamento e gerenciamento dos registros de ocorrências
2.2 Evolução dos modelos de infraestrutura
2.3 Técnicas oferecidas pelo Big Data
3. Trabalhos Relacionados
4. Metodologia
5. Arquitetura do Experimento
6. Avaliação e Resultados
7. Conclusão / Referências
3. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Contexto
Figura 1 – Infraestrutura
computacional (Fonte: Autores)
4. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Contexto
- Grande quantidade de:
- Equipamentos de infraestrutura
- Registros de atividades
- Semiestruturado / Não estruturado
Grau de aproveitamento de todos os registros
gerados
5. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Contexto
Figura 2 - Análise de logs com
Hadoop (Fonte: Autores) Análise
6. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Referencial Teórico
Evolução dos modelos de infraestrutura
Infraestrutura descentralizada;
Subutilização do hardware;
Virtualização;
Modelo de Entrega de Serviço
Computação em Nuvem;
Figura 4 - Funcionamento da Computação em Nuvem (Fonte: Adaptado
http://computer.howstuffworks.com/cloud-computing/cloud-computing.htm)
7. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Referencial Teórico
Técnicas oferecidas pelo Big Data
Name Node
• Data Node
• Hadoop
• Split
• MapReduce
Figura 5 - Funcionamento do Hadoop (Fonte: HINGAVE, 2015)
8. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
(1) Uso do Big Data para a detecção de comportamentos
anômalos em logs de grande escala
Logs de diferentes fontes – Vodafone (Portugal):
DHCP Server, Authentication Server e Firewall
Estabelecimento de “features”
Critérios
Diferente de ocorrência entre clusters (0,1 a 20%)
Mais de uma ocorrência;
9. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
Agrupamento de Hosts de acordo com a incidência das
“features”
Mineração de dados
Limpeza / normalização / classificação
Uso de aprendizagem de máquina
Não supervisionado clustering
Supervisionado classificação linear
10. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
11. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
12. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
13. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Relacionados
14. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Metodologia
Conjunto de métodos e processos não lineares usado para abordar problemas
de forma prática e criativa
Forma de pensar focada em soluções
Parâmetros do problema e suas soluções são exploradas simultaneamente
Figura 12 - Processo Design Thinking (Fonte: http://goplot.com.br/design-thinking-aplicado-em-video/)
15. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
16. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
17. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
18. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
19. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
20. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
21. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – NLB WEB SITE
Site 1 http://cloudwebtest.cloud.com/ Site 2 http://cloudwebtest2.cloud.com/
22. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Console Monitoramento PRTG
23. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Console WebStressTest PRTG
24. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Console WebStressTest PRTG (Gráfico Gerado pelo Stress Teste)
25. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Console WebStressTest - Logs em arquivos .csv
26. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Console PRTG MONITORING - Logs em arquivos .csv e .pdf
27. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Relatório PRTG MONITORING – Visão dos Logs em .csv
28. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Gráfico dos resultados obtidos da monitoração no Site (trafego http) durante
o Stress Test.
29. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Gráfico dos resultados obtidos da monitoração no Site (Carga Processamento
- CPU) durante o Stress Test.
30. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Arquitetura do Experimento
WINDOWS – Gráfico dos resultados obtidos da monitoração no Site (Carga Processamento
- MEMORIA) durante o Stress Test.
31. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Avaliação e Resultados
A solução proposta procura relacionar a necessidade humana do uso de dados, a
necessidade técnica de agilidade na resposta nas soluções de problemas de
indisponibilidade, e na necessidade do negócio de não ser impactado pelo alto
tempo de resposta de sua infraestrutura.
Figura 13 – Restrições do Design Thinking (Fonte: http://www.n5design.com.br/design-thinking-voce-sabe-o-que-e/)
32. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Avaliação e Resultados
Figura 1 - Análise de logs com Hadoop (Fonte:
Autores)
33. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Avaliação e Resultados
Figura 1 - Análise de logs com Hadoop (Fonte:
Autores)
34. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Conclusão
- Adoção do estudo de logs de mais de um componente de
infraestrutura;
- Sem padrão para coleta e armazenamento dos logs;
- Restrição para um canal de dados e local de armazenamento
seguro
- Uso da nuvem para armazenamento de logs
confidencialidade
- Avaliação de logs originadas na Nuvem aferimento
- Uso do hadoop como File System escalabilidade, desempenho
- Momento fazer a limpeza de dados Origem ou Destino
- Aprendizagem de máquina para predição e rastreabilidade
35. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Conclusão
Desenvolver ou abordar a metodologia mais adequada, aplicar a tecnologia de
melhor repercussão, utilizar a ferramenta correta, distinguir um evento relevante
com exatidão e aplicar o melhor tratamento de proteção sempre será um desafio
evolutivo para a Segurança da Informação.
A assertividade no investimento e dedicação depende de estudo e ação proativa
com base em análises (preditiva, prescritiva, descritiva e diagnóstica):
Custo vs Benefício (CID+AAA+... Valor da informação?)
Tempo de resposta vs Performance (Cumprir SLA e evitar desperdício)
Segurança vs Conveniência (Continuidade e disponibilidade)
Necessidade vs Escalabilidade (Metas, prazos e ciclo de vida)
36. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Trabalhos Futuros
Aplicação das técnicas de mineração de dados e recursos de big data para identificar
comportamentos anômalos e tentativas de ataques em ambientes críticos que
envolvem as tecnologias emergentes de redes de sensores, entrega de conteúdo,
gerenciamento e aprendizagem de máquinas.
IoT
CDN
SDN
Indústria 4.0
Estudo de outras features extraídas de logs e correlação entre outro
equipamentos;
37. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Referências
ABAD, C. et al. Log correlation for intrusion detection: A proof of concept. Proceedings - Annual
Computer Security Applications Conference, ACSAC, v. 2003-January, n. Acsac, p. 255–264, 2003.
BALLIU, A. et al. A Big Data analyzer for large trace logs. Computing, v. 98, n. 12, p. 1225–1249, 2016.
Chuvakin, A.; Schmidt, K.; Phillips, C.; Logging and Log Management: The Authoritative Guide to
Understanding the Concepts Surrounding Logging and Log Management, Elsevier, 2013
COMPUTING, I. Performance Evaluation of a MapReduce Hadoop-based Implementation for
Processing Large Virtual Campus Log Files. 2015.
GONC, D.; CORREIA, M.; LISBOA, U. DE. Big Data Analytics for Detecting Host Misbehavior in Large
Logs. n. 3, 2015.
HINGAVE, H. An approach for MapReduce based Log analysis using Hadoop. p. 1264–1268, 2015.
Koh, J., Fister, S., & Seo, H. Y. (2011). Phonetic Analytics Technology and Big Data : Cases .
METCALF, J. Big data analytics and revision of the common rule. Communications of the ACM, v. 59, n.
7, p. 31–33, 2016.
TALL, A.; WANG, J.; HAN, D. Survey of Data Intensive Computing Technologies Application to
Security Log Data Management. p. 268–273, 2016.
38. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Obrigado!
Daniel Segabinazzi Borba
(danielspborba@gmail.com)
Jose Luiz Filho
(jluiz.filho@hotmail.com)
Leandro Yukio Akune
(leandro@akune.com.br)
39. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Apêndice
- Tratamento (limpeza) na linguagem R
Var1 <-
Read.table(file=“name”,header=TRUE,sep=“separador”)
40. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Apêndice
- Tratamento (limpeza) na linguagem R
Var2 -< Na.omit(var1)
41. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Apêndice
- Tratamento (limpeza) na linguagem R
var3 <- var2[,c(“col1”,”col2”)]
42. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Apêndice
- Tratamento (limpeza) na linguagem R
Write.table()
Notas do Editor
\
Contextualização do problema – é possível aproveitar a maior quantidade de informação registrada nos logs ou perdemos boa parte de registros por ser inviável a análise da grande quantidade de linhas geradas por equipamento, e cada equipamento gera num formato diferente. Alguns trabalhos acreditam ser dados semiestruturados outros não estruturados.
Proposta de cenário (cluster de web server com NLB) para geração de logs num experimento com o objetivo de (01) quais logs são relevantes para a análise de comportamento anômalo dos equipamentos propostos: Windows Server, Web Server, Balanceador de Carga.
O comportamento anômalo proposto é uma simulação de ataque de DoS com o objetivo de indisponibilizar o acesso aos recursos computacionais.
Proposta de cenário (cluster de web server com NLB) para geração de logs num experimento com o objetivo de (01) quais logs são relevantes para a análise de comportamento anômalo dos equipamentos propostos: Windows Server, Web Server, Balanceador de Carga.
O comportamento anômalo proposto é uma simulação de ataque de DoS com o objetivo de indisponibilizar o acesso aos recursos computacionais.
Proposta de cenário (cluster de web server com NLB) para geração de logs num experimento com o objetivo de (01) quais logs são relevantes para a análise de comportamento anômalo dos equipamentos propostos: Windows Server, Web Server, Balanceador de Carga.
O comportamento anômalo proposto é uma simulação de ataque de DoS com o objetivo de indisponibilizar o acesso aos recursos computacionais.