SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
Como Detectar Anomalias
em Dados de Streaming?
Simplificado.
Leonardo Mauro P. Moraes
Senior Artificial Intelligence Analyst
Speaker
Leonardo Mauro P. Moraes
2
Experiência
• Analista de Inteligência Artificial Sênior
(Sinch) Brasil, Nov. 2020 – Agora
• Tutor de Ciência de Dados e Big Data
(USP) Brasil, Set. 2020 – Agora
• Doutorando em Ciência da Computação
(USP) Brasil, Mar. 2022 – Agora
3
Agenda
Temos alguns
problemas de
monitoramento de
dados de streaming
Contexto Solução
Qual foi a solução
desenvolvidapara
encontrar as
anomalias?
Resultados
Alcançamos bons
resultados; bem
como,aprendemos
MUITO durante o
processo
INTELIGÊNCIAARTIFICIAL
1. Contexto
5
O que são Dados de Streaming?
De acordo com AWS
Dados de Streaming (em inglês, Streaming Data) são dados gerados continuamente [...]
São dos mais diversos tipos, tais como
• arquivos de log,
• compras de e-commerce,
• informações de redes sociais, e
• volume de mensagens no Twitter
• atividade de jogador durante o jogo.
6
Nossos Desafios
Nota
• A maioria dos serviços oferecidos pela Sinch estão relacionados a
CPaaS (Plataformas Conversacionais), ou seja, WhatsApp, SMS, ligações, etc.
Use Cases
• Produtos - Voice Calling e Flash Call Verification.
• Monitorar o índice de sucesso das ligações telefônicas.
7
O que queremos Monitorar?
Objetivo
• Identificar quedas ou picos nos
índices de sucesso dos produtos.
• Dados por país, provedor e produto
• Monitorar mais de 25 mil dados.
8
O que queremos Monitorar?
Quais são as condições do algoritmo?
• As previsões devem ser feitas online;
• Os algoritmos devem ser executados
automaticamente e sem supervisão;
• Os algoritmos devem aprender
continuamente e se adaptar a
ambientes dinâmicos.
2. Solução
10
Como Monitorar?
Algoritmo
• Moving Average
• Exponential Moving Average
• etc..
Moving Average
• É um cálculo usado para suavizar os dados
criando uma nova série de subconjuntos de
pontos de dados.
• Em resumo, essa técnica simplesmente calcula
a média dos n pontos de dados mais recentes.
Detecção de Anomalia
1. Valor Esperado
2. IntervaloAceitável
11
Moving Average
Valor Esperado
• É resultado da média dos n
últimos pontos - chamado de
expected.
IntervaloAceitável (threshold)
• Calcula o desvio padrão std dos n valores.
• Intervalo [expected - std, expected + std]
Explaining the 68-95-99.7 rule for a Normal Distribution
12
Moving Average funcionando!
Dataset - Benchmark: LabeledAnomaly Detection TS
Dados
• 4 datasets rotulados
• Streaming Data
13
Moving Average funcionando!
Dataset - Benchmark: LabeledAnomaly Detection TS
Problemas
• Moving Average
achou muitos
falsos positivos
• É muito sensível
aos dados
14
Exponential Moving Average
Valor Esperado
• É resultado da média ponderada
dos n últimos pontos.
IntervaloAceitável - mesma estratégia
Repare a mágica! 🌟
• Nós conseguimos editar livremente
as estratégias de "Valor Esperado" e
de "Intervalo Aceitável" e criar novos
algoritmos de Detecção de Anomalias!
15
Comparando os resultados
Moving Average
Exponential
Moving Average
16
Comparando os resultados
Moving Average
Exponential
Moving Average
3. Discussão
18
Discussão
Conteúdo Complementar
• Medium - Simple Anomaly Detection algorithms for Streaming Data
• Kaggle - Anomaly Detection - Streaming Data
• Kaggle - Anomaly Detection - Streaming Data (Evaluation)
• Kaggle - Anomaly Detection - Streaming Data (Extended) (Mani Sarkar)
Detecção de Anomalias
• Algoritmo simples e altamente funcional;
• Editável: "Valor Esperado" e "Intervalo Aceitável".
Implementação e Avaliação
• Implementação: Processamento em lotes, a cada 15 minutos.
• Avaliação: Em dados de produção, "data feedback loop".
19
Implementação - Pipeline
• Pipeline de Ingestão de Dados (chamado de Ingress Pipeline)
• Pipeline de Detecção de Anomalias (chamado de Model Pipeline)
• Pipeline de Alertas de Anomalias (chamado de DataDog Pipeline)
20
Vagas!
Faça parte
do time!
sinch.com/careers/
@sinch.latam
linkedin.com/company/sinch
medium.com/wearesinch
Thank you
for your attention ✌
Leonardo Mauro P. Moraes
http://leonardomauro.com
/in/leomaurodesenv/

Mais conteúdo relacionado

Semelhante a Como detectar anomalias em dados de streaming? Simplificado (TDC Connections 2022)

T02_LM3: Introdução à algoritmia (2013-2014)
T02_LM3: Introdução à algoritmia (2013-2014)T02_LM3: Introdução à algoritmia (2013-2014)
T02_LM3: Introdução à algoritmia (2013-2014)
Carlos Santos
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text mining
Josias Oliveira
 

Semelhante a Como detectar anomalias em dados de streaming? Simplificado (TDC Connections 2022) (20)

Sua solução escala? Testes de Stress e APMs podem responder.
Sua solução escala? Testes de Stress e APMs podem responder.Sua solução escala? Testes de Stress e APMs podem responder.
Sua solução escala? Testes de Stress e APMs podem responder.
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
TDC2018SP | Trilha Comp Cognitiva - Quer ter um bom chatbot ? Entao vamos com...
TDC2018SP | Trilha Comp Cognitiva - Quer ter um bom chatbot ? Entao vamos com...TDC2018SP | Trilha Comp Cognitiva - Quer ter um bom chatbot ? Entao vamos com...
TDC2018SP | Trilha Comp Cognitiva - Quer ter um bom chatbot ? Entao vamos com...
 
Apostila Intensivo Python - Desafio 2.pdf
Apostila Intensivo Python - Desafio 2.pdfApostila Intensivo Python - Desafio 2.pdf
Apostila Intensivo Python - Desafio 2.pdf
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Apresentação Agile Tour Salvador 2015
Apresentação Agile Tour Salvador 2015Apresentação Agile Tour Salvador 2015
Apresentação Agile Tour Salvador 2015
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Curso CEP Operadores
Curso CEP  OperadoresCurso CEP  Operadores
Curso CEP Operadores
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Science
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
T02_LM3: Introdução à algoritmia (2013-2014)
T02_LM3: Introdução à algoritmia (2013-2014)T02_LM3: Introdução à algoritmia (2013-2014)
T02_LM3: Introdução à algoritmia (2013-2014)
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text mining
 
01 introducaocaats
01 introducaocaats01 introducaocaats
01 introducaocaats
 
Lecture 4 :: As métricas para o Processo e Projeto de SW
Lecture 4 :: As métricas para o Processo e Projeto de SWLecture 4 :: As métricas para o Processo e Projeto de SW
Lecture 4 :: As métricas para o Processo e Projeto de SW
 
O ambiente PSPP
O ambiente PSPPO ambiente PSPP
O ambiente PSPP
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 

Último

Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
Natalia Granato
 

Último (6)

Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 

Como detectar anomalias em dados de streaming? Simplificado (TDC Connections 2022)

  • 1. Como Detectar Anomalias em Dados de Streaming? Simplificado. Leonardo Mauro P. Moraes Senior Artificial Intelligence Analyst
  • 2. Speaker Leonardo Mauro P. Moraes 2 Experiência • Analista de Inteligência Artificial Sênior (Sinch) Brasil, Nov. 2020 – Agora • Tutor de Ciência de Dados e Big Data (USP) Brasil, Set. 2020 – Agora • Doutorando em Ciência da Computação (USP) Brasil, Mar. 2022 – Agora
  • 3. 3 Agenda Temos alguns problemas de monitoramento de dados de streaming Contexto Solução Qual foi a solução desenvolvidapara encontrar as anomalias? Resultados Alcançamos bons resultados; bem como,aprendemos MUITO durante o processo INTELIGÊNCIAARTIFICIAL
  • 5. 5 O que são Dados de Streaming? De acordo com AWS Dados de Streaming (em inglês, Streaming Data) são dados gerados continuamente [...] São dos mais diversos tipos, tais como • arquivos de log, • compras de e-commerce, • informações de redes sociais, e • volume de mensagens no Twitter • atividade de jogador durante o jogo.
  • 6. 6 Nossos Desafios Nota • A maioria dos serviços oferecidos pela Sinch estão relacionados a CPaaS (Plataformas Conversacionais), ou seja, WhatsApp, SMS, ligações, etc. Use Cases • Produtos - Voice Calling e Flash Call Verification. • Monitorar o índice de sucesso das ligações telefônicas.
  • 7. 7 O que queremos Monitorar? Objetivo • Identificar quedas ou picos nos índices de sucesso dos produtos. • Dados por país, provedor e produto • Monitorar mais de 25 mil dados.
  • 8. 8 O que queremos Monitorar? Quais são as condições do algoritmo? • As previsões devem ser feitas online; • Os algoritmos devem ser executados automaticamente e sem supervisão; • Os algoritmos devem aprender continuamente e se adaptar a ambientes dinâmicos.
  • 10. 10 Como Monitorar? Algoritmo • Moving Average • Exponential Moving Average • etc.. Moving Average • É um cálculo usado para suavizar os dados criando uma nova série de subconjuntos de pontos de dados. • Em resumo, essa técnica simplesmente calcula a média dos n pontos de dados mais recentes. Detecção de Anomalia 1. Valor Esperado 2. IntervaloAceitável
  • 11. 11 Moving Average Valor Esperado • É resultado da média dos n últimos pontos - chamado de expected. IntervaloAceitável (threshold) • Calcula o desvio padrão std dos n valores. • Intervalo [expected - std, expected + std] Explaining the 68-95-99.7 rule for a Normal Distribution
  • 12. 12 Moving Average funcionando! Dataset - Benchmark: LabeledAnomaly Detection TS Dados • 4 datasets rotulados • Streaming Data
  • 13. 13 Moving Average funcionando! Dataset - Benchmark: LabeledAnomaly Detection TS Problemas • Moving Average achou muitos falsos positivos • É muito sensível aos dados
  • 14. 14 Exponential Moving Average Valor Esperado • É resultado da média ponderada dos n últimos pontos. IntervaloAceitável - mesma estratégia Repare a mágica! 🌟 • Nós conseguimos editar livremente as estratégias de "Valor Esperado" e de "Intervalo Aceitável" e criar novos algoritmos de Detecção de Anomalias!
  • 15. 15 Comparando os resultados Moving Average Exponential Moving Average
  • 16. 16 Comparando os resultados Moving Average Exponential Moving Average
  • 18. 18 Discussão Conteúdo Complementar • Medium - Simple Anomaly Detection algorithms for Streaming Data • Kaggle - Anomaly Detection - Streaming Data • Kaggle - Anomaly Detection - Streaming Data (Evaluation) • Kaggle - Anomaly Detection - Streaming Data (Extended) (Mani Sarkar) Detecção de Anomalias • Algoritmo simples e altamente funcional; • Editável: "Valor Esperado" e "Intervalo Aceitável". Implementação e Avaliação • Implementação: Processamento em lotes, a cada 15 minutos. • Avaliação: Em dados de produção, "data feedback loop".
  • 19. 19 Implementação - Pipeline • Pipeline de Ingestão de Dados (chamado de Ingress Pipeline) • Pipeline de Detecção de Anomalias (chamado de Model Pipeline) • Pipeline de Alertas de Anomalias (chamado de DataDog Pipeline)
  • 21. Thank you for your attention ✌ Leonardo Mauro P. Moraes http://leonardomauro.com /in/leomaurodesenv/