Você já se perguntou como podemos detectar anomalias em dados de streaming? Imagine o cenário em que queremos monitorar tópicos do Twitter, ou seja, temos diversos tópicos sendo gerados e utilizados ao longo do tempo. Neste cenário, podemos utilizar algoritmos de detecção de anomalias para detectar #trend-topics, bem como o contrário (tópicos que não mais interessantes) em tempo real. Quer conhecer mais sobre este assunto e outros cases? Inteligência Artificial pode ser mais simples do que você imagina.
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Sua solução escala? Testes de Stress e APMs podem responder.Isaac de Souza
Quando uma solução cresce uma pergunta natural surge: a solução escala? A resposta muitas vezes é dada sem maior embasamento, olhando apenas para Infra de produção e arquitetura do software. Contudo há um tipo de teste de software que se encaixa muito bem para obter respostas com embasamento e números, é o teste de Stress! Ele, somado ao uso de APMs pode gerar números relevantes que trarão maior confiança sobre a real escalabilidade de sua solução.
Apresentação sobre como personalizamos a jornada do PicPay.
Explicamos sobre o uso de técnicas de big data e machine learning aplicado ao negócio.
Falamos sobre recomendação na home, problemas de NLP em busca e construção de plataformas.
Necessitando capacitar sua equipe de operadores para executarem o CEP - Controle Estatístico do Processo internamente? Este material, em Power Point, rico em ilustrações e efeitos didáticos é a solução adequada para quem precisa realizar internamente este importante evento e, não é possível contar com ajuda de instrutores e consultores externos, porque seria necessário adequar os horários dos treinandos à modelo usual de treinamento em 8hs por dia.
Com a possibilidade de adequar os horários de apresentação estes 155 slides cobrem o conteúdo básico para a capacitação e conscientização dos operadores para executarem corretamente o CEP em sua empresa.
Para mais informações sobre este material acesse: http://migre.me/sEjFX
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
Nessa apresentação temos alguns CASES e PROJETOS que fizemos para empresas do mercado financeiro, bancos, corretoras, cooperativas de crédito, entre outros.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Sua solução escala? Testes de Stress e APMs podem responder.Isaac de Souza
Quando uma solução cresce uma pergunta natural surge: a solução escala? A resposta muitas vezes é dada sem maior embasamento, olhando apenas para Infra de produção e arquitetura do software. Contudo há um tipo de teste de software que se encaixa muito bem para obter respostas com embasamento e números, é o teste de Stress! Ele, somado ao uso de APMs pode gerar números relevantes que trarão maior confiança sobre a real escalabilidade de sua solução.
Apresentação sobre como personalizamos a jornada do PicPay.
Explicamos sobre o uso de técnicas de big data e machine learning aplicado ao negócio.
Falamos sobre recomendação na home, problemas de NLP em busca e construção de plataformas.
Necessitando capacitar sua equipe de operadores para executarem o CEP - Controle Estatístico do Processo internamente? Este material, em Power Point, rico em ilustrações e efeitos didáticos é a solução adequada para quem precisa realizar internamente este importante evento e, não é possível contar com ajuda de instrutores e consultores externos, porque seria necessário adequar os horários dos treinandos à modelo usual de treinamento em 8hs por dia.
Com a possibilidade de adequar os horários de apresentação estes 155 slides cobrem o conteúdo básico para a capacitação e conscientização dos operadores para executarem corretamente o CEP em sua empresa.
Para mais informações sobre este material acesse: http://migre.me/sEjFX
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
Nessa apresentação temos alguns CASES e PROJETOS que fizemos para empresas do mercado financeiro, bancos, corretoras, cooperativas de crédito, entre outros.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Como detectar anomalias em dados de streaming? Simplificado (TDC Connections 2022)
1. Como Detectar Anomalias
em Dados de Streaming?
Simplificado.
Leonardo Mauro P. Moraes
Senior Artificial Intelligence Analyst
2. Speaker
Leonardo Mauro P. Moraes
2
Experiência
• Analista de Inteligência Artificial Sênior
(Sinch) Brasil, Nov. 2020 – Agora
• Tutor de Ciência de Dados e Big Data
(USP) Brasil, Set. 2020 – Agora
• Doutorando em Ciência da Computação
(USP) Brasil, Mar. 2022 – Agora
3. 3
Agenda
Temos alguns
problemas de
monitoramento de
dados de streaming
Contexto Solução
Qual foi a solução
desenvolvidapara
encontrar as
anomalias?
Resultados
Alcançamos bons
resultados; bem
como,aprendemos
MUITO durante o
processo
INTELIGÊNCIAARTIFICIAL
5. 5
O que são Dados de Streaming?
De acordo com AWS
Dados de Streaming (em inglês, Streaming Data) são dados gerados continuamente [...]
São dos mais diversos tipos, tais como
• arquivos de log,
• compras de e-commerce,
• informações de redes sociais, e
• volume de mensagens no Twitter
• atividade de jogador durante o jogo.
6. 6
Nossos Desafios
Nota
• A maioria dos serviços oferecidos pela Sinch estão relacionados a
CPaaS (Plataformas Conversacionais), ou seja, WhatsApp, SMS, ligações, etc.
Use Cases
• Produtos - Voice Calling e Flash Call Verification.
• Monitorar o índice de sucesso das ligações telefônicas.
7. 7
O que queremos Monitorar?
Objetivo
• Identificar quedas ou picos nos
índices de sucesso dos produtos.
• Dados por país, provedor e produto
• Monitorar mais de 25 mil dados.
8. 8
O que queremos Monitorar?
Quais são as condições do algoritmo?
• As previsões devem ser feitas online;
• Os algoritmos devem ser executados
automaticamente e sem supervisão;
• Os algoritmos devem aprender
continuamente e se adaptar a
ambientes dinâmicos.
10. 10
Como Monitorar?
Algoritmo
• Moving Average
• Exponential Moving Average
• etc..
Moving Average
• É um cálculo usado para suavizar os dados
criando uma nova série de subconjuntos de
pontos de dados.
• Em resumo, essa técnica simplesmente calcula
a média dos n pontos de dados mais recentes.
Detecção de Anomalia
1. Valor Esperado
2. IntervaloAceitável
11. 11
Moving Average
Valor Esperado
• É resultado da média dos n
últimos pontos - chamado de
expected.
IntervaloAceitável (threshold)
• Calcula o desvio padrão std dos n valores.
• Intervalo [expected - std, expected + std]
Explaining the 68-95-99.7 rule for a Normal Distribution
13. 13
Moving Average funcionando!
Dataset - Benchmark: LabeledAnomaly Detection TS
Problemas
• Moving Average
achou muitos
falsos positivos
• É muito sensível
aos dados
14. 14
Exponential Moving Average
Valor Esperado
• É resultado da média ponderada
dos n últimos pontos.
IntervaloAceitável - mesma estratégia
Repare a mágica! 🌟
• Nós conseguimos editar livremente
as estratégias de "Valor Esperado" e
de "Intervalo Aceitável" e criar novos
algoritmos de Detecção de Anomalias!
18. 18
Discussão
Conteúdo Complementar
• Medium - Simple Anomaly Detection algorithms for Streaming Data
• Kaggle - Anomaly Detection - Streaming Data
• Kaggle - Anomaly Detection - Streaming Data (Evaluation)
• Kaggle - Anomaly Detection - Streaming Data (Extended) (Mani Sarkar)
Detecção de Anomalias
• Algoritmo simples e altamente funcional;
• Editável: "Valor Esperado" e "Intervalo Aceitável".
Implementação e Avaliação
• Implementação: Processamento em lotes, a cada 15 minutos.
• Avaliação: Em dados de produção, "data feedback loop".
19. 19
Implementação - Pipeline
• Pipeline de Ingestão de Dados (chamado de Ingress Pipeline)
• Pipeline de Detecção de Anomalias (chamado de Model Pipeline)
• Pipeline de Alertas de Anomalias (chamado de DataDog Pipeline)