SlideShare uma empresa Scribd logo
Mineração em
Fluxos Contínuos de Dados
Orlando da Silva Junior
osilva[at]ufabc.edu.br
Agenda
•   Introdução
•   Fluxos de dados
•   Processamento de fluxos de dados
•   Mineração em fluxos de dados
•   Aplicações
•   Referências
Objetivo
• Apresentar os principais conceitos da mineração em fluxos
  contínuos de dados
  • Fundamentos
  • Técnicas
  • Aplicações
Motivação
• A mineração em fluxos de dados consiste na utilização de técnicas
  de aprendizado de máquina para explorar fluxos de dados

• Os fluxos de dados são gerados em diversos contextos tecnológicos
  •   Telecomunicações
  •   Energia
  •   Astronomia e meteorologia
  •   Computação e suas aplicações
       • Internet
       • Detecção
       • Monitoramento e supervisão


• Objetivo: minerar padrões, processar consultas e computar
  estatísticas sobre os fluxos de dados em tempo real
Fluxos de Dados
• Um fluxo de dados é uma sequência contínua e ordenada de
  itens em tempo real (Golab e Özsu, 2003)
  • Não é possível controlar a ordem em que esses itens chegam
  • Não é viável armazenar a totalidade desse fluxo localmente

• Características:
  • Enorme volume de dados
  • Os dados trafegam em altas velocidades
  • Tráfego em tempo real
                                  FENÔMENO DOS FLUXOS DE
                                            DADOS
                                           Transmitir
                                           Computar
                                           Armazenar
Fluxos de Dados
• Os fluxos de dados são contínuos e gerados em ambientes
  dinâmicos de alta velocidade que mudam como tempo

• Por essas características, as técnicas atuais não conseguem
  tratar desses fluxos

• São necessárias novas técnicas que criem modelos de decisão
  que sejam capazes de:
  • Incorporar novas informações
  • Esquecer dados desatualizados
  • Detectar mudanças e se autoadaptarem às novas informações
Métodos para Processamento de
Fluxos de Dados
• Os métodos para processamento de fluxos de dados são
  focados na manutenção do controle do fluxo

• Na mineração de dados, os métodos para processamento de
  fluxos de dados são tratados conforme a abordagem adotada
  (Gaber, Zaslavsky e Krishnaswamy, 2005):

  • Técnicas baseadas em dados: a ideia central é examinar apenas
    um subconjunto de um conjunto de dados completo, ou
    transformar os dados em uma representação de dados de menor
    tamanho aproximado

  • Técnicas baseadas em tarefas: a ideia é alcançar soluções
    eficientes em tempo e espaço
Técnicas de Processamento de Fluxos de
Dados Baseadas em Dados
• As técnicas baseadas em dados referem-se (Gaber, Zaslavsky e
  Krishnaswamy, 2005):
  • À sumarização do conjunto de dados total; ou
  • À escolha de um subconjunto de dados do fluxo de entrada para
    ser analisado


• As principais técnicas são:
  •   Amostragem
  •   Balanceamento de carga
  •   Sketching
  •   Estruturas de dados sinópticas
  •   Agregação
Técnicas de Processamento de Fluxos de
Dados Baseadas em Dados
• Amostragem
  • Processo de escolha probabilística de um item de dado ser processado ou
    não (Gaber, Zaslavsky e Krishnaswamy, 2005)
  • Limites da taxa de erro do cálculo são dados como uma função da taxa de
    amostragem
  • O problema da amostragem está no tamanho desconhecido do conjunto de
    dados

• Balanceamento de carga
  • Processo de remoção de sequências de fluxos
  • É difícil de ser usado para mineração de dados porque remove pedaços dos
    fluxos de dados que poderiam representar padrões de interesse (Gaber,
    Zaslavsky e Krishnaswamy, 2005)

• Sketching
  • É uma técnica de amostragem aleatória que sumariza o fluxo de dados
    usando uma pequena porção de memória (Babcock et al., 2002)
  • Assim como o balanceamento de carga, é difícil de ser usado na mineração
    de dados (Gaber, Zaslavsky e Krishnaswamy, 2005)
Técnicas de Processamento de Fluxos de
Dados Baseadas em Dados

• Estruturas de dados sinópticas
  • São estruturas que representam os dados
  • As técnicas que utilizam essas estruturas sumarizam o fluxo de
    entrada e produzem uma resposta aproximada (Gaber, Zaslavsky
    e Krishnaswamy, 2005)
  • Análise de wavelets, histogramas, quantis e momentos de
    frequência


• Agregação
  • Calcula medidas estatísticas, as quais sumarizam o fluxo de
    entrada (Gaber, Zaslavsky e Krishnaswamy, 2005)
  • Esta técnica pode ser usada no contexto da mineração de dados
Mineração em Fluxos de Dados
• A evolução dos volumes de dados tornaram inviável a criação de um
  modelo de aprendizado preciso e consistente

• Em muitos casos, essa evolução está relacionada ao alto fluxo de
  informações que trafegam entre as aplicações

• Os SGBD's tradicionais não são projetados para o carregamento
  rápido e contínuo de dados de modo individual (Babcock et al.,
  2002)

• A mineração de dados tradicional pode tratar de grandes volumes
  de dados, mas não de dados que trafegam continuamente

• É necessário criar novas técnicas que trabalhem com dados que
  variam ao longo do tempo e que criem um modelo de aprendizado
  preciso e consistente.
Mineração em Fluxos de Dados
• A mineração em fluxos de dados preocupa-se com a extração
  de estruturas de conhecimento representadas em fluxos não-
  estacionários de informação (Gaber, Zaslavsky e
  Krishnaswamy, 2005)

• A ideia geral das técnicas é criar algoritmos que coletem
  informações sobre o fluxo de dados em uma única passada
  (𝑂(𝑛))
  • Restrições: limitação de recursos computacionais (CPU e
    memória)
  • Resultado: modelo de aprendizado atualizado dos dados
Mineração em Fluxos de Dados
Algoritmo genérico de mineração em fluxos de dados
Entrada: fluxo de dados (sequência de dados 𝐴: 1 … 𝑁 → 𝑅2 )
Saída: modelo de aprendizado
1 Sumarizar pequena porção do conjunto de dados
2 Transformar essa pequena parcela em dados de treinamento
3 Avaliar os dados de treinamento em tempo real
4 Descartar os dados
5 Colher novas amostras e repetir o processo
Simulação do algoritmo VFDT
      • 100 milhões de exemplos             •     Acurácia média de 98,13%
•   Aprendizado a cada 100 000 instâncias       • Conclusão em 17min43s
Técnicas de Mineração em Fluxos de
Dados
• Existem diversas técnicas e algoritmos que realizam a extração
  de estruturas de conhecimento em fluxos de informação

• Essas técnicas juntam características da mineração de dados
  tradicional e da análise de fluxos de dados

• Técnicas:
  •   Classificação
  •   Agrupamento
  •   Contagem de frequências
  •   Análise de séries temporais
Classificação em Fluxos de Dados
• A classificação dos fluxos visa criar um modelo de classificação
  atualizado

• O modelo é criado no decorrer do processo de classificação,
  ou seja, enquanto os dados seguirem continuamente o fluxo
  adentro (dados de entrada)

• Principais técnicas:
  •   Very Fast Decision Tree (VFDT)
  •   Online Information Network (OLIN)
  •   LWClass (Lightweight Classification)
  •   CluStream (basedo em On Demand Classification)
Very Fast Decision Tree (VFDT)
• É uma árvore de decisão para fluxos de dados baseada nas
  árvores de Hoeffding (Domingos e Hulten, 2005)
  • Usa o limite estatístico de Hoeffding


• A ideia geral do VFDT é escolher atributos de corte ótimos a
  partir de pequenas amostras

• As árvores de Hoeffding escolhem os melhores atributos
  através de pontos de corte
  • Os pontos de corte definem os melhores atributos correntes da
    árvore durante o processamento
Very Fast Decision Tree (VFDT)
VFDT
Entrada: atributos discretos ou contínuos (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥 𝑝 )
Saída: árvore de decisão
1 Calcular estatísticas suficientes de um pequeno conjunto de exemplos
2 Estimar o mérito de cada atributo (usar algum parâmetro estatístico)
3 Utilizar o limite de Hoeffding para garantir que o melhor atributo é o melhor



                             •  𝜺 representa o limite de Hoeffding
                   1
             𝑅2 ln           •  𝟏 − 𝜹 é a probabilidade de se escolher
  𝜀=               𝛿           corretamente o melhor atributo
                2𝑛           • 𝒏 é a quantidade de exemplos da amostra
Agrupamento em Fluxos de Dados
• No agrupamento de fluxos, as técnicas focam-se na criação de
  algoritmos de uma única passada que coletem informações sobre o
  fluxo de dados

• Para coletar as informações das janelas de tempo do fluxo, os
  algoritmos exploram técnicas de:
  • Exploração de micro-clustering
  • Agregação limitada
  • Aproximação

• Principais técnicas:
  •   K-mediana para fluxos (diversas abordagens)
  •   Very Fast K-means (VFKM)
  •   STREAM e LOCALSEARCH
  •   Algoritmos baseados em tarefas
Aplicações
• Diamond Eye (Burl et al, 1999)
  • Desenvolvido pela NASA
  • O objetivo do projeto é habilitar sistemas de computação
    remotos e cientistas a extrair padrões de objetos espaciais em
    fluxos de imagens de tempo real
  • Primeira aplicação de análise de fluxos focada em mineração de
    dados
Aplicações
• MobiMine (Kargupta et al., 2002)
  • Aplicação de monitoramento do mercado de ações
  • É o primeiro sistema de mineração de fluxos de dados ubíquo
    (cliente/servidor)
  • Roda em um PDA
  • As diferentes interações entre o servidor e o PDA são exibidas na
    tela do PDA
Aplicações
• VEDAS (Kargupta et al., 2004)
  • Vehicle Data Stream Mining System
  • Sistema ubíquo de mineração de dados (usa um PDA)
  • Monitoramento contínuo
  • Extração de padrões
  • Fluxos de dados gerados a partir de veículos guiados em
    movimento
  • Uma abordagem de aglomeração foi utilizada para analisar o
    comportamento do motorista
Principais Tópicos de Pesquisa
• Tratamento do fluxo contínuo dos dados

• Limitações dos requisitos de memória

• Minimização do consumo de energia de
  dispositivos móveis

• Modelagem das mudanças dos resultados de
  mineração sobre o tempo
Referências
• (Golab e Özsu, 2003) Data Stream Management Issues – A Survey

• (Gaber, Zaslavsky e Krishnaswamy, 2005) Mining Data Streams: A Review

• (Babcock et al., 2002) Models and Issues in Data Stream Systems

• (Domingos e Hulten, 2000) Mining High-Speed Data Streams

• (Burl et al, 1999) Diamond Eye: A distributed architecture for image data
  mining

• (Kargupta et al., 2002) MobiMine: Monitoring the Stock Market from a PDA

• (Kargupta et al., 2004) VEDAS: A Mobile and Distributed Data Stream
  Mining System for Real-Time Vehicle Monitoring

Mais conteúdo relacionado

Semelhante a Mineração em Fluxos Contínuos de Dados

Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
André Leon S. Gradvohl
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
Elton Meira
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduce
Karla Okada
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
Caio Louro
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Adolfo Guimaraes
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
luanrjesus
 
Poc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreux
chevreux
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
Nilton Rodrigues Pereira
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
SandroPolizelLaurent
 
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Alexandre Savaris
 
gcs_aula08.pdf
gcs_aula08.pdfgcs_aula08.pdf
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetosCapítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Everton Souza
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDs
UFRN
 
Data mining
Data miningData mining
Data mining
Samira Carneiro
 
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
Renato Groff
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
Fernando Hideo Fukuda
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Rodolfo Mendes
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
Mauricio Cesar Santos da Purificação
 
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
Clavis Segurança da Informação
 
SQL Oracle
SQL OracleSQL Oracle
SQL Oracle
Pablo Garcia
 

Semelhante a Mineração em Fluxos Contínuos de Dados (20)

Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduce
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
 
Poc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreux
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
 
gcs_aula08.pdf
gcs_aula08.pdfgcs_aula08.pdf
gcs_aula08.pdf
 
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetosCapítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
Capítulo 11 - Como desenvolver sistemas de informação e gerenciar projetos
 
Introdução a SGBDs
Introdução a SGBDsIntrodução a SGBDs
Introdução a SGBDs
 
Data mining
Data miningData mining
Data mining
 
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
Monitorando APIs REST com o Application Insights - .NET SP - Dezembro/2017
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
V SEGINFO: “Utilizando padrões abertos para Coleta de informações e Assessmen...
 
SQL Oracle
SQL OracleSQL Oracle
SQL Oracle
 

Mais de Orlando Junior

Árvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos BásicosÁrvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos Básicos
Orlando Junior
 
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Orlando Junior
 
Predição de Links em Redes Complexas usando o Classificador Naïve Bayes
Predição de Links em Redes Complexas usando o Classificador Naïve BayesPredição de Links em Redes Complexas usando o Classificador Naïve Bayes
Predição de Links em Redes Complexas usando o Classificador Naïve Bayes
Orlando Junior
 
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Orlando Junior
 
Investigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de ComputadoresInvestigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de Computadores
Orlando Junior
 
Predição de Fluxos em Redes de Computadores
Predição de Fluxos em Redes de ComputadoresPredição de Fluxos em Redes de Computadores
Predição de Fluxos em Redes de Computadores
Orlando Junior
 
Normalização em banco de dados
Normalização em banco de dadosNormalização em banco de dados
Normalização em banco de dados
Orlando Junior
 
Introdução à Engenharia de Requisitos
Introdução à Engenharia de RequisitosIntrodução à Engenharia de Requisitos
Introdução à Engenharia de Requisitos
Orlando Junior
 
O que é direito
O que é direitoO que é direito
O que é direito
Orlando Junior
 
Classes de Problemas P e NP
Classes de Problemas P e NPClasses de Problemas P e NP
Classes de Problemas P e NP
Orlando Junior
 
Programação Dinâmica
Programação DinâmicaProgramação Dinâmica
Programação Dinâmica
Orlando Junior
 
A Missa para não-católicos
A Missa para não-católicosA Missa para não-católicos
A Missa para não-católicos
Orlando Junior
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Orlando Junior
 
Sacramento da Penitência - Estrutura
Sacramento da Penitência - EstruturaSacramento da Penitência - Estrutura
Sacramento da Penitência - Estrutura
Orlando Junior
 
Web Server Controls e Banco de Dados
Web Server Controls e Banco de DadosWeb Server Controls e Banco de Dados
Web Server Controls e Banco de Dados
Orlando Junior
 
Programação Orientada a Objetos
Programação Orientada a ObjetosProgramação Orientada a Objetos
Programação Orientada a Objetos
Orlando Junior
 
Acessando Dados com ADO .NET
Acessando Dados com ADO .NETAcessando Dados com ADO .NET
Acessando Dados com ADO .NET
Orlando Junior
 
10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados
Orlando Junior
 
Catequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - SímbolosCatequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - Símbolos
Orlando Junior
 
Verbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminaresVerbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminares
Orlando Junior
 

Mais de Orlando Junior (20)

Árvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos BásicosÁrvores - Introdução e Conceitos Básicos
Árvores - Introdução e Conceitos Básicos
 
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
Um estudo sobre práticas arquiteturais em metodologias ágeis de desenvolvimen...
 
Predição de Links em Redes Complexas usando o Classificador Naïve Bayes
Predição de Links em Redes Complexas usando o Classificador Naïve BayesPredição de Links em Redes Complexas usando o Classificador Naïve Bayes
Predição de Links em Redes Complexas usando o Classificador Naïve Bayes
 
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
Predição de Fluxos em Redes de Computadores - SBRC/WP2P+ 2014
 
Investigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de ComputadoresInvestigação de Predição de Fluxos em Redes de Computadores
Investigação de Predição de Fluxos em Redes de Computadores
 
Predição de Fluxos em Redes de Computadores
Predição de Fluxos em Redes de ComputadoresPredição de Fluxos em Redes de Computadores
Predição de Fluxos em Redes de Computadores
 
Normalização em banco de dados
Normalização em banco de dadosNormalização em banco de dados
Normalização em banco de dados
 
Introdução à Engenharia de Requisitos
Introdução à Engenharia de RequisitosIntrodução à Engenharia de Requisitos
Introdução à Engenharia de Requisitos
 
O que é direito
O que é direitoO que é direito
O que é direito
 
Classes de Problemas P e NP
Classes de Problemas P e NPClasses de Problemas P e NP
Classes de Problemas P e NP
 
Programação Dinâmica
Programação DinâmicaProgramação Dinâmica
Programação Dinâmica
 
A Missa para não-católicos
A Missa para não-católicosA Missa para não-católicos
A Missa para não-católicos
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
Sacramento da Penitência - Estrutura
Sacramento da Penitência - EstruturaSacramento da Penitência - Estrutura
Sacramento da Penitência - Estrutura
 
Web Server Controls e Banco de Dados
Web Server Controls e Banco de DadosWeb Server Controls e Banco de Dados
Web Server Controls e Banco de Dados
 
Programação Orientada a Objetos
Programação Orientada a ObjetosProgramação Orientada a Objetos
Programação Orientada a Objetos
 
Acessando Dados com ADO .NET
Acessando Dados com ADO .NETAcessando Dados com ADO .NET
Acessando Dados com ADO .NET
 
10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados10 Mandamentos e Pecados Relacionados
10 Mandamentos e Pecados Relacionados
 
Catequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - SímbolosCatequese da Missa Tridentina - Símbolos
Catequese da Missa Tridentina - Símbolos
 
Verbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminaresVerbos da Língua Inglesa - Observações preliminares
Verbos da Língua Inglesa - Observações preliminares
 

Último

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Faga1939
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
2m Assessoria
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Gabriel de Mattos Faustino
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
Danilo Pinotti
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
Momento da Informática
 

Último (10)

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ADSIS - ESTRUTURA DE DADOS II - 52_2024.docx
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
 

Mineração em Fluxos Contínuos de Dados

  • 1. Mineração em Fluxos Contínuos de Dados Orlando da Silva Junior osilva[at]ufabc.edu.br
  • 2. Agenda • Introdução • Fluxos de dados • Processamento de fluxos de dados • Mineração em fluxos de dados • Aplicações • Referências
  • 3. Objetivo • Apresentar os principais conceitos da mineração em fluxos contínuos de dados • Fundamentos • Técnicas • Aplicações
  • 4. Motivação • A mineração em fluxos de dados consiste na utilização de técnicas de aprendizado de máquina para explorar fluxos de dados • Os fluxos de dados são gerados em diversos contextos tecnológicos • Telecomunicações • Energia • Astronomia e meteorologia • Computação e suas aplicações • Internet • Detecção • Monitoramento e supervisão • Objetivo: minerar padrões, processar consultas e computar estatísticas sobre os fluxos de dados em tempo real
  • 5. Fluxos de Dados • Um fluxo de dados é uma sequência contínua e ordenada de itens em tempo real (Golab e Özsu, 2003) • Não é possível controlar a ordem em que esses itens chegam • Não é viável armazenar a totalidade desse fluxo localmente • Características: • Enorme volume de dados • Os dados trafegam em altas velocidades • Tráfego em tempo real FENÔMENO DOS FLUXOS DE DADOS Transmitir Computar Armazenar
  • 6. Fluxos de Dados • Os fluxos de dados são contínuos e gerados em ambientes dinâmicos de alta velocidade que mudam como tempo • Por essas características, as técnicas atuais não conseguem tratar desses fluxos • São necessárias novas técnicas que criem modelos de decisão que sejam capazes de: • Incorporar novas informações • Esquecer dados desatualizados • Detectar mudanças e se autoadaptarem às novas informações
  • 7. Métodos para Processamento de Fluxos de Dados • Os métodos para processamento de fluxos de dados são focados na manutenção do controle do fluxo • Na mineração de dados, os métodos para processamento de fluxos de dados são tratados conforme a abordagem adotada (Gaber, Zaslavsky e Krishnaswamy, 2005): • Técnicas baseadas em dados: a ideia central é examinar apenas um subconjunto de um conjunto de dados completo, ou transformar os dados em uma representação de dados de menor tamanho aproximado • Técnicas baseadas em tarefas: a ideia é alcançar soluções eficientes em tempo e espaço
  • 8. Técnicas de Processamento de Fluxos de Dados Baseadas em Dados • As técnicas baseadas em dados referem-se (Gaber, Zaslavsky e Krishnaswamy, 2005): • À sumarização do conjunto de dados total; ou • À escolha de um subconjunto de dados do fluxo de entrada para ser analisado • As principais técnicas são: • Amostragem • Balanceamento de carga • Sketching • Estruturas de dados sinópticas • Agregação
  • 9. Técnicas de Processamento de Fluxos de Dados Baseadas em Dados • Amostragem • Processo de escolha probabilística de um item de dado ser processado ou não (Gaber, Zaslavsky e Krishnaswamy, 2005) • Limites da taxa de erro do cálculo são dados como uma função da taxa de amostragem • O problema da amostragem está no tamanho desconhecido do conjunto de dados • Balanceamento de carga • Processo de remoção de sequências de fluxos • É difícil de ser usado para mineração de dados porque remove pedaços dos fluxos de dados que poderiam representar padrões de interesse (Gaber, Zaslavsky e Krishnaswamy, 2005) • Sketching • É uma técnica de amostragem aleatória que sumariza o fluxo de dados usando uma pequena porção de memória (Babcock et al., 2002) • Assim como o balanceamento de carga, é difícil de ser usado na mineração de dados (Gaber, Zaslavsky e Krishnaswamy, 2005)
  • 10. Técnicas de Processamento de Fluxos de Dados Baseadas em Dados • Estruturas de dados sinópticas • São estruturas que representam os dados • As técnicas que utilizam essas estruturas sumarizam o fluxo de entrada e produzem uma resposta aproximada (Gaber, Zaslavsky e Krishnaswamy, 2005) • Análise de wavelets, histogramas, quantis e momentos de frequência • Agregação • Calcula medidas estatísticas, as quais sumarizam o fluxo de entrada (Gaber, Zaslavsky e Krishnaswamy, 2005) • Esta técnica pode ser usada no contexto da mineração de dados
  • 11. Mineração em Fluxos de Dados • A evolução dos volumes de dados tornaram inviável a criação de um modelo de aprendizado preciso e consistente • Em muitos casos, essa evolução está relacionada ao alto fluxo de informações que trafegam entre as aplicações • Os SGBD's tradicionais não são projetados para o carregamento rápido e contínuo de dados de modo individual (Babcock et al., 2002) • A mineração de dados tradicional pode tratar de grandes volumes de dados, mas não de dados que trafegam continuamente • É necessário criar novas técnicas que trabalhem com dados que variam ao longo do tempo e que criem um modelo de aprendizado preciso e consistente.
  • 12. Mineração em Fluxos de Dados • A mineração em fluxos de dados preocupa-se com a extração de estruturas de conhecimento representadas em fluxos não- estacionários de informação (Gaber, Zaslavsky e Krishnaswamy, 2005) • A ideia geral das técnicas é criar algoritmos que coletem informações sobre o fluxo de dados em uma única passada (𝑂(𝑛)) • Restrições: limitação de recursos computacionais (CPU e memória) • Resultado: modelo de aprendizado atualizado dos dados
  • 13. Mineração em Fluxos de Dados Algoritmo genérico de mineração em fluxos de dados Entrada: fluxo de dados (sequência de dados 𝐴: 1 … 𝑁 → 𝑅2 ) Saída: modelo de aprendizado 1 Sumarizar pequena porção do conjunto de dados 2 Transformar essa pequena parcela em dados de treinamento 3 Avaliar os dados de treinamento em tempo real 4 Descartar os dados 5 Colher novas amostras e repetir o processo
  • 14. Simulação do algoritmo VFDT • 100 milhões de exemplos • Acurácia média de 98,13% • Aprendizado a cada 100 000 instâncias • Conclusão em 17min43s
  • 15. Técnicas de Mineração em Fluxos de Dados • Existem diversas técnicas e algoritmos que realizam a extração de estruturas de conhecimento em fluxos de informação • Essas técnicas juntam características da mineração de dados tradicional e da análise de fluxos de dados • Técnicas: • Classificação • Agrupamento • Contagem de frequências • Análise de séries temporais
  • 16. Classificação em Fluxos de Dados • A classificação dos fluxos visa criar um modelo de classificação atualizado • O modelo é criado no decorrer do processo de classificação, ou seja, enquanto os dados seguirem continuamente o fluxo adentro (dados de entrada) • Principais técnicas: • Very Fast Decision Tree (VFDT) • Online Information Network (OLIN) • LWClass (Lightweight Classification) • CluStream (basedo em On Demand Classification)
  • 17. Very Fast Decision Tree (VFDT) • É uma árvore de decisão para fluxos de dados baseada nas árvores de Hoeffding (Domingos e Hulten, 2005) • Usa o limite estatístico de Hoeffding • A ideia geral do VFDT é escolher atributos de corte ótimos a partir de pequenas amostras • As árvores de Hoeffding escolhem os melhores atributos através de pontos de corte • Os pontos de corte definem os melhores atributos correntes da árvore durante o processamento
  • 18. Very Fast Decision Tree (VFDT) VFDT Entrada: atributos discretos ou contínuos (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥 𝑝 ) Saída: árvore de decisão 1 Calcular estatísticas suficientes de um pequeno conjunto de exemplos 2 Estimar o mérito de cada atributo (usar algum parâmetro estatístico) 3 Utilizar o limite de Hoeffding para garantir que o melhor atributo é o melhor • 𝜺 representa o limite de Hoeffding 1 𝑅2 ln • 𝟏 − 𝜹 é a probabilidade de se escolher 𝜀= 𝛿 corretamente o melhor atributo 2𝑛 • 𝒏 é a quantidade de exemplos da amostra
  • 19. Agrupamento em Fluxos de Dados • No agrupamento de fluxos, as técnicas focam-se na criação de algoritmos de uma única passada que coletem informações sobre o fluxo de dados • Para coletar as informações das janelas de tempo do fluxo, os algoritmos exploram técnicas de: • Exploração de micro-clustering • Agregação limitada • Aproximação • Principais técnicas: • K-mediana para fluxos (diversas abordagens) • Very Fast K-means (VFKM) • STREAM e LOCALSEARCH • Algoritmos baseados em tarefas
  • 20. Aplicações • Diamond Eye (Burl et al, 1999) • Desenvolvido pela NASA • O objetivo do projeto é habilitar sistemas de computação remotos e cientistas a extrair padrões de objetos espaciais em fluxos de imagens de tempo real • Primeira aplicação de análise de fluxos focada em mineração de dados
  • 21. Aplicações • MobiMine (Kargupta et al., 2002) • Aplicação de monitoramento do mercado de ações • É o primeiro sistema de mineração de fluxos de dados ubíquo (cliente/servidor) • Roda em um PDA • As diferentes interações entre o servidor e o PDA são exibidas na tela do PDA
  • 22. Aplicações • VEDAS (Kargupta et al., 2004) • Vehicle Data Stream Mining System • Sistema ubíquo de mineração de dados (usa um PDA) • Monitoramento contínuo • Extração de padrões • Fluxos de dados gerados a partir de veículos guiados em movimento • Uma abordagem de aglomeração foi utilizada para analisar o comportamento do motorista
  • 23. Principais Tópicos de Pesquisa • Tratamento do fluxo contínuo dos dados • Limitações dos requisitos de memória • Minimização do consumo de energia de dispositivos móveis • Modelagem das mudanças dos resultados de mineração sobre o tempo
  • 24. Referências • (Golab e Özsu, 2003) Data Stream Management Issues – A Survey • (Gaber, Zaslavsky e Krishnaswamy, 2005) Mining Data Streams: A Review • (Babcock et al., 2002) Models and Issues in Data Stream Systems • (Domingos e Hulten, 2000) Mining High-Speed Data Streams • (Burl et al, 1999) Diamond Eye: A distributed architecture for image data mining • (Kargupta et al., 2002) MobiMine: Monitoring the Stock Market from a PDA • (Kargupta et al., 2004) VEDAS: A Mobile and Distributed Data Stream Mining System for Real-Time Vehicle Monitoring