SlideShare uma empresa Scribd logo
1 de 104
Mineração de Dados:
Conceitos Básicos e Aplicações

          Leandro Nunes de Castro
           Lnunes@mackenzie.br
               @lndecastro


         Faculdade de Computação e Informática &
     Programa de Pós-Graduação em Engenharia Elétrica
         Laboratório de Computação Natural (LCoN)
               www.mackenzie.br/lcon.html


      SBAI 2011 (18/09/2011)
Sumário
•   Sobre o Mini-Curso
•   Motivação
•   Introdução
•   Pré-Processamento
•   Credibilidade do Processo de Aprendizagem
•   Análise de Grupos
•   Predição: Classificação e Estimação
•   Detecção de Anomalias
•   ShiftHappens
                                                2
Quem Sou Eu
• Formado em Engenharia Elétrica com ênfase em
  Computação, possui Mestrado, Doutorado e Pós-
  doutorado em Engenharia de Computação.
  Empresário, empreendedor, acadêmico, escritor e
  pai de família. É especialista em Computação
  Natural e transformação de bases de dados em
  conhecimentos para a tomada de decisão
  estratégica nos negócios. Possui cinco livros
  publicados, coordena o Laboratório de
  Computação Natural (LCoN) do Programa de Pós-
  Graduação em Engenharia Elétrica do Mackenzie
  e é sócio-diretor das empresas NATCOMP e
  TUILUX.
Quem São Vocês
•   Idade
•   Redes Sociais
•   Interesses
•   Formação
•   Conhecimento
Dinâmica do Mini-Curso
Aulas interativas e ilustradas com
 aplicações práticas, dinâmicas de grupo e
 sorteios do livro “Computação Natural:
 Uma Jornada Ilustrada”.


             Preparados?
Motivação

Um Universo de Dados
A Nova Realidade
Sobre Dados e Informação
Sobre Dados e Informação
Sobre Dados e Informação




                           Fonte: wikipedia.org
Introdução

Conceitos Básicos
A Mineração de Dados




    http://tr.toonpool.com/cartoons/miner_29770
O Processo de Mineração
Multidisciplinaridade

                         Estatística
  Bancos de                                       Aprendizagem
   Dados                                           de Máquina
                       Mineração de
                          Dados                         Outras
Sistemas de
Informação                                            Disciplinas


                                       Inteligência
              Visualização
                                         Artificial
Dicas para Uma Análise Efetiva
• Estabelecer a significância prática e estatística
  da mineração.
• Reconhecer que as características da base de
  dados influenciam todos os resultados.
• Necessidade de conhecer os dados.
• Busca pela parcimônia.
• Verifique os erros.
• Valide seus resultados.
As Diferentes Nomenclaturas
•   Inteligência Artificial
•   Aprendizagem de Máquina
•   Computação Flexível
•   Inteligência Computacional
•   Computação Natural
•   Computação Bioinspirada
Principais Tarefas
• Descritivas: caracterizam as propriedades
  gerais dos dados; e
• Preditivas: fazem inferência com os dados
  objetivando predições.
                               Salário: Faixa IRRF

                                                              37
                        32            33         32
             28




          até R$     até R$       até R$      até R$    acima de R$
         1.434,59   2.150,00     2.866,70    3.582,00     3.582,01
Principais Tarefas
•   Descrição de Classes e Conceitos
•   Agrupamento
•   Predição: Classificação e Estimação
•   Associação
•   Detecção de Anomalias
Paradigmas de Aprendizagem
• Supervisionada
• Não-Supervisionada
• Reforço
Aprendizagem Supervisionada
            Vetor descrevendo o
            estado do ambiente
                                              Saída desejada
 Ambiente                    Supervisor


                                                               +
                                            Saída atual
                             Sistema em
                            Aprendizagem



                                           Sinal de erro

        {(xi,di)}i = 1,...,N, onde xi e di i, são os vetores
        de entrada e as respectivas saídas desejadas.
Aprendizagem Não-Supervisionada
              Vetor de estado
               do ambiente

                                 Sistema em
   Ambiente
                                Aprendizagem
Aprendizagem por Reforço
                Vetor de estado               Reforço
                   (entrada)                  primário

     Ambiente                       Crítico


                                          Reforço heurístico

                                   Sistema em
                                  Aprendizagem

           Ações
Nomenclatura e Tipos de Dados
                                                        Possui Financiamen Credito
Salário       Estado Cartão de                  Nro de
        Idade                  Imóveis Veículos        Cheque       to
  R$           Civil Crédito                    Filhos
                                                       Especial Pretendido Autorizado
  350    21    Sol.      0       0       0       0      Sim      10.000        Não

  3700   52    Cas.      1       1       2       2      Sim       7.000        Sim

  1200   26    Cas.      1       0       1       1      Não      10.000        Não

  700    25    Sol.      0       0       0       0      Não       5.000        Sim

  8500   50    Cas.      2       1       2       2      Sim      40.000        Sim

  1800   27    Sol.      1       0       1       0      Sim      20.000        Não

  350    20    Sol.      0       0       0       0      Não      10.000        Não


Objetos x Atributos
Tipos de Dados: Nominais, Ordinais, Numéricos
Pré-Processamento
Problemas com Bases de Dados
 Duração                                  1       2     3       2
 Aumento salarial ano 1                  2%      4%    4.3%    4.5%
 Aumento salarial ano 2                   ?      5%    4.4%    4.0%
 Aumento salarial ano 3                   ?       ?     ?       ?
 Ajuste de custo de vida                Nenhum   Tcf    ?     Nenhum
 Carga horária semanal                    28     35     38      40
 Aposentadoria                          Nenhum    ?     ?       ?
 Pagamento por horas vagas                ?      13%    ?       ?
 Horas extras                             ?      5%    4%       4
 Adicional para educação                 Sim      ?     ?       ?
 Feriados                                 11     15     12      12
 Férias                                  Avg     Gen   Gen     Avg
 Assistência para ausência prolongada    Não      ?     ?      Sim

 Seguro odontológico                    Nenhum    ?    Full    Full
 Seguro de vida                          Não      ?     ?      Sim
 Seguro saúde                           Nenhum    ?    Full    Half
 Aceitabilidade do contrato              Ruim    Boa   Boa     Boa
Problemas com Bases de Dados
Principais Tarefas
• Limpeza: para remoção de ruídos e correção de
  inconsistências;
• Integração: para unir dados de múltiplas fontes em um
  único local, como um armazém de dados (data warehouse);
• Redução: para reduzir a dimensão da base de dados, por
  exemplo, agregando, agrupando ou eliminando atributos
  redundantes, ou sumarizando os dados;
• Transformação: para deixar os dados em um formato
  passível de aplicação das diferentes técnicas de mineração;
• Discretização: para permitir que métodos que trabalham
  apenas com atributos nominais possam ser empregados a
  um conjunto maior de problemas. Também faz com que a
  quantidade de valores para um dado atributo contínuo seja
  reduzida.
Credibilidade do Processo de
       Aprendizagem
Erros
• Erro de Representação ou efeito bias.
• Erro de Generalização ou variância.
• Erro de Otimização.
            bias elevado     variânciaelevada


                                                erro

                                                MSE


                    nível ótimo de
                    generalização
Sobretreinamento

 1.0
0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0


       -3   -2   -1   0   1   2   3
Validação Cruzada
 • Como critério de parada
 • Como metodologia de estimação de erro
            Teste                 Treinamento



Passo 1:          1   2   3   4   5    6        7   8   9   10


Passo 2:          1   2   3   4   5    6        7   8   9   10

            ...
Passo 10:         1   2   3   4   5    6        7   8   9   10
Medidas de Desempenho em
       Classificação
                                    Classe
                                    Predita
                                Sim        Não
  Classe
                   Sim           TP         FN
  Correta
                   Não           FP         TN

TP: Verdadeiro Positivo         TP     TP
                          TPR
FP: Falso Positivo               P   TP FN
TN: Verdadeiro Negativo         FP     FP
                          FPR
FN: Falso Negativo              N    FP TN

         TP TN
ACC
      TP FP TN FN
Medidas de Desempenho em
         Estimação
N
      e2
       j             Soma dos Erros Quadráticos
j 1
      N
1
            e2
             j       Erro Quadrático Médico
N     j 1
            N
    1
                 e 2 Raiz do Erro Quadrático Médio
                   j
    N      j 1

      N
1
            | e j | Erro Absoluto Médio
N     j 1
       N
              (d j   d )( y j     y)
        j 1
                                             Coeficiente de Correlação
N                         N
                     2
      (d j        d) .          (yj    y)2
j 1                       j 1
Medidas de Desempenho em
                Agrupamento
                          k       i    i
                 1             nr     nr
E(Sr )                            log
               log k     i 1   nr     nr
               k
                     nr                         G1
Eglobal                 E (Sr )
           r       1 n
                                                     G2

           1
P( S r )     max(nri )                     G3
           nr i
               k
                     nr
Pglobal                 P( S r )
           r       1 n
Desafio 01

Avaliando a Taxa de Classificação
Detecção de Spam
• Considere o problema de detecção de Spams
  (SPAM). A classe alvo é Spam. Assuma que a base
  possui N = 1.500 objetos, sendo nspam = 32.
  Considere o seguinte resultado de um algoritmo
  de classificação aplicado a esta base de dados:
• Spam classificados corretamente: 27.
• E-mail normal classificado corretamente: 1.411.
Pede-se:
• Determine TPR, FPR, ACC.
• Monte a matriz de confusão do classificador.
Estudo de Caso 01
Descrição de Classes e Conceitos
      Dados do Reclame Aqui
Panorama Geral do Setor
            Status das Reclamações

                                     Nao Respondido
      20%    7%
                      30%            Respondido
24%
                                     Replicas
             19%

                                     Finalizada - Resolvido      Média das Notas

                                                                              5.3
                                                       3.9
                                                                                        2.6

                                                                  0.5



                                                   Média Geral            Média ">0"

                                                 Finalizada - Resolvido   Finalizada - Nao Resolvido
Panorama Geral do Setor
              Construção Civil - Piores Atendimentos
                                                                    17%

                                                              13%

                                                        10%

                                                   6%
                                    5% 5% 5% 5% 5%
                              4% 4%
                        3%
2% 2% 2% 2% 2% 2% 2% 3%
Panorama Geral do Setor
                                 Construção Civil
17%

      13%

            9%
                 6% 6%
                       6% 6%
                               4% 4% 4% 4%
                                           3% 3% 2% 2% 2%
                                                          2% 2% 2% 2%
Estudo de Caso 02
Descrição de Classes e Conceitos
           Base de RH
Base de Análise
• 41.934 registros, com os seguintes atributos:
  Nome, Salário, Sexo, Cargo, Endereço, Bairro,
  CEP, Cidade, UF, Banco, Nome do
  Banco, Agência, Conta, Data de
  Nascimento, Escala, Grau de Instrução, Data
  de Admissão, Data de Demissão, Data de
  Afastamento, Data de Início de
  Férias, Situação Cadastral, Horas Trab. por
  Mês e Horas Trab. por Semana.
Objetivos
• Entender a base
• Predizer demissões e período de trabalho
• Segmentar a base
Visão Geral
           Sexo


                    Masculino
                      34%


Feminino
                                           Situação Cadastral
  66%

                                                                    64%




                                                        33%




                                1%        2%


                        Afastamento   Férias        Normal      Rescisão
Visão Geral
         Grau de Instrução
Outros
17.31%




                    Ensino médio
                      completo
                       82.69%
                                                 Salário: Faixa IRRF
                                     98.2%




                                               1.3%     0.3%     0.1%     0.1%

                                    até R$   até R$   até R$   até R$ acima de
                                   1.434,59 2.150,00 2.866,70 3.582,00    R$
                                                                       3.582,01
Visão Geral
                      Pirâmide Etária                                     Cargos
100 anos e mais   0.0%
                  0.0%                               PROMOTOR(A) DE VENDAS                          23%
   90 a 94 anos   0.0%                                        SERVIÇOS GERAIS                 13%
                  0.0%                                                                   7%
                                                                   ATENDENTE
   80 a 84 anos   0.0%
                  0.0%                                        AJUDANTE GERAL           6%
   70 a 74 anos   0.0%                                        AUXILIAR DE LOJA         5%
                  0.0%                                          PROMOTOR(A)           4%
   60 a 64 anos   0.3%                                     DEMONSTRADOR(A)            4%
                   1.0%
                                                       ATENDENTE DE CRÉDITO          3%
   50 a 54 anos      2.2%
                      3.4%                                AUXILIAR DE VENDAS        2%
   40 a 44 anos         4.9%                      AUXILIAR DE SERVIÇOS GERAIS      2%
                           7.3%                             AUXILIAR DE CAIXA      2%
   30 a 34 anos                   12.3%
                                                          DEMONSTRADOR(A) I        2%
                                          22.5%
   20 a 24 anos                                   34.4% COLETOR(A) DE DADOS        2%
                                  11.6%                 ASSISTENTE DE VENDAS       2%
   10 a 14 anos   0.0%                                        OUTROS CARGOS                         23%
                  0.0%
     0 a 4 anos   0.0%
Visão Geral    Grau de Instrução


              Analfabeto, ou não se alfabetizou         R$ 624.74

Até a 4ª série incompleta do ensino fundamental         R$ 608.91

      4ª série completa do ensino fun damental          R$ 620.17

         Da 5ª à 8ª série do ensino fundamental         R$ 618.43

                  Ensino fundamental completo           R$ 637.15

                      Ensino médio incompleto           R$ 679.76

                        Ensino médio completo            R$ 755.58

              Segundo grau técnico incompleto           R$ 628.36

                Segundo grau técnico completo             R$ 777.04

                 Educação superior incompleta              R$ 903.56

                   Educação superior completa                   R$ 1,299.32

                                Pós-Graduação                                 R$ 2,793.32
Uma Análise Preditiva
                                                             Instrução


                                           [1 2 3 4 7]


                           Idade                                             [5 6 8 9 10 11 12]



           [5]         [1 2 3 4]

                                                                                                  Idade
                      Instrução
Normal
                                                                                     [1 2 3]          [4 5]
                 [1 3 4]           [2 7]

                                                                  Idade                                    Idade
         Normal                        Rescisão
                                                         [1 2]               [3]                                          [5]


                                              Rescisão                                Sexo                                                  Salário

                                                                                                              [4]
                                                                 [Feminino]        [Masculino]                                      [2 3]         [1 4 5]


                                                                                     Salário
                                                  Rescisão                                                                 Normal                      Rescisão

                                                                     [2 3]           [1 4 5]
                                                                                                          Salário

                                                     Normal                         Rescisão
                                                                                                           [1 4]     [ 2 3 5]



                                                                                                          Rescisão              Normal
Análise de Grupos
O Que São Grupos?




Processo de particionar um conjunto de dados em subconjuntos
(clusters) de forma que os dados em cada cluster (idealmente)
compartilhem características comuns – normalmente
proximidade em relação a alguma medida de distância.
Componentes da Tarefa de
              Agrupamento
•    Pré-processamento dos dados;
•    Definição da medida de proximidade;
•    Agrupamento;
•    Abstração dos dados;
•    Avaliação da saída.
                       0
    x11       x1L   d (2,1)      0
                  d (3,1)   d (3,2)   0
x N 1  x NL                                   0
                     d ( N ,1) d ( N ,2)  d ( N , N 1) 0
Estudo de Caso 03
     Agrupamento
Benchmarks e Base de Dados de
       Bioinformática
ACA: Ant Clustering Algorithm
ACA: Ant Clustering Algorithm




                   2
          k1
pp                                                                    d (x i , x j )
     k1        f                   1
                                                                  1                    if f   0
                   2
                       f (x i )   s2   x j Neigh ( s   s ) (r )
                                                                           α
           f                      0                                                    otherwise
pd
     k2        f
                            Ver demos no LVCoN
Base de Dados de Bioinformática
                  C1
              0          C1




                  C2



                  C4


         C3
Predição

Classificação e Estimação
Classificação
                                  Astigmatismo
Idade             Prescrição                     TPL        Lente recomendada
                                  (A)
Jovem             Miopia          Não            Reduzida   Nenhuma
Jovem             Miopia          Não            Normal     Macia
Jovem             Miopia          Sim            Reduzida   Nenhuma
Jovem             Miopia          Sim            Normal     Rígida
Jovem             Hipermetropia   Não            Reduzida   Nenhuma
Pré-presbiótico   Miopia          Não            Reduzida   Nenhuma
Pré-presbiótico   Miopia          Não            Normal     Macia
Pré-presbiótico   Hipermetropia   Sim            Reduzida   Nenhuma
Pré-presbiótico   Hipermetropia   Sim            Normal     Nenhuma
Presbiótico       Miopia          Não            Reduzida   Nenhuma
Presbiótico       Miopia          Não            Normal     Nenhuma
Presbiótico       Hipermetropia   Sim            Reduzida   Nenhuma
Presbiótico       Hipermetropia   Sim            Normal     Nenhuma
Árvores de Decisão

           TPL


Reduzida               Normal



 Nenhuma           Astigmatismo


                 Não              Sim


             Macia                  Prescrição


                         Miopia                  Hipermetropia


                         Rígida                  Nenhuma
Árvores de Decisão
Duração                                  1       2     3       2
Aumento salarial ano 1                  2%      4%    4.3%    4.5%
Aumento salarial ano 2                   ?      5%    4.4%    4.0%
Aumento salarial ano 3                   ?       ?     ?       ?
Ajuste de custo de vida                Nenhum   Tcf    ?     Nenhum
Carga horária semanal                    28     35     38      40
Aposentadoria                          Nenhum    ?     ?       ?
Pagamento por horas vagas                ?      13%    ?       ?
Horas extras                             ?      5%    4%       4
Adicional para educação                 Sim      ?     ?       ?
Feriados                                 11     15     12      12
Férias                                  Avg     Gen   Gen     Avg
Assistência para ausência prolongada    Não      ?     ?      Sim

Seguro odontológico                    Nenhum    ?    Full    Full
Seguro de vida                          Não      ?     ?      Sim
Seguro saúde                           Nenhum    ?    Full    Half
Aceitabilidade do contrato              Ruim    Boa   Boa     Boa
Árvores de Decisão
       Aumento Ano 1


2.5%                   > 2.5%



  Ruim                 Feriados


               > 10                10


              Bom                 Aumento Ano 1



                           4%                     > 4%


                          Ruim                     Bom
Árvores de Decisão
                     Aumento Ano 1


              2.5%                   > 2.5%



              Carga Horária          Feriados


       36             > 36                    > 10      10


              Seguro Saúde              Bom           Aumento Ano 1
Ruim


                                                             4   >4
 Nenhum               Parcial   Total

       Ruim       Bom           Ruim                 Ruim        Bom
Estudo de Caso 04
Agrupamento e Predição
  Base de Dados de Veículos
Aplicação em Agrupamento
Aplicação em Classificação
Aplicação em Estimação
Estudo de Caso 05
Análise de Sentimento em Tweets
       Dados da Rede Globo
Base de Análise
• Para realizar as análises a serem apresentadas
  foram utilizados 206.259 tweets de 127.945
  usuários entre os dias 1 e 31 de dezembro de
  2010.
• Os atributos disponíveis para essa análise
  foram: Cliente, Avaliação, Termo, Usuário,
  Texto e Data.
Domingão do Faustão
               Palavras mais comentadas - Domingão do Faustão

11%

      8% 8%
              7% 7% 6% 6%
                          6% 6%
                                5%
                                          4% 4%
                                                4% 4%
 3%                                                         3% 3%
       2% 2% 2% 2%                                  2% 2% 2% 2%
                   2% 2% 1% 1% 1%
                                  1% 1% 1% 1% 1% 1%
                                                     1% 1% 0% 0%




                           Total Top 20    Total Twitters
Comentários Positivos
                     Palavras mais comentadas - Tweets positivos
13%
      11%
            10%

                  7% 7%
                          6% 6%
                                  5% 5%
 3% 3%                              4% 3% 3%
       3%                                    3% 3% 3% 3% 3%
                   2% 2% 2% 2%                               2% 2% 2%
                               1% 1% 1% 1% 1% 1% 1% 1% 1% 1%
                                                              1% 1% 0%




                                  Total Top 20   Total Twitters
Comentários Negativos
                    Palavras mais comentados - Tweets negativos
27%



      16%


            8%
 6%              5% 5%
       3%            4% 4% 3% 3% 3% 3%
             2% 1% 1% 1% 1% 1% 1% 1% 1% 2% 2% 2% 2% 2% 2% 2% 2% 2%
                                         0% 0% 0% 0% 0% 0% 0% 0% 0%




                               Total Top 20   Total Twitters
Influenciadores
                         Qtde de   Percentual de    Qtde de     Qtde de
Id       Usuários
                         Tweets     Tweets (%)     Seguidores   Seguidos
 1         adnoticia       253         0,12%          175         219
 2         annoticia       256         0,12%          271         350
 3   comuniquebrinde       170         0,08%         1.211       1.967
 4      feedrssreader      192         0,09%          350         245
 5             g1          389         0,19%        467.484        21
 6      mariana_viips      155         0,08%          694          67
 7     news_mundo_         224         0,11%          281         895
 8       novinhabru        320         0,16%         2.992       1.963
 9       romariontv        177         0,09%            -           -
10    segundoplanobr       151         0,07%          347           7
11          siteg1         207         0,10%           60           -
12      sjodiel_indica     262         0,13%          855         615
13       standupbot        384         0,19%          386           -
14     tudodoesporte       522         0,25%          894         366
15       tweets24hs        158         0,08%         2.940       3.258
16      vidasemglobo       147         0,07%          600         177
17       waldeterossi      313         0,15%           70          13
18        zocialtv_br      242         0,12%          338         115
19           _invo         720         0,35%          342          22
            TOTAL:        5.242        2,54%
Segmentando os Influenciadores
Segmentando os Influenciadores

  Grupo 1         Grupo 2          Grupo 3
    adnoticia    comuniquebrinde   mariana_viips
    annoticia                       novinhabru
                  feedrssreader
       g1                           romariontv
  news_mundo_    segundoplanobr     standupbot
     siteg1                        tudonoesporte
                  sjodiel_indica
  waldeterossi                     vidasemglobo
     _invo         tweets24hs       zocialtv_br
Análise dos Grupos

Grupo   Palavras
        Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal,
  1     pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados,
        justiça, preso.
        Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks,
  2     Dilma, mundial, justiça, policia, brasileiros, segurança, temporais,
        projeto, risco, Cielo, prisão.
        Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo,
  3     twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy,
        zilza, vote, malhação.
Regras de Associação
Análise de Carrinho de
   Supermercado

  Leite Pão
  Cereais                 Leite Broa
     Manteiga               Cereais
                            Chocolate




                   Pão   Café

                   Ovos Açúcar
      Pão Café
        Iogurte
        Adoçante
Estudo de Caso 06
Recomendação em Comércio Eletrônico
         Alguns Clientes TUILUX
O Que é um Sistema de Recomendação
            Inteligente?




                                     78
“Para o usuário a recomendação
          significa um guia útil no processo de
                  escolha de conteúdo...

      Para a loja a recomendação significa
       ofertar o item mais atraente alguns
     segundos antes da perda da atenção da
                    audiência” *
* Fonte: Comparative Rating of Five Recommendations Solutions, Patricia Seygold Group

                                                                                        79
80
Visão Geral sobre Serviços de
            Recomendação
1. Capturar informação sobre
os produtos

  2. Capturar informação sobre
  as interações dos usuários

     3. Aplicar algoritmos de
     seleção de produtos

        4. Mostrar o conteúdo
        selecionado

           5. Monitorar e analisar a
           efetividade da recomendação
                                         81
Página de Produto: Exemplos
                                Cross-sell
                                O que nem os
                                clientes sabiam
                                que queriam




Regras de
negócio




                                             82
Detecção de Anomalias
O Que é uma Anomalia?
“Um outlier é um objeto que parece desviar
  fortemente de outros membros da amostra a
  qual ele pertence.” (Grubbs, F. E., 1969,
  “Procedures for detecting outlying observations
  in samples”, Technometrics, 11, pp. 1-21.)
“Um outlier é um objeto ou subconjunto de objetos
  que parece inconsistente com o restante da base
  de dados.” (Barnett, V.; Lewis, T. 1994, Outliers in
  Statistical Data, 3rd ed., John Wiley & Sons)
Exemplos
• Detecção de fraudes: em transações de cartões de
  crédito, em uso de telefones celulares, em medição de
  consumo de energia, etc.
• Análise de crédito: identificação de clientes
  potencialmente problemáticos ou fraudulentos, etc.
• Detecção de intrusão: acesso não permitido a redes de
  computadores e ambientes diversos, etc;
• Monitoramento de atividades: negociações suspeitas
  em mercados financeiros, comportamentos incomuns
  de usuários, etc;
• Desempenho de rede: monitoramento do desempenho
  de redes de comunicação para identificação de
  gargalos;
Exemplos
• Diagnóstico de faltas: em motores, geradores,
  redes, instrumentos, etc;
• Análise de imagens: identificação de novas
  características;
• Monitoramento de séries temporais: em
  aplicações que envolvem séries temporais, por
  exemplo, consumo de energia elétrica de
  subestações, análise de batimentos cardíacos,
  etc.;
• Análise de textos: identificação de novas estórias,
  análise de desempenho de commodities, etc.
Adordagens
• Tipo 1: aprendizagem não-supervisionada;
• Tipo 2: aprendizagem supervisionada;
• Tipo 3: aprendizagem semi-supervisionada.
Estudo de Caso 07

  Um Algoritmo Imunológico para
Detecção de Vírus em Computadores
Algoritmo de Seleção Negativa

                       Self
                   strings (S)                                 Monitoramento


                                                                      Detector Set
   Generate                                                               (R)
random strings       Match            Detector
     (R0)                        No   Set (R)

                         Yes


                    Reject                            Self
                                                                        Match        No
                                                 Strings (S)

                 Sensoriamento                                               Yes


                                                                       Non-self
                                                                       Detected
Estudo de Caso 08

Sistemas Imunológicos Artificiais
Pattern Recognition
• Classification and Clustering
  – CLONALG (de Castro & Von Zuben, 2002)
                                        (a) Input patterns



                                        (b) 0 generations



                                        (c) 50 generations



                                        (d) 100 generations



                                        (e) 200 generations
Pattern Recognition
• Classification and Clustering
  – aiNet (de Castro & Von Zuben, 2001)
  – Definition:
     • aiNet is an edge-weighted graph, not necessarily
       fully connected, composed of a set of nodes and
       sets of node pairs with a weight assigned specified
       to each connected edge.
  – Features:
     •   knowledge distributed among cells
     •   competitive learning (unsupervised)
     •   constructive model with pruning phases
     •   generation and maintenance of diversity

                           92
Pattern Recognition

• aiNet:
  – Growing:
     • clonal selection principle
  – Learning:
     • directed affinity maturation
  – Pruning:
     • immune network theory
Pattern Recognition
• aiNet at each generation:
  – For each Ag
      Affinity with the antigen (Ai) Agi-Ab
      Clonal selection (n cells) Ai
      Cloning Ai
      Directed maturation (mutation) 1/Ai
      Re-selection ( %) Ai
      Natural death ( d) 1/Ai
      Affinity between the network cells (Dii) Ab-Ab
      Clonal suppression ( s) Dii : (m - memory)
      Mt [Mt;m]
  – Network suppression ( s)        Dii : (M    Mt)
  – M [M;meta]
Pattern Recognition

                 • Clustering
    1
                           Training Patterns
0.9                                                                                    Final Network Structure
0.8
                                                                    1                                           10
0.7                                                                                        6                             12   2
                                                                                 7                               3
0.6                                                                0.8
y




0.5                                                                                                   1
0.4
                                                                   0.6
                                                                                                     14     8
0.3
                                                                   0.4
0.2
0.1                                                                0.2                                               9
                                                                                 4
    0                                                                                 13                                 11
     0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   0.8   0.9   1    0        5
                                  x
                                                                         0           0.2       0.4    0.6        0.8          1
Pattern Recognition

           • Clustering
1.5
  1
0.5
  0                                                        Final Network Structure
-0.5                                    1.5
 -1
                                         1
-1.5
  4
                                        0.5
       2                            2
                                1
           0                0            0
                       -1
               -2 -2                    -0.5
                                         -1
                                         3
                                               2                                     1
                                                   1                           0.5
                                                                           0
                                                       0            -0.5
                                                            -1 -1
Desafio 02

Questões sobre o Processo de
        Mineração
Questão Processo Mineração
• Qual o fluxo (faça o gráfico) das principais
  etapas da mineração de dados e quais as
  principais tarefas?
ShiftHappens
ShiftHappens
Questões ShiftHappens


• Quantos e-mails e SMSs em média uma
  pessoa de 21 anos já enviou/recebeu?

• Quanto tempo a Internet levou para atingir
  uma audiência de 50 milhões pessoas?
LCoN
• Programa de Pós-Graduação em Engenharia
  Elétrica do Mackenzie
• Perfil do LCoN, Pesquisa, Equipe, etc.




                          www.mackenzie.br/lcon.html
Discussão
Obrigado




Leandro Nunes de Castro
 lnunes@mackenzie.br
     @lndecastro



                          104

Mais conteúdo relacionado

Mais procurados

Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Cássio Alan Garcia
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01NeuroMat
 

Mais procurados (17)

Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Data science
Data scienceData science
Data science
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
Tsg web mining
Tsg web miningTsg web mining
Tsg web mining
 
TechDays 2010 DAT202
TechDays 2010 DAT202TechDays 2010 DAT202
TechDays 2010 DAT202
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
 
jjjjjjjjjjjjjjj
jjjjjjjjjjjjjjjjjjjjjjjjjjjjjj
jjjjjjjjjjjjjjj
 

Destaque

2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de DadosLeandro de Castro
 
Aula 13 - Mineração no Brasil
Aula 13 - Mineração no BrasilAula 13 - Mineração no Brasil
Aula 13 - Mineração no BrasilNatalia Gruber
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os ClientesLeandro de Castro
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram NegóciosLeandro de Castro
 
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...Leandro de Castro
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural NetworksLeandro de Castro
 
2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)Leandro de Castro
 
2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune SystemsLeandro de Castro
 
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample ApplicationsLeandro de Castro
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e AplicaçõesLeandro de Castro
 
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World ApplicationsLeandro de Castro
 
2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and ApplicationsLeandro de Castro
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in BusinessLeandro de Castro
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing ResearchLeandro de Castro
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre LiderançaLeandro de Castro
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big DataLeandro de Castro
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerceLeandro de Castro
 
2006: Artificial Immune Systems - The Past, The Present, And The Future?
2006: Artificial Immune Systems - The Past, The Present, And The Future?2006: Artificial Immune Systems - The Past, The Present, And The Future?
2006: Artificial Immune Systems - The Past, The Present, And The Future?Leandro de Castro
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de DadosLeandro de Castro
 

Destaque (20)

2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
 
Aula 13 - Mineração no Brasil
Aula 13 - Mineração no BrasilAula 13 - Mineração no Brasil
Aula 13 - Mineração no Brasil
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios
 
2011: TUILUX_FC
2011: TUILUX_FC2011: TUILUX_FC
2011: TUILUX_FC
 
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...
2011: Usando Ferramentas de Recomendação Inteligente para Aumento da Taxa de ...
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks
 
2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)
 
2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems
 
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações
 
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
 
2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre Liderança
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce
 
2006: Artificial Immune Systems - The Past, The Present, And The Future?
2006: Artificial Immune Systems - The Past, The Present, And The Future?2006: Artificial Immune Systems - The Past, The Present, And The Future?
2006: Artificial Immune Systems - The Past, The Present, And The Future?
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados
 

Semelhante a Mineração de Dados: conceitos básicos e aplicações

Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalPesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalFelipe Pereira
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web MiningFabrício Barth
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Rodrigo Dornel
 
Lean startup - Agile Brazil 2011
Lean startup - Agile Brazil 2011Lean startup - Agile Brazil 2011
Lean startup - Agile Brazil 2011Webgoal
 
Aula 1 - Bioestatística
Aula 1 - BioestatísticaAula 1 - Bioestatística
Aula 1 - BioestatísticaCaroline Godoy
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Thiago Rocha
 
MASP - Metodologia para Análise e Solução de Problemas
MASP - Metodologia para Análise e Solução de ProblemasMASP - Metodologia para Análise e Solução de Problemas
MASP - Metodologia para Análise e Solução de Problemaseugeniorocha
 
Apresentação do Sistema TRUE
Apresentação do Sistema TRUEApresentação do Sistema TRUE
Apresentação do Sistema TRUETales Porto
 
Busca de Documentos (Marilia TechDay 2011)
Busca de Documentos (Marilia TechDay 2011)Busca de Documentos (Marilia TechDay 2011)
Busca de Documentos (Marilia TechDay 2011)Fabrício Catae
 
Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019Alex Lattaro
 
Aula 1 - Conceitos de TI e PDTI
Aula 1 - Conceitos de TI e PDTIAula 1 - Conceitos de TI e PDTI
Aula 1 - Conceitos de TI e PDTIFilipo Mór
 
Dia a Dia do Cientista de Dados - SAET 2023.pptx
Dia a Dia do Cientista de Dados - SAET 2023.pptxDia a Dia do Cientista de Dados - SAET 2023.pptx
Dia a Dia do Cientista de Dados - SAET 2023.pptxLucas Costa
 
Ferramentas Para A Qualidade
Ferramentas Para A QualidadeFerramentas Para A Qualidade
Ferramentas Para A QualidadeLuis Vidigal
 

Semelhante a Mineração de Dados: conceitos básicos e aplicações (20)

Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalPesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
 
Curso DVR
Curso DVRCurso DVR
Curso DVR
 
Implementação de projetos
Implementação de projetosImplementação de projetos
Implementação de projetos
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2
 
Lean startup - Agile Brazil 2011
Lean startup - Agile Brazil 2011Lean startup - Agile Brazil 2011
Lean startup - Agile Brazil 2011
 
Aula 1 - Bioestatística
Aula 1 - BioestatísticaAula 1 - Bioestatística
Aula 1 - Bioestatística
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
 
MASP - Metodologia para Análise e Solução de Problemas
MASP - Metodologia para Análise e Solução de ProblemasMASP - Metodologia para Análise e Solução de Problemas
MASP - Metodologia para Análise e Solução de Problemas
 
Apresentação do Sistema TRUE
Apresentação do Sistema TRUEApresentação do Sistema TRUE
Apresentação do Sistema TRUE
 
Palestra masp
Palestra   maspPalestra   masp
Palestra masp
 
Palestra masp
Palestra   maspPalestra   masp
Palestra masp
 
Palestra masp
Palestra   maspPalestra   masp
Palestra masp
 
AVALIAÇÃO ESTADUAL Comparada às Nacionais: SAEB e ENEM
AVALIAÇÃO ESTADUAL Comparada às Nacionais: SAEB e ENEMAVALIAÇÃO ESTADUAL Comparada às Nacionais: SAEB e ENEM
AVALIAÇÃO ESTADUAL Comparada às Nacionais: SAEB e ENEM
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Busca de Documentos (Marilia TechDay 2011)
Busca de Documentos (Marilia TechDay 2011)Busca de Documentos (Marilia TechDay 2011)
Busca de Documentos (Marilia TechDay 2011)
 
Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019Choose your weapon - TDC Floripa 2019
Choose your weapon - TDC Floripa 2019
 
Aula 1 - Conceitos de TI e PDTI
Aula 1 - Conceitos de TI e PDTIAula 1 - Conceitos de TI e PDTI
Aula 1 - Conceitos de TI e PDTI
 
Dia a Dia do Cientista de Dados - SAET 2023.pptx
Dia a Dia do Cientista de Dados - SAET 2023.pptxDia a Dia do Cientista de Dados - SAET 2023.pptx
Dia a Dia do Cientista de Dados - SAET 2023.pptx
 
Ferramentas Para A Qualidade
Ferramentas Para A QualidadeFerramentas Para A Qualidade
Ferramentas Para A Qualidade
 

Mais de Leandro de Castro

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural ComputingLeandro de Castro
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência ArtificialLeandro de Castro
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in IsraelLeandro de Castro
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in BrazilLeandro de Castro
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação FinanceiraLeandro de Castro
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...Leandro de Castro
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...Leandro de Castro
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência ArtificialLeandro de Castro
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de MarketingLeandro de Castro
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em ComputaçãoLeandro de Castro
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da ComputaçãoLeandro de Castro
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerceLeandro de Castro
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case StudiesLeandro de Castro
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base TecnológicaLeandro de Castro
 
2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais ArtificiaisLeandro de Castro
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do CursoLeandro de Castro
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do CursoLeandro de Castro
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...Leandro de Castro
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and ApplicationsLeandro de Castro
 

Mais de Leandro de Castro (20)

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing
 
2019: Folder do LCoN
2019: Folder do LCoN2019: Folder do LCoN
2019: Folder do LCoN
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
 
2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications
 

Mineração de Dados: conceitos básicos e aplicações

  • 1. Mineração de Dados: Conceitos Básicos e Aplicações Leandro Nunes de Castro Lnunes@mackenzie.br @lndecastro Faculdade de Computação e Informática & Programa de Pós-Graduação em Engenharia Elétrica Laboratório de Computação Natural (LCoN) www.mackenzie.br/lcon.html SBAI 2011 (18/09/2011)
  • 2. Sumário • Sobre o Mini-Curso • Motivação • Introdução • Pré-Processamento • Credibilidade do Processo de Aprendizagem • Análise de Grupos • Predição: Classificação e Estimação • Detecção de Anomalias • ShiftHappens 2
  • 3. Quem Sou Eu • Formado em Engenharia Elétrica com ênfase em Computação, possui Mestrado, Doutorado e Pós- doutorado em Engenharia de Computação. Empresário, empreendedor, acadêmico, escritor e pai de família. É especialista em Computação Natural e transformação de bases de dados em conhecimentos para a tomada de decisão estratégica nos negócios. Possui cinco livros publicados, coordena o Laboratório de Computação Natural (LCoN) do Programa de Pós- Graduação em Engenharia Elétrica do Mackenzie e é sócio-diretor das empresas NATCOMP e TUILUX.
  • 4. Quem São Vocês • Idade • Redes Sociais • Interesses • Formação • Conhecimento
  • 5. Dinâmica do Mini-Curso Aulas interativas e ilustradas com aplicações práticas, dinâmicas de grupo e sorteios do livro “Computação Natural: Uma Jornada Ilustrada”. Preparados?
  • 8. Sobre Dados e Informação
  • 9. Sobre Dados e Informação
  • 10. Sobre Dados e Informação Fonte: wikipedia.org
  • 12. A Mineração de Dados http://tr.toonpool.com/cartoons/miner_29770
  • 13. O Processo de Mineração
  • 14. Multidisciplinaridade Estatística Bancos de Aprendizagem Dados de Máquina Mineração de Dados Outras Sistemas de Informação Disciplinas Inteligência Visualização Artificial
  • 15. Dicas para Uma Análise Efetiva • Estabelecer a significância prática e estatística da mineração. • Reconhecer que as características da base de dados influenciam todos os resultados. • Necessidade de conhecer os dados. • Busca pela parcimônia. • Verifique os erros. • Valide seus resultados.
  • 16. As Diferentes Nomenclaturas • Inteligência Artificial • Aprendizagem de Máquina • Computação Flexível • Inteligência Computacional • Computação Natural • Computação Bioinspirada
  • 17. Principais Tarefas • Descritivas: caracterizam as propriedades gerais dos dados; e • Preditivas: fazem inferência com os dados objetivando predições. Salário: Faixa IRRF 37 32 33 32 28 até R$ até R$ até R$ até R$ acima de R$ 1.434,59 2.150,00 2.866,70 3.582,00 3.582,01
  • 18. Principais Tarefas • Descrição de Classes e Conceitos • Agrupamento • Predição: Classificação e Estimação • Associação • Detecção de Anomalias
  • 19. Paradigmas de Aprendizagem • Supervisionada • Não-Supervisionada • Reforço
  • 20. Aprendizagem Supervisionada Vetor descrevendo o estado do ambiente Saída desejada Ambiente Supervisor + Saída atual Sistema em Aprendizagem Sinal de erro {(xi,di)}i = 1,...,N, onde xi e di i, são os vetores de entrada e as respectivas saídas desejadas.
  • 21. Aprendizagem Não-Supervisionada Vetor de estado do ambiente Sistema em Ambiente Aprendizagem
  • 22. Aprendizagem por Reforço Vetor de estado Reforço (entrada) primário Ambiente Crítico Reforço heurístico Sistema em Aprendizagem Ações
  • 23. Nomenclatura e Tipos de Dados Possui Financiamen Credito Salário Estado Cartão de Nro de Idade Imóveis Veículos Cheque to R$ Civil Crédito Filhos Especial Pretendido Autorizado 350 21 Sol. 0 0 0 0 Sim 10.000 Não 3700 52 Cas. 1 1 2 2 Sim 7.000 Sim 1200 26 Cas. 1 0 1 1 Não 10.000 Não 700 25 Sol. 0 0 0 0 Não 5.000 Sim 8500 50 Cas. 2 1 2 2 Sim 40.000 Sim 1800 27 Sol. 1 0 1 0 Sim 20.000 Não 350 20 Sol. 0 0 0 0 Não 10.000 Não Objetos x Atributos Tipos de Dados: Nominais, Ordinais, Numéricos
  • 25. Problemas com Bases de Dados Duração 1 2 3 2 Aumento salarial ano 1 2% 4% 4.3% 4.5% Aumento salarial ano 2 ? 5% 4.4% 4.0% Aumento salarial ano 3 ? ? ? ? Ajuste de custo de vida Nenhum Tcf ? Nenhum Carga horária semanal 28 35 38 40 Aposentadoria Nenhum ? ? ? Pagamento por horas vagas ? 13% ? ? Horas extras ? 5% 4% 4 Adicional para educação Sim ? ? ? Feriados 11 15 12 12 Férias Avg Gen Gen Avg Assistência para ausência prolongada Não ? ? Sim Seguro odontológico Nenhum ? Full Full Seguro de vida Não ? ? Sim Seguro saúde Nenhum ? Full Half Aceitabilidade do contrato Ruim Boa Boa Boa
  • 27. Principais Tarefas • Limpeza: para remoção de ruídos e correção de inconsistências; • Integração: para unir dados de múltiplas fontes em um único local, como um armazém de dados (data warehouse); • Redução: para reduzir a dimensão da base de dados, por exemplo, agregando, agrupando ou eliminando atributos redundantes, ou sumarizando os dados; • Transformação: para deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração; • Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores para um dado atributo contínuo seja reduzida.
  • 28. Credibilidade do Processo de Aprendizagem
  • 29. Erros • Erro de Representação ou efeito bias. • Erro de Generalização ou variância. • Erro de Otimização. bias elevado variânciaelevada erro MSE nível ótimo de generalização
  • 31. Validação Cruzada • Como critério de parada • Como metodologia de estimação de erro Teste Treinamento Passo 1: 1 2 3 4 5 6 7 8 9 10 Passo 2: 1 2 3 4 5 6 7 8 9 10 ... Passo 10: 1 2 3 4 5 6 7 8 9 10
  • 32. Medidas de Desempenho em Classificação Classe Predita Sim Não Classe Sim TP FN Correta Não FP TN TP: Verdadeiro Positivo TP TP TPR FP: Falso Positivo P TP FN TN: Verdadeiro Negativo FP FP FPR FN: Falso Negativo N FP TN TP TN ACC TP FP TN FN
  • 33. Medidas de Desempenho em Estimação N e2 j Soma dos Erros Quadráticos j 1 N 1 e2 j Erro Quadrático Médico N j 1 N 1 e 2 Raiz do Erro Quadrático Médio j N j 1 N 1 | e j | Erro Absoluto Médio N j 1 N (d j d )( y j y) j 1 Coeficiente de Correlação N N 2 (d j d) . (yj y)2 j 1 j 1
  • 34. Medidas de Desempenho em Agrupamento k i i 1 nr nr E(Sr ) log log k i 1 nr nr k nr G1 Eglobal E (Sr ) r 1 n G2 1 P( S r ) max(nri ) G3 nr i k nr Pglobal P( S r ) r 1 n
  • 35. Desafio 01 Avaliando a Taxa de Classificação
  • 36. Detecção de Spam • Considere o problema de detecção de Spams (SPAM). A classe alvo é Spam. Assuma que a base possui N = 1.500 objetos, sendo nspam = 32. Considere o seguinte resultado de um algoritmo de classificação aplicado a esta base de dados: • Spam classificados corretamente: 27. • E-mail normal classificado corretamente: 1.411. Pede-se: • Determine TPR, FPR, ACC. • Monte a matriz de confusão do classificador.
  • 37. Estudo de Caso 01 Descrição de Classes e Conceitos Dados do Reclame Aqui
  • 38. Panorama Geral do Setor Status das Reclamações Nao Respondido 20% 7% 30% Respondido 24% Replicas 19% Finalizada - Resolvido Média das Notas 5.3 3.9 2.6 0.5 Média Geral Média ">0" Finalizada - Resolvido Finalizada - Nao Resolvido
  • 39. Panorama Geral do Setor Construção Civil - Piores Atendimentos 17% 13% 10% 6% 5% 5% 5% 5% 5% 4% 4% 3% 2% 2% 2% 2% 2% 2% 2% 3%
  • 40. Panorama Geral do Setor Construção Civil 17% 13% 9% 6% 6% 6% 6% 4% 4% 4% 4% 3% 3% 2% 2% 2% 2% 2% 2% 2%
  • 41. Estudo de Caso 02 Descrição de Classes e Conceitos Base de RH
  • 42. Base de Análise • 41.934 registros, com os seguintes atributos: Nome, Salário, Sexo, Cargo, Endereço, Bairro, CEP, Cidade, UF, Banco, Nome do Banco, Agência, Conta, Data de Nascimento, Escala, Grau de Instrução, Data de Admissão, Data de Demissão, Data de Afastamento, Data de Início de Férias, Situação Cadastral, Horas Trab. por Mês e Horas Trab. por Semana.
  • 43. Objetivos • Entender a base • Predizer demissões e período de trabalho • Segmentar a base
  • 44. Visão Geral Sexo Masculino 34% Feminino Situação Cadastral 66% 64% 33% 1% 2% Afastamento Férias Normal Rescisão
  • 45. Visão Geral Grau de Instrução Outros 17.31% Ensino médio completo 82.69% Salário: Faixa IRRF 98.2% 1.3% 0.3% 0.1% 0.1% até R$ até R$ até R$ até R$ acima de 1.434,59 2.150,00 2.866,70 3.582,00 R$ 3.582,01
  • 46. Visão Geral Pirâmide Etária Cargos 100 anos e mais 0.0% 0.0% PROMOTOR(A) DE VENDAS 23% 90 a 94 anos 0.0% SERVIÇOS GERAIS 13% 0.0% 7% ATENDENTE 80 a 84 anos 0.0% 0.0% AJUDANTE GERAL 6% 70 a 74 anos 0.0% AUXILIAR DE LOJA 5% 0.0% PROMOTOR(A) 4% 60 a 64 anos 0.3% DEMONSTRADOR(A) 4% 1.0% ATENDENTE DE CRÉDITO 3% 50 a 54 anos 2.2% 3.4% AUXILIAR DE VENDAS 2% 40 a 44 anos 4.9% AUXILIAR DE SERVIÇOS GERAIS 2% 7.3% AUXILIAR DE CAIXA 2% 30 a 34 anos 12.3% DEMONSTRADOR(A) I 2% 22.5% 20 a 24 anos 34.4% COLETOR(A) DE DADOS 2% 11.6% ASSISTENTE DE VENDAS 2% 10 a 14 anos 0.0% OUTROS CARGOS 23% 0.0% 0 a 4 anos 0.0%
  • 47. Visão Geral Grau de Instrução Analfabeto, ou não se alfabetizou R$ 624.74 Até a 4ª série incompleta do ensino fundamental R$ 608.91 4ª série completa do ensino fun damental R$ 620.17 Da 5ª à 8ª série do ensino fundamental R$ 618.43 Ensino fundamental completo R$ 637.15 Ensino médio incompleto R$ 679.76 Ensino médio completo R$ 755.58 Segundo grau técnico incompleto R$ 628.36 Segundo grau técnico completo R$ 777.04 Educação superior incompleta R$ 903.56 Educação superior completa R$ 1,299.32 Pós-Graduação R$ 2,793.32
  • 48. Uma Análise Preditiva Instrução [1 2 3 4 7] Idade [5 6 8 9 10 11 12] [5] [1 2 3 4] Idade Instrução Normal [1 2 3] [4 5] [1 3 4] [2 7] Idade Idade Normal Rescisão [1 2] [3] [5] Rescisão Sexo Salário [4] [Feminino] [Masculino] [2 3] [1 4 5] Salário Rescisão Normal Rescisão [2 3] [1 4 5] Salário Normal Rescisão [1 4] [ 2 3 5] Rescisão Normal
  • 50. O Que São Grupos? Processo de particionar um conjunto de dados em subconjuntos (clusters) de forma que os dados em cada cluster (idealmente) compartilhem características comuns – normalmente proximidade em relação a alguma medida de distância.
  • 51. Componentes da Tarefa de Agrupamento • Pré-processamento dos dados; • Definição da medida de proximidade; • Agrupamento; • Abstração dos dados; • Avaliação da saída. 0 x11  x1L d (2,1) 0    d (3,1) d (3,2) 0 x N 1  x NL    0 d ( N ,1) d ( N ,2)  d ( N , N 1) 0
  • 52. Estudo de Caso 03 Agrupamento Benchmarks e Base de Dados de Bioinformática
  • 53. ACA: Ant Clustering Algorithm
  • 54. ACA: Ant Clustering Algorithm 2 k1 pp d (x i , x j ) k1 f 1 1 if f 0 2 f (x i ) s2 x j Neigh ( s s ) (r ) α f 0 otherwise pd k2 f Ver demos no LVCoN
  • 55. Base de Dados de Bioinformática C1 0 C1 C2 C4 C3
  • 57. Classificação Astigmatismo Idade Prescrição TPL Lente recomendada (A) Jovem Miopia Não Reduzida Nenhuma Jovem Miopia Não Normal Macia Jovem Miopia Sim Reduzida Nenhuma Jovem Miopia Sim Normal Rígida Jovem Hipermetropia Não Reduzida Nenhuma Pré-presbiótico Miopia Não Reduzida Nenhuma Pré-presbiótico Miopia Não Normal Macia Pré-presbiótico Hipermetropia Sim Reduzida Nenhuma Pré-presbiótico Hipermetropia Sim Normal Nenhuma Presbiótico Miopia Não Reduzida Nenhuma Presbiótico Miopia Não Normal Nenhuma Presbiótico Hipermetropia Sim Reduzida Nenhuma Presbiótico Hipermetropia Sim Normal Nenhuma
  • 58. Árvores de Decisão TPL Reduzida Normal Nenhuma Astigmatismo Não Sim Macia Prescrição Miopia Hipermetropia Rígida Nenhuma
  • 59. Árvores de Decisão Duração 1 2 3 2 Aumento salarial ano 1 2% 4% 4.3% 4.5% Aumento salarial ano 2 ? 5% 4.4% 4.0% Aumento salarial ano 3 ? ? ? ? Ajuste de custo de vida Nenhum Tcf ? Nenhum Carga horária semanal 28 35 38 40 Aposentadoria Nenhum ? ? ? Pagamento por horas vagas ? 13% ? ? Horas extras ? 5% 4% 4 Adicional para educação Sim ? ? ? Feriados 11 15 12 12 Férias Avg Gen Gen Avg Assistência para ausência prolongada Não ? ? Sim Seguro odontológico Nenhum ? Full Full Seguro de vida Não ? ? Sim Seguro saúde Nenhum ? Full Half Aceitabilidade do contrato Ruim Boa Boa Boa
  • 60. Árvores de Decisão Aumento Ano 1 2.5% > 2.5% Ruim Feriados > 10 10 Bom Aumento Ano 1 4% > 4% Ruim Bom
  • 61. Árvores de Decisão Aumento Ano 1 2.5% > 2.5% Carga Horária Feriados 36 > 36 > 10 10 Seguro Saúde Bom Aumento Ano 1 Ruim 4 >4 Nenhum Parcial Total Ruim Bom Ruim Ruim Bom
  • 62. Estudo de Caso 04 Agrupamento e Predição Base de Dados de Veículos
  • 66. Estudo de Caso 05 Análise de Sentimento em Tweets Dados da Rede Globo
  • 67. Base de Análise • Para realizar as análises a serem apresentadas foram utilizados 206.259 tweets de 127.945 usuários entre os dias 1 e 31 de dezembro de 2010. • Os atributos disponíveis para essa análise foram: Cliente, Avaliação, Termo, Usuário, Texto e Data.
  • 68. Domingão do Faustão Palavras mais comentadas - Domingão do Faustão 11% 8% 8% 7% 7% 6% 6% 6% 6% 5% 4% 4% 4% 4% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0% Total Top 20 Total Twitters
  • 69. Comentários Positivos Palavras mais comentadas - Tweets positivos 13% 11% 10% 7% 7% 6% 6% 5% 5% 3% 3% 4% 3% 3% 3% 3% 3% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% Total Top 20 Total Twitters
  • 70. Comentários Negativos Palavras mais comentados - Tweets negativos 27% 16% 8% 6% 5% 5% 3% 4% 4% 3% 3% 3% 3% 2% 1% 1% 1% 1% 1% 1% 1% 1% 2% 2% 2% 2% 2% 2% 2% 2% 2% 0% 0% 0% 0% 0% 0% 0% 0% 0% Total Top 20 Total Twitters
  • 71. Influenciadores Qtde de Percentual de Qtde de Qtde de Id Usuários Tweets Tweets (%) Seguidores Seguidos 1 adnoticia 253 0,12% 175 219 2 annoticia 256 0,12% 271 350 3 comuniquebrinde 170 0,08% 1.211 1.967 4 feedrssreader 192 0,09% 350 245 5 g1 389 0,19% 467.484 21 6 mariana_viips 155 0,08% 694 67 7 news_mundo_ 224 0,11% 281 895 8 novinhabru 320 0,16% 2.992 1.963 9 romariontv 177 0,09% - - 10 segundoplanobr 151 0,07% 347 7 11 siteg1 207 0,10% 60 - 12 sjodiel_indica 262 0,13% 855 615 13 standupbot 384 0,19% 386 - 14 tudodoesporte 522 0,25% 894 366 15 tweets24hs 158 0,08% 2.940 3.258 16 vidasemglobo 147 0,07% 600 177 17 waldeterossi 313 0,15% 70 13 18 zocialtv_br 242 0,12% 338 115 19 _invo 720 0,35% 342 22 TOTAL: 5.242 2,54%
  • 73. Segmentando os Influenciadores Grupo 1 Grupo 2 Grupo 3 adnoticia comuniquebrinde mariana_viips annoticia novinhabru feedrssreader g1 romariontv news_mundo_ segundoplanobr standupbot siteg1 tudonoesporte sjodiel_indica waldeterossi vidasemglobo _invo tweets24hs zocialtv_br
  • 74. Análise dos Grupos Grupo Palavras Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal, 1 pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados, justiça, preso. Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks, 2 Dilma, mundial, justiça, policia, brasileiros, segurança, temporais, projeto, risco, Cielo, prisão. Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo, 3 twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy, zilza, vote, malhação.
  • 76. Análise de Carrinho de Supermercado Leite Pão Cereais Leite Broa Manteiga Cereais Chocolate Pão Café Ovos Açúcar Pão Café Iogurte Adoçante
  • 77. Estudo de Caso 06 Recomendação em Comércio Eletrônico Alguns Clientes TUILUX
  • 78. O Que é um Sistema de Recomendação Inteligente? 78
  • 79. “Para o usuário a recomendação significa um guia útil no processo de escolha de conteúdo... Para a loja a recomendação significa ofertar o item mais atraente alguns segundos antes da perda da atenção da audiência” * * Fonte: Comparative Rating of Five Recommendations Solutions, Patricia Seygold Group 79
  • 80. 80
  • 81. Visão Geral sobre Serviços de Recomendação 1. Capturar informação sobre os produtos 2. Capturar informação sobre as interações dos usuários 3. Aplicar algoritmos de seleção de produtos 4. Mostrar o conteúdo selecionado 5. Monitorar e analisar a efetividade da recomendação 81
  • 82. Página de Produto: Exemplos Cross-sell O que nem os clientes sabiam que queriam Regras de negócio 82
  • 84. O Que é uma Anomalia? “Um outlier é um objeto que parece desviar fortemente de outros membros da amostra a qual ele pertence.” (Grubbs, F. E., 1969, “Procedures for detecting outlying observations in samples”, Technometrics, 11, pp. 1-21.) “Um outlier é um objeto ou subconjunto de objetos que parece inconsistente com o restante da base de dados.” (Barnett, V.; Lewis, T. 1994, Outliers in Statistical Data, 3rd ed., John Wiley & Sons)
  • 85. Exemplos • Detecção de fraudes: em transações de cartões de crédito, em uso de telefones celulares, em medição de consumo de energia, etc. • Análise de crédito: identificação de clientes potencialmente problemáticos ou fraudulentos, etc. • Detecção de intrusão: acesso não permitido a redes de computadores e ambientes diversos, etc; • Monitoramento de atividades: negociações suspeitas em mercados financeiros, comportamentos incomuns de usuários, etc; • Desempenho de rede: monitoramento do desempenho de redes de comunicação para identificação de gargalos;
  • 86. Exemplos • Diagnóstico de faltas: em motores, geradores, redes, instrumentos, etc; • Análise de imagens: identificação de novas características; • Monitoramento de séries temporais: em aplicações que envolvem séries temporais, por exemplo, consumo de energia elétrica de subestações, análise de batimentos cardíacos, etc.; • Análise de textos: identificação de novas estórias, análise de desempenho de commodities, etc.
  • 87. Adordagens • Tipo 1: aprendizagem não-supervisionada; • Tipo 2: aprendizagem supervisionada; • Tipo 3: aprendizagem semi-supervisionada.
  • 88. Estudo de Caso 07 Um Algoritmo Imunológico para Detecção de Vírus em Computadores
  • 89. Algoritmo de Seleção Negativa Self strings (S) Monitoramento Detector Set Generate (R) random strings Match Detector (R0) No Set (R) Yes Reject Self Match No Strings (S) Sensoriamento Yes Non-self Detected
  • 90. Estudo de Caso 08 Sistemas Imunológicos Artificiais
  • 91. Pattern Recognition • Classification and Clustering – CLONALG (de Castro & Von Zuben, 2002) (a) Input patterns (b) 0 generations (c) 50 generations (d) 100 generations (e) 200 generations
  • 92. Pattern Recognition • Classification and Clustering – aiNet (de Castro & Von Zuben, 2001) – Definition: • aiNet is an edge-weighted graph, not necessarily fully connected, composed of a set of nodes and sets of node pairs with a weight assigned specified to each connected edge. – Features: • knowledge distributed among cells • competitive learning (unsupervised) • constructive model with pruning phases • generation and maintenance of diversity 92
  • 93. Pattern Recognition • aiNet: – Growing: • clonal selection principle – Learning: • directed affinity maturation – Pruning: • immune network theory
  • 94. Pattern Recognition • aiNet at each generation: – For each Ag  Affinity with the antigen (Ai) Agi-Ab  Clonal selection (n cells) Ai  Cloning Ai  Directed maturation (mutation) 1/Ai  Re-selection ( %) Ai  Natural death ( d) 1/Ai  Affinity between the network cells (Dii) Ab-Ab  Clonal suppression ( s) Dii : (m - memory)  Mt [Mt;m] – Network suppression ( s) Dii : (M Mt) – M [M;meta]
  • 95. Pattern Recognition • Clustering 1 Training Patterns 0.9 Final Network Structure 0.8 1 10 0.7 6 12 2 7 3 0.6 0.8 y 0.5 1 0.4 0.6 14 8 0.3 0.4 0.2 0.1 0.2 9 4 0 13 11 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 5 x 0 0.2 0.4 0.6 0.8 1
  • 96. Pattern Recognition • Clustering 1.5 1 0.5 0 Final Network Structure -0.5 1.5 -1 1 -1.5 4 0.5 2 2 1 0 0 0 -1 -2 -2 -0.5 -1 3 2 1 1 0.5 0 0 -0.5 -1 -1
  • 97. Desafio 02 Questões sobre o Processo de Mineração
  • 98. Questão Processo Mineração • Qual o fluxo (faça o gráfico) das principais etapas da mineração de dados e quais as principais tarefas?
  • 101. Questões ShiftHappens • Quantos e-mails e SMSs em média uma pessoa de 21 anos já enviou/recebeu? • Quanto tempo a Internet levou para atingir uma audiência de 50 milhões pessoas?
  • 102. LCoN • Programa de Pós-Graduação em Engenharia Elétrica do Mackenzie • Perfil do LCoN, Pesquisa, Equipe, etc. www.mackenzie.br/lcon.html
  • 104. Obrigado Leandro Nunes de Castro lnunes@mackenzie.br @lndecastro 104