SlideShare uma empresa Scribd logo
1 de 74
Baixar para ler offline
Ary Fagundes Bressane Neto
Flávio Soares Corrêa da Silva

        LIDET – USP
        Janeiro 2010
   Ary Fagundes Bressane Neto
       Graduação: BCC, UNESP/Bauru (2007)
       Mestrado: CC, USP/Butantã (conclusão prevista para 2010)
       Experiência diversificada em Ciência da Computação
       Pesquisador do LIDET

   Flávio Soares Corrêa da Silva
       Graduação: POLI-USP (1984)
       Mestrado: POLI-USP (1989)
       PhD: Inteligência Artificial, Edinburgh University (1992)
       Livre-docência: USP (1999)
       Experiência diversificada em CC, com foco em IA
       Pesquisador do LIDET
   Universidade de São Paulo

       Fundação: 1934
       Ranking internacional: aprox. 100ª no mundo
       56 mil alunos de graduação
       25 mil alunos de pós-graduação
       6 mil docentes
       Aprox. 10 % da produção científica do Brasil
   Departamento de Ciência da Computação

       Início de atividades: 1972
       Mais de mil alunos de graduação formados
       39 docentes em atividade
       Reconhecido centro de pesquisas e ensino, no Brasil e no
        Exterior
   LIDET: Laboratory of Interactivity and Digital
    Entertainment Technology
     Início de atividades: 2005
     Intensas atividades em pesquisa e ensino
         Inteligência Artificial Aplicada
         Jogos de Computador
         Sistemas Interativos Inteligentes
         Governabilidade Eletrônica
     Atividades em colaboração com LIAMF (Laboratório de Lógica,
      Inteligência Artificial e Métodos Formais da USP) e CCSL (Centro
      de Competência em Software Livre da USP)
     Cooperação internacional com centros de pesquisa no Chile,
      Reino Unido, Itália e Espanha

     Coordenador: Flávio Soares Corrêa da Silva
     Equipe: estudantes de mestrado (6) e doutorado (6)
   Introdução sobre Data Mining

   Apresentação e funcionamento do WEKA

   WEKA + Java
“Nós estamos afogados em informação mas
       famintos por conhecimento”

                         John Naisbett
   1. World Data Centre for Climate
     6 petabytes de dados

 2. National Energy Research Scientific Computing
Center (EUA)
     2.8 petabytes de dados

   3. AT&T
     323 terabytes de informação
     1.9 trilhões de registros de chamadas telefônicas

   4. Google
     91 milões de pesquisas por dia
     33 trilhões de registros



                                         Fonte: http://www.businessintelligencelowdown.com/
   5. Sprint
     2.85 trilhões de linhas no banco de dados
     365 milhões de registros de ligações telefonicas por dia

   6. ChoicePoint
     250 terabytes de dados pessoais
     Informação de 250 milhões de pessoas

   7. YouTube
       100 milhões de vídeos assisitdos por dia
       65,000 vídeos adicionados por dia
       60% de todos os vídeos assistidos online
       45 terabytes de vídeos

                                       Fonte: http://www.businessintelligencelowdown.com/
   8. Amazon
     59 milhões de usuários ativos
     42 terabytes de dados

   9. Central Intelligence Agency (EUA)
     Informações sobre mais de 250 países e instituições
     Número desconhecido de informações confidenciais

   10. Library of Congress (EUA)
       130 milhões de itens (livros, fotografias, mapas, etc.)
       29 milhões de livros
       10,000 novos itens adicionados por dia
       5 milhões de documentos digitais
       20 terabytes de informação em texto


                                            Fonte: http://www.businessintelligencelowdown.com/
“A habilidade de mandar, dirigir e selecionar
informação pode chegar a ser uma fonte de
  poder comparável aos grandes recursos
   naturais, tecnológicos e econômicos”

                          Wilbur Schramm
   Medicina
     Diagnóstico
       Sintomas
       Exames de imagem
       Exames laboratoriais

   Departamento de Vendas
     Clientes com diferentes perfis
     Clientes procurando sugestões

   Ciência
     Seqüenciamento genético

   Design
     Novos materiais


                                       Fonte: http://www.businessintelligencelowdown.com/
   Departamento de Vendas (CRM)
     Presencial
     Virtual

   Departamento de Marketing

   Investimentos

   Aplicações de Recursos do Governo
Bases de Dados integradas para consultas analíticas
de históricos

   Qual a tecnologia atende a essa demanda?
KDD (Knowledge Discovery in Databases)
“Descoberta de conhecimento de Base de
   Dados é um processo não-tivial de
identificação de padrões válidos, novos,
potencialmente úteis e compreensíveis
          embutidos nos dados”
                                  Usama Fayyad,
                       Gregory Piatetsky-Shapiro,
                                  Padhraic Smyth
   Wal Mart
   Banco Itaú
   Bank of America

   Banco Nossa Caixa
   Full Tilt Poker
The KDD Process for Extracting Useful
Knowledge from Volumes of Data
Mineração
                                     de Dados



            Atividades                                        Atividades
            Preditivas                                        Descritivas



                                                 Regras de
Classificação            Regressão                                      Sumarização
                                                 Associação




                                             Clusterização
   Soluções Proprietárias
     SPSS Clementine
     SAS Enterprise Miner
     STATISTICA Data Miner

     IBM Intelligent Miner Data Mining Suite
     Oracle Data Mining
     Microsoft SQL Server (Microsoft BI)

     Excel

     Matlab
   Soluções Open Source
     WEKA
     RapidMiner
     KNIME

     R

     Código próprio
Waikato Environment for Knowledge Analysis
   Univesidade de Waikato

 Projeto financiado pelo Governo da NZ
(1993)
     Desenvolver uma ferramenta no estado da arte
     Explorar os campos de aplicação
     Desenvolver novos métodos

 Open Source (GNU General Public
License)

   100% Java
   Ferramentas
       Pré-processamento
       Sumarização
       Classificação
       Regressão
       Clusterização
       Regras de Associação
       Visualização
   http://www.cs.waikato.ac.nz/ml/weka/

   Stable GUI version 3.6
     Windows
     Mac OS X
     Linux
       java -jar weka.jar


   Book version 3.4

   Developer version 3.7
@RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
       Iris-versicolor, Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
@RELATION iris                            @relation <relation-name>

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
       Iris-versicolor, Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
@RELATION iris                     @attribute <attribute-name> <datatype>


@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL                    integer
@ATTRIBUTE petallength REAL                   Real
                                              <nominal-specification>
@ATTRIBUTE petalwidth REAL
                                              string
@ATTRIBUTE class {Iris-setosa,
                                              date [<date-format>]
       Iris-versicolor, Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
@RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
       Iris-versicolor, Iris-virginica}

@DATA                                     @data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
@RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
       Iris-versicolor, Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
   Classificação
     Árvores de Decisão
     Redes Neurais Artificiais

   Clusterização
     Kmeans

   Regras de Associação
     APriori
 Técnica que constrói um classificador utilizando uma
estrutura de árvore onde os nós folhas representam
as classes e os nós internos representam um teste
sobre um atributo

   Exemplos
                                        Figura Geométrica
     Oferta de crédito                       # lados
     Diagnóstico médico           =3                       >3


                           Triângulo
Poupador   Bens    Rendimento   Oferecer
                                 anual     Crédito
Cliente1    Médio     Alto      75.000       Sim
Cliente2    Baixo     Baixo     50.000       Não
Cliente3     Alto     Médio     25.000       Não
Cliente4    Médio     Médio     50.000       Sim
Cliente5    Baixo     Médio    100.000       Sim
Cliente6     Alto     Alto      25.000       Sim
Cliente7    Baixo     Baixo     25.000       Não
Cliente8    Médio     Médio     75.000       Sim
Poupador   Bens    Rendimento   Oferecer
                                 anual     Crédito
Cliente7    Baixo     Baixo     25.000       Não
Cliente3     Alto     Médio     25.000       Não
Cliente6     Alto     Alto      25.000       Sim
Cliente2    Baixo     Baixo     50.000       Não
Cliente4    Médio     Médio     50.000       Sim
Cliente1    Médio     Alto      75.000       Sim
Cliente8    Médio     Médio     75.000       Sim
Cliente5    Baixo     Médio    100.000       Sim
Rendimento

=25.000     =50.000    >=75.000

                         Oferecer
                         Crédito
Poupador   Bens    Rendimento   Oferecer
                                 anual     Crédito
Cliente7    Baixo     Baixo     25.000       Não
Cliente3     Alto     Médio     25.000       Não
Cliente6     Alto     Alto      25.000       Sim
Cliente2    Baixo     Baixo     50.000       Não
Cliente4    Médio     Médio     50.000       Sim
Cliente1    Médio     Alto      75.000       Sim
Cliente8    Médio     Médio     75.000       Sim
Cliente5    Baixo     Médio    100.000       Sim
Rendimento

                = 25.000                                      >= 75.000
                                      = 50.000

                                                                          Oferecer
               Bens                                    Bens
                                                                          Crédito

   ≠ Alto              = Alto             = Médio             = Alto

Não Oferecer          Oferecer          Não Oferecer          Oferecer
  Crédito             Crédito             Crédito             Crédito
Poupador   Bens        Rendimento             Oferecer
                                     anual               Crédito
Cliente1    Médio     Alto            75.000                 Sim
Cliente2    Baixo     Baixo           50.000                 Não
Cliente3     Alto     Médio           25.000                 Não
Cliente4    Médio     Médio           50.000                 Sim
Cliente5    Baixo     Médio          100.000                 Sim
Cliente6     Alto     Alto            25.000                 Sim
Cliente7    Baixo     Baixo           25.000                 Não
Cliente8    Médio     Médio           75.000                 Sim


                                                               Rendimento

                                               =25.000                                      >=75.000
                                                                     =50.000

                                                                                                       Oferecer
                                             Bens                                    Bens
                                                                                                       Crédito

                                  ≠ Alto             =Alto                  Médio            Alto

                              Não Oferecer          Oferecer          Não Oferecer          Oferecer
                                Crédito             Crédito             Crédito             Crédito
 Modelos matemáticos que permite aprendizado e
generalização
 Esse aprendizado está associado a capacidade de
adaptar seus parâmetros como conseqüência da sua
iteração com o meio externo
 Estrutura similar as redes neurais biológicas


   Exemplos                  X1
                                   W1
     Oferta de crédito       X2 W2
     Diagnóstico médico      X3
                                   W3
                                        u   f(u)   y = f(u)

     Detectar fraudes             Wn

                              Xn
X1
     W1

X2 W2
                   u      f(u)          y = f(u)
     W3
X3
     Wn

Xn




               u = valor de ativação
          f(u) = função de propagação
Homem / Mulher


           Idade


            IMC                                    Risco Câncer

Consumo cigarro


Consumo álcool


 Atividade física




                    Camada     Camada     Camada
                    Entrada   Escondida    Saída
 Técnica que mapeia um item em um dos vários
clusters, onde clusters são agrupamentos de itens de
dados baseados em alguma métricas de similaridade.
 Permite compreender os agrupamentos naturais ou
estruturas subjacentes a um conjunto de dados.

   Exemplos:
     Identificação de grupos distintos de clientes (público-alvo)
     Identificar a taxonomia de plantas e animais
     Agrupar estudantes por desempenho e dificuldades para adotar
      estratégias de ensino mais eficientes e adequadas
Atributo1    Atributo2
Item1            1              1
Item2            1              2
Item3            2              2
Item4            4              5
Item5            5              5
Item6            5              6


        KMeans(# de Clusters)
             KMeans(2)
7
6
5
4
3
2
1
0
    0   1   2   3   4   5   6   7
7
6
5
4
3
2
1
0
    0   1        2        3        4        5    6   7


            Passo 1 – Determinar os centróides
7
     6
     5
     4
     3
     2
     1
     0
         0            1     2        3         4            5      6      7
         Passo 2 – Calcular a distância entre cada item e os centróides

             P(1,1)       P(1,2)     P(2,2)        P(4,5)       P(5,5)    P(5,6)
C1            0,0          1,0           1,4        5,0          5,7          6,4
C2            1,0          0,0           1,0        4,2          5,0          5,7
7
     6
     5
     4
     3
     2
     1
     0
         0            1          2        3         4            5      6     7
                          Passo 3 – Associar cada item a um grupo

             P(1,1)            P(1,2)      P(2,2)       P(4,5)       P(5,5)   P(5,6)
C1            0,0               1,0           1,4        5,0          5,7         6,4
C2            1,0               0,0           1,0        4,2          5,0         5,7
7
     6
     5
     4
     3
     2
     1
     0
         0            1     2      3         4            5      6      7
     Passo 4 – Recalcular o centróide como a média dos itens do grupo

             P(1,1)       P(1,2)   P(2,2)        P(4,5)       P(5,5)    P(5,6)
C1            0,0          1,0         1,4        5,0          5,7          6,4
C2            1,0          0,0         1,0        4,2          5,0          5,7
7
     6
     5
     4
     3
     2
     1
     0
         0            1     2        3         4            5      6      7
         Passo 2 – Calcular a distância entre cada item e os centróides

             P(1,1)       P(1,2)     P(2,2)        P(4,5)       P(5,5)    P(5,6)
C1            0,0          1,0           1,4        5,0          5,7          6,4
C2            3,1          2,6           1,7        2,0          2,5          3,4
7
     6
     5
     4
     3
     2
     1
     0
         0            1       2        3         4            5      6     7
                      Passo 3 – Associar item ponto a um grupo

             P(1,1)         P(1,2)     P(2,2)        P(4,5)       P(5,5)   P(5,6)
C1            0,0            1,0           1,4        5,0          5,7         6,4
C2            3,1            2,6           1,7        2,0          2,5         3,4
7
     6
     5
     4
     3
     2
     1
     0
         0            1     2      3         4            5      6      7
     Passo 4 – Recalcular o centróide como a média dos itens do grupo

             P(1,1)       P(1,2)   P(2,2)        P(4,5)       P(5,5)    P(5,6)
C1            0,0          1,0         1,4        5,0          5,7          6,4
C2            3,1          2,6         1,7        2,0          2,5          3,4
7
     6
     5
     4
     3
     2
     1
     0
         0            1       2        3         4            5      6     7
                    Passo 2 – Passo 3 – Passo 4 – Resultado Final

             P(1,1)        P(1,2)      P(2,2)        P(4,5)       P(5,5)   P(5,6)
C1            0,5           0,5            0,9        4,5           5,1        5,9
C2            5,6           4,9            4,2        0,7           0,4        0,7
 O objetivo é encontrar um conjunto de atributos
que quando presentes implicam na presença de outro
conjunto de atributos

   Exemplos:
     Análise de nota fiscal de compra
     Associação de palavras em textos
     Combate à corrupção
P1       P2          P3           P4       P5   P6
T1   x         x           x           x        x
T2             x           x
T3   x         x                                     x
T4   x         x
T5   x                                               x




          Apriori (Suporte mínimo, Confiança)
                    Apriori (2, 60%)
P1           P2          P3            P4          P5             P6
T1          x            x            x            x              x
T2                       x            x
T3          x            x                                                    x
T4          x            x
T5          x                                                                 x

     Produto     Freq.                                  Produto       Freq.
       P1         4                                       P1           4
                              Suporte mínimo = 2
       P2         4                                       P2           4
       P3         2                                       P3           2
       P4          1                                      P6           2
       P5          1
       P6         2
P1           P2          P3            P4             P5           P6
T1             x            x            x            x              x
T2                          x            x
T3             x            x                                                     x
T4             x            x
T5             x                                                                  x

     Produto        Freq.                                  Produto        Freq.
      P1, P2         3                                      P1, P2         3
                                 Suporte mínimo = 2
      P1, P3          1                                     P1, P6         2
      P1, P6         2                                      P2, P3         2
      P2, P3         2
     P2, P6           1
     P3, P6          0
P1           P2          P3            P4               P5   P6
T1            x           x            x            x                x
T2                        x            x
T3            x           x                                               x
T4            x           x
T5            x                                                           x

     Produto      Freq.
     P1, P2, P3     1
                               Suporte mínimo = 2
     P1, P2, P6     1
                                                         VAZIO !!!
     P1, P3, P6    0
     P2, P3, P6    0
Produto           Freq.
     P1, P2            3                         Confiança (A⇒B) = freqüência(AB)
     P1, P6            2                                            freqüência(A)

     P2, P3            2



Produto       Freq.           Conf.                        Produto    Freq.         Conf.
 P1, P2        3           3/4 = 75%                        P1, P2      3      3/4 = 75%
 P2, P1        3           3/4 = 75%    Confiança = 60%     P2, P1      3      3/4 = 75%
 P1, P6        2           2/4 = 50%                        P6, P1      2      2/2 = 100%
 P6, P1        2           2/2 = 100%                       P3, P2      2      2/2 = 100%
 P2, P3        2           2/4 = 50%
 P3, P2        2           2/2 = 100%
P1         P2     P3      P4          P5          P6
   T1          x           x     x        x           x
   T2                      x     x
   T3          x           x                                      x
  T4           x           x
  T5           x                                                  x


Produto   Freq.       Conf.
 P1, P2    3        3/4 = 75%         {P1} ⇒ {P2}: sup_min = 3; conf=75%
                                      {P2} ⇒ {P1}: sup_min = 3; conf=75%
 P2, P1    3        3/4 = 75%         {P6} ⇒ {P1}: sup_min = 2; conf=100%
 P6, P1    2        2/2 = 100%        {P3} ⇒ {P2}: sup_min = 2; conf=100%
 P3, P2    2        2/2 = 100%
   Escândalo dos “Cartões Coorporativos”

“Planalto pressiona e ministra da Igualdade Racial cai por uso
irregular de cartão.”

“A ministra vinha resistindo ao pedido de demissão. Mas foi
atropelada pela divulgação sobre o uso do cartão num free
shop (R$ 461,16), no aluguel sistemático de carros (mais de R$
110 mil, sem licitação) e em seu período de férias (R$ 2.969,01),
como revelou ontem a Folha. Matilde gastou R$ 171 mil com o
cartão em 2007, a recordista entre os ministros.”

Folha de S. Paulo 02/02/2008
   Escândalo dos “Cartões Coorporativos”
“Cartão de Pagamento do Governo Federal: uma Análise
de Regras de Associação”
Workshop Franco-Brasileiro sobre Mineração de Dados (2009)
Dr. Michel Silva, Me. Marcelo Stopanovski, Me. Henrique Rocha, Bel. David Cosac
Secretaria de Prevenção da Corrupção e Informações Estratégicas, Controladoria-
Geral da União

{“LOCAÇÃO DE AUTOMÓVEL SEM CONDUTOR”, “R$ 1000 a R$
1500”} → {“SEC. ESPECIAL DE POLÍTICAS DE PROMOÇÃO DA
IGUALDADE RACIAL”}: suporte = 1,15% e confiança =
86,67%.
Ressalta-se que esse exemplo é exatamente o pivô das discussões sobre
cartões, configurado no aluguel de carros em viagens.
@relation weather.symbolic
@attribute   outlook {sunny, overcast, rainy}
@attribute   temperature {hot, mild, cool}
@attribute   humidity {high, normal}
@attribute   windy {TRUE, FALSE}
@attribute   play {yes, no}
@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
WEKA + Java
 Bases de Dados integradas para consultas analíticas de
históricos estão em todo lugar

   Papel do profissional de Ciência da Computação

 Data Mining (KDD) pode ser implementado em diversas
áreas

   WEKA é uma ferramenta flexível
     Diversos algoritmos
     Permite a descoberta de conhecimento tanto via interface com o
      usuário quando embutida na aplicação do desenvolvedor
     Pode ser utilizada não somente para Data Mining
   Integração de dados
   Otimização de algoritmos
   Incorporação de conhecimento prévio
   Visualização científica

   Mineração em dados multimídia
Obrigado!
Ary Fagundes Bressane Neto
       bressane@ime.usp.br


Flávio Soares Corrêa da Silva
         fcs@ime.usp.br

Mais conteúdo relacionado

Destaque

Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text miningJosias Oliveira
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MJavier Toret Medina
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics PresentationSkylar Ritchie
 
Text Mining
Text MiningText Mining
Text Miningdp6
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionFlorian Leitner
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearsonEvelyn Femat
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIan Balina
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text miningKrish_ver2
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagmaJoão da Mata
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text MiningMinha Hwang
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text MiningMichel Bruley
 

Destaque (17)

Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text mining
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15M
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics Presentation
 
Text Mining
Text MiningText Mining
Text Mining
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: Introduction
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics Brief
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
 
Text mining
Text miningText mining
Text mining
 
Paradigma e sintagma
Paradigma e sintagmaParadigma e sintagma
Paradigma e sintagma
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 

Semelhante a Campus Party2010

Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
VaiAcademy_Ementa_Americanas.pdf
VaiAcademy_Ementa_Americanas.pdfVaiAcademy_Ementa_Americanas.pdf
VaiAcademy_Ementa_Americanas.pdfMarcio Cardoso
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...Felipe J. R. Vieira
 
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptxssuser87aa77
 

Semelhante a Campus Party2010 (20)

Data science
Data scienceData science
Data science
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
VaiAcademy_Ementa_Americanas.pdf
VaiAcademy_Ementa_Americanas.pdfVaiAcademy_Ementa_Americanas.pdf
VaiAcademy_Ementa_Americanas.pdf
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Data Mining
Data Mining Data Mining
Data Mining
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...
Tecnologias de Informação e Comunicação no Suporte aos Sistemas de Informação...
 
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx
1a Análise de Dados_Nayam Hanashiro_Apresentação.pptx
 

Mais de Campus Party Brasil

Desenvolvimento de aplicações para o Google App Engine
Desenvolvimento de aplicações para o Google App EngineDesenvolvimento de aplicações para o Google App Engine
Desenvolvimento de aplicações para o Google App EngineCampus Party Brasil
 
Técnicas forenses para a recuperação de arquivos
Técnicas forenses para a recuperação de arquivosTécnicas forenses para a recuperação de arquivos
Técnicas forenses para a recuperação de arquivosCampus Party Brasil
 
Como ganhar dinheiro no mundo mobile?
Como ganhar dinheiro no mundo mobile?Como ganhar dinheiro no mundo mobile?
Como ganhar dinheiro no mundo mobile?Campus Party Brasil
 
Tempestades solares: mitos e verdades
Tempestades solares: mitos e verdadesTempestades solares: mitos e verdades
Tempestades solares: mitos e verdadesCampus Party Brasil
 
A busca por planetas além do sistema solar
A busca por planetas além do sistema solarA busca por planetas além do sistema solar
A busca por planetas além do sistema solarCampus Party Brasil
 
Construção de uma luneta a baixo custo
Construção de uma luneta a baixo custoConstrução de uma luneta a baixo custo
Construção de uma luneta a baixo custoCampus Party Brasil
 
Hardware livre Arduino: eletrônica e robótica com hardware e software livres
Hardware livre Arduino: eletrônica e robótica com hardware e software livresHardware livre Arduino: eletrônica e robótica com hardware e software livres
Hardware livre Arduino: eletrônica e robótica com hardware e software livresCampus Party Brasil
 
Robótica e educação inclusiva
Robótica e educação inclusivaRobótica e educação inclusiva
Robótica e educação inclusivaCampus Party Brasil
 
Fazendo do jeito certo: criando jogos sofisticados com DirectX
Fazendo do jeito certo: criando jogos sofisticados com DirectXFazendo do jeito certo: criando jogos sofisticados com DirectX
Fazendo do jeito certo: criando jogos sofisticados com DirectXCampus Party Brasil
 
Robótica e educação inclusiva
	Robótica e educação inclusiva	Robótica e educação inclusiva
Robótica e educação inclusivaCampus Party Brasil
 
Gestão e monitoramento de redes e dispositivos com Software Livre
Gestão e monitoramento de redes e dispositivos com Software LivreGestão e monitoramento de redes e dispositivos com Software Livre
Gestão e monitoramento de redes e dispositivos com Software LivreCampus Party Brasil
 
Confecção de Circuito Impresso
Confecção de Circuito ImpressoConfecção de Circuito Impresso
Confecção de Circuito ImpressoCampus Party Brasil
 
Virtualização, cloud computig e suas tendencias
Virtualização, cloud computig e suas tendenciasVirtualização, cloud computig e suas tendencias
Virtualização, cloud computig e suas tendenciasCampus Party Brasil
 

Mais de Campus Party Brasil (20)

Wordpress
WordpressWordpress
Wordpress
 
Buracos negros
Buracos negrosBuracos negros
Buracos negros
 
Programação para Atari 2600
Programação para Atari 2600Programação para Atari 2600
Programação para Atari 2600
 
Desenvolvimento de aplicações para o Google App Engine
Desenvolvimento de aplicações para o Google App EngineDesenvolvimento de aplicações para o Google App Engine
Desenvolvimento de aplicações para o Google App Engine
 
Técnicas forenses para a recuperação de arquivos
Técnicas forenses para a recuperação de arquivosTécnicas forenses para a recuperação de arquivos
Técnicas forenses para a recuperação de arquivos
 
Como ganhar dinheiro no mundo mobile?
Como ganhar dinheiro no mundo mobile?Como ganhar dinheiro no mundo mobile?
Como ganhar dinheiro no mundo mobile?
 
Tempestades solares: mitos e verdades
Tempestades solares: mitos e verdadesTempestades solares: mitos e verdades
Tempestades solares: mitos e verdades
 
A busca por planetas além do sistema solar
A busca por planetas além do sistema solarA busca por planetas além do sistema solar
A busca por planetas além do sistema solar
 
Passeio virtual pelo LHC
Passeio virtual pelo LHCPasseio virtual pelo LHC
Passeio virtual pelo LHC
 
Construção de uma luneta a baixo custo
Construção de uma luneta a baixo custoConstrução de uma luneta a baixo custo
Construção de uma luneta a baixo custo
 
Hardware livre Arduino: eletrônica e robótica com hardware e software livres
Hardware livre Arduino: eletrônica e robótica com hardware e software livresHardware livre Arduino: eletrônica e robótica com hardware e software livres
Hardware livre Arduino: eletrônica e robótica com hardware e software livres
 
Robótica e educação inclusiva
Robótica e educação inclusivaRobótica e educação inclusiva
Robótica e educação inclusiva
 
Fazendo do jeito certo: criando jogos sofisticados com DirectX
Fazendo do jeito certo: criando jogos sofisticados com DirectXFazendo do jeito certo: criando jogos sofisticados com DirectX
Fazendo do jeito certo: criando jogos sofisticados com DirectX
 
Blue Via
Blue ViaBlue Via
Blue Via
 
Linux para iniciantes
Linux para iniciantesLinux para iniciantes
Linux para iniciantes
 
Robótica e educação inclusiva
	Robótica e educação inclusiva	Robótica e educação inclusiva
Robótica e educação inclusiva
 
Gestão e monitoramento de redes e dispositivos com Software Livre
Gestão e monitoramento de redes e dispositivos com Software LivreGestão e monitoramento de redes e dispositivos com Software Livre
Gestão e monitoramento de redes e dispositivos com Software Livre
 
Confecção de Circuito Impresso
Confecção de Circuito ImpressoConfecção de Circuito Impresso
Confecção de Circuito Impresso
 
Vida de Programador
Vida de Programador Vida de Programador
Vida de Programador
 
Virtualização, cloud computig e suas tendencias
Virtualização, cloud computig e suas tendenciasVirtualização, cloud computig e suas tendencias
Virtualização, cloud computig e suas tendencias
 

Campus Party2010

  • 1. Ary Fagundes Bressane Neto Flávio Soares Corrêa da Silva LIDET – USP Janeiro 2010
  • 2. Ary Fagundes Bressane Neto  Graduação: BCC, UNESP/Bauru (2007)  Mestrado: CC, USP/Butantã (conclusão prevista para 2010)  Experiência diversificada em Ciência da Computação  Pesquisador do LIDET  Flávio Soares Corrêa da Silva  Graduação: POLI-USP (1984)  Mestrado: POLI-USP (1989)  PhD: Inteligência Artificial, Edinburgh University (1992)  Livre-docência: USP (1999)  Experiência diversificada em CC, com foco em IA  Pesquisador do LIDET
  • 3. Universidade de São Paulo  Fundação: 1934  Ranking internacional: aprox. 100ª no mundo  56 mil alunos de graduação  25 mil alunos de pós-graduação  6 mil docentes  Aprox. 10 % da produção científica do Brasil
  • 4. Departamento de Ciência da Computação  Início de atividades: 1972  Mais de mil alunos de graduação formados  39 docentes em atividade  Reconhecido centro de pesquisas e ensino, no Brasil e no Exterior
  • 5. LIDET: Laboratory of Interactivity and Digital Entertainment Technology  Início de atividades: 2005  Intensas atividades em pesquisa e ensino  Inteligência Artificial Aplicada  Jogos de Computador  Sistemas Interativos Inteligentes  Governabilidade Eletrônica  Atividades em colaboração com LIAMF (Laboratório de Lógica, Inteligência Artificial e Métodos Formais da USP) e CCSL (Centro de Competência em Software Livre da USP)  Cooperação internacional com centros de pesquisa no Chile, Reino Unido, Itália e Espanha  Coordenador: Flávio Soares Corrêa da Silva  Equipe: estudantes de mestrado (6) e doutorado (6)
  • 6. Introdução sobre Data Mining  Apresentação e funcionamento do WEKA  WEKA + Java
  • 7. “Nós estamos afogados em informação mas famintos por conhecimento” John Naisbett
  • 8. 1. World Data Centre for Climate  6 petabytes de dados  2. National Energy Research Scientific Computing Center (EUA)  2.8 petabytes de dados  3. AT&T  323 terabytes de informação  1.9 trilhões de registros de chamadas telefônicas  4. Google  91 milões de pesquisas por dia  33 trilhões de registros Fonte: http://www.businessintelligencelowdown.com/
  • 9. 5. Sprint  2.85 trilhões de linhas no banco de dados  365 milhões de registros de ligações telefonicas por dia  6. ChoicePoint  250 terabytes de dados pessoais  Informação de 250 milhões de pessoas  7. YouTube  100 milhões de vídeos assisitdos por dia  65,000 vídeos adicionados por dia  60% de todos os vídeos assistidos online  45 terabytes de vídeos Fonte: http://www.businessintelligencelowdown.com/
  • 10. 8. Amazon  59 milhões de usuários ativos  42 terabytes de dados  9. Central Intelligence Agency (EUA)  Informações sobre mais de 250 países e instituições  Número desconhecido de informações confidenciais  10. Library of Congress (EUA)  130 milhões de itens (livros, fotografias, mapas, etc.)  29 milhões de livros  10,000 novos itens adicionados por dia  5 milhões de documentos digitais  20 terabytes de informação em texto Fonte: http://www.businessintelligencelowdown.com/
  • 11. “A habilidade de mandar, dirigir e selecionar informação pode chegar a ser uma fonte de poder comparável aos grandes recursos naturais, tecnológicos e econômicos” Wilbur Schramm
  • 12.
  • 13. Medicina  Diagnóstico  Sintomas  Exames de imagem  Exames laboratoriais  Departamento de Vendas  Clientes com diferentes perfis  Clientes procurando sugestões  Ciência  Seqüenciamento genético  Design  Novos materiais Fonte: http://www.businessintelligencelowdown.com/
  • 14. Departamento de Vendas (CRM)  Presencial  Virtual  Departamento de Marketing  Investimentos  Aplicações de Recursos do Governo
  • 15. Bases de Dados integradas para consultas analíticas de históricos  Qual a tecnologia atende a essa demanda?
  • 16. KDD (Knowledge Discovery in Databases)
  • 17. “Descoberta de conhecimento de Base de Dados é um processo não-tivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth
  • 18. Wal Mart  Banco Itaú  Bank of America  Banco Nossa Caixa  Full Tilt Poker
  • 19. The KDD Process for Extracting Useful Knowledge from Volumes of Data
  • 20. Mineração de Dados Atividades Atividades Preditivas Descritivas Regras de Classificação Regressão Sumarização Associação Clusterização
  • 21. Soluções Proprietárias  SPSS Clementine  SAS Enterprise Miner  STATISTICA Data Miner  IBM Intelligent Miner Data Mining Suite  Oracle Data Mining  Microsoft SQL Server (Microsoft BI)  Excel  Matlab
  • 22. Soluções Open Source  WEKA  RapidMiner  KNIME  R  Código próprio
  • 23. Waikato Environment for Knowledge Analysis
  • 24. Univesidade de Waikato  Projeto financiado pelo Governo da NZ (1993)  Desenvolver uma ferramenta no estado da arte  Explorar os campos de aplicação  Desenvolver novos métodos  Open Source (GNU General Public License)  100% Java
  • 25. Ferramentas  Pré-processamento  Sumarização  Classificação  Regressão  Clusterização  Regras de Associação  Visualização
  • 26. http://www.cs.waikato.ac.nz/ml/weka/  Stable GUI version 3.6  Windows  Mac OS X  Linux  java -jar weka.jar  Book version 3.4  Developer version 3.7
  • 27.
  • 28. @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa, Iris-versicolor, Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
  • 29. @RELATION iris @relation <relation-name> @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa, Iris-versicolor, Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
  • 30. @RELATION iris @attribute <attribute-name> <datatype> @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL integer @ATTRIBUTE petallength REAL Real <nominal-specification> @ATTRIBUTE petalwidth REAL string @ATTRIBUTE class {Iris-setosa, date [<date-format>] Iris-versicolor, Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
  • 31. @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa, Iris-versicolor, Iris-virginica} @DATA @data 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
  • 32. @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa, Iris-versicolor, Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
  • 33.
  • 34. Classificação  Árvores de Decisão  Redes Neurais Artificiais  Clusterização  Kmeans  Regras de Associação  APriori
  • 35.  Técnica que constrói um classificador utilizando uma estrutura de árvore onde os nós folhas representam as classes e os nós internos representam um teste sobre um atributo  Exemplos Figura Geométrica  Oferta de crédito # lados  Diagnóstico médico =3 >3 Triângulo
  • 36. Poupador Bens Rendimento Oferecer anual Crédito Cliente1 Médio Alto 75.000 Sim Cliente2 Baixo Baixo 50.000 Não Cliente3 Alto Médio 25.000 Não Cliente4 Médio Médio 50.000 Sim Cliente5 Baixo Médio 100.000 Sim Cliente6 Alto Alto 25.000 Sim Cliente7 Baixo Baixo 25.000 Não Cliente8 Médio Médio 75.000 Sim
  • 37. Poupador Bens Rendimento Oferecer anual Crédito Cliente7 Baixo Baixo 25.000 Não Cliente3 Alto Médio 25.000 Não Cliente6 Alto Alto 25.000 Sim Cliente2 Baixo Baixo 50.000 Não Cliente4 Médio Médio 50.000 Sim Cliente1 Médio Alto 75.000 Sim Cliente8 Médio Médio 75.000 Sim Cliente5 Baixo Médio 100.000 Sim
  • 38. Rendimento =25.000 =50.000 >=75.000 Oferecer Crédito
  • 39. Poupador Bens Rendimento Oferecer anual Crédito Cliente7 Baixo Baixo 25.000 Não Cliente3 Alto Médio 25.000 Não Cliente6 Alto Alto 25.000 Sim Cliente2 Baixo Baixo 50.000 Não Cliente4 Médio Médio 50.000 Sim Cliente1 Médio Alto 75.000 Sim Cliente8 Médio Médio 75.000 Sim Cliente5 Baixo Médio 100.000 Sim
  • 40. Rendimento = 25.000 >= 75.000 = 50.000 Oferecer Bens Bens Crédito ≠ Alto = Alto = Médio = Alto Não Oferecer Oferecer Não Oferecer Oferecer Crédito Crédito Crédito Crédito
  • 41. Poupador Bens Rendimento Oferecer anual Crédito Cliente1 Médio Alto 75.000 Sim Cliente2 Baixo Baixo 50.000 Não Cliente3 Alto Médio 25.000 Não Cliente4 Médio Médio 50.000 Sim Cliente5 Baixo Médio 100.000 Sim Cliente6 Alto Alto 25.000 Sim Cliente7 Baixo Baixo 25.000 Não Cliente8 Médio Médio 75.000 Sim Rendimento =25.000 >=75.000 =50.000 Oferecer Bens Bens Crédito ≠ Alto =Alto Médio Alto Não Oferecer Oferecer Não Oferecer Oferecer Crédito Crédito Crédito Crédito
  • 42.
  • 43.  Modelos matemáticos que permite aprendizado e generalização  Esse aprendizado está associado a capacidade de adaptar seus parâmetros como conseqüência da sua iteração com o meio externo  Estrutura similar as redes neurais biológicas  Exemplos X1 W1  Oferta de crédito X2 W2  Diagnóstico médico X3 W3 u f(u) y = f(u)  Detectar fraudes Wn Xn
  • 44. X1 W1 X2 W2 u f(u) y = f(u) W3 X3 Wn Xn u = valor de ativação f(u) = função de propagação
  • 45. Homem / Mulher Idade IMC Risco Câncer Consumo cigarro Consumo álcool Atividade física Camada Camada Camada Entrada Escondida Saída
  • 46.
  • 47.  Técnica que mapeia um item em um dos vários clusters, onde clusters são agrupamentos de itens de dados baseados em alguma métricas de similaridade.  Permite compreender os agrupamentos naturais ou estruturas subjacentes a um conjunto de dados.  Exemplos:  Identificação de grupos distintos de clientes (público-alvo)  Identificar a taxonomia de plantas e animais  Agrupar estudantes por desempenho e dificuldades para adotar estratégias de ensino mais eficientes e adequadas
  • 48. Atributo1 Atributo2 Item1 1 1 Item2 1 2 Item3 2 2 Item4 4 5 Item5 5 5 Item6 5 6 KMeans(# de Clusters) KMeans(2)
  • 49. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7
  • 50. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 1 – Determinar os centróides
  • 51. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 2 – Calcular a distância entre cada item e os centróides P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 1,0 0,0 1,0 4,2 5,0 5,7
  • 52. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 3 – Associar cada item a um grupo P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 1,0 0,0 1,0 4,2 5,0 5,7
  • 53. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 4 – Recalcular o centróide como a média dos itens do grupo P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 1,0 0,0 1,0 4,2 5,0 5,7
  • 54. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 2 – Calcular a distância entre cada item e os centróides P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 3,1 2,6 1,7 2,0 2,5 3,4
  • 55. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 3 – Associar item ponto a um grupo P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 3,1 2,6 1,7 2,0 2,5 3,4
  • 56. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 4 – Recalcular o centróide como a média dos itens do grupo P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,0 1,0 1,4 5,0 5,7 6,4 C2 3,1 2,6 1,7 2,0 2,5 3,4
  • 57. 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Passo 2 – Passo 3 – Passo 4 – Resultado Final P(1,1) P(1,2) P(2,2) P(4,5) P(5,5) P(5,6) C1 0,5 0,5 0,9 4,5 5,1 5,9 C2 5,6 4,9 4,2 0,7 0,4 0,7
  • 58.
  • 59.  O objetivo é encontrar um conjunto de atributos que quando presentes implicam na presença de outro conjunto de atributos  Exemplos:  Análise de nota fiscal de compra  Associação de palavras em textos  Combate à corrupção
  • 60. P1 P2 P3 P4 P5 P6 T1 x x x x x T2 x x T3 x x x T4 x x T5 x x Apriori (Suporte mínimo, Confiança) Apriori (2, 60%)
  • 61. P1 P2 P3 P4 P5 P6 T1 x x x x x T2 x x T3 x x x T4 x x T5 x x Produto Freq. Produto Freq. P1 4 P1 4 Suporte mínimo = 2 P2 4 P2 4 P3 2 P3 2 P4 1 P6 2 P5 1 P6 2
  • 62. P1 P2 P3 P4 P5 P6 T1 x x x x x T2 x x T3 x x x T4 x x T5 x x Produto Freq. Produto Freq. P1, P2 3 P1, P2 3 Suporte mínimo = 2 P1, P3 1 P1, P6 2 P1, P6 2 P2, P3 2 P2, P3 2 P2, P6 1 P3, P6 0
  • 63. P1 P2 P3 P4 P5 P6 T1 x x x x x T2 x x T3 x x x T4 x x T5 x x Produto Freq. P1, P2, P3 1 Suporte mínimo = 2 P1, P2, P6 1 VAZIO !!! P1, P3, P6 0 P2, P3, P6 0
  • 64. Produto Freq. P1, P2 3 Confiança (A⇒B) = freqüência(AB) P1, P6 2 freqüência(A) P2, P3 2 Produto Freq. Conf. Produto Freq. Conf. P1, P2 3 3/4 = 75% P1, P2 3 3/4 = 75% P2, P1 3 3/4 = 75% Confiança = 60% P2, P1 3 3/4 = 75% P1, P6 2 2/4 = 50% P6, P1 2 2/2 = 100% P6, P1 2 2/2 = 100% P3, P2 2 2/2 = 100% P2, P3 2 2/4 = 50% P3, P2 2 2/2 = 100%
  • 65. P1 P2 P3 P4 P5 P6 T1 x x x x x T2 x x T3 x x x T4 x x T5 x x Produto Freq. Conf. P1, P2 3 3/4 = 75% {P1} ⇒ {P2}: sup_min = 3; conf=75% {P2} ⇒ {P1}: sup_min = 3; conf=75% P2, P1 3 3/4 = 75% {P6} ⇒ {P1}: sup_min = 2; conf=100% P6, P1 2 2/2 = 100% {P3} ⇒ {P2}: sup_min = 2; conf=100% P3, P2 2 2/2 = 100%
  • 66. Escândalo dos “Cartões Coorporativos” “Planalto pressiona e ministra da Igualdade Racial cai por uso irregular de cartão.” “A ministra vinha resistindo ao pedido de demissão. Mas foi atropelada pela divulgação sobre o uso do cartão num free shop (R$ 461,16), no aluguel sistemático de carros (mais de R$ 110 mil, sem licitação) e em seu período de férias (R$ 2.969,01), como revelou ontem a Folha. Matilde gastou R$ 171 mil com o cartão em 2007, a recordista entre os ministros.” Folha de S. Paulo 02/02/2008
  • 67. Escândalo dos “Cartões Coorporativos” “Cartão de Pagamento do Governo Federal: uma Análise de Regras de Associação” Workshop Franco-Brasileiro sobre Mineração de Dados (2009) Dr. Michel Silva, Me. Marcelo Stopanovski, Me. Henrique Rocha, Bel. David Cosac Secretaria de Prevenção da Corrupção e Informações Estratégicas, Controladoria- Geral da União {“LOCAÇÃO DE AUTOMÓVEL SEM CONDUTOR”, “R$ 1000 a R$ 1500”} → {“SEC. ESPECIAL DE POLÍTICAS DE PROMOÇÃO DA IGUALDADE RACIAL”}: suporte = 1,15% e confiança = 86,67%. Ressalta-se que esse exemplo é exatamente o pivô das discussões sobre cartões, configurado no aluguel de carros em viagens.
  • 68. @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes
  • 69.
  • 71.  Bases de Dados integradas para consultas analíticas de históricos estão em todo lugar  Papel do profissional de Ciência da Computação  Data Mining (KDD) pode ser implementado em diversas áreas  WEKA é uma ferramenta flexível  Diversos algoritmos  Permite a descoberta de conhecimento tanto via interface com o usuário quando embutida na aplicação do desenvolvedor  Pode ser utilizada não somente para Data Mining
  • 72.
  • 73. Integração de dados  Otimização de algoritmos  Incorporação de conhecimento prévio  Visualização científica  Mineração em dados multimídia
  • 74. Obrigado! Ary Fagundes Bressane Neto bressane@ime.usp.br Flávio Soares Corrêa da Silva fcs@ime.usp.br