SlideShare uma empresa Scribd logo
1 de 80
Baixar para ler offline
CCMC – ICMC – USP
    São Carlos, SP
 5 de Junho de 2009   1
2
   Contexto
   Problema
   Posicionamento incremental
   Regras de associação para identificar tópicos
   Mineração visual para conjuntos dinâmicos
    de documentos
   Contribuições
   Trabalhos futuros

                                                    3
Visualização de domínios
 de conhecimento
Mineração de dados
  Mineração de dados textuais
Mineração visual de dados
                                 4
   Posicionamento por similaridade
     Wise (1999); Börner (2003); Bederson (2001); ...
   Identificação de tópicos em mapas
     Wise(1999);Skupin (2002); Chen (2004) ...




                                                         5
 Necessidade de mapa cognitivo para
  navegar espaços conceituais
  (Chen,2004)
 Visualização de conjuntos dinâmicos
  como problema relevante
 Ao visualizar conjuntos dinâmicos, é
  importante preservar o contexto dos
  usuários (Hetzler, 2005)
                                         6
   Outras soluções
     Refazer toda a visualização
     Reutilizar solução inicial, refazer
     periodicamente Ex. Wong et al (2003)




                                            7
 Construir mapas de conjuntos
  dinâmicos de documentos
 Manter representação adequada
  à medida que elementos são
  acrescentados ou retirados
 Minimizar alterações

                                  8
 Técnica incremental de Multidimentional
      Scaling - MDS
     Utiliza medidas de similaridade entre
      pares C

    6,5       5
                          2       4.75

A         2       B   A       B          C



                                                9
 Técnica incremental de Multidimentional
      Scaling - MDS
     Utiliza medidas de similaridade entre
      pares                5     5

                      A         B           C
        C
    5       5
                          2,5         2,5

A       5       B     A         B           C


                                ABC
                                                10
11
demo: cbr-ilp-ir-son
 Não refaz a visualização a cada
  alteração
 Não mantem solução inicial fixa
 Baixo custo: pior caso: O(N2), caso
  médio: O(N √N)
 Disposição consistente de
  elementos
                                        12
178 documentos                    294 documentos




                 675 documentos
                                                   13
   Visualização de conjuntos dinâmicos de
    documentos
   Outros domínios
     Navegação em sistema operacional
     Tag Clouds
     Dados multidimensionais
     Coleções de imagens (Rodden et al;1999, 2001)
   Não há oclusão

                                                      14
   Análogo ao um tabuleiro de xadrez
   Distância de Chebyschev:



   Relação com o espaço original
    (erro ponderado)+ desempate por qtd ponderada


                                               15
   Avaliação de alternativas:




                                 16
   Elemento aprisionado:




                            17
   Elemento aprisionado:




                            18
   Elemento aprisionado:




                            19
   Movimento em direção ao centro:




                                      20
 Novo elemento adicionado na célula do
  elemento mais similar
 Avaliação de alternativas:
     Modo completo: utilização do conjunto
      completo
     Modo estocástico: Lista de elementos
      próximos e lista de elementos aleatórios
     (Chalmers, 1996)

                                                 21
   CBR-ILP-IR-SON:




                      22
Conjunto inicial




                   Conjunto intermediário




  Conjunto final
                      O(VxN):O(N)           23
24
 Mineração de textos com regras de
 associação
  Documentos » Transações
  Termos » Itens
Nashville, Tenessee -> Tornadoes
com suporte 5% e
confiança 100%
                                      25
26
 Co-ocorrência de termos ≈ assunto
 Tópico: descrição de um conjunto de
  documentos relacionados,
  representada por uma lista de
  term0s.
 Um tópico cobre um conjunto de
  documentos nos quais os termos co-
  ocorrem.                              27
 Quantidade de regras
  descobertas
 Redundância de regras

 Relevância dos termos (itens)‫‏‬
 Medida de relevância para
 regras (filtragem)‫‏‬
                                   28
Alto suporte   Espaço de regras




                              29
Baixo suporte   Espaço de regras




                               30
1. Sk: conjunto de documentos similares
2. Identificar os termos mais relevantes




31
“Thursday”




         32
“Flu”




        33
3. Conjunto Inicial de item sets: Tr x T
      Termos relevantes x Todos os termos
4. Aplicação do Apriori (qtd termos > 2)
5. Ordenados por peso:




34
6. Item set de maior peso é selecionado
7. Documentos cobertos eliminados de Sk
8. Outros item sets são selecionados se há
   suporte em Sk residual ( repete 6 & 7 )‫‏‬
9 . Se todos os item sets são considerados
   |Sk residual| ≠ , repete todo o processo
   com Sk residual

35
   Múltiplo início
     Agrupamentos no
      mapa – vários
      níveis
     Grade
      ▪ Célula de tamanho
        variável
      ▪ Deslocamento da
        grade


                            36
LWR


      37
   Vantagens
     Resultados em múltiplos níveis.
      ▪ Ex [bird, flu]; [bird,flu,swan];
     Baixa sensibilidade para parâmetros
   Desvantagens
     Resultados não satisfatórios para um pequeno
      número de subconjuntos ou seleções muito
      grandes (aprox. |Sk| > |C|/4)


                                                     38
39
40
41
1.   Construção do mapa
2.   Extração de tópicos
3.   Análise de tópicos centrada no
     usuário
     i. Remoção de tópicos irrelevantes
  ii. Generalização de tópicos
4. Reconstrução do mapa
                                          42
   Estratégia de atualização incremental de
    agrupamentos
     Existem soluções: ex. GenIc (Gupta e Grossman,
      2004)
     Viés adotado: contribuição do posicionamento de
     elementos no mapa
   Estratégia de atualização incremental de
    tópicos
     Heurísticas: não repetir o processo a cada passo

                                                         43
44
?




    45
   Efeito do viés
     Tendência a formar agrupamentos coesos no
      mapa
     Solução não ótima
   Eventual degeneração da solução
     Solução atual: refazer o agrupamento
     Espaço para melhoria



                                                  46
 Perguntas
  quando deve um tópico ser eliminado?
  quando devem ser acrescentados
  novos tópicos?
 Abordagem
  Avaliação dos termos semente

                                          47
1. Extração inicial de tópicos
2. A cada alteração nos agrupamentos, atualiza-se
   a lista de termos semente
3. Se um tópico existente não possue nenhuma
   das atuais sementes, ele é excluído
4. Se um novo termo semente aparece, extrair
   tópicos para aquele termo
5. Novas relações para sementes: controle de
   alterações no suporte do termo. A cada passo, o
   termo de maior variação é reavaliado

                                                     48
   Objetivo: manter o tempo de
    processamento compatível com o
    cenário de uso




                                     49
 Um novo algoritmo para a projeção
  incremental de conjuntos dinâmicos
  de dados multidimensionais
 Uma visualização para conjuntos
  dinâmicos de dados
  multidimensionais que não sofre
  problemas de oclusão
                                       50
   Um algoritmo seletivo de indução de regras
    de associação que explora grupos de
    documentos similares
   Um processo iterativo e interativo de
    mineração visual de textos
   Um espaço incremental que: minimiza
    alterações, mantem uma representação
    consistente e reflete a dinâmica dos dados

                                                 51
 aplicação do algoritmo incremental de
  projeção em cenários específicos de uso e
  validação
 melhoria de pontos específicos do
  algoritmo
     Ex. Identificação de elementos similares
   investigação de novas possibilidades de
    interação e visualização
     Ex. melhoria do refino interativo de
     mapas/tópicos  Dissertação R. Rodrigues
                                                 52
53
   Além da discussão constante com as
    orientadoras, este trabalho contou com
     Contribuições do Prof. Dr. Alneu Lopes
     Contribuições do Prof. Dr. Chaomei Chen
     Desenvolvimento de software e contribuições de
      Renato Rodrigues
     Plataforma PEx (Prof. Dr. Fernando Paulovich)
      para o teste e incorporação de soluções
     Contribuições de colegas na USP e Drexel
                                                       54
   Bolsa CAPES
 Bolsa FAPESP
 Bolsa CAPES PDDE (doutorado
    sanduíche)




                                55
Roberto Pinho
robertopinho@yahoo.com.br   www.ascoisas.com   56
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F.
  Incremental board: A grid-based space for
  visualizing dynamic data sets. In:
  Proceedings of the 2009 Annual ACM
  Symposium on Applied Computing, New
  York, NY, USA:ACM, 2009, p. 1757–1764.
  (Best Paper Award in the Information System
  Theme - Prêmio de melhor trabalho na área
  Sistemas de Informação).
                                                57
   Photomesa by HCI Lab at the Univ. of Maryland




                                                    58
   Critério de Desempate




                            59
   Iris Data Set




                    60
PINHO, R.; OLIVEIRA, M. C. F.
 HexBoard: Conveying Pairwise
 Similarity in an Incremental
 Visualization Space. In: IV ’09: 13th
 International Conference
 Information Visualisation (em
 publicação), 2009.
                                         61
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An
  incremental space to visualize dynamic
  data sets. Convidado para submissão para
  edição especial do Multimedia Tools and
  Applications Journal (MTAP) com os
  melhores trabalhos em Multimídia e
  Visualização (MMV track) do 2009 Annual
  ACM Symposium on Applied Computing ACM
  SAC 2009
                                              62
α – direção
β – ajuste de escala
δ – dissimilaridade
δ/∑δ – peso relativo
                       63
LOPES, A. A., PINHO, R.,
 PAULOVICH, F. V., AND
 MINGHIM, R. 2007. Visual
 text mining using
 association rules. Computer
 and Graphics. 31, 3 (Jun.
 2007), 316-326.               64
65
LWR




Tamanho, termos distintos, cobertura e suporte mínimo para conjuntos
             de regras extraídos de corpus de notícias



   66
1.       Elementos são associados a um
         agrupamento
2.       Células assumem o agrupamento do
         elemento que a ocupa
3.       Ao ser movido, o agrupamento do elemento
         é reavaliado
         Se igual à célula destino, permanece
         Se diferente, seleciona-se a opção mais
          adequada (ex. distância ao centróide)
         Atualiza a célula                         67
 ferramentas e aplicações
  desenvolvidas e com relação
  direta com a tese
 contribuições cujo tema
  tangencia os temas principais

                                  68
   APIs para os algoritmos desenvolvidos;
   Ferramenta Voromap para avaliação de
    visualização com base em partições do plano;
   Avaliação da ferramenta PEX-WEB;
   Aplicação de VTM para a realização de
    revisões sistemáticas;



                                                   69
   Ferramentas desenvolvidas:
     Topic Pex
     incBoard;
   Evolução do incBoard:
     HexBoard
     incScape (não presente na tese)




                                        70
Espaço de documentos




                   71
Espaço de documentos




                   72
73
74
75
 Ajuste
  Sistema de coordenadas: x,y,z
  Cálculo de distâncias




                                   76
   Em destaque
     conjuntos cujos itens são alterados
     melhoria do processo de agrupamento
      incremental
     melhoria do refino interativo de mapas/tópicos 
      R. Rodrigues
     topical markers
     manipulação direta


                                                         77
   Uma necessidade de informação –
    materializada como uma descrição, lista de
    termos ou como uma consulta a ser
    apresentada a uma ferramenta de
    recuperação de informação;
   Um conjunto de documentos relativos a um
    mesmo assunto ou que atendem a uma
    necessidade de informação;
    Lista de termos descritivos de um assunto
    ou conjunto de documentos.
                                                 78
   Tópico: a descrição dada a um conjunto de
    documentos, usualmente relacionados entre
    si, tipicamente representada por uma lista de
    termos e ao qual corresponde um conjunto
    de documentos por ele cobertos, i.e., que
    abordam o tema em questão, o que é, em
    geral, verificado pela presença da lista de
    termos nos documentos.

                                                    79
 Rotina externa de extração em C
 Limite máximo de termos em regras
 Limite máximo de regras extraídas
 Filtro de termos por peso local


      Objetivo: manter o tempo de
    processamento compatível com o
              cenário de uso
                                      80

Mais conteúdo relacionado

Semelhante a Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
Danusa Ribeiro
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
Luís Nunes
 
Comparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQLComparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQL
pichiliani
 

Semelhante a Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos (20)

Padrões de Projeto
Padrões de ProjetoPadrões de Projeto
Padrões de Projeto
 
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
 
Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)
 
Clustering (Agrupamento)
Clustering (Agrupamento)Clustering (Agrupamento)
Clustering (Agrupamento)
 
Aprendizado Profundo & CNNs
Aprendizado Profundo & CNNsAprendizado Profundo & CNNs
Aprendizado Profundo & CNNs
 
High Dimensional Data
High Dimensional DataHigh Dimensional Data
High Dimensional Data
 
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
 
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...
Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...
 
Prova perito pf area 3 1997
Prova perito pf area 3 1997Prova perito pf area 3 1997
Prova perito pf area 3 1997
 
Mineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualMineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitual
 
00011
0001100011
00011
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
 
apresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdfapresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdf
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
DAMICORE - conceito e prática
DAMICORE - conceito e práticaDAMICORE - conceito e prática
DAMICORE - conceito e prática
 
Comparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQLComparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQL
 

Mais de Roberto de Pinho

Doutores 2010-word-clouds_apres
 Doutores 2010-word-clouds_apres Doutores 2010-word-clouds_apres
Doutores 2010-word-clouds_apres
Roberto de Pinho
 
Dados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de basesDados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de bases
Roberto de Pinho
 

Mais de Roberto de Pinho (19)

Avaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e InovaçãoAvaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e Inovação
 
Rumo a uma política de dados científicos
Rumo a uma política de dados científicosRumo a uma política de dados científicos
Rumo a uma política de dados científicos
 
Towards a scientific data policy
Towards a scientific data policy Towards a scientific data policy
Towards a scientific data policy
 
Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações
 
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloIndicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
 
Fábrica de Experiência
Fábrica de ExperiênciaFábrica de Experiência
Fábrica de Experiência
 
Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)
 
Natureza dos Problemas
Natureza dos ProblemasNatureza dos Problemas
Natureza dos Problemas
 
Elaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressaElaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressa
 
Indicadores bibliométricos
Indicadores bibliométricosIndicadores bibliométricos
Indicadores bibliométricos
 
Evolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no BrasilEvolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no Brasil
 
As Coisas e Os Dados
As Coisas e Os DadosAs Coisas e Os Dados
As Coisas e Os Dados
 
Key words of Brazilian science
Key words of Brazilian scienceKey words of Brazilian science
Key words of Brazilian science
 
Doutores 2010-word-clouds_apres
 Doutores 2010-word-clouds_apres Doutores 2010-word-clouds_apres
Doutores 2010-word-clouds_apres
 
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
 
In vino veritas - Dans le vin la vérité - L’étiquette de vin
In vino veritas -  Dans le vin la vérité - L’étiquette de vinIn vino veritas -  Dans le vin la vérité - L’étiquette de vin
In vino veritas - Dans le vin la vérité - L’étiquette de vin
 
Dados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de basesDados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de bases
 
Basic R
Basic RBasic R
Basic R
 
Curso Básico de R
Curso Básico de RCurso Básico de R
Curso Básico de R
 

Último

1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
aulasgege
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 

Último (20)

Quiz | Dia da Europa 2024 (comemoração)
Quiz | Dia da Europa 2024  (comemoração)Quiz | Dia da Europa 2024  (comemoração)
Quiz | Dia da Europa 2024 (comemoração)
 
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
 
Power Point sobre as etapas do Desenvolvimento infantil
Power Point sobre as etapas do Desenvolvimento infantilPower Point sobre as etapas do Desenvolvimento infantil
Power Point sobre as etapas do Desenvolvimento infantil
 
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdf
 
Teatro como estrategias de ensino secundario
Teatro como estrategias de ensino secundarioTeatro como estrategias de ensino secundario
Teatro como estrategias de ensino secundario
 
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
INTRODUÇÃO DE METODOLOGIA PARA TRABALHIOS CIENTIFICOS
INTRODUÇÃO DE METODOLOGIA PARA TRABALHIOS CIENTIFICOSINTRODUÇÃO DE METODOLOGIA PARA TRABALHIOS CIENTIFICOS
INTRODUÇÃO DE METODOLOGIA PARA TRABALHIOS CIENTIFICOS
 
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdfUFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
 
Apresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União EuropeiaApresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União Europeia
 
VIDA E OBRA , PRINCIPAIS ESTUDOS ARISTOTELES.pdf
VIDA E OBRA , PRINCIPAIS ESTUDOS ARISTOTELES.pdfVIDA E OBRA , PRINCIPAIS ESTUDOS ARISTOTELES.pdf
VIDA E OBRA , PRINCIPAIS ESTUDOS ARISTOTELES.pdf
 
Quando a escola é de vidro, de Ruth Rocha
Quando a escola é de vidro, de Ruth RochaQuando a escola é de vidro, de Ruth Rocha
Quando a escola é de vidro, de Ruth Rocha
 
Questões sobre o Mito da Caverna de Platão
Questões sobre o Mito da Caverna de PlatãoQuestões sobre o Mito da Caverna de Platão
Questões sobre o Mito da Caverna de Platão
 
Poema - Aedes Aegypt.
Poema - Aedes Aegypt.Poema - Aedes Aegypt.
Poema - Aedes Aegypt.
 
ESPANHOL PARA O ENEM (2).pdf questões da prova
ESPANHOL PARA O ENEM (2).pdf questões da provaESPANHOL PARA O ENEM (2).pdf questões da prova
ESPANHOL PARA O ENEM (2).pdf questões da prova
 
Sequência didática Carona 1º Encontro.pptx
Sequência didática Carona 1º Encontro.pptxSequência didática Carona 1º Encontro.pptx
Sequência didática Carona 1º Encontro.pptx
 
RENASCIMENTO E HUMANISMO_QUIZ 7º ANO.pptx
RENASCIMENTO E HUMANISMO_QUIZ 7º ANO.pptxRENASCIMENTO E HUMANISMO_QUIZ 7º ANO.pptx
RENASCIMENTO E HUMANISMO_QUIZ 7º ANO.pptx
 
13_mch9_hormonal.pptx............................
13_mch9_hormonal.pptx............................13_mch9_hormonal.pptx............................
13_mch9_hormonal.pptx............................
 
Currículo Professor Pablo Ortellado - Universidade de São Paulo
Currículo Professor Pablo Ortellado - Universidade de São PauloCurrículo Professor Pablo Ortellado - Universidade de São Paulo
Currículo Professor Pablo Ortellado - Universidade de São Paulo
 

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

  • 1. CCMC – ICMC – USP São Carlos, SP 5 de Junho de 2009 1
  • 2. 2
  • 3. Contexto  Problema  Posicionamento incremental  Regras de associação para identificar tópicos  Mineração visual para conjuntos dinâmicos de documentos  Contribuições  Trabalhos futuros 3
  • 4. Visualização de domínios de conhecimento Mineração de dados  Mineração de dados textuais Mineração visual de dados 4
  • 5. Posicionamento por similaridade  Wise (1999); Börner (2003); Bederson (2001); ...  Identificação de tópicos em mapas  Wise(1999);Skupin (2002); Chen (2004) ... 5
  • 6.  Necessidade de mapa cognitivo para navegar espaços conceituais (Chen,2004)  Visualização de conjuntos dinâmicos como problema relevante  Ao visualizar conjuntos dinâmicos, é importante preservar o contexto dos usuários (Hetzler, 2005) 6
  • 7. Outras soluções  Refazer toda a visualização  Reutilizar solução inicial, refazer periodicamente Ex. Wong et al (2003) 7
  • 8.  Construir mapas de conjuntos dinâmicos de documentos  Manter representação adequada à medida que elementos são acrescentados ou retirados  Minimizar alterações 8
  • 9.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares C 6,5 5 2 4.75 A 2 B A B C 9
  • 10.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares 5 5 A B C C 5 5 2,5 2,5 A 5 B A B C ABC 10
  • 12.  Não refaz a visualização a cada alteração  Não mantem solução inicial fixa  Baixo custo: pior caso: O(N2), caso médio: O(N √N)  Disposição consistente de elementos 12
  • 13. 178 documentos 294 documentos 675 documentos 13
  • 14. Visualização de conjuntos dinâmicos de documentos  Outros domínios  Navegação em sistema operacional  Tag Clouds  Dados multidimensionais  Coleções de imagens (Rodden et al;1999, 2001)  Não há oclusão 14
  • 15. Análogo ao um tabuleiro de xadrez  Distância de Chebyschev:  Relação com o espaço original (erro ponderado)+ desempate por qtd ponderada 15
  • 16. Avaliação de alternativas: 16
  • 17. Elemento aprisionado: 17
  • 18. Elemento aprisionado: 18
  • 19. Elemento aprisionado: 19
  • 20. Movimento em direção ao centro: 20
  • 21.  Novo elemento adicionado na célula do elemento mais similar  Avaliação de alternativas:  Modo completo: utilização do conjunto completo  Modo estocástico: Lista de elementos próximos e lista de elementos aleatórios (Chalmers, 1996) 21
  • 22. CBR-ILP-IR-SON: 22
  • 23. Conjunto inicial Conjunto intermediário Conjunto final O(VxN):O(N) 23
  • 24. 24
  • 25.  Mineração de textos com regras de associação  Documentos » Transações  Termos » Itens Nashville, Tenessee -> Tornadoes com suporte 5% e confiança 100% 25
  • 26. 26
  • 27.  Co-ocorrência de termos ≈ assunto  Tópico: descrição de um conjunto de documentos relacionados, representada por uma lista de term0s.  Um tópico cobre um conjunto de documentos nos quais os termos co- ocorrem. 27
  • 28.  Quantidade de regras descobertas  Redundância de regras  Relevância dos termos (itens)‫‏‬  Medida de relevância para regras (filtragem)‫‏‬ 28
  • 29. Alto suporte Espaço de regras 29
  • 30. Baixo suporte Espaço de regras 30
  • 31. 1. Sk: conjunto de documentos similares 2. Identificar os termos mais relevantes 31
  • 33. “Flu” 33
  • 34. 3. Conjunto Inicial de item sets: Tr x T  Termos relevantes x Todos os termos 4. Aplicação do Apriori (qtd termos > 2) 5. Ordenados por peso: 34
  • 35. 6. Item set de maior peso é selecionado 7. Documentos cobertos eliminados de Sk 8. Outros item sets são selecionados se há suporte em Sk residual ( repete 6 & 7 )‫‏‬ 9 . Se todos os item sets são considerados |Sk residual| ≠ , repete todo o processo com Sk residual 35
  • 36. Múltiplo início  Agrupamentos no mapa – vários níveis  Grade ▪ Célula de tamanho variável ▪ Deslocamento da grade 36
  • 37. LWR 37
  • 38. Vantagens  Resultados em múltiplos níveis. ▪ Ex [bird, flu]; [bird,flu,swan];  Baixa sensibilidade para parâmetros  Desvantagens  Resultados não satisfatórios para um pequeno número de subconjuntos ou seleções muito grandes (aprox. |Sk| > |C|/4) 38
  • 39. 39
  • 40. 40
  • 41. 41
  • 42. 1. Construção do mapa 2. Extração de tópicos 3. Análise de tópicos centrada no usuário i. Remoção de tópicos irrelevantes ii. Generalização de tópicos 4. Reconstrução do mapa 42
  • 43. Estratégia de atualização incremental de agrupamentos  Existem soluções: ex. GenIc (Gupta e Grossman, 2004)  Viés adotado: contribuição do posicionamento de elementos no mapa  Estratégia de atualização incremental de tópicos  Heurísticas: não repetir o processo a cada passo 43
  • 44. 44
  • 45. ? 45
  • 46. Efeito do viés  Tendência a formar agrupamentos coesos no mapa  Solução não ótima  Eventual degeneração da solução  Solução atual: refazer o agrupamento  Espaço para melhoria 46
  • 47.  Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados novos tópicos?  Abordagem  Avaliação dos termos semente 47
  • 48. 1. Extração inicial de tópicos 2. A cada alteração nos agrupamentos, atualiza-se a lista de termos semente 3. Se um tópico existente não possue nenhuma das atuais sementes, ele é excluído 4. Se um novo termo semente aparece, extrair tópicos para aquele termo 5. Novas relações para sementes: controle de alterações no suporte do termo. A cada passo, o termo de maior variação é reavaliado 48
  • 49. Objetivo: manter o tempo de processamento compatível com o cenário de uso 49
  • 50.  Um novo algoritmo para a projeção incremental de conjuntos dinâmicos de dados multidimensionais  Uma visualização para conjuntos dinâmicos de dados multidimensionais que não sofre problemas de oclusão 50
  • 51. Um algoritmo seletivo de indução de regras de associação que explora grupos de documentos similares  Um processo iterativo e interativo de mineração visual de textos  Um espaço incremental que: minimiza alterações, mantem uma representação consistente e reflete a dinâmica dos dados 51
  • 52.  aplicação do algoritmo incremental de projeção em cenários específicos de uso e validação  melhoria de pontos específicos do algoritmo  Ex. Identificação de elementos similares  investigação de novas possibilidades de interação e visualização  Ex. melhoria do refino interativo de mapas/tópicos  Dissertação R. Rodrigues 52
  • 53. 53
  • 54. Além da discussão constante com as orientadoras, este trabalho contou com  Contribuições do Prof. Dr. Alneu Lopes  Contribuições do Prof. Dr. Chaomei Chen  Desenvolvimento de software e contribuições de Renato Rodrigues  Plataforma PEx (Prof. Dr. Fernando Paulovich) para o teste e incorporação de soluções  Contribuições de colegas na USP e Drexel 54
  • 55. Bolsa CAPES  Bolsa FAPESP  Bolsa CAPES PDDE (doutorado sanduíche) 55
  • 57. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. Incremental board: A grid-based space for visualizing dynamic data sets. In: Proceedings of the 2009 Annual ACM Symposium on Applied Computing, New York, NY, USA:ACM, 2009, p. 1757–1764. (Best Paper Award in the Information System Theme - Prêmio de melhor trabalho na área Sistemas de Informação). 57
  • 58. Photomesa by HCI Lab at the Univ. of Maryland 58
  • 59. Critério de Desempate 59
  • 60. Iris Data Set 60
  • 61. PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 13th International Conference Information Visualisation (em publicação), 2009. 61
  • 62. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An incremental space to visualize dynamic data sets. Convidado para submissão para edição especial do Multimedia Tools and Applications Journal (MTAP) com os melhores trabalhos em Multimídia e Visualização (MMV track) do 2009 Annual ACM Symposium on Applied Computing ACM SAC 2009 62
  • 63. α – direção β – ajuste de escala δ – dissimilaridade δ/∑δ – peso relativo 63
  • 64. LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and Graphics. 31, 3 (Jun. 2007), 316-326. 64
  • 65. 65
  • 66. LWR Tamanho, termos distintos, cobertura e suporte mínimo para conjuntos de regras extraídos de corpus de notícias 66
  • 67. 1. Elementos são associados a um agrupamento 2. Células assumem o agrupamento do elemento que a ocupa 3. Ao ser movido, o agrupamento do elemento é reavaliado  Se igual à célula destino, permanece  Se diferente, seleciona-se a opção mais adequada (ex. distância ao centróide)  Atualiza a célula 67
  • 68.  ferramentas e aplicações desenvolvidas e com relação direta com a tese  contribuições cujo tema tangencia os temas principais 68
  • 69. APIs para os algoritmos desenvolvidos;  Ferramenta Voromap para avaliação de visualização com base em partições do plano;  Avaliação da ferramenta PEX-WEB;  Aplicação de VTM para a realização de revisões sistemáticas; 69
  • 70. Ferramentas desenvolvidas:  Topic Pex  incBoard;  Evolução do incBoard:  HexBoard  incScape (não presente na tese) 70
  • 73. 73
  • 74. 74
  • 75. 75
  • 76.  Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias 76
  • 77. Em destaque  conjuntos cujos itens são alterados  melhoria do processo de agrupamento incremental  melhoria do refino interativo de mapas/tópicos  R. Rodrigues  topical markers  manipulação direta 77
  • 78. Uma necessidade de informação – materializada como uma descrição, lista de termos ou como uma consulta a ser apresentada a uma ferramenta de recuperação de informação;  Um conjunto de documentos relativos a um mesmo assunto ou que atendem a uma necessidade de informação;  Lista de termos descritivos de um assunto ou conjunto de documentos. 78
  • 79. Tópico: a descrição dada a um conjunto de documentos, usualmente relacionados entre si, tipicamente representada por uma lista de termos e ao qual corresponde um conjunto de documentos por ele cobertos, i.e., que abordam o tema em questão, o que é, em geral, verificado pela presença da lista de termos nos documentos. 79
  • 80.  Rotina externa de extração em C  Limite máximo de termos em regras  Limite máximo de regras extraídas  Filtro de termos por peso local Objetivo: manter o tempo de processamento compatível com o cenário de uso 80