Extração Automática de Definições: um estudo de caso em textos legislativos

129 visualizações

Publicada em

Dissertação para a obtenção do título de Mestre em Gestão do Conhecimento e da Tecnologia da Informação, na Universidade Católica de Brasília, em dezembro de 2012.

Publicada em: Ciências
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
129
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Extração Automática de Definições: um estudo de caso em textos legislativos

  1. 1. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições Um Estudo de Caso em Textos Legislativos Augusto Herrmann Batista Orientador: Edilson Ferneda Co-orientador: Hércules Antonio do Prado
  2. 2. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Roteiro  Contextualização e Motivação  Problema  Objetivos  Revisão da Literatura (EI e ED)  Referencial Teórico  Metodologia  Resultados e Discussão  Conclusões e Trabalhos Futuros Ref.: pág. 13
  3. 3. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Por que se fazer um Glossário?  Facilitar o aprendizado  Fixar conceitos  Externalizar um jargão  Evitar ambiguidades  Reduzir ruídos de comunicação Ref.: págs. 10 a 12
  4. 4. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Extração Manual  Tarefa Dispendiosa  Grande Volume de Textos Obs.: ainda está sujeita a desacordo entre anotadores! Ref.: págs. 10 a 12, 39 e 40
  5. 5. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Problema  Problema  ”Dado um conjunto de textos em linguagem natural em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?” Ref.: pág. 12
  6. 6. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Objetivos  Objetivo Geral  Elaborar um método de extração de definições a partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural  Objetivos Específicos  Estudar técnicas existentes em ED  Selecionar, adaptar e combinar  Efetuar estudo de caso e aplicar a técnica Ref.: pág. 12
  7. 7. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Origens na Extração de Informação (EI)  Revisões de Muslea (1999) e Sarawagi (2007)  Uso de sequências de padrões sintáticos e slots (e.g. AutoSlog – RILOFF, 1993)  Proximidade semântica com uso do Wordnet (MILLER, 1995)  Aprendizagem de máquina estatística  Modelos Markovianos Ocultos (HMM)  Entropia Máxima (MEMM)  Campos Aleatórios Condicionais (CRF)  Modelos Híbridos (regras + aprendizagem) Ref.: págs. 14 a 23
  8. 8. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Problemas Relacionados à Extração de Definições (ED)  Origem: sistemas de resposta automática a perguntas (e.g. SAGGION, 2004)  ”Quem é … ?”  ”O que é um … ?”  Extração de Tesauros (e.g., CURRAN e MOENS, 2002)  Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010) Ref.: págs. 24 a 26
  9. 9. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Abordagens em ED  Baseadas em regras / padrões morfossintáticos (e.g. TANEV et al, 2005)  Baseadas em aprendizagem de máquina estatística (e.g. FAHMI e BOUMA, 2006)  Bayesiano Ingênuo  Entropia Máxima  Máquinas de Vetor de Suporte (MVS)  Algortimos Genéticos (BORG et al, 2007) Ref.: págs. 25, 29, 30 e 35
  10. 10. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  ED em Língua Portuguesa  Pinto e Oliveira (2004)  Corpógrafo – Textos de Medicina  Identificação manual de estruturas sintáticas comuns  Construção de expressões regulares  Del Gaudio e Branco (2007, 2009)  Textos em TI e EAD  Gramática baseada em regras Ref.: págs. 30 a 32
  11. 11. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Definições  Genus et differentia – Aristóteles  definiendum  genus  differentia  Shaw (1922):  por etimologia  por análise (ou intensional)  por exclusão  por exemplo (ou extensional) Ref.: págs. 47 a 49
  12. 12. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Etiquetagem Morfossintática  presente na cadeia de processamento de PLN  atribui etiquetas com o papel desempenhado pelo segmento na frase  Tipos de etiquetadores  Expressões Regulares  Estatísticos N-Gramas  Aprendizagem baseada em transformações (BRILL, 1993 apud BIRD et al, 2009) Ref.: págs. 49 a 54
  13. 13. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Máquinas de Vetor de Suporte  abordagem de aprendizagem de máquina para problemas de classificação  classifica vetores n-dimensionais  cada dimensão representa uma característica  separador que maximiza a margem entre as classes de vetores Ref.: págs. 54 a 57
  14. 14. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia Ref.: Figura 12, pág. 58
  15. 15. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009)  1.940 documentos com 6.120.832 tokens  Leis, Decretos, Resoluções, Jurisprudência  1.757 termos no glossário  2.097 definições Ref.: págs. 59 a 60
  16. 16. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  ”Problemas” no corpus  faltam alguns documentos referenciados  Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.  correções ortográficas  Ex.: no Anexo à Resolução da ANATEL nº 297, de 10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.  definições omitidas  Ex.: ”contratante” e ”contratado” na Lei 8.666/1993 Ref.: págs. 60 a 62
  17. 17. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Pré-processamento  conversão de formatos  filtragem para sanear os problemas  Segmentação  por períodos  por palavras Ref.: págs. 61 a 62
  18. 18. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Etiquetagem morfossintática  treino no corpus MAC-MORPHO (ALUÍSIO et al, 2003)  divisão de treino/testes 90%/10%  acurácia: 90,44% Ref.: págs. 62 a 65
  19. 19. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Funções extratoras de características (FEC)  retornam um valor numérico ou binário  normalizado para a faixa [0, 1]  exemplos:  o segmento contém o verbo ”ser” seguido de um determinante?  o segmento contém dois pontos (”:”) entre as cinco primeiras posições?  exemplos de características negativas:  palavra não seguida por conjugação do verbo ”ser” Ref.: págs. 65 a 66
  20. 20. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Treino  Coleção Brasileira de Direito das Telecomunicações (ARANHA e LIMA, 2009)  amostragem aleatória de 70% dos períodos utilizados para treino  normalização dos valores das FEC  resposta de referência (”gold standard”)  balanceamento da quantidade de instâncias  Aplicação  30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
  21. 21. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia
  22. 22. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Resultados e Discussão  Resultados  acurácia: 73,5%  precisão: 75,6%  Revocação: 69,6%  Matriz de confusão: Predição Correção Negativa Positiva Negativa 305 38,7% 89 11,3% Positiva 120 15,2% 275 34,9% Ref.: págs. 70 a 71
  23. 23. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Conclusões  Atingidos os objetivos geral e específicos  estudo das técnicas existentes  escolha de uma abordagem p/ construir glossário  estudo de caso  Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos  Primeiro passo para a construção de glossários (revisão manual) Ref.: pág. 72
  24. 24. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Trabalhos Futuros  Construção de corpus anotado manualmente revisado  Aplicação em outras áreas do conhecimento  Uso de programação genética e outras, aplicadas à língua portuguesa Ref.: págs. 72 a 75

×