Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Extração Automática de Definições
Um Estudo de Caso em Textos Legislativos
Augusto Herrmann Batista
Orientador: Edilson Ferneda
Co-orientador: Hércules Antonio do Prado
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Roteiro
 Contextualização e Motivação
 Problema
 Objetivos
 Revisão da Literatura (EI e ED)
 Referencial Teórico
 Metodologia
 Resultados e Discussão
 Conclusões e Trabalhos Futuros
Ref.: pág. 13
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
 Por que se fazer um Glossário?
 Facilitar o aprendizado
 Fixar conceitos
 Externalizar um jargão
 Evitar ambiguidades
 Reduzir ruídos de comunicação
Ref.: págs. 10 a 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
 Extração Manual
 Tarefa Dispendiosa
 Grande Volume de Textos
Obs.: ainda está sujeita a desacordo entre anotadores!
Ref.: págs. 10 a 12, 39 e 40
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Problema
 Problema
 ”Dado um conjunto de textos em linguagem natural
em língua portuguesa, em meio eletrônico, como
extrair automaticamente um conjunto de termos e
definições originalmente apresentados de forma
não-estruturada visando a construção de um
glossário?”
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Objetivos
 Objetivo Geral
 Elaborar um método de extração de definições a
partir de textos em língua portuguesa aplicando
técnicas de processamento de linguagem natural
 Objetivos Específicos
 Estudar técnicas existentes em ED
 Selecionar, adaptar e combinar
 Efetuar estudo de caso e aplicar a técnica
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Origens na Extração de Informação (EI)
 Revisões de Muslea (1999) e Sarawagi (2007)
 Uso de sequências de padrões sintáticos e slots
(e.g. AutoSlog – RILOFF, 1993)
 Proximidade semântica com uso do Wordnet
(MILLER, 1995)
 Aprendizagem de máquina estatística
 Modelos Markovianos Ocultos (HMM)
 Entropia Máxima (MEMM)
 Campos Aleatórios Condicionais (CRF)
 Modelos Híbridos (regras + aprendizagem)
Ref.: págs. 14 a 23
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Problemas Relacionados à Extração de Definições
(ED)
 Origem: sistemas de resposta automática a
perguntas (e.g. SAGGION, 2004)
 ”Quem é … ?”
 ”O que é um … ?”
 Extração de Tesauros (e.g., CURRAN e MOENS,
2002)
 Apoio à Construção de Ontologias (e.g., MALAISÉ,
2005, apud ALARCÓN et al, 2007; GANGEMI et al,
2003 apud NAVIGLI e VELARDI, 2010)
Ref.: págs. 24 a 26
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Abordagens em ED
 Baseadas em regras / padrões morfossintáticos
(e.g. TANEV et al, 2005)
 Baseadas em aprendizagem de máquina estatística
(e.g. FAHMI e BOUMA, 2006)
 Bayesiano Ingênuo
 Entropia Máxima
 Máquinas de Vetor de Suporte (MVS)
 Algortimos Genéticos (BORG et al, 2007)
Ref.: págs. 25, 29, 30 e 35
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 ED em Língua Portuguesa
 Pinto e Oliveira (2004)
 Corpógrafo – Textos de Medicina
 Identificação manual de estruturas sintáticas comuns
 Construção de expressões regulares
 Del Gaudio e Branco (2007, 2009)
 Textos em TI e EAD
 Gramática baseada em regras
Ref.: págs. 30 a 32
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Definições
 Genus et differentia – Aristóteles
 definiendum
 genus
 differentia
 Shaw (1922):
 por etimologia
 por análise (ou intensional)
 por exclusão
 por exemplo (ou extensional)
Ref.: págs. 47 a 49
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Etiquetagem Morfossintática
 presente na cadeia de processamento de PLN
 atribui etiquetas com o papel desempenhado pelo
segmento na frase
 Tipos de etiquetadores
 Expressões Regulares
 Estatísticos N-Gramas
 Aprendizagem baseada em transformações
(BRILL, 1993 apud BIRD et al, 2009)
Ref.: págs. 49 a 54
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Máquinas de Vetor de Suporte
 abordagem de aprendizagem de máquina para
problemas de classificação
 classifica vetores n-dimensionais
 cada dimensão representa uma característica
 separador que maximiza a margem entre as
classes de vetores
Ref.: págs. 54 a 57
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Ref.: Figura 12, pág. 58
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Corpus de experimentação – Coleção Brasileira do
Direito das Telecomunicações (ARANHA e LIMA,
2009)
 1.940 documentos com 6.120.832 tokens
 Leis, Decretos, Resoluções, Jurisprudência
 1.757 termos no glossário
 2.097 definições
Ref.: págs. 59 a 60
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 ”Problemas” no corpus
 faltam alguns documentos referenciados
 Ex.: ”Acessórios”, referencia a Resolução da ANATEL
nº 533, de 10/09/2009. O documento não consta no
corpus.
 correções ortográficas
 Ex.: no Anexo à Resolução da ANATEL nº 297, de
10/05/2002 está: ”questão específca”. No glossário,
”questão específica”.
 definições omitidas
 Ex.: ”contratante” e ”contratado” na Lei 8.666/1993
Ref.: págs. 60 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Pré-processamento
 conversão de formatos
 filtragem para sanear os problemas
 Segmentação
 por períodos
 por palavras
Ref.: págs. 61 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Etiquetagem morfossintática
 treino no corpus MAC-MORPHO (ALUÍSIO et al,
2003)
 divisão de treino/testes 90%/10%
 acurácia: 90,44%
Ref.: págs. 62 a 65
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Funções extratoras de características (FEC)
 retornam um valor numérico ou binário
 normalizado para a faixa [0, 1]
 exemplos:
 o segmento contém o verbo ”ser” seguido de um
determinante?
 o segmento contém dois pontos (”:”) entre as cinco
primeiras posições?
 exemplos de características negativas:
 palavra não seguida por conjugação do verbo ”ser”
Ref.: págs. 65 a 66
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Treino
 Coleção Brasileira de Direito das
Telecomunicações (ARANHA e LIMA, 2009)
 amostragem aleatória de 70% dos períodos
utilizados para treino
 normalização dos valores das FEC
 resposta de referência (”gold standard”)
 balanceamento da quantidade de instâncias
 Aplicação
 30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Resultados e Discussão
 Resultados
 acurácia: 73,5%
 precisão: 75,6%
 Revocação: 69,6%
 Matriz de confusão:
Predição
Correção
Negativa Positiva
Negativa 305
38,7%
89
11,3%
Positiva 120
15,2%
275
34,9%
Ref.: págs. 70 a 71
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Conclusões
 Atingidos os objetivos geral e específicos
 estudo das técnicas existentes
 escolha de uma abordagem p/ construir glossário
 estudo de caso
 Poucos trabalhos em língua portuguesa, nenhum
aplicado a textos normativos
 Primeiro passo para a construção de glossários
(revisão manual)
Ref.: pág. 72
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Trabalhos Futuros
 Construção de corpus anotado manualmente
revisado
 Aplicação em outras áreas do conhecimento
 Uso de programação genética e outras, aplicadas
à língua portuguesa
Ref.: págs. 72 a 75

Extração Automática de Definições: um estudo de caso em textos legislativos

  • 1.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições Um Estudo de Caso em Textos Legislativos Augusto Herrmann Batista Orientador: Edilson Ferneda Co-orientador: Hércules Antonio do Prado
  • 2.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Roteiro  Contextualização e Motivação  Problema  Objetivos  Revisão da Literatura (EI e ED)  Referencial Teórico  Metodologia  Resultados e Discussão  Conclusões e Trabalhos Futuros Ref.: pág. 13
  • 3.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Por que se fazer um Glossário?  Facilitar o aprendizado  Fixar conceitos  Externalizar um jargão  Evitar ambiguidades  Reduzir ruídos de comunicação Ref.: págs. 10 a 12
  • 4.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Extração Manual  Tarefa Dispendiosa  Grande Volume de Textos Obs.: ainda está sujeita a desacordo entre anotadores! Ref.: págs. 10 a 12, 39 e 40
  • 5.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Problema  Problema  ”Dado um conjunto de textos em linguagem natural em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?” Ref.: pág. 12
  • 6.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Objetivos  Objetivo Geral  Elaborar um método de extração de definições a partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural  Objetivos Específicos  Estudar técnicas existentes em ED  Selecionar, adaptar e combinar  Efetuar estudo de caso e aplicar a técnica Ref.: pág. 12
  • 7.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Origens na Extração de Informação (EI)  Revisões de Muslea (1999) e Sarawagi (2007)  Uso de sequências de padrões sintáticos e slots (e.g. AutoSlog – RILOFF, 1993)  Proximidade semântica com uso do Wordnet (MILLER, 1995)  Aprendizagem de máquina estatística  Modelos Markovianos Ocultos (HMM)  Entropia Máxima (MEMM)  Campos Aleatórios Condicionais (CRF)  Modelos Híbridos (regras + aprendizagem) Ref.: págs. 14 a 23
  • 8.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Problemas Relacionados à Extração de Definições (ED)  Origem: sistemas de resposta automática a perguntas (e.g. SAGGION, 2004)  ”Quem é … ?”  ”O que é um … ?”  Extração de Tesauros (e.g., CURRAN e MOENS, 2002)  Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010) Ref.: págs. 24 a 26
  • 9.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Abordagens em ED  Baseadas em regras / padrões morfossintáticos (e.g. TANEV et al, 2005)  Baseadas em aprendizagem de máquina estatística (e.g. FAHMI e BOUMA, 2006)  Bayesiano Ingênuo  Entropia Máxima  Máquinas de Vetor de Suporte (MVS)  Algortimos Genéticos (BORG et al, 2007) Ref.: págs. 25, 29, 30 e 35
  • 10.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  ED em Língua Portuguesa  Pinto e Oliveira (2004)  Corpógrafo – Textos de Medicina  Identificação manual de estruturas sintáticas comuns  Construção de expressões regulares  Del Gaudio e Branco (2007, 2009)  Textos em TI e EAD  Gramática baseada em regras Ref.: págs. 30 a 32
  • 11.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Definições  Genus et differentia – Aristóteles  definiendum  genus  differentia  Shaw (1922):  por etimologia  por análise (ou intensional)  por exclusão  por exemplo (ou extensional) Ref.: págs. 47 a 49
  • 12.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Etiquetagem Morfossintática  presente na cadeia de processamento de PLN  atribui etiquetas com o papel desempenhado pelo segmento na frase  Tipos de etiquetadores  Expressões Regulares  Estatísticos N-Gramas  Aprendizagem baseada em transformações (BRILL, 1993 apud BIRD et al, 2009) Ref.: págs. 49 a 54
  • 13.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Máquinas de Vetor de Suporte  abordagem de aprendizagem de máquina para problemas de classificação  classifica vetores n-dimensionais  cada dimensão representa uma característica  separador que maximiza a margem entre as classes de vetores Ref.: págs. 54 a 57
  • 14.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia Ref.: Figura 12, pág. 58
  • 15.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009)  1.940 documentos com 6.120.832 tokens  Leis, Decretos, Resoluções, Jurisprudência  1.757 termos no glossário  2.097 definições Ref.: págs. 59 a 60
  • 16.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  ”Problemas” no corpus  faltam alguns documentos referenciados  Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.  correções ortográficas  Ex.: no Anexo à Resolução da ANATEL nº 297, de 10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.  definições omitidas  Ex.: ”contratante” e ”contratado” na Lei 8.666/1993 Ref.: págs. 60 a 62
  • 17.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Pré-processamento  conversão de formatos  filtragem para sanear os problemas  Segmentação  por períodos  por palavras Ref.: págs. 61 a 62
  • 18.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Etiquetagem morfossintática  treino no corpus MAC-MORPHO (ALUÍSIO et al, 2003)  divisão de treino/testes 90%/10%  acurácia: 90,44% Ref.: págs. 62 a 65
  • 19.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Funções extratoras de características (FEC)  retornam um valor numérico ou binário  normalizado para a faixa [0, 1]  exemplos:  o segmento contém o verbo ”ser” seguido de um determinante?  o segmento contém dois pontos (”:”) entre as cinco primeiras posições?  exemplos de características negativas:  palavra não seguida por conjugação do verbo ”ser” Ref.: págs. 65 a 66
  • 20.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Treino  Coleção Brasileira de Direito das Telecomunicações (ARANHA e LIMA, 2009)  amostragem aleatória de 70% dos períodos utilizados para treino  normalização dos valores das FEC  resposta de referência (”gold standard”)  balanceamento da quantidade de instâncias  Aplicação  30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
  • 21.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia
  • 22.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Resultados e Discussão  Resultados  acurácia: 73,5%  precisão: 75,6%  Revocação: 69,6%  Matriz de confusão: Predição Correção Negativa Positiva Negativa 305 38,7% 89 11,3% Positiva 120 15,2% 275 34,9% Ref.: págs. 70 a 71
  • 23.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Conclusões  Atingidos os objetivos geral e específicos  estudo das técnicas existentes  escolha de uma abordagem p/ construir glossário  estudo de caso  Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos  Primeiro passo para a construção de glossários (revisão manual) Ref.: pág. 72
  • 24.
    Extração Automática deDefinições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Trabalhos Futuros  Construção de corpus anotado manualmente revisado  Aplicação em outras áreas do conhecimento  Uso de programação genética e outras, aplicadas à língua portuguesa Ref.: págs. 72 a 75