Anotação e classificação automáticade entidades nomeadas em notíciasesportivas em Português Brasileiro               Rodri...
AGENDA•   Motivação•   Objetivos•   Conceitos•   Aquisição e extração de conteúdo•   WebCorpus•   Córpus UOLCP2011•   Aval...
MOTIVAÇÃODirecionamento automático de notícias para nichode interesse
OBJETIVOS• Plataforma   para anotação e classificação de entidades nomeadas: • Interface   web rica para classificação • C...
CONCEITOS
PROCESSAMENTO DE     LINGUAGEM NATURAL• Subárea    no campo de extração de informação• Diminuir a distância entre computad...
APRENDIZADO DE MÁQUINA• Início   na década de 50 com Arthur Lee Samuel• Categorias:  • Aprendizado supervisionado  • Apren...
CÓRPUS• Coleção   de dados linguísticos• Etapas: • Projeto • Compilação • Anotação • Uso
AQUISIÇÃO E EXTRAÇÃO   DE CONTEÚDO
ÍNDICE
NOTÍCIA
CONTEÚDO
WEBCORPUS
VERSÃO ALPHA
PREMISSAS• Mecanismo     flexível e dinâmico para criação do conjunto de etiquetas• Pontos    de recuperação• Sistema   it...
VERSÃO FINAL
DISPONIBILIDADE• Licença   MITTHE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,EXPRESS OR IMPLIED, INCLUDING...
CÓRPUS UOLCP2011
INFORMAÇÕES• 100 notícias anotadas manualmente do Campeonato Paulista de 2011• Formatos:   texto puro e XML• Anotado   e s...
TIPOLOGIA• Modo:   Escrito• Tempo:     Contemporâneo• Seleção:   Estático• Conteúdo:     Especializado• Finalidade:   Trei...
ETIQUETAS  1a Fase         2a Fase    3a Fase  Pessoa           Time      Torcida   Lugar          EstádioOrganização     ...
DISPONIBILIDADE• Licença   MITTHE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,EXPRESS OR IMPLIED, INCLUDING...
AVALIAÇÃO DOS ALGORITMOSDE CLASSIFICAÇÃO AUTOMÁTICA
ESCOPO• Algoritmos: • Maximização      de entropia • Índices   invertidos • Método     de mesclagem ROdIME• Treinamento   ...
AVALIAÇÃO                                                acertos precisão( acertos , entidades anotadas)=                 ...
MAXIMIZAÇÃO DE ENTROPIA
CONCEITOS• Integrar   informações de diversas fontes heterogenias• Modelo     baseado em características (restrições)• Car...
TREINAMENTO• Corte:    3, 4 e 5• Iterações:   100, 150 e 250• Janela:   2, 3, 4 e 5• Treinamento individual (pessoa, lugar...
RESULTADOS
TREINAMENTO               Janela   Corte   Iterações   Pessoa        5       5         100    Time         2       3      ...
UOLCP2011                           Individual   Coletivo Total de entidades          2930        2930 Entidades anotadas ...
MINI CÓRPUS                         Individual   Coletivo Total de entidades         655        655 Entidades anotadas    ...
ÍNDICES INVERTIDOS
CONCEITOS                                       Palavra Documento                                           o     1, 3, 4D...
IMPLEMENTAÇÃO• Algoritmo    de segmentação em janelas• Heurística   de seleção: • Peso • Análise   simples • Análise   com...
TREINAMENTO• Janela:   1, 2, 3, 4 e 5• Heurística    de seleção: peso, análise simples e análise completa• Total   de cená...
RESULTADOS
UOLCP2011                           Peso   Simples   Completa Total de entidades        2930    2930       2930 Entidades ...
MINI CÓRPUS                         Peso   Simples   Completa Total de entidades      655      655       655 Entidades ano...
MÉTODO DE MESCLAGEM      ROdIME
CONCEITOS• Mesclar   resultados dos algoritmos: • Maximização     de entropia individual • Maximização     de entropia col...
IMPLEMENTAÇÃO• Prova   de conceito• Extrair        mais informações da biblioteca de maximização de entropia• Definição   ...
RESULTADOS
UOLCP2011                       Individual Coletivo Completa   ROdIME Total de entidades      2930      2930      2930    ...
MINI CÓRPUS                       Individual Coletivo Completa   ROdIME Total de entidades       655      655       655   ...
CARVALHO12: UOLCP2011                         ROdIME   MTodas   MTodas com filtro Total de entidades       2930     2930  ...
CARVALHO12: MINI CÓRPUS                         ROdIME   MTodas   MTodas com filtro Total de entidades       655      655 ...
CONCLUSÃO• Maximização     de entropia: • Treinamento     individual tem bastante precisão • Treinamento     coletivo tem ...
TRABALHOS FUTUROS
WEBCORPUS• Tratamento     de expiração e edição concorrente• Criar   perfil de usuário para rastrear alterações• Adicionar...
ALGORITMOS• Aprendizado    infinito com índices invertidos• Avaliar   outras técnicas para o algoritmo de mesclagem• Autom...
Anotação e classificação automáticade entidades nomeadas em notíciasesportivas em Português Brasileiro               Rodri...
Próximos SlideShares
Carregando em…5
×

Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro

751 visualizações

Publicada em

Resumo: O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL1 (Universo Online).
O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma.
O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida.
Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados.

Apresentação da minha defesa de mestrado em 11/07/2012 no IME-USP.

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
751
No SlideShare
0
A partir de incorporações
0
Número de incorporações
44
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro

  1. 1. Anotação e classificação automáticade entidades nomeadas em notíciasesportivas em Português Brasileiro Rodrigo Constantin Ctenas Zaccara 6367629
  2. 2. AGENDA• Motivação• Objetivos• Conceitos• Aquisição e extração de conteúdo• WebCorpus• Córpus UOLCP2011• Avaliação dos algoritmos de classificação automática• Trabalhos futuros
  3. 3. MOTIVAÇÃODirecionamento automático de notícias para nichode interesse
  4. 4. OBJETIVOS• Plataforma para anotação e classificação de entidades nomeadas: • Interface web rica para classificação • Córpus público baseado em notícias esportivas • Avaliação de algoritmos de anotação e classificação de entidades nomeadas
  5. 5. CONCEITOS
  6. 6. PROCESSAMENTO DE LINGUAGEM NATURAL• Subárea no campo de extração de informação• Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural• Desafios: • Ausência de informação • Ambiguidade semântica • Exemplo: “Pessoas fazem orações por São Paulo”
  7. 7. APRENDIZADO DE MÁQUINA• Início na década de 50 com Arthur Lee Samuel• Categorias: • Aprendizado supervisionado • Aprendizado não supervisionado • Aprendizado por reforço
  8. 8. CÓRPUS• Coleção de dados linguísticos• Etapas: • Projeto • Compilação • Anotação • Uso
  9. 9. AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
  10. 10. ÍNDICE
  11. 11. NOTÍCIA
  12. 12. CONTEÚDO
  13. 13. WEBCORPUS
  14. 14. VERSÃO ALPHA
  15. 15. PREMISSAS• Mecanismo flexível e dinâmico para criação do conjunto de etiquetas• Pontos de recuperação• Sistema iterativo de classificação• Localização dos recursos de interface
  16. 16. VERSÃO FINAL
  17. 17. DISPONIBILIDADE• Licença MITTHE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OFMERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE ANDNONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHTHOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISINGFROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OROTHER DEALINGS IN THE SOFTWARE.• Download em https://github.com/rodzac/webcorpus/
  18. 18. CÓRPUS UOLCP2011
  19. 19. INFORMAÇÕES• 100 notícias anotadas manualmente do Campeonato Paulista de 2011• Formatos: texto puro e XML• Anotado e somente texto• UTF-8
  20. 20. TIPOLOGIA• Modo: Escrito• Tempo: Contemporâneo• Seleção: Estático• Conteúdo: Especializado• Finalidade: Treinamento e teste
  21. 21. ETIQUETAS 1a Fase 2a Fase 3a Fase Pessoa Time Torcida Lugar EstádioOrganização Campeonato
  22. 22. DISPONIBILIDADE• Licença MITTHE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OFMERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE ANDNONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHTHOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISINGFROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OROTHER DEALINGS IN THE SOFTWARE.• Download em https://github.com/rodzac/UOLCP2011/
  23. 23. AVALIAÇÃO DOS ALGORITMOSDE CLASSIFICAÇÃO AUTOMÁTICA
  24. 24. ESCOPO• Algoritmos: • Maximização de entropia • Índices invertidos • Método de mesclagem ROdIME• Treinamento particionado utilizando o UOLCP2011• Classificação do mini córpus
  25. 25. AVALIAÇÃO acertos precisão( acertos , entidades anotadas)= entidades anotadas acertoscobertura (acertos ,entidades esperadas)= entidades esperadas 2∗ precisão∗cobertura medidaF ( precisão , cobertura)= precisão +cobertura
  26. 26. MAXIMIZAÇÃO DE ENTROPIA
  27. 27. CONCEITOS• Integrar informações de diversas fontes heterogenias• Modelo baseado em características (restrições)• Característica é definida por uma função binária para detectar sua presença• Exemplos: inicia com letra maiúscula, contém números, palavra anterior inicia com letra maiúscula...
  28. 28. TREINAMENTO• Corte: 3, 4 e 5• Iterações: 100, 150 e 250• Janela: 2, 3, 4 e 5• Treinamento individual (pessoa, lugar, orgazanição, time, estádio, campeonato e torcida) e coletivo• Total de cenários: 3 x 3 x 4 x 8 x 10 = 2880
  29. 29. RESULTADOS
  30. 30. TREINAMENTO Janela Corte Iterações Pessoa 5 5 100 Time 2 3 100 Lugar 2 3 100Campeonato 2 4 100 Estádio 2 4 100Organização 2 4 100 Torcida - - - Coletivo 3 5 150
  31. 31. UOLCP2011 Individual Coletivo Total de entidades 2930 2930 Entidades anotadas 1950 2988Anotadas com sucesso 1944 2748 Esquecidas 981 92 Classificadas erradas 5 90 Anotadas erradas 1 150 Precisão 0.99 0.91 Cobertura 0.66 0.93 MedidaF 0.79 0.92
  32. 32. MINI CÓRPUS Individual Coletivo Total de entidades 655 655 Entidades anotadas 231 648Anotadas com sucesso 227 528 Esquecidas 425 62 Classificadas erradas 3 55 Anotadas erradas 1 62 Precisão 0.98 0.81 Cobertura 0.34 0.80 MedidaF 0.51 0.81
  33. 33. ÍNDICES INVERTIDOS
  34. 34. CONCEITOS Palavra Documento o 1, 3, 4Documento Texto sao 1 1 o sao paulo joga hoje paulo 1 2 hoje esta muito quente joga 1 palmeiras esta perdendo hoje 1, 2 3 o jogo esta 2, 3, 4 4 o jogo esta quente muito 2 quente 2, 4 palmeiras 3 perdendo 3 jogo 3, 4
  35. 35. IMPLEMENTAÇÃO• Algoritmo de segmentação em janelas• Heurística de seleção: • Peso • Análise simples • Análise completa
  36. 36. TREINAMENTO• Janela: 1, 2, 3, 4 e 5• Heurística de seleção: peso, análise simples e análise completa• Total de cenários: 5 x 3 x 10 =150
  37. 37. RESULTADOS
  38. 38. UOLCP2011 Peso Simples Completa Total de entidades 2930 2930 2930 Entidades anotadas 2831 2901 2895Anotadas com sucesso 2581 2871 2880 Esquecidas 210 42 42 Classificadas erradas 139 17 8 Anotdas erradas 111 13 7 Precisão 0.91 0.98 0.99 Cobertura 0.88 0.97 0.98 MedidaF 0.89 0.98 0.98
  39. 39. MINI CÓRPUS Peso Simples Completa Total de entidades 655 655 655 Entidades anotadas 539 560 511Anotadas com sucesso 469 472 466 Esquecidas 156 149 160 Classificadas erradas 30 34 29 Anotadas erradas 40 54 16 Precisão 0.87 0.84 0.91 Cobertura 0.71 0.72 0.71 MedidaF 0.78 0.77 0.79
  40. 40. MÉTODO DE MESCLAGEM ROdIME
  41. 41. CONCEITOS• Mesclar resultados dos algoritmos: • Maximização de entropia individual • Maximização de entropia coletivo • Índices invertidos com heurística completa
  42. 42. IMPLEMENTAÇÃO• Prova de conceito• Extrair mais informações da biblioteca de maximização de entropia• Definição da interface BestScore• Nota mínima para anotação
  43. 43. RESULTADOS
  44. 44. UOLCP2011 Individual Coletivo Completa ROdIME Total de entidades 2930 2930 2930 2930 Entidades anotadas 1950 2988 2895 2907Anotadas com sucesso 1944 2748 2880 2892 Esquecidas 981 92 42 30 Classificadas erradas 5 90 8 8 Anotadas erradas 1 150 7 7 Precisão 0.99 0.91 0.99 0.99 Cobertura 0.66 0.93 0.98 0.98 MedidaF 0.79 0.92 0.98 0.99
  45. 45. MINI CÓRPUS Individual Coletivo Completa ROdIME Total de entidades 655 655 655 655 Entidades anotadas 231 648 511 559Anotadas com sucesso 227 528 466 523 Esquecidas 425 62 160 99 Classificadas erradas 3 55 29 33 Anotadas erradas 1 62 16 3 Precisão 0.98 0.81 0.91 0.93 Cobertura 0.34 0.80 0.71 0.79 MedidaF 0.51 0.81 0.79 0.86
  46. 46. CARVALHO12: UOLCP2011 ROdIME MTodas MTodas com filtro Total de entidades 2930 2930 2930 Entidades anotadas 2907 2976 3005Anotadas com sucesso 2892 2898 2903 Esquecidas 30 15 11 Classificadas erradas 8 17 16 Anotadas erradas 7 61 88 Precisão 0.99 0.97 0.96 Cobertura 0.98 0.98 0.99 MedidaF 0.99 0.98 0.97
  47. 47. CARVALHO12: MINI CÓRPUS ROdIME MTodas MTodas com filtro Total de entidades 655 655 655 Entidades anotadas 559 605 616Anotadas com sucesso 523 535 545 Esquecidas 99 67 59 Classificadas erradas 33 53 51 Anotadas erradas 3 17 20 Precisão 0.93 0.88 0.88 Cobertura 0.79 0.81 0.83 MedidaF 0.86 0.84 0.85
  48. 48. CONCLUSÃO• Maximização de entropia: • Treinamento individual tem bastante precisão • Treinamento coletivo tem boa cobertura• Índices invertidos fixam bem características do treinamento• Método de mesclagem ROdIME é uma boa alternativa para a classificação de entidades nomeadas
  49. 49. TRABALHOS FUTUROS
  50. 50. WEBCORPUS• Tratamento de expiração e edição concorrente• Criar perfil de usuário para rastrear alterações• Adicionar suporte a múltiplos córpus
  51. 51. ALGORITMOS• Aprendizado infinito com índices invertidos• Avaliar outras técnicas para o algoritmo de mesclagem• Automatizar a avaliação dos algoritmos durante a fase de treinamento
  52. 52. Anotação e classificação automáticade entidades nomeadas em notíciasesportivas em Português Brasileiro Rodrigo Constantin Ctenas Zaccara 6367629

×