Classificação automática de notícias em português do Brasil

784 visualizações

Publicada em

Qualificação do meu mestrado realizada em 01 de julho de 2011

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
784
No SlideShare
0
A partir de incorporações
0
Número de incorporações
26
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Classificação automática de notícias em português do Brasil

  1. 1. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629
  2. 2. AGENDA• Motivação• Objetivos• Reconhecimento de Entidades Nomeadas• MUC7• Aquisição e extração de conteúdo• Classificação de conteúdo• Próximos passos
  3. 3. MOTIVAÇÃO• Direcionamento automático de notícias para nicho de interesse
  4. 4. OBJETIVOS• Desenvolvimento de córpus público baseado em notícias esportivas• Motor de reconhecimento e classificação de entidades nomeadas
  5. 5. RECONHECIMENTO DEENTIDADES NOMEADAS
  6. 6. CONCEITOS• Subárea no campo de extração de informação• Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural
  7. 7. DESAFIOS• Ausência de informação• Ambiguidade semântica• Exemplo: • “Pessoas fazem orações por São Paulo”
  8. 8. MUC7
  9. 9. INFORMAÇÕES GERAIS• Message Understanding Conference Proceedings• Financiado pela Defense Advanced Research Projects Agency• Textos jornalísticos completos• Temas: • Quedas de aviões • Lançamentos de mísseis e foguetes
  10. 10. ETIQUETAS Tag Categoria Descrição de usoENAMEX LOCATION Nome político ou geográfico ORGANIZATION Entidades organizacionais PERSON Nome de pessoa ou famílaNUMEX MONEY Expressão financeira PERCENT Dados percentuaisTIMEX DATE Data completa ou parcial TIME Horário completo ou parcial
  11. 11. EXEMPLO<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launchWednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satelliteprogramming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER></DOC>
  12. 12. AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
  13. 13. Inicio da decaca de 90 Googlebot HISTÓRICO• Excite em 1993• Yahoo! em 1994• Alta vista em 1995• Google em 1997
  14. 14. OBJETIVOS
  15. 15. OBJETIVOS
  16. 16. OBJETIVOS
  17. 17. RESULTADOS• Redução em 81 % de links irrelevantes • Filtro AAAA/MM/DD • Filtro baseado no header Content-Type
  18. 18. CLASSIFICAÇÃODE CONTEÚDO
  19. 19. DEMONSTRAÇÃO
  20. 20. PREMISSAS• Mecanismo flexível e dinâmico para criação do conjunto de etiquetas• Sistema iterativo de classificação• Pontos de recuperação• Localização dos recursos de interface
  21. 21. TECNOLOGIAS• HTML • Servlet• CSS • jQuery• JavaScript • log4j• JSTL • MongoDB• EL • MySQL
  22. 22. DEMONSTRAÇÃO
  23. 23. RESULTADOS• Ganho de 43% na classificação da notícia • Simples: 7 minutos • Rica: 4 minutos• Ganho de 99% na gerência de documentos • Simples: 100 segundos • Rica: 1 segundo
  24. 24. RESULTADOS• Ganho de 54% no processo geral • Simples: 8:40 minutos • Rica: 4:01 minutos
  25. 25. ETIQUETAS 1a Fase 2a Fase 3a Fase Pessoa Time Torcida Lugar EstádioOrganização Campeonato
  26. 26. Uma vez que este trabalho tem como principal objetivo a classificação de entidades CLASSIFICAÇÃO ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.• Substantivos próprios• Apelidos (mago, gladiador)• Referências (tricolocor do Morumbi)
  27. 27. PRÓXIMOS PASSOS
  28. 28. CRONOGRAMA
  29. 29. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629

×