CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL           Rodrigo Constantin Ctenas Zaccara                              ...
AGENDA•   Motivação•   Objetivos•   Reconhecimento de Entidades Nomeadas•   MUC7•   Aquisição e extração de conteúdo•   Cl...
MOTIVAÇÃO• Direcionamento   automático de notícias para nicho de interesse
OBJETIVOS• Desenvolvimento   de córpus público baseado em notícias esportivas• Motor      de reconhecimento e classificação...
RECONHECIMENTO DEENTIDADES NOMEADAS
CONCEITOS• Subárea    no campo de extração de informação• Diminuir a distância entre computador e humanos na interpretação...
DESAFIOS• Ausência   de informação• Ambiguidade   semântica• Exemplo: • “Pessoas   fazem orações por São Paulo”
MUC7
INFORMAÇÕES GERAIS• Message   Understanding Conference Proceedings• Financiado   pela Defense Advanced Research Projects A...
ETIQUETAS Tag           Categoria          Descrição de usoENAMEX LOCATION            Nome político ou geográfico        OR...
EXEMPLO<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><N...
AQUISIÇÃO E EXTRAÇÃO   DE CONTEÚDO
Inicio da decaca de 90                                  Googlebot                      HISTÓRICO• Excite   em 1993• Yahoo!...
OBJETIVOS
OBJETIVOS
OBJETIVOS
RESULTADOS• Redução    em 81 % de links irrelevantes • Filtro AAAA/MM/DD • Filtro   baseado no header Content-Type
CLASSIFICAÇÃODE CONTEÚDO
DEMONSTRAÇÃO
PREMISSAS• Mecanismo     flexível e dinâmico para criação do conjunto de etiquetas• Sistema   iterativo de classificação• Po...
TECNOLOGIAS• HTML               • Servlet• CSS                • jQuery• JavaScript         • log4j• JSTL               • M...
DEMONSTRAÇÃO
RESULTADOS• Ganho   de 43% na classificação da notícia • Simples: 7   minutos • Rica: 4   minutos• Ganho   de 99% na gerênc...
RESULTADOS• Ganho   de 54% no processo geral • Simples: 8:40   minutos • Rica: 4:01   minutos
ETIQUETAS  1a Fase         2a Fase    3a Fase  Pessoa           Time      Torcida   Lugar          EstádioOrganização     ...
Uma vez que este trabalho                                          tem como principal objetivo a                          ...
PRÓXIMOS PASSOS
CRONOGRAMA
CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL           Rodrigo Constantin Ctenas Zaccara                              ...
Próximos SlideShares
Carregando em…5
×

Classificação automática de notícias em português do Brasil

793 visualizações

Publicada em

Qualificação do meu mestrado realizada em 01 de julho de 2011

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
793
No SlideShare
0
A partir de incorporações
0
Número de incorporações
26
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Classificação automática de notícias em português do Brasil

  1. 1. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629
  2. 2. AGENDA• Motivação• Objetivos• Reconhecimento de Entidades Nomeadas• MUC7• Aquisição e extração de conteúdo• Classificação de conteúdo• Próximos passos
  3. 3. MOTIVAÇÃO• Direcionamento automático de notícias para nicho de interesse
  4. 4. OBJETIVOS• Desenvolvimento de córpus público baseado em notícias esportivas• Motor de reconhecimento e classificação de entidades nomeadas
  5. 5. RECONHECIMENTO DEENTIDADES NOMEADAS
  6. 6. CONCEITOS• Subárea no campo de extração de informação• Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural
  7. 7. DESAFIOS• Ausência de informação• Ambiguidade semântica• Exemplo: • “Pessoas fazem orações por São Paulo”
  8. 8. MUC7
  9. 9. INFORMAÇÕES GERAIS• Message Understanding Conference Proceedings• Financiado pela Defense Advanced Research Projects Agency• Textos jornalísticos completos• Temas: • Quedas de aviões • Lançamentos de mísseis e foguetes
  10. 10. ETIQUETAS Tag Categoria Descrição de usoENAMEX LOCATION Nome político ou geográfico ORGANIZATION Entidades organizacionais PERSON Nome de pessoa ou famílaNUMEX MONEY Expressão financeira PERCENT Dados percentuaisTIMEX DATE Data completa ou parcial TIME Horário completo ou parcial
  11. 11. EXEMPLO<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launchWednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satelliteprogramming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER></DOC>
  12. 12. AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
  13. 13. Inicio da decaca de 90 Googlebot HISTÓRICO• Excite em 1993• Yahoo! em 1994• Alta vista em 1995• Google em 1997
  14. 14. OBJETIVOS
  15. 15. OBJETIVOS
  16. 16. OBJETIVOS
  17. 17. RESULTADOS• Redução em 81 % de links irrelevantes • Filtro AAAA/MM/DD • Filtro baseado no header Content-Type
  18. 18. CLASSIFICAÇÃODE CONTEÚDO
  19. 19. DEMONSTRAÇÃO
  20. 20. PREMISSAS• Mecanismo flexível e dinâmico para criação do conjunto de etiquetas• Sistema iterativo de classificação• Pontos de recuperação• Localização dos recursos de interface
  21. 21. TECNOLOGIAS• HTML • Servlet• CSS • jQuery• JavaScript • log4j• JSTL • MongoDB• EL • MySQL
  22. 22. DEMONSTRAÇÃO
  23. 23. RESULTADOS• Ganho de 43% na classificação da notícia • Simples: 7 minutos • Rica: 4 minutos• Ganho de 99% na gerência de documentos • Simples: 100 segundos • Rica: 1 segundo
  24. 24. RESULTADOS• Ganho de 54% no processo geral • Simples: 8:40 minutos • Rica: 4:01 minutos
  25. 25. ETIQUETAS 1a Fase 2a Fase 3a Fase Pessoa Time Torcida Lugar EstádioOrganização Campeonato
  26. 26. Uma vez que este trabalho tem como principal objetivo a classificação de entidades CLASSIFICAÇÃO ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.• Substantivos próprios• Apelidos (mago, gladiador)• Referências (tricolocor do Morumbi)
  27. 27. PRÓXIMOS PASSOS
  28. 28. CRONOGRAMA
  29. 29. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629

×