SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
CLASSIFICAÇÃO DE NOTÍCIAS
 EM PORTUGUÊS DO BRASIL
           Rodrigo Constantin Ctenas Zaccara
                                    6367629
AGENDA
•   Motivação

•   Objetivos

•   Reconhecimento de Entidades Nomeadas

•   MUC7

•   Aquisição e extração de conteúdo

•   Classificação de conteúdo

•   Próximos passos
MOTIVAÇÃO



• Direcionamento   automático de notícias para nicho de
 interesse
OBJETIVOS


• Desenvolvimento   de córpus público baseado em notícias
 esportivas

• Motor
      de reconhecimento e classificação de entidades
 nomeadas
RECONHECIMENTO DE
ENTIDADES NOMEADAS
CONCEITOS



• Subárea    no campo de extração de informação

• Diminuir a distância entre computador e humanos na
 interpretação de comandos em linguagem natural
DESAFIOS


• Ausência   de informação

• Ambiguidade   semântica

• Exemplo:

 • “Pessoas   fazem orações por São Paulo”
MUC7
INFORMAÇÕES GERAIS

• Message   Understanding Conference Proceedings

• Financiado   pela Defense Advanced Research Projects Agency

• Textos   jornalísticos completos

• Temas:

 • Quedas      de aviões

 • Lançamentos      de mísseis e foguetes
ETIQUETAS

 Tag           Categoria          Descrição de uso
ENAMEX LOCATION            Nome político ou geográfico
        ORGANIZATION Entidades organizacionais
        PERSON             Nome de pessoa ou famíla
NUMEX   MONEY              Expressão financeira
        PERCENT            Dados percentuais
TIMEX   DATE               Data completa ou parcial
        TIME               Horário completo ou parcial
EXEMPLO
<DOC>
<DOCID>nyt960214.0704</DOCID>
<STORYID>A4479</STORYID>
<SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG>
<DATE>02-14</DATE>
<NWORDS>0608</NWORDS>
<TEXT>A Chinese rocket carrying a television satellite exploded seconds after launch
Wednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satellite
programming in Latin America. ...</TEXT>
<TRAILER>NYT-02-14-96 2029EST</TRAILER>
</DOC>
AQUISIÇÃO E EXTRAÇÃO
   DE CONTEÚDO
Inicio da decaca de 90
                                  Googlebot



                      HISTÓRICO


• Excite   em 1993

• Yahoo!   em 1994

• Alta   vista em 1995

• Google    em 1997
OBJETIVOS
OBJETIVOS
OBJETIVOS
RESULTADOS


• Redução    em 81 % de links irrelevantes

 • Filtro AAAA/MM/DD

 • Filtro   baseado no header Content-Type
CLASSIFICAÇÃO
DE CONTEÚDO
DEMONSTRAÇÃO
PREMISSAS

• Mecanismo     flexível e dinâmico para criação do conjunto de
 etiquetas

• Sistema   iterativo de classificação

• Pontos   de recuperação

• Localização   dos recursos de interface
TECNOLOGIAS

• HTML               • Servlet

• CSS                • jQuery

• JavaScript         • log4j

• JSTL               • MongoDB

• EL                 • MySQL
DEMONSTRAÇÃO
RESULTADOS

• Ganho   de 43% na classificação da notícia

 • Simples: 7   minutos

 • Rica: 4   minutos

• Ganho   de 99% na gerência de documentos

 • Simples: 100   segundos

 • Rica: 1   segundo
RESULTADOS


• Ganho   de 54% no processo geral

 • Simples: 8:40   minutos

 • Rica: 4:01   minutos
ETIQUETAS

  1a Fase         2a Fase    3a Fase


  Pessoa           Time      Torcida


   Lugar          Estádio


Organização     Campeonato
Uma vez que este trabalho
                                          tem como principal objetivo a
                                          classificação de entidades



                 CLASSIFICAÇÃO
                                          ambıguas, a definicão de
                                          categorias muito genéricas
                                          poderia dificultar a operação
                                          do algoritmo.




• Substantivos   próprios

• Apelidos   (mago, gladiador)

• Referências   (tricolocor do Morumbi)
PRÓXIMOS PASSOS
CRONOGRAMA
CLASSIFICAÇÃO DE NOTÍCIAS
 EM PORTUGUÊS DO BRASIL
           Rodrigo Constantin Ctenas Zaccara
                                    6367629

Mais conteúdo relacionado

Mais de Rodrigo Zaccara (6)

C6 Bank: um banco com personalidade
C6 Bank: um banco com personalidadeC6 Bank: um banco com personalidade
C6 Bank: um banco com personalidade
 
Entregando conteúdo em ambientes extremos na JVM
Entregando conteúdo em ambientes extremos na JVMEntregando conteúdo em ambientes extremos na JVM
Entregando conteúdo em ambientes extremos na JVM
 
Entregando ideias
Entregando ideiasEntregando ideias
Entregando ideias
 
Entregando conteúdo em ambientes extremos na JVM
Entregando conteúdo em ambientes extremos na JVMEntregando conteúdo em ambientes extremos na JVM
Entregando conteúdo em ambientes extremos na JVM
 
Alta perfomance com Lucene
Alta perfomance com LuceneAlta perfomance com Lucene
Alta perfomance com Lucene
 
Lucene nas alturas: 400 buscas por segundo
Lucene nas alturas: 400 buscas por segundoLucene nas alturas: 400 buscas por segundo
Lucene nas alturas: 400 buscas por segundo
 

Último

Último (6)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 

Classificação automática de notícias em português do Brasil