6. CONCEITOS
• Subárea no campo de extração de informação
• Diminuir a distância entre computador e humanos na
interpretação de comandos em linguagem natural
7. DESAFIOS
• Ausência de informação
• Ambiguidade semântica
• Exemplo:
• “Pessoas fazem orações por São Paulo”
9. INFORMAÇÕES GERAIS
• Message Understanding Conference Proceedings
• Financiado pela Defense Advanced Research Projects Agency
• Textos jornalísticos completos
• Temas:
• Quedas de aviões
• Lançamentos de mísseis e foguetes
10. ETIQUETAS
Tag Categoria Descrição de uso
ENAMEX LOCATION Nome político ou geográfico
ORGANIZATION Entidades organizacionais
PERSON Nome de pessoa ou famíla
NUMEX MONEY Expressão financeira
PERCENT Dados percentuais
TIMEX DATE Data completa ou parcial
TIME Horário completo ou parcial
20. PREMISSAS
• Mecanismo flexível e dinâmico para criação do conjunto de
etiquetas
• Sistema iterativo de classificação
• Pontos de recuperação
• Localização dos recursos de interface
21. TECNOLOGIAS
• HTML • Servlet
• CSS • jQuery
• JavaScript • log4j
• JSTL • MongoDB
• EL • MySQL
23. RESULTADOS
• Ganho de 43% na classificação da notícia
• Simples: 7 minutos
• Rica: 4 minutos
• Ganho de 99% na gerência de documentos
• Simples: 100 segundos
• Rica: 1 segundo
24. RESULTADOS
• Ganho de 54% no processo geral
• Simples: 8:40 minutos
• Rica: 4:01 minutos
25. ETIQUETAS
1a Fase 2a Fase 3a Fase
Pessoa Time Torcida
Lugar Estádio
Organização Campeonato
26. Uma vez que este trabalho
tem como principal objetivo a
classificação de entidades
CLASSIFICAÇÃO
ambıguas, a definicão de
categorias muito genéricas
poderia dificultar a operação
do algoritmo.
• Substantivos próprios
• Apelidos (mago, gladiador)
• Referências (tricolocor do Morumbi)