1) O documento discute a anotação e classificação automática de entidades nomeadas em notícias esportivas em português brasileiro.
2) É apresentada a motivação, objetivos, conceitos, aquisição e extração de conteúdo, WebCorpus e Córpus UOLCP2011.
3) São avaliados algoritmos de classificação automática e discutidos trabalhos futuros como aprendizado infinito com índices invertidos e melhorias no algoritmo de mesclagem.
4. OBJETIVOS
• Plataforma para anotação e classificação de entidades
nomeadas:
• Interface web rica para classificação
• Córpus público baseado em notícias esportivas
• Avaliação de algoritmos de anotação e classificação de
entidades nomeadas
6. PROCESSAMENTO DE
LINGUAGEM NATURAL
• Subárea no campo de extração de informação
• Diminuir a distância entre computador e humanos na
interpretação de comandos em linguagem natural
• Desafios:
• Ausência de informação
• Ambiguidade semântica
• Exemplo: “Pessoas fazem orações por São Paulo”
7. APRENDIZADO DE MÁQUINA
• Início na década de 50 com Arthur Lee Samuel
• Categorias:
• Aprendizado supervisionado
• Aprendizado não supervisionado
• Aprendizado por reforço
8. CÓRPUS
• Coleção de dados linguísticos
• Etapas:
• Projeto
• Compilação
• Anotação
• Uso
15. PREMISSAS
• Mecanismo flexível e dinâmico para criação do conjunto de
etiquetas
• Pontos de recuperação
• Sistema iterativo de classificação
• Localização dos recursos de interface
17. DISPONIBILIDADE
• Licença MIT
THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,
WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
OTHER DEALINGS IN THE SOFTWARE.
• Download em https://github.com/rodzac/webcorpus/
19. INFORMAÇÕES
• 100 notícias anotadas manualmente do Campeonato
Paulista de 2011
• Formatos: texto puro e XML
• Anotado e somente texto
• UTF-8
20. TIPOLOGIA
• Modo: Escrito
• Tempo: Contemporâneo
• Seleção: Estático
• Conteúdo: Especializado
• Finalidade: Treinamento e teste
21. ETIQUETAS
1a Fase 2a Fase 3a Fase
Pessoa Time Torcida
Lugar Estádio
Organização Campeonato
22. DISPONIBILIDADE
• Licença MIT
THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,
WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
OTHER DEALINGS IN THE SOFTWARE.
• Download em https://github.com/rodzac/UOLCP2011/
27. CONCEITOS
• Integrar informações de diversas fontes heterogenias
• Modelo baseado em características (restrições)
• Característica
é definida por uma função binária para
detectar sua presença
• Exemplos: inicia com letra maiúscula, contém números,
palavra anterior inicia com letra maiúscula...
28. TREINAMENTO
• Corte: 3, 4 e 5
• Iterações: 100, 150 e 250
• Janela: 2, 3, 4 e 5
• Treinamento individual (pessoa, lugar, orgazanição, time,
estádio, campeonato e torcida) e coletivo
• Total de cenários: 3 x 3 x 4 x 8 x 10 = 2880
34. CONCEITOS
Palavra Documento
o 1, 3, 4
Documento Texto sao 1
1 o sao paulo joga hoje paulo 1
2 hoje esta muito quente joga 1
palmeiras esta perdendo hoje 1, 2
3
o jogo esta 2, 3, 4
4 o jogo esta quente muito 2
quente 2, 4
palmeiras 3
perdendo 3
jogo 3, 4
35. IMPLEMENTAÇÃO
• Algoritmo de segmentação em janelas
• Heurística de seleção:
• Peso
• Análise simples
• Análise completa
36. TREINAMENTO
• Janela: 1, 2, 3, 4 e 5
• Heurística de seleção: peso, análise simples e análise
completa
• Total de cenários: 5 x 3 x 10 =150
41. CONCEITOS
• Mesclar resultados dos algoritmos:
• Maximização de entropia individual
• Maximização de entropia coletivo
• Índices invertidos com heurística completa
42. IMPLEMENTAÇÃO
• Prova de conceito
• Extrair
mais informações da biblioteca de maximização de
entropia
• Definição da interface BestScore
• Nota mínima para anotação
47. CARVALHO'12: MINI CÓRPUS
ROdIME MTodas MTodas com filtro
Total de entidades 655 655 655
Entidades anotadas 559 605 616
Anotadas com sucesso 523 535 545
Esquecidas 99 67 59
Classificadas erradas 33 53 51
Anotadas erradas 3 17 20
Precisão 0.93 0.88 0.88
Cobertura 0.79 0.81 0.83
MedidaF 0.86 0.84 0.85
48. CONCLUSÃO
• Maximização de entropia:
• Treinamento individual tem bastante precisão
• Treinamento coletivo tem boa cobertura
• Índices invertidos fixam bem características do treinamento
• Método de mesclagem ROdIME é uma boa alternativa para
a classificação de entidades nomeadas
50. WEBCORPUS
• Tratamento de expiração e edição concorrente
• Criar perfil de usuário para rastrear alterações
• Adicionar suporte a múltiplos córpus
51. ALGORITMOS
• Aprendizado infinito com índices invertidos
• Avaliar outras técnicas para o algoritmo de mesclagem
• Automatizar a avaliação dos algoritmos durante a fase de
treinamento
52. Anotação e classificação automática
de entidades nomeadas em notícias
esportivas em Português Brasileiro
Rodrigo Constantin Ctenas Zaccara
6367629