1. Anotação de Imagens
Vitor Pamplona
vitor@vitorpamplona.com
Yansong Feng and Mirella Lapata
Automatic Image Annotation Using
Auxiliary Text Information
Proceedings of ACL-08: HLT, pages 272–280
3. Formalmente
●
Dado uma imagem I e suas características
V I ={v 1, v 2, v 3, }
●
E um conjunto de palavras-chave
W I ={w 1, w 2, w 3, }
●
Encontre o W p que melhor descreve I
W p ⊂W I
Copyright Vitor F. Pamplona 3
18. Passo 5: Organizar as palavras
Tigre, 100%
Água, 70%
Grama, 30%
Copyright Vitor F. Pamplona 18
19. Feng e Lapata 2008
●
Anotação de imagens
●
Fusão de VC, RI e PLN
●
Contribuições
●
Textos de internet com imagens
●
Sem anotações prévias para treinamento
●
O sistema é treinado com o texto
●
Muito ruído no texto
●
Possibilita a anotação de novas palavras-chave
Copyright Vitor F. Pamplona 19
21. Assunções do modelo
●
Legenda descreve a imagem:
●
Denotativamente: descreve objetos
Denotativamente
●
Conotativamente: descreve ações/eventos
Conotativamente
●
Não é possível nomear todos os objetos
●
Os principais objetos devem ser nomeados
●
O documento está relacionado a imagem
Copyright Vitor F. Pamplona 21
22. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Copyright Vitor F. Pamplona 22
23. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Características Visuais da Imagem
Copyright Vitor F. Pamplona 23
24. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Palavras do Texto ou do Caption
Características Visuais da Imagem
Copyright Vitor F. Pamplona 24
25. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Tuplas (imagem-palavra) do treinamento
Palavras do Texto ou do Caption
Características Visuais da Imagem
Copyright Vitor F. Pamplona 25
26. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Tuplas (imagem-palavra) do treinamento
Probabilidade da tupla s
Palavras do Texto ou do Caption
Características Visuais da Imagem
Copyright Vitor F. Pamplona 26
27. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Probabilidade da tupla s
Copyright Vitor F. Pamplona 27
28. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
1
P s=
ND
●
Distribuição uniforme
Copyright Vitor F. Pamplona 28
29. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Probabilidade dos V I ocorrerem
quando s ocorre
Copyright Vitor F. Pamplona 29
30. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
NV I
P V I∣s=∏ P g v r∣s
r=1
Copyright Vitor F. Pamplona 30
31. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
NV I
P V I∣s=∏ P g v r∣s
r=1
Probabilidade de cada um dos V I
correrem quando s ocorre
Copyright Vitor F. Pamplona 31
32. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
NV I
P V I∣s=∏ P g v r∣s
r=1
ns −1
P g v r∣s=
1
∑
v
expv r −v i ∑ v r −v i
T
ns v i =1 2 ∣∑ ∣
k k
Distribuição gaussiana
Copyright Vitor F. Pamplona 32
33. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
Probabilidade dos W I ocorrerem
quando s ocorre
Copyright Vitor F. Pamplona 33
34. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
Distribuição de Bernoulli
Copyright Vitor F. Pamplona 34
35. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
Copyright Vitor F. Pamplona 35
36. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
Copyright Vitor F. Pamplona 36
37. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
Anotações de s Texto de s
Parâmetro que melhor se adapta ao treinamento
Copyright Vitor F. Pamplona 37
38. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
Copyright Vitor F. Pamplona 38
39. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
bw , s N w 1: se w está em sa
P est w∣sa = a
0: caso contrário
N D
Copyright Vitor F. Pamplona 39
40. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
Copyright Vitor F. Pamplona 40
41. Descrição do Modelo
D
P V I , W I =∑ P V I∣s P W I∣s P s
s
P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W
P est w∣s= P est w∣sa 1− P est w∣sd
Vezes que w ocorre em sd N w,s
P est w∣sa = d
Total de palavras do doc Nsd
Copyright Vitor F. Pamplona 41
42. Validação
●
2881 notícias da BBC News
●
PLN
●
Part of Speech Tagger
●
Remover tudo exceto verbos, subst., adjetivos
●
Extrai o lema das palavras
●
Vocabulário 8309 palavras
Copyright Vitor F. Pamplona 42
43. Validação
●
Processamento das imagens
●
Segmentação a partir de um grid regular 6x5
●
Assinatura
●
Média e desvio padrão RGB, LUV, LAB
●
Saída de uma transformação DCT
●
Saída de um filtro de Gabor
●
Saída de um algoritmo de detecção de borda
●
Divisão entre nro de pixels de borda e não borda
Copyright Vitor F. Pamplona 43
44. Resultados: Precisão
●
Anotações corretas / todas as anotações
16
14
12
10
Feng08
8
Lavenko03
6 DocTitle
4
2
0
Top10 Top15 Top20
Copyright Vitor F. Pamplona 44
46. Resultados: F1
●
Média harmônica entre precisão e recall
25
20
15
Feng08
10 Lavenko03
DocTitle
5
0
Top10 Top15 Top20
Precisão∗Recall
PrecisãoRecall / 2
Copyright Vitor F. Pamplona 46
47. Análise Crítica
●
Palavras-chave isoladas
●
Sem contexto semântico
●
Sem contexto temporal
●
Sem estrutura hierárquica
●
Segmentação e identificação de saliências
●
Muito simples
●
Método SIFT (D. G. Lowe 2004)
●
Não utilizam a wordnet
●
Poderiam extrair sinônimos e super classes
Copyright Vitor F. Pamplona 47
48. Viagens...
●
Palavras-chave multi-língua
●
Vários documentos para a mesma imagem
●
Contextos
●
Utilizar informação semântica
●
Frases que possuem as palavras-chave
●
Relacionamento das palavras-chave
●
Anotar frases ao invés de palavras-chave?
●
Processar todas as imagens da web
Copyright Vitor F. Pamplona 48
49. Perguntas?
Vitor Pamplona
vitor@vitorpamplona.com
Yansong Feng and Mirella Lapata
Automatic Image Annotation Using
Auxiliary Text Information
Proceedings of ACL-08: HLT
50. Créditos:
●
http://www.flickr.com/photos/mkengstrom/77367321/
●
http://www.flickr.com/photos/66164549@N00/2919179438/
●
http://www.flickr.com/photos/digitalart/1906662004/
●
http://www.flickr.com/photos/mumbleyjoe/1520473493/
●
Yansong Feng and Mirella Lapata. Automatic Image Annotation Using
Auxiliary Text Information. Proceedings of ACL-08:HLT, pages
272-280. 2008.
Copyright Vitor F. Pamplona 50