Anotação de Imagens

Anotação de Imagens

Vitor Pamplona
vitor@vitorpamplona.com

Yansong Feng and Mirella Lapata
Automatic Image Annotation Using
Auxiliary Text Information
Proceedings of ACL-08: HLT, pages 272–280

Como criar palavras-chave?

Copyright Vitor F. Pamplona 2

Formalmente
●
Dado uma imagem I e suas características

V I ={v 1, v 2, v 3, }

●
E um conjunto de palavras-chave

W I ={w 1, w 2, w 3, }

●
Encontre o W p que melhor descreve I
W p ⊂W I

Processo Tradicional


Passo 1: Treinamento

Tigre, filhote, repouso Tigre, dormindo

Tigre, selva, feroz


Passo 2: Segmentação


Tigre, selva, feroz


Passo 3: Extrai uma assinatura


Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ...
12, 45, 67, 45, 85, 78, ...


Passo 4: Compara assinaturas


Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ...
12, 45, 67, 45, 85, 78, ...


Passo 5: Palavras-chave comuns


Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ...
12, 45, 67, 45, 85, 78, ...


Passo 6: Associa uma anotação


Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ... Tigre
12, 45, 67, 45, 85, 78, ...


Passo 7: Associa uma relevância


Tigre, selva, feroz

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ... Tigre, 100%
12, 45, 67, 45, 85, 78, ...


Para anotar uma nova imagem


Passo 1: Segmentar


Passo 2: Computar assinatura

12, 45, 67, 35, 67, 78, ...


Passo 3: Comparar com a base

12, 45, 67, 35, 67, 78, ...

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ...
12, 45, 67, 45, 85, 78, ...


Passo 3: Buscar anotação

12, 45, 67, 35, 67, 78, ...

Tigre, 100%

12, 45, 67, 45, 67, 78, ...
12, 45, 67, 65, 67, 15, ...
12, 45, 67, 45, 85, 78, ...


Passo 4: Repetir o processo


Passo 5: Organizar as palavras

Tigre, 100%
Água, 70%
Grama, 30%


Feng e Lapata 2008
●
Anotação de imagens
●
Fusão de VC, RI e PLN

●
Contribuições
●
Textos de internet com imagens
●
Sem anotações prévias para treinamento
●
O sistema é treinado com o texto
●
Muito ruído no texto
●
Possibilita a anotação de novas palavras-chave


Entrada do modelo

Texto
Legenda


Assunções do modelo
●
Legenda descreve a imagem:
●
Denotativamente: descreve objetos
Denotativamente
●
Conotativamente: descreve ações/eventos
Conotativamente
●
Não é possível nomear todos os objetos
●
Os principais objetos devem ser nomeados
●
O documento está relacionado a imagem


Descrição do Modelo

D
P V I , W I =∑ P V I∣s P W I∣s P  s
s



D
s

Características Visuais da Imagem



D
s

Palavras do Texto ou do Caption



D
s

Tuplas (imagem-palavra) do treinamento




D
s

Tuplas (imagem-palavra) do treinamento
Probabilidade da tupla s



D
s

Probabilidade da tupla s



D
s

1
P  s=
ND

●
Distribuição uniforme



D
s

Probabilidade dos V I ocorrerem
quando s ocorre



D
s

NV I

P V I∣s=∏ P g v r∣s
r=1



D
s

NV I

P V I∣s=∏ P g v r∣s
r=1

Probabilidade de cada um dos V I
correrem quando s ocorre



D
s

NV I

P V I∣s=∏ P g v r∣s
r=1
ns −1

P g v r∣s=
1
∑
v
expv r −v i  ∑ v r −v i 
T

ns v i =1  2  ∣∑ ∣
k k

Distribuição gaussiana



D
s

Probabilidade dos W I ocorrerem
quando s ocorre



D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W

Distribuição de Bernoulli



D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W



D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W

P est w∣s= P est w∣sa 1− P est w∣sd 



D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W


Anotações de s Texto de s

Parâmetro que melhor se adapta ao treinamento



D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W




D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W


 bw , s  N w 1: se w está em sa
P est w∣sa = a
0: caso contrário
 N D


D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W




D
s

P W I∣s= ∏ P w∣s ∏ 1− P w∣s
w∈W w∉W


Vezes que w ocorre em sd N w,s
P est w∣sa = d

Total de palavras do doc Nsd


Validação
●
2881 notícias da BBC News
●
PLN
●
Part of Speech Tagger
●
Remover tudo exceto verbos, subst., adjetivos
●
Extrai o lema das palavras
●
Vocabulário 8309 palavras


Validação
●
Processamento das imagens
●
Segmentação a partir de um grid regular 6x5
●
Assinatura
●
Média e desvio padrão RGB, LUV, LAB
●
Saída de uma transformação DCT
●
Saída de um filtro de Gabor
●
Saída de um algoritmo de detecção de borda
●
Divisão entre nro de pixels de borda e não borda


Resultados: Precisão
●
Anotações corretas / todas as anotações
16

14
12

10
Feng08
8
Lavenko03
6 DocTitle
4
2

0
Top10 Top15 Top20


Resultados: Recall
●
Anotações corretas / anotações manuais
40
35
30
25
20 Feng08
Lavenko03
15
DocTitle
10
5
0
Top10 Top15 Top20


Resultados: F1
●
Média harmônica entre precisão e recall
25

20

15
Feng08
10 Lavenko03
DocTitle
5

0
Top10 Top15 Top20
Precisão∗Recall
 PrecisãoRecall / 2

Análise Crítica
●
Palavras-chave isoladas
●
Sem contexto semântico
●
Sem contexto temporal
●
Sem estrutura hierárquica
●
Segmentação e identificação de saliências
●
Muito simples
●
Método SIFT (D. G. Lowe 2004)
●
Não utilizam a wordnet
●
Poderiam extrair sinônimos e super classes

Viagens...
●
Palavras-chave multi-língua
●
Vários documentos para a mesma imagem
●
Contextos
●
Utilizar informação semântica
●
Frases que possuem as palavras-chave
●
Relacionamento das palavras-chave
●
Anotar frases ao invés de palavras-chave?
●
Processar todas as imagens da web


Perguntas?

Vitor Pamplona
vitor@vitorpamplona.com

Yansong Feng and Mirella Lapata
Automatic Image Annotation Using
Auxiliary Text Information
Proceedings of ACL-08: HLT

Créditos:
●
http://www.flickr.com/photos/mkengstrom/77367321/
●
http://www.flickr.com/photos/66164549@N00/2919179438/
●
http://www.flickr.com/photos/digitalart/1906662004/
●
http://www.flickr.com/photos/mumbleyjoe/1520473493/

●
Yansong Feng and Mirella Lapata. Automatic Image Annotation Using
Auxiliary Text Information. Proceedings of ACL-08:HLT, pages
272-280. 2008.


Anotação de Imagens

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (11)

Mais de Vitor Pamplona

Mais de Vitor Pamplona (18)

Anotação de Imagens