3. Introdução
• Técnica de aprendizado
• As Máquinas de Vetores de Suporte são
embasadas pela teoria de aprendizado
estatístico.
estatístico.
• Inúmeras aplicações: categorização de textos,
aplicações: textos,
Análise de Imagens e Bioinformática.
Bioinformática.
6. Considerações Iniciais
• As tecnicas de AM empregam o princípio de
inferência indução.
indução.
• Supervisionado vs Não-supervisionado.
Não-supervisionado.
• Abordaremos o aprendizado Supervisionado.
Supervisionado.
7. Aprendizado Supervisionado
• Dado um conjunto de exemplos (xi,yi)
– xi: representa um exemplo.
exemplo.
– yi: representa o seu rótulo.
rótulo.
• Objetivo: produzir um classificador (modelo,
Objetivo: modelo,
preditor ou hipótese) capaz de predizer o rótulo
hipótese)
de novos dados.
f(x)=y
8. Aprendizado Supervisionado
Figura1 – Forma simplificada para obtenção do classificador
• Cada exemplo é representado por um vetor de características.
• Cada atributo pode ser nominal (não existe uma ordem entre
os valores. Ex: cores) ou contínuo ( é possível definir uma
ordem linear nos valores assumidos. Ex: pesos).
• A obtenção do classificador pode ser considerado um
processo de busca.
9. A Teoria de Aprendizado Estatístico
Conceitos não tão Básicos
10. Classificadores
• Seja T o conjunto de treinamento, composto de
treinamento,
n pares (xi,yi).
• Seja o classificador f contido em F (conjunto de
(conjunto
todos os classificadores) gerado pelo algoritmo
classificadores)
de AM.
11. Um Exemplo
Figura 2 – Exemplos de Classificadores
• A Figura 2 (a): classifica corretamente, porém por ser muito específica apresenta
elevada suscetibilidade a cometer erros com novos dados.
•A Figura 2 (c): desconsidera pontos pertencentes a classes opostas e que estejam
muito próximos entre si. Porém comete muitos erros.
•A Figura 2 (b): Tem complexidade intermediária e classifica corretamente a maioria
dos dados.
A TAE estabelece condições matemáticas para a escolha do classificador.
12. Considerações sobre a escolha do
Classificador
• Os dados são gerados de forma i.i.d. com
i.i.d.
probabilidade P(x,y).
P(x,y).
• Risco Esperado: mede a capacidade de
Esperado:
generalização de f.
R( f ) c( f (x), y )dP(x, y )
sendo c( f (x), y) o custo relacionando a previsão f (x)
quando a saída desejada é y .
• Não é possível minimizar o risco pois P(x, y)
é desconhecido.
desconhecido.
13. Considerações sobre a escolha do
Classificador
• O Risco Empírico mede o desempenho do
classificador nos dados de treinamento por meio
da taxa de classificações incorretas obtidas em T.
1 n
Remp ( f ) c ( f ( x i , y i ))
n i 1
– Quando n é possível fazer com que o Risco
Empirico convirga para o Risco Esperado
14. Limites no Risco Esperado
• O limite para o Risco Esperado é conseguido com
probabilidade 1 .
2n
h (ln ( ) 1) ln ( )
h 4
R ( f ) R em p ( f ) n
– h: dimensão Vapnick-Chervonenkis da classe de funções
Vapnick-
F à qual f pertence.
– n: quantidade de exemplos no conjunto de treinamento T.
• VC h mede a capacidade do conjunto de funções F
(quanto maior seu valor, mais complexas são as
funções)
15. Exemplo para dim VC = 3
• Problema: Dado um problema de classificação
binário (rótulos com valores 1 ou 2), essa
dimensão é definida como o número máximo de
exemplos que podem ser particionados em duas
classes pelas funções contidas em F, para todas
as combinações binárias desses dados.
Encontrar dim VC.
16. Exemplo para dim VC = 3
Figura – todas as 8 combinações possíveis para 2 rótulos
• É possível determinar retas que possam separar esses 3 exemplos, para
qualquer conformação dos rótulos.
17. Exemplo para dim VC = 3
Figura 4 – Figuras com 4 exemplos
• É possível definir rótulos (item b) tal que uma só reta seja incapaz de
realizar a separação dos 4 exemplos.
• Assim, é preciso recorrer a funções de complexidade superior à das
retas.
• Logo, conclui-se que dim = 3, pois todas as possiveis combinações
(8) de exemplos pode ser particionada por retas.
18. Minimização do Risco Estrutural
• Objetivo: minimizar o Risco Esperado!
• Divide-se F nos subconjuntos:
Divide-
F0 F1 ... Fq F
• Assim, h0 h1 ... hq h
~
• Seja f k F k o classificador com menor Risco
Empírico. ~
• A medida que k cresce, f k diminiu e a capacidade
aumenta.
• Assim, existe um k ótimo que minimiza~ o limite
sobre o risco esperado. A escolha de f k constitui o
princípio da MRE
19. Minimização do Risco Estrutural
Figura – Princípio de minimização do risco estrutural
21. SVM linear
• Surgiram pelo emprego direto dos resultados
fornecidos pela TAE.
• Será apresentado os SVMs na obtenção de
fronteiras lineares para a separação de dados
pertencentes a duas classes.
• Abordaremos as lineares.
lineares.
22. SVM com margens rígidas
• Definem fronteiras lineares a partir de dados
linearmente separáveis.
• Seja T um conjunto de treinamento com n dados
xi pertencente a X e seus respectivos módulos yi
e Y = {-1,+1}. T é linearmente separável se é
{-
possível separar os dados de classe -1 e +1 por
um hiperplano.
23. SVM com margens rígidas
• A equação do hiperplano é representada abaixo:
f ( x) w x b 0
• w é o vetor normal ao hiperplano descrito
b
• || w || é a distância do hiperplano em relação à
origem.
• Essa equação divide o espaço de dados X em
dua regiões: f(x)>0 e f(x)<0
24. SVM com margens rígidas
• Define-se o hiperplano canônico, isto é,
Define-
| w xi b | 1
• Resumindo,
w xi b 1 se yi 1
yi 1
w xi b 1 se
• Ou yi (w xi b) 1 0
25. SVM com margens rígidas
Distância d: 2
|| w ||
Consideração: maximizar a margem de
separação dos dados em relação a:
w x b 0
Assim, na verdade, o que se quer:
1
Minimizar: || w ||2
2
Com as restrições: y i ( w xi b ) 1 0
26. SVMs com Margens Suaves
• Em situações reais, é difícil encontrar aplicações
cujos dados sejam linearmente separáveis
(presença de ruídos).
• Nova modelagem yi (w xi b) 1 i
– i : variável de folga.
• Objetivo:
n
1 2
Minimizar: || w || C ( i )
2 i 1
27. Conclusão
•A Matemática salva!
• As SVMs são robustas diante de dados de grande
dimensão.
• Convexidade do problema de otimização
formulado em seu treinamento, o que implica a
existência de um único mínimo global. (Vantagens
sobre as Redes Neurais)
• As SVMs podem ser aplicadas na solução de
problemas de regressão e no agrupamento de
dados (aprendizado não supervisionado)