Support Vector Machines

Support
Vector
Machines

Leandro Farias
5° ano – Eng. Comp.
Inteligência Artificial

Sumário

• Introdução
• Objetivos
• Aprendizado de Máquinas
• A Teoria de Aprendizado Estatístico
• SVMs
• Conclusão
• Bibliografia

Introdução

• Técnica de aprendizado
• As Máquinas de Vetores de Suporte são
embasadas pela teoria de aprendizado
estatístico.
estatístico.
• Inúmeras aplicações: categorização de textos,
aplicações: textos,
Análise de Imagens e Bioinformática.
Bioinformática.

Objetivos

• Apresentar as Máquinas de Vetores de Suporte.
Suporte.

Aprendizado de Máquina

Conceitos Básicos

Considerações Iniciais

• As tecnicas de AM empregam o princípio de
inferência indução.
indução.
• Supervisionado vs Não-supervisionado.
Não-supervisionado.
• Abordaremos o aprendizado Supervisionado.
Supervisionado.

Aprendizado Supervisionado

• Dado um conjunto de exemplos (xi,yi)
– xi: representa um exemplo.
exemplo.
– yi: representa o seu rótulo.
rótulo.

• Objetivo: produzir um classificador (modelo,
Objetivo: modelo,
preditor ou hipótese) capaz de predizer o rótulo
hipótese)
de novos dados.
f(x)=y

Aprendizado Supervisionado

Figura1 – Forma simplificada para obtenção do classificador

• Cada exemplo é representado por um vetor de características.
• Cada atributo pode ser nominal (não existe uma ordem entre
os valores. Ex: cores) ou contínuo ( é possível definir uma
ordem linear nos valores assumidos. Ex: pesos).
• A obtenção do classificador pode ser considerado um
processo de busca.

A Teoria de Aprendizado Estatístico

Conceitos não tão Básicos

Classificadores

• Seja T o conjunto de treinamento, composto de
treinamento,
n pares (xi,yi).
• Seja o classificador f contido em F (conjunto de
(conjunto
todos os classificadores) gerado pelo algoritmo
classificadores)
de AM.

Um Exemplo

Figura 2 – Exemplos de Classificadores

• A Figura 2 (a): classifica corretamente, porém por ser muito específica apresenta
elevada suscetibilidade a cometer erros com novos dados.
•A Figura 2 (c): desconsidera pontos pertencentes a classes opostas e que estejam
muito próximos entre si. Porém comete muitos erros.
•A Figura 2 (b): Tem complexidade intermediária e classifica corretamente a maioria
dos dados.

A TAE estabelece condições matemáticas para a escolha do classificador.

Considerações sobre a escolha do
Classificador
• Os dados são gerados de forma i.i.d. com
i.i.d.
probabilidade P(x,y).
P(x,y).
• Risco Esperado: mede a capacidade de
Esperado:
generalização de f.

R( f )   c( f (x), y )dP(x, y )

sendo c( f (x), y) o custo relacionando a previsão f (x)
quando a saída desejada é y .
• Não é possível minimizar o risco pois P(x, y)
é desconhecido.
desconhecido.

Considerações sobre a escolha do
Classificador
• O Risco Empírico mede o desempenho do
classificador nos dados de treinamento por meio
da taxa de classificações incorretas obtidas em T.
1 n
Remp ( f )   c ( f ( x i , y i ))
n i 1
– Quando n   é possível fazer com que o Risco
Empirico convirga para o Risco Esperado

Limites no Risco Esperado
• O limite para o Risco Esperado é conseguido com
probabilidade 1   .
2n 
h (ln ( )  1)  ln ( )
h 4
R ( f )  R em p ( f )  n

– h: dimensão Vapnick-Chervonenkis da classe de funções
Vapnick-
F à qual f pertence.
– n: quantidade de exemplos no conjunto de treinamento T.
• VC h mede a capacidade do conjunto de funções F
(quanto maior seu valor, mais complexas são as
funções)

Exemplo para dim VC = 3

• Problema: Dado um problema de classificação
binário (rótulos com valores 1 ou 2), essa
dimensão é definida como o número máximo de
exemplos que podem ser particionados em duas
classes pelas funções contidas em F, para todas
as combinações binárias desses dados.
Encontrar dim VC.


Figura – todas as 8 combinações possíveis para 2 rótulos

• É possível determinar retas que possam separar esses 3 exemplos, para
qualquer conformação dos rótulos.


Figura 4 – Figuras com 4 exemplos

• É possível definir rótulos (item b) tal que uma só reta seja incapaz de
realizar a separação dos 4 exemplos.
• Assim, é preciso recorrer a funções de complexidade superior à das
retas.
• Logo, conclui-se que dim = 3, pois todas as possiveis combinações
(8) de exemplos pode ser particionada por retas.

Minimização do Risco Estrutural
• Objetivo: minimizar o Risco Esperado!
• Divide-se F nos subconjuntos:
Divide-
F0  F1  ...  Fq  F
• Assim, h0  h1  ...  hq  h
~
• Seja f k  F k o classificador com menor Risco
Empírico. ~
• A medida que k cresce, f k diminiu e a capacidade
aumenta.
• Assim, existe um k ótimo que minimiza~ o limite
sobre o risco esperado. A escolha de f k constitui o
princípio da MRE

Minimização do Risco Estrutural

Figura – Princípio de minimização do risco estrutural

Máquinas de Vetores de Suporte Lineares

SVMs

SVM linear

• Surgiram pelo emprego direto dos resultados
fornecidos pela TAE.
• Será apresentado os SVMs na obtenção de
fronteiras lineares para a separação de dados
pertencentes a duas classes.
• Abordaremos as lineares.
lineares.

SVM com margens rígidas

• Definem fronteiras lineares a partir de dados
linearmente separáveis.
• Seja T um conjunto de treinamento com n dados
xi pertencente a X e seus respectivos módulos yi
e Y = {-1,+1}. T é linearmente separável se é
{-
possível separar os dados de classe -1 e +1 por
um hiperplano.


• A equação do hiperplano é representada abaixo:
f ( x)  w  x  b  0
• w é o vetor normal ao hiperplano descrito
b
• || w || é a distância do hiperplano em relação à
origem.
• Essa equação divide o espaço de dados X em
dua regiões: f(x)>0 e f(x)<0


• Define-se o hiperplano canônico, isto é,
Define-
| w  xi  b | 1
• Resumindo,
 w  xi  b  1 se yi  1
 yi   1
 w  xi  b  1 se

• Ou yi (w  xi  b)  1  0

Distância d: 2
|| w ||

Consideração: maximizar a margem de
separação dos dados em relação a:

w x  b  0

Assim, na verdade, o que se quer:

1
Minimizar: || w ||2
2

Com as restrições: y i ( w  xi  b )  1  0

SVMs com Margens Suaves

• Em situações reais, é difícil encontrar aplicações
cujos dados sejam linearmente separáveis
(presença de ruídos).
• Nova modelagem yi (w  xi  b)  1  i
– i : variável de folga.

• Objetivo:
n
1 2
Minimizar: || w ||  C (   i )
2 i 1

Conclusão
•A Matemática salva!
• As SVMs são robustas diante de dados de grande
dimensão.
• Convexidade do problema de otimização
formulado em seu treinamento, o que implica a
existência de um único mínimo global. (Vantagens
sobre as Redes Neurais)
• As SVMs podem ser aplicadas na solução de
problemas de regressão e no agrupamento de
dados (aprendizado não supervisionado)

Bibliografia

• Uma Introdução às Support Vector Machines
• Livro texto

Support Vector Machines

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (6)

Semelhante a Support Vector Machines

Semelhante a Support Vector Machines (20)

Último

Último (20)

Support Vector Machines