SVM Aula sobre margem máxima

Inteligência Artificial – ACH2016
Aula21 – Support Vector Machines
Norton Trevisan Roman
(norton@usp.br)
27 de maio de 2019
Norton Trevisan Roman(norton@usp.br) 27 de maio de 2019 1 / 35

Support Vector Machine – SVM
Margem Máxima
Considere o conjunto
linearmente separável ao lado
Fonte: AIMA. R&N

Margem Máxima
Temos várias possibilidades de
separação
Fonte: AIMA. R&N

Margem Máxima
separação
Qual seria a melhor?
Fonte: AIMA. R&N

Margem Máxima
separação
Qual seria a melhor?
Cada linha que separa os dados
é um hiperplano de separação
Fonte: AIMA. R&N
Será nosso limite de decisão → tudo de um lado pertence a
uma classe, e tudo do outro pertence a outra

Margem Máxima
Gostarı́amos de escolher o
separador que estivesse o mais
longe possı́vel dos exemplos
Acomodando, assim, possı́veis erros
de classificação
Fonte: AIMA. R&N

Margem Máxima
Esse seria então um separador de
margem máxima
margem
Fonte: AIMA. R&N

Margem Máxima
Esse seria então um separador de
margem máxima
margem
vetores de
suporte
Fonte: AIMA. R&N
Os pontos mais próximos do separador são seus
vetores de suporte
Queremos então maximizar a distância entre esse hiperplano
e seus vetores de suporte

Classificador SVM
Baseia-se na ideia principal do
separador de margem máxima
Quanto mais longe um ponto está
do limite de decisão, mais confiantes
estamos sobre a predição feita
Fonte: AIMA. R&N

Classificador SVM
Baseia-se na ideia principal do
separador de margem máxima
Quanto mais longe um ponto está
do limite de decisão, mais confiantes
estamos sobre a predição feita
Difere dos demais classificadores
em que retorna +1 ou −1 em
sua versão binária
Fonte: AIMA. R&N
Isso acaba facilitando os cálculos...

SVM linear com margens rı́gidas
Define fronteiras lineares a
partir de dados linearmente
separáveis
Não permite pontos nessa fronteira

separáveis
Fonte: AIMA. R&N

separáveis
Um classificador linear é aquele
que separa os dados com um
hiperplano do tipo
f (~
x) = ~
ω · ~
x + b
Fonte: AIMA. R&N
A equação separa o espaço de dados X em duas regiões,
~
ω · ~
x + b ≥ 0 e ~
ω · ~
x + b < 0

SVM Linear com Margens Rı́gidas
Hiperplano Canônico
Usamos então uma função sinal g(~
x) = sgn(f (~
x))
para classificar um ponto ~
x:
g(~
x) = sgn(f (~
x)) =
(
+1, se ~
ω · ~
x + b ≥ 0
−1, se ~
ω · ~
x + b < 0

Usamos então uma função sinal g(~
x) = sgn(f (~
x))
para classificar um ponto ~
x:
g(~
x) = sgn(f (~
x)) =
(
+1, se ~
ω · ~
x + b ≥ 0
−1, se ~
ω · ~
x + b < 0
Hiperplano canônico:
Aquele em que ~
ω e b são escolhidos de forma que os
exemplos mais próximos do hiperplano satisfaçam a equação
|~
ω · ~
x + b| = 1
Define a margem

Então, temos 2 hiperplanos nas bordas da margem:
(
~
ω · ~
x + b ≥ +1, se yi = +1
~
ω · ~
x + b ≤ −1, se yi = −1
onde yi ∈ Y , Y = {−1, +1} é o rótulo de xi

Então, temos 2 hiperplanos nas bordas da margem:
(
~
ω · ~
x + b ≥ +1, se yi = +1
~
ω · ~
x + b ≤ −1, se yi = −1
onde yi ∈ Y , Y = {−1, +1} é o rótulo de xi
E aqui vemos a vantagem de se definir as classes
como Y = {−1, +1}
Podemos resumir a expressão acima em uma única equação:
yi (~
ω · ~
x + b) − 1 ≥ 0, ∀(~
xi , yi ) ∈ T
(onde T é o conjunto de treino)

Distância entre os Hiperplanos
Queremos, no entanto,
maximizar a margem
Maximizar a distância d
entre os hiperplanos H1 e
H2
Fonte: [3]

Queremos, no entanto,
maximizar a margem
Maximizar a distância d
entre os hiperplanos H1 e
H2
Projetamos então o
vetor ~
x1 − ~
x2 na direção
de ~
ω
Onde ~
x1 ∈ H1 e ~
x2 ∈ H2, Fonte: [3]

E
~
d = (~
x1 −~
x2)

~
ω
k~
ωk
·
(~
x1 − ~
x2)
k~
x1 − ~
x2k

Fonte: [3]

E
~
d = (~
x1 −~
x2)

~
ω
k~
ωk
·
(~
x1 − ~
x2)
k~
x1 − ~
x2k

Uma vez que
~
ω · ~
x1 + b = +1 e ~
ω · ~
x2 + b = −1
Então
~
ω · (~
x1 − ~
x2) = ~
ω · ~
x1 − ~
ω · ~
x2
Fonte: [3]
= (1 − b) − (−1 − b) = 2

E ~
d =
2(~
x1 − ~
x2)
k~
ωkk~
x1 − ~
x2k
Fonte: [3]

E ~
d =
2(~
x1 − ~
x2)
k~
ωkk~
x1 − ~
x2k
Assim, d = k~
dk =
2
k~
ωk
d0
= 1
k~
ωk
é então a distância
mı́nima entre o hiperplano
separador e os dados de
treinamento
Fonte: [3]

E ~
d =
2(~
x1 − ~
x2)
k~
ωkk~
x1 − ~
x2k
Assim, d = k~
dk =
2
k~
ωk
d0
= 1
k~
ωk
é então a distância
mı́nima entre o hiperplano
separador e os dados de
treinamento
Fonte: [3]
Queremos maximizar d0

Maximizando a distância entre os hiperplanos
Maximizar d0
= 1/k~
ωk
corresponde ao problema de
otimização:
f (~
x) = min
~
ω,b

1
2
k~
ωk2

Restrição: yi (~
ω · ~
xi + b) − 1 ≥ 0

Maximizar d0
= 1/k~
ωk
otimização:
f (~
x) = min
~
ω,b

1
2
k~
ωk2

ω · ~
xi + b) − 1 ≥ 0
A restrição garante que
não haja dados de treino
entre as margens de
separação das classes

Maximizar d0
= 1/k~
ωk
otimização:
f (~
x) = min
~
ω,b

1
2
k~
ωk2

ω · ~
xi + b) − 1 ≥ 0
Por que isso?
Porque os mesmos ~
ω e b que resolvem um problema
também resolve o outro

Maximizar d0
= 1/k~
ωk
otimização:
f (~
x) = min
~
ω,b

1
2
k~
ωk2

ω · ~
xi + b) − 1 ≥ 0
Por que isso? Fonte: https://brainsnorts.files.
wordpress.com/2014/05/calvin376_2.jpg
Porque os mesmos ~
ω e b que resolvem um problema
também resolve o outro
E alguém já quebrou a cabeça resolvendo um deles

A solução desse problema de otimização passa pela
introdução de uma Lagrangiana
L(~
ω, b, ~
α) =
1
2
k~
ωk2
−
n
X
i=1
αi (yi (~
ω · ~
xi + b) − 1)
Onde αi são os chamados multiplicadores de Lagrange

A solução desse problema de otimização passa pela
introdução de uma Lagrangiana
L(~
ω, b, ~
α) =
1
2
k~
ωk2
−
n
X
i=1
αi (yi (~
ω · ~
xi + b) − 1)
Onde αi são os chamados multiplicadores de Lagrange
L(~
ω, b, ~
α) deve então ser minimizada
Para isso, maximizamos αi e minimizamos ~
ω e b
Para ~
ω e b, fazemos
∂L
∂b
= 0 e
∂L
∂~
ω
= 0

O que nos leva ao resultado
n
X
i=1
αi yi = 0 e ~
ω =
n
X
i=1
αi yi~
xi

n
X
i=1
αi yi = 0 e ~
ω =
n
X
i=1
αi yi~
xi
Para αi, substituı́mos esse resultado na Lagrangeana
e maximizamos
Queremos então max
~
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αi αj yi yj (~
xi · ~
xj )
Com as restrições





αi ≥ 0, i = 1, . . . , n
n
X
i=1
αi yi = 0

Formulação conhe-
cida como forma
dual do problema
n
X
i=1
αi yi = 0 e ~
ω =
n
X
i=1
αi yi~
xi
Para αi, substituı́mos esse resultado na Lagrangeana
e maximizamos
Queremos então max
~
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αi αj yi yj (~
xi · ~
xj )
Com as restrições





αi ≥ 0, i = 1, . . . , n
n
X
i=1
αi yi = 0

Assim, encontrada a solução ~
α da forma dual,
usamos ~
ω =
n
X
i=1
αiyi~
xi para achar a solução ~
ω

Assim, encontrada a solução ~
α da forma dual,
usamos ~
ω =
n
X
i=1
αiyi~
xi para achar a solução ~
ω
E b?
Obtido de α e das condições de Kühn-Tucker (teoria de
otimização com restrições)
Para esse problema, temos as restrições
αi (yi (~
ω · ~
xi + b) − 1) = 0, i = 1, . . . , n

Vejamos a restrição αi(yi(~
ω · ~
xi + b) − 1) = 0
Temos que αi 6= 0 apenas para pontos sobre H1 e
H2
Os exemplos mais próximos do hiperplano separador

ω · ~
xi + b) − 1) = 0
H2
Para os demais deve ser 0. Por que?

ω · ~
xi + b) − 1) = 0
H2
Se ~
x /
∈ H1 ou H2, então yi (~
ω · ~
x + b) − 1 0
Não está nem na margem, nem no plano

ω · ~
xi + b) − 1) = 0
H2
Se ~
x /
∈ H1 ou H2, então yi (~
ω · ~
x + b) − 1 0
Não está nem na margem, nem no plano
A única forma de αi (yi (~
ω · ~
xi + b) − 1) ser 0 é se αi = 0

Os exemplos em que αi 0 são os vetores de
suporte V para o hiperplano separador
Apenas eles participarão da determinação da equação desse
hiperplano

hiperplano
Mas e b? Calculado de αi(yi(~
ω · ~
xi + b) − 1) = 0
yi (~
ω · ~
xi + b) − 1 = 0
~
ω · ~
xi + b = 1/yi
b = 1/yi − ~
ω · ~
xi

hiperplano
Mas e b? Calculado de αi(yi(~
ω · ~
xi + b) − 1) = 0
yi (~
ω · ~
xi + b) − 1 = 0
~
ω · ~
xi + b = 1/yi
b = 1/yi − ~
ω · ~
xi
Isso, contudo considerando apenas um vetor de suporte

Como temos nV vetores de suporte, b será a média
dentre eles
b =
1
nV
X
xj ∈V
1
yj
− ~
ω · ~
xj

Como temos nV vetores de suporte, b será a média
dentre eles
b =
1
nV
X
xj ∈V
1
yj
− ~
ω · ~
xj
E como ~
ω =
n
X
i=1
αiyi~
xi, então
b =
1
nV
X
xj ∈V
1
yj
−
n
X
xi ∈V
αi yi~
xi · ~
xj
!

RESUME ISSO POR FAVOR!!!!
Fonte: https://i.imgflip.com/pqcjo.jpg?a432792

O classificador SVM
Dado um ponto ~
x, sua classificação será dada por
g(~
x) = sgn(f (~
x)) = sgn(~
ω ·~
x + b) = sgn
X
x
~i ∈V
yi αi~
xi · ~
x + b
!
(com α, ~
ω e b calculados como mostrado)

O classificador SVM
Dado um ponto ~
x, sua classificação será dada por
g(~
x) = sgn(f (~
x)) = sgn(~
ω ·~
x + b) = sgn
X
x
~i ∈V
yi αi~
xi · ~
x + b
!
(com α, ~
ω e b calculados como mostrado)
Esse é o classificador SVM
Representando o hiperplano que separa os dados com maior
margem

SVM Linear com Margens Suaves
Dados com ruı́do
Em algumas situações,
mesmo sendo linearmente
separáveis, os dados
apresentam ruı́dos
Fonte: [3]

Dados com ruı́do
Em algumas situações,
mesmo sendo linearmente
separáveis, os dados
apresentam ruı́dos
Para esses casos,
relaxamos as restrições do
SVM Fonte: [3]
yi (~
ω · ~
xi + b) ≥ 1 − ξi
onde ξi ≥ 0 é uma variável de folga

Dados com ruı́do
O classificador permite
que alguns exemplos
caiam no lado errado do
limite de decisão
Associa, contudo, uma
penalidade proporcional à
distância necessária para
movê-los de volta ao lado
certo Fonte: [3]

Dados com ruı́do
O resultado é a mesma
expressão para o
classificador com margens
rı́gidas
Mas com uma expressão
diferente para αi (e
consequentes ω e b)
Não veremos detalhes aqui Fonte: [3]

SVM Não Linear
Espaço de Caracterı́sticas
E se os dados não forem
linearmente separáveis?
Muito embora, nesse
exemplo, talvez bastasse o
uso de coordenadas polares
Fonte: AIMA. RN

SVM Não Linear
E se os dados não forem
linearmente separáveis?
Muito embora, nesse
exemplo, talvez bastasse o
uso de coordenadas polares
SVMs lidam com isso
mapeando cada exemplo
para um novo espaço, Fonte: AIMA. RN
de maior dimensão
O espaço de caracterı́sticas (feature space)

SVM Não Linear
Por exemplo, vamos
mapear cada vetor de
entrada ~
x = (x1, x2) em
um novo vetor
F(~
x) = (f1, f2, f3), onde:
f1 = x2
1
f2 = x2
2
f3 =
√
2x1x2 Fonte: AIMA. RN

SVM Não Linear
Graficando os dados nesse
novo espaço obtemos
Fonte: AIMA. RN

SVM Não Linear
Graficando os dados nesse
novo espaço obtemos
E eles são linearmente
separáveis
A escolha apropriada do
mapeamento faz com que os
dados possam ser separados
por uma SVM linear
Fonte: AIMA. RN

SVM Não Linear
Se os dados forem
mapeados em um espaço
de dimensões
suficientemente grande,
eles quase sempre serão
linearmente separáveis
Se olharmos a um conjunto
de pontos a partir de direções
suficientes, encontraremos
um modo de alinhá-los
Fonte: AIMA. RN
Com algumas exceções, conjuntos de n pontos serão sempre
separáveis em espaços de n − 1 dimensões ou mais

SVM Não Linear
Separador linear
Para encontrar um separador linear no novo espaço
F(~
x), substituı́mos ~
xi · ~
xj por F(~
xi) · F(~
xj) em
max
~
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αi αj yi yj (~
xi · ~
xj )
Obtendo
max
~
α
n
X
i=1
αi −
1
2
n
X
i,j=1
αi αj yi yj (F(~
xi ) · F(~
xj ))

SVM Não Linear
Funções de Kernel
Contudo, podemos calcular F(~
xi) · F(~
xj) sem ter de
calcular F para cada ponto
No exemplo dado,
F(~
xi ) · F(~
xj ) = (x2
1i ,
√
2x1i x2i , x2
2i ) · (x2
1j ,
√
2x1j x2j , x2
2j )
= (~
xi · ~
xj )2

SVM Não Linear
Contudo, podemos calcular F(~
xi) · F(~
xj) sem ter de
calcular F para cada ponto
No exemplo dado,
F(~
xi ) · F(~
xj ) = (x2
1i ,
√
2x1i x2i , x2
2i ) · (x2
1j ,
√
2x1j x2j , x2
2j )
= (~
xi · ~
xj )2
K(~
xi, ~
xj) = (~
xi · ~
xj)2
é uma Função de Kernel
Uma função K(~
xi , ~
xj ) = F(~
xi ) · F(~
xj ) que recebe 2 pontos ~
xi
e ~
xj do espaço de entradas e calcula seu produto escalar no
espaço de caracterı́sticas

SVM Não Linear
Podemos então encontrar separadores lineares em
F(~
x) simplesmente trocando ~
xi · ~
xj pela função de
kernel K(~
xi, ~
xj)
Para aprender em dimensões maiores, calculamos apenas as
funções de kernel, em vez da lista de caracterı́sticas inteira
para cada ponto

SVM Não Linear
Podemos então encontrar separadores lineares em
F(~
x) simplesmente trocando ~
xi · ~
xj pela função de
kernel K(~
xi, ~
xj)
Para aprender em dimensões maiores, calculamos apenas as
funções de kernel, em vez da lista de caracterı́sticas inteira
para cada ponto
Assim, simplificamos o cálculo
Empregamos a função de Kernel sem conhecer o
mapeamento F, pois esse é usado implicitamente
Podemos encontrar separadores lineares eficientemente em
espaços de bilhões de dimensões

SVM Não Linear
E podemos usar qualquer função como Kernel?

SVM Não Linear
Não. Apenas funções que satisfaçam as condições
estabelecidas pelo teorema de Mercer

SVM Não Linear
Não. Apenas funções que satisfaçam as condições
estabelecidas pelo teorema de Mercer
Um Kernel que satisfaz as condições de Mercer dá
origem a matrizes positivas semi-definidas [K]
Em que cada elemento Kij é definido como Kij = K(~
xi , ~
xj ),
para i, j = 1, . . . , n

SVM Não Linear
Na prática, os Kernels mais usados são
Tipo K(~
xi , ~
xj ) Parâmetros
Linear δ(~
xi · ~
xj ) + κ δ e κ
Polinomial (δ(~
xi · ~
xj ) + κ)d
δ, κ e d
Gaussiano e−σk~
xi −~
xj k2
σ
Sigmoidal tanh(δ(~
xi · ~
xj ) + κ) δ e κ
Note que cada um deles apresenta hiper-parâmetros que
precisam ser determinados na prática
No caso do sigmoidal, as condições de Mercer são satisfeitas
somente para alguns valores de δ

Support Vector Machines
Vantagens
Constroem um separador de margem máxima
Um limite de decisão com a maior distância possı́vel dos
exemplos de treino, o que ajuda a generalizar o modelo

Vantagens
Constroem um separador de margem máxima
Um limite de decisão com a maior distância possı́vel dos
exemplos de treino, o que ajuda a generalizar o modelo
Criam um plano de separação linear
Tornam isso possı́vel embutindo os dados em um espaços de
mais dimensões (via o uso de Kernels)
Frequentemente, dados não linearmente separáveis no
espaço original se tornam separáveis nesse espaço maior
O separador linear de alta dimensão não é linear no espaço
original → podemos representar hipóteses não lineares

Vantagens
São não-paramétricos
Retêm exemplos e potencialmente precisam armazená-los
todos
Na prática, contudo, apenas retêm uma fração pequena
destes

Vantagens
São não-paramétricos
Retêm exemplos e potencialmente precisam armazená-los
todos
Na prática, contudo, apenas retêm uma fração pequena
destes
Combinam assim as vantagens dos modelos
não-paramétricos e paramétricos
Possuem a flexibilidade para representar funções complexas
E ainda assim são resistentes a overfitting

Desvantagens
Sensı́veis à escolha dos parâmetros
Sensı́veis à escolha do Kernel
Nativamente só tratam de classificação binária

Referências
1 Russell, S.; Norvig P. (2010): Artificial Intelligence: A Modern Approach.
Prentice Hall. 2a e 3a ed.
2 Harrington, P. (2012): Machine Learning in Action. Manning.
3 Lorena, A.C.; Carvalho A.C.P.L.F. (2007): Uma Introdução às Support
Vector Machines. RITA, 14(2).
4 Haykin, S. (2009): Neural Networks and Learning Machines. Pearson. 3
ed.
5 https://www.analyticsvidhya.com/blog/2017/09/
understaing-support-vector-machine-example-code/

SVM Aula sobre margem máxima

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (7)

Semelhante a SVM Aula sobre margem máxima

Semelhante a SVM Aula sobre margem máxima (6)

Mais de Norton Trevisan Roman

Mais de Norton Trevisan Roman (19)

Último

Último (20)

SVM Aula sobre margem máxima