UnB
1
Tópicos em Aprendizado de Máquinas
(Machine Learning)
Support Vector Machines (SVMs)
Prof. Dr. Carlos Eduardo da Silva Santos
Prof. Dr. Carlos Humberto Llanos
Universidade de Brasília
Faculdade de Tecnologia
Programa de Pós-Graduação em Sistemas Mecatrônicos
UnB
2
Tipos de aprendizagem:
● Supervisionada
● Não supervisionada
● Por reforço
MÁQUINAS DE VETORES DE SUPORTE
Aprendizagem de máquina: é o processo de aprender um conjunto de regras
(associado a um algoritmo) a partir de exemplos (conjunto de treinamento)
UnB
3
Aprendizagem de máquinas - Modelos
Classificação: saídas discretas
Regressão: saídas contínuas
Binário
Multi-classes
MÁQUINAS DE VETORES DE SUPORTE
UnB
UnB
Machine-Learning como um problema
de Indução (a inferência)
v A maioria das grandes descobertas científicas não foi alcançada por dedução, mas por
um procedimento que se assemelha a um salto no vazio, e aqui chamamos de indução.
v A Indução consiste em passar de fatos observáveis, como a queda de uma maçã na
cabeça de um ignorante (ou melhor, a observação das marés), à formulação de uma lei
geral, como a que explica as órbitas de os planetas ao redor das estrelas.
v Como a indução ocorre na cabeça humana ainda é um mistério.
v O filósofo inglês C. D. Broad chamou os problemas lógicos e filosóficos não resolvidos
relacionados à indução de escândalo da filosofia ("o escândalo da indução”).
v Por outro lado, há uma tendência a investigar se a indução tem alguma base científica
que possa ser verificada. Isso é chamado de problema de justificação.
UnB
v Esse problema da indução foi proposto por David Hume no século XVII, no qual ele
levantou a questão de como podemos justificar a inferência indutiva, ou seja, como
podemos passar do observado ao não observado.
v Mas todo esforço nos leva a um raciocínio circular, do tipo: “o que veio primeiro, a
ovo ou galinha”.
v Como isso esgota as possibilidades de justificar a inferência indutiva, devemos
concluir que ela é injustificável. Vale notar que Hume não nega a prevalência ou
importância de tal raciocínio; ele está apenas manifestando sua injustificabilidade.
Machine-Learning como um problema
de Indução
UnB
UnB
8
Problema de Seleção de Parâmetros
Parâmetros de regularização - (C)
Classificadores
Parâmetros do kernel
Regressores
Largura do tubo e-insensitive -
Parâmetros de regularização - (C)
Parâmetros do kernel
ϵ
UnB
UnB
UnB
Overfitting (sobre-ajuste)
UnB
Underfitting (sub-ajuste)
UnB
Classificador Adequado
UnB
14
Aprendizagem de máquinas - Subproblemas
a) Identificação dos dados necessários;
b) Pré-processamento dos dados;
c) Definição do conjunto de treinamento;
d) Seleção do algoritmos de treinamento (SVM/SVRs);
e) Seleção de parâmetros (foco do estudo);
f) Avaliação do modelo obtido com o conjunto de testes.
MÁQUINAS DE VETORES DE SUPORTE
UnB
15
O problema de classificação
O problema de classificação
O problema de classificação
Neste caso trabalhamos num
espaço com 2 dimensões (espaço
bidimensional)
UnB
16
O problema de classificação
Por ser um
classificador binário
(discriminamos entre 2
classes de rótulos),
temos 2n possíveis
configurações de
exemplos.
UnB
17
O problema de classificação
UnB
18
v Seja G o conjunto de funções sinal com fronteira linear, como representado em:
v G : g(x) = sgn (f(x) = sgn (w · x + b)
Ø em que x representa uma entrada m-dimensional, w o vetor de pesos e b o bias
Ø (denominados de parâmetros do modelo).
v Observe que a dimensionalidade de w e de x deve ser a mesma.
v A dimensão VC do conjunto de funções G e dada por:
Ø V (G) = m + 1
Ø em que m é a dimensão do espaço onde x atua.
Dimensão de Vapnik Chervonenkis
(VC)
UnB
19
Dimensão de Vapnik Chervonenkis
(VC)
v Dado um conjunto de funções-sinal 𝐺, sua dimensão VC é definida como o tamanho do maior conjunto de
pontos que pode ser particionado arbitrariamente pelas funções contidas em 𝐺 (Smola et al., 1999b).
v Seja ∆𝐺(𝑆) o número de dicotomias que o algoritmo de aprendizado tem capacidade de induzir sobre 𝑆;
diz-se que 𝑆 é “fragmentado” por 𝐺 se ∆𝐺(𝑆) = 2
|𝑆| (|.| representa a cardinalidade, ou tamanho, de um
conjunto), isto é, se as funções contidas em G são capazes de induzir todas as possíveis dicotomias sobre 𝑆.
v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior conjunto
S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso este valor não
possa ser estimado, N assume o valor ∞.
v O problema anterior tem dimensionalidade igual a 2.
v Podemos resolver um problema de classificação de 𝑁 = 3, o que da 2𝑁 possíveis configurações.
UnB
20
Dimensão de Vapnik Chervonenkis
(VC)
v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior
conjunto S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso
este valor não possa ser estimado, N assume o valor ∞.
v Um alto valor de dimensão VC indica uma grande complexidade das funções de decisão
contidas em G, já que essas se tornam capazes de fragmentar conjuntos de dados também
complexos.
UnB
fF é o melhor classificador
no espaço F
fn é o classificador que
estamos trabalhando
O conceito de família de funções fF
Statistical Learning Theory: Models, Concepts, and Results (Ulrike von Luxburg et al.)
UnB
UnB
23
Problema de Seleção de Parâmetros
Parâmetros de regularização - (C)
Classificadores
Parâmetros do kernel
Regressores
Largura do tubo e-insensitive -
Parâmetros de regularização - (C)
Parâmetros do kernel
ϵ
UnB
24
Risco Esperado num classificador binário
v O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação).
v O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durante o treinamento.
v O termo de Capacidade vai depender da complexidade do modelo obtido.
UnB
v A minimização do limite superior do Risco Esperado é conhecido como minimização do Risco
Estrutural.
v Entretanto, minimizar o Risco Estrutural envolve objetivos contraditórios (risco empírico e termo
de capacidade)
v Quanto menor o Risco Empírico, maior o Termo de Capacidade, e vice-versa.
v Um modelo com risco empírico mínimo para um dado conjunto de treinamento não garante que
este tenha boa capacidade de generalização, esse fenômeno é conhecido como sobreajuste
(overfitting).
v Um modelo sobreajustado perde a capacidade de generalização, pois este assimila, durante o
processo de treinamento, ruídos e informações indesejadas oriundas do conjunto de
treinamento.
v O contrário é chamado de subajuste ou, em inglês, underfitting, ou seja, o risco empírico não
atende às restrições do problema no conjunto de treinamento.
UnB
26
Risco Esperado num classificador binário
O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação)
O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durente o treinamento
O termo de Capacidade vai depender da complexidade do modelo obtido+
UnB
Objetivo: Criar uma máquina a partir do conjunto de teste
com melhor generalização
Como verificar a capacidade de generalização de uma
máquina?
O que é Capacidade de Generalização???
UnB
UnB
29
Risco Esperado num classificador binário
O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação)
O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durente o treinamento
O termo de Capacidade vai depender da complexidade do modelo obtido+
UnB
UnB
UnB
UnB
33
Risco Esperado num classificador binário
O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação)
O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durente o treinamento
O termo de Capacidade vai depender da complexidade do modelo obtido+
UnB
UnB
v A variável h na equação é a dimensão de VC, sendo relacionada com a complexidade
da SVM e, consequentemente, com sua capacidade de classificação.
v A parcela que soma ao Risco Empírico na equação é denominada de Termo de
Capacidade (ou Risco Estrutural)
UnB
36
Risco Esperado num classificador binário
O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação)
O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durente o treinamento
O termo de Capacidade vai depender da complexidade do modelo obtido+
UnB
37
Support Vector Machine (SVM)
(Lima, 2004)
MÁQUINAS DE VETORES DE SUPORTE
As SVMs buscam minimizar simultaneamente o risco empírico e o termo de capacidade.
UnB
38
Definição
MÁQUINAS DE VETORES DE SUPORTE
H1
H2
UnB
𝒘. 𝒙 + 𝑏 = 1
)
𝒘. 𝒙 + 𝑏 ≥ +1 𝑠𝑒 𝑦! = +1
𝒘. 𝒙 + 𝑏 ≤ −1 𝑠𝑒 𝑦! = −1
𝑦!× 𝒘. 𝒙 + 𝑏 ≥ 0,
𝐻": 𝒘. 𝒙 + 𝑏 = +1,
𝐻#: 𝒘. 𝒙 + 𝑏 = −1,
𝑑 𝑂, 𝐻" =
𝑏 − 1
𝒘
𝑑 𝑂, 𝐻# =
𝑏 + 1
𝒘
Modelando o Problema
UnB
𝑃: 𝐴𝑥 + 𝐵𝑦 + 𝐶𝑧 = 𝐷
𝑃: 𝐴𝑥 + 𝐵𝑦 + 𝐶𝑧 − 𝐷 = 0
𝑤 = 𝐴 ̂
𝚤 + 𝐵 ̂
𝚥 + 𝐶B
𝑘
𝑠𝑒𝑗𝑎 𝑢𝑚 𝑝𝑜𝑛𝑡𝑜 𝑞 = (𝑥$, 𝑦$, 𝑧$)
Calcular a distância d entre q: (𝑥$, 𝑦$, 𝑧$) e P
𝑑 =
𝐴𝑥$ + 𝐵𝑦$ + 𝐶𝑧$ − 𝐷
𝐴# + 𝐵# + 𝐶#
Distância entre um ponto e um
plano em 3D
w
UnB
Calculando a distância entre os 2 planos
v Lembrar que os 2 planos são paralelos
H2)
UnB
v Esta equação representa a restrição do problema de treinamento e garante que não haja
erro empírico na classificação.
v 𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0
v A distância entre H1 e H2 é dada pela equação
𝑑 𝐻", 𝐻# =
2
𝑤
Trata-se de maximizar a distância entre H1 e H2
UnB
v Maximizar a distância entre as duas margens (H1 e H2) gera um problema de otimização primal
nas variáveis w e b.
𝑀𝑖𝑛
1
2
𝑤 #,
𝑠𝑎
𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0 i = 1, … N
onde N é cardinalidade do conjunto de treinamento.
𝑑 𝐻", 𝐻# =
2
𝑤
Nota: isto representa um problema de otimização quadrática, cuja
solução é bem conhecida na área de Otimização
UnB
Este problema é simplificado eliminando as restrições originais do problema e acrescentando
as variáveis de Lagrange, obtendo o problema de otimização
UnB
O problema de otimização
(maximizar/minimizar uma função custo)
UnB
A solução ao problema de
Otimização Quadrática
UnB
A solução ao problema de
Otimização Quadrática (problema Primal)
UnB
A solução ao problema de
Otimização Quadrática (os pontos críticos)
UnB
Fazendo manipulação algébricas e substituindo os resultados obtidos chega-se ao
problema de minimização:
UnB
v Para simplificar o modelo de treinamento, empregamse os multiplicadores de
Lagrange e o teorema de Karush-Kuhn-Tucker - KKT para transformar o problema
primal no seu correspondente dual (GRIVA; NASH; SOFER, 2008).
v Segundo o teorema da dualidade fraca, os dois problemas têm a mesma solução ótima
e, nesse caso, o problema dual possui conceitos que permitem a sua generalização para
conjuntos com dados não linearmente separáveis.
v O Problema de Otimização é conhecido como dual de Wolf, nas variáveis αi.
Condições de KKT
UnB Condições de KKT
UnB Condições de KKT
UnB
O Problema Dual de Wolfe
A função Ld é quadrática restrita a uma equação linear, convexa, sendo que essa
característica é condição necessária e suficiente (segundo o teorema de KKT) para
solução ótima única. Essa característica garante que o classificador obtido por este
método seja o melhor global, dado um conjunto de treinamento e os parâmetros do
modelo (Griva, Nash e Sofer 2009).
UnB
UnB
UnB
Os vetores de Suporte são os pares (xi, yi)
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
Parâmetro de Regularização
UnB
v C é denominado de Coeficiente ou Parâmetro de Regularização
v O parâmetro de regularização (C) deve ser determinado pelo projetista da máquina a priori, sendo
que a escolha correta do valor deste parâmetro determina o compromisso que uma SVM possui entre
sua complexidade e a capacidade de generalização.
v Caso o valor de C tenda ao infinito a SVM obtida se aproxima do modelo de margens rígidas,
valorizando dados muito específicos ou até mesmo ruídos e outliers, comuns em dados reais.
v Por outro lado, se o valor de C tende a zero a SVM permitirá tantos erros que não será capaz de
classificar os dados assim possuindo baixa capacidade de generalização.
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnBSVMs de Margens Suaves (KKT)
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB
SVMs de Margens Suaves
UnB O Modelo para Margens Suaves
UnB
UnB
UnB O que problema de otimização que
temos até agora
UnB
Inserindo um Kernel no Modelo da
SVM
UnB
Inserindo um Kernel no Modelo da
SVM
UnB
UnB
UnB
78
Kernel trick
MÁQUINAS DE VETORES DE SUPORTE
UnB
UnB
UnB
81
Kernel trick
MÁQUINAS DE VETORES DE SUPORTE
UnB
O que o Teorema define: O modelo, representado na Equação acima será convexo se,
somente se, a matriz K satisfaz o Teorema de Mercer, ou seja, a matriz K deve ser
semidefinida positiva e simétrica. Um kernel que não satisfaz essas condições produz
um modelo com mínimos locais, tornando o processo de treinamento extremante
complexo
UnB
UnB
84
Problema de otimização - Classificador
MÁQUINAS DE VETORES DE SUPORTE
v O problema Ld é convexo e, portanto, possui solução ótima única garantida
pelo teorema de KKT.
em que αi são os multiplicadores de Lagrange, ou seja, as variáveis do problema de
otimização, x e y são os vetores característicos e os rótulos de X respectivamente.
UnB Problema de otimização - SVR
UnB
86
Problema de otimização - SVR
Hiperparâmetros
UnB Problema de otimização - SVR
UnB
88
Modelo SVM
Modelo SVR
MÁQUINAS DE VETORES DE SUPORTE

Apresentacao-Llanos-8.pdf

  • 1.
    UnB 1 Tópicos em Aprendizadode Máquinas (Machine Learning) Support Vector Machines (SVMs) Prof. Dr. Carlos Eduardo da Silva Santos Prof. Dr. Carlos Humberto Llanos Universidade de Brasília Faculdade de Tecnologia Programa de Pós-Graduação em Sistemas Mecatrônicos
  • 2.
    UnB 2 Tipos de aprendizagem: ●Supervisionada ● Não supervisionada ● Por reforço MÁQUINAS DE VETORES DE SUPORTE Aprendizagem de máquina: é o processo de aprender um conjunto de regras (associado a um algoritmo) a partir de exemplos (conjunto de treinamento)
  • 3.
    UnB 3 Aprendizagem de máquinas- Modelos Classificação: saídas discretas Regressão: saídas contínuas Binário Multi-classes MÁQUINAS DE VETORES DE SUPORTE
  • 4.
  • 5.
    UnB Machine-Learning como umproblema de Indução (a inferência) v A maioria das grandes descobertas científicas não foi alcançada por dedução, mas por um procedimento que se assemelha a um salto no vazio, e aqui chamamos de indução. v A Indução consiste em passar de fatos observáveis, como a queda de uma maçã na cabeça de um ignorante (ou melhor, a observação das marés), à formulação de uma lei geral, como a que explica as órbitas de os planetas ao redor das estrelas. v Como a indução ocorre na cabeça humana ainda é um mistério. v O filósofo inglês C. D. Broad chamou os problemas lógicos e filosóficos não resolvidos relacionados à indução de escândalo da filosofia ("o escândalo da indução”). v Por outro lado, há uma tendência a investigar se a indução tem alguma base científica que possa ser verificada. Isso é chamado de problema de justificação.
  • 6.
    UnB v Esse problemada indução foi proposto por David Hume no século XVII, no qual ele levantou a questão de como podemos justificar a inferência indutiva, ou seja, como podemos passar do observado ao não observado. v Mas todo esforço nos leva a um raciocínio circular, do tipo: “o que veio primeiro, a ovo ou galinha”. v Como isso esgota as possibilidades de justificar a inferência indutiva, devemos concluir que ela é injustificável. Vale notar que Hume não nega a prevalência ou importância de tal raciocínio; ele está apenas manifestando sua injustificabilidade. Machine-Learning como um problema de Indução
  • 7.
  • 8.
    UnB 8 Problema de Seleçãode Parâmetros Parâmetros de regularização - (C) Classificadores Parâmetros do kernel Regressores Largura do tubo e-insensitive - Parâmetros de regularização - (C) Parâmetros do kernel ϵ
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
    UnB 14 Aprendizagem de máquinas- Subproblemas a) Identificação dos dados necessários; b) Pré-processamento dos dados; c) Definição do conjunto de treinamento; d) Seleção do algoritmos de treinamento (SVM/SVRs); e) Seleção de parâmetros (foco do estudo); f) Avaliação do modelo obtido com o conjunto de testes. MÁQUINAS DE VETORES DE SUPORTE
  • 15.
    UnB 15 O problema declassificação O problema de classificação O problema de classificação Neste caso trabalhamos num espaço com 2 dimensões (espaço bidimensional)
  • 16.
    UnB 16 O problema declassificação Por ser um classificador binário (discriminamos entre 2 classes de rótulos), temos 2n possíveis configurações de exemplos.
  • 17.
    UnB 17 O problema declassificação
  • 18.
    UnB 18 v Seja Go conjunto de funções sinal com fronteira linear, como representado em: v G : g(x) = sgn (f(x) = sgn (w · x + b) Ø em que x representa uma entrada m-dimensional, w o vetor de pesos e b o bias Ø (denominados de parâmetros do modelo). v Observe que a dimensionalidade de w e de x deve ser a mesma. v A dimensão VC do conjunto de funções G e dada por: Ø V (G) = m + 1 Ø em que m é a dimensão do espaço onde x atua. Dimensão de Vapnik Chervonenkis (VC)
  • 19.
    UnB 19 Dimensão de VapnikChervonenkis (VC) v Dado um conjunto de funções-sinal 𝐺, sua dimensão VC é definida como o tamanho do maior conjunto de pontos que pode ser particionado arbitrariamente pelas funções contidas em 𝐺 (Smola et al., 1999b). v Seja ∆𝐺(𝑆) o número de dicotomias que o algoritmo de aprendizado tem capacidade de induzir sobre 𝑆; diz-se que 𝑆 é “fragmentado” por 𝐺 se ∆𝐺(𝑆) = 2 |𝑆| (|.| representa a cardinalidade, ou tamanho, de um conjunto), isto é, se as funções contidas em G são capazes de induzir todas as possíveis dicotomias sobre 𝑆. v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior conjunto S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso este valor não possa ser estimado, N assume o valor ∞. v O problema anterior tem dimensionalidade igual a 2. v Podemos resolver um problema de classificação de 𝑁 = 3, o que da 2𝑁 possíveis configurações.
  • 20.
    UnB 20 Dimensão de VapnikChervonenkis (VC) v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior conjunto S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso este valor não possa ser estimado, N assume o valor ∞. v Um alto valor de dimensão VC indica uma grande complexidade das funções de decisão contidas em G, já que essas se tornam capazes de fragmentar conjuntos de dados também complexos.
  • 21.
    UnB fF é omelhor classificador no espaço F fn é o classificador que estamos trabalhando O conceito de família de funções fF Statistical Learning Theory: Models, Concepts, and Results (Ulrike von Luxburg et al.)
  • 22.
  • 23.
    UnB 23 Problema de Seleçãode Parâmetros Parâmetros de regularização - (C) Classificadores Parâmetros do kernel Regressores Largura do tubo e-insensitive - Parâmetros de regularização - (C) Parâmetros do kernel ϵ
  • 24.
    UnB 24 Risco Esperado numclassificador binário v O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação). v O Risco Esperado é calculado durante a validação, usando um conjunto de exemplos não tuilizado durante o treinamento. v O termo de Capacidade vai depender da complexidade do modelo obtido.
  • 25.
    UnB v A minimizaçãodo limite superior do Risco Esperado é conhecido como minimização do Risco Estrutural. v Entretanto, minimizar o Risco Estrutural envolve objetivos contraditórios (risco empírico e termo de capacidade) v Quanto menor o Risco Empírico, maior o Termo de Capacidade, e vice-versa. v Um modelo com risco empírico mínimo para um dado conjunto de treinamento não garante que este tenha boa capacidade de generalização, esse fenômeno é conhecido como sobreajuste (overfitting). v Um modelo sobreajustado perde a capacidade de generalização, pois este assimila, durante o processo de treinamento, ruídos e informações indesejadas oriundas do conjunto de treinamento. v O contrário é chamado de subajuste ou, em inglês, underfitting, ou seja, o risco empírico não atende às restrições do problema no conjunto de treinamento.
  • 26.
    UnB 26 Risco Esperado numclassificador binário O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação) O Risco Esperado é calculado durante a validação, usando um conjunto de exemplos não tuilizado durente o treinamento O termo de Capacidade vai depender da complexidade do modelo obtido+
  • 27.
    UnB Objetivo: Criar umamáquina a partir do conjunto de teste com melhor generalização Como verificar a capacidade de generalização de uma máquina? O que é Capacidade de Generalização???
  • 28.
  • 29.
    UnB 29 Risco Esperado numclassificador binário O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação) O Risco Esperado é calculado durante a validação, usando um conjunto de exemplos não tuilizado durente o treinamento O termo de Capacidade vai depender da complexidade do modelo obtido+
  • 30.
  • 31.
  • 32.
  • 33.
    UnB 33 Risco Esperado numclassificador binário O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação) O Risco Esperado é calculado durante a validação, usando um conjunto de exemplos não tuilizado durente o treinamento O termo de Capacidade vai depender da complexidade do modelo obtido+
  • 34.
  • 35.
    UnB v A variávelh na equação é a dimensão de VC, sendo relacionada com a complexidade da SVM e, consequentemente, com sua capacidade de classificação. v A parcela que soma ao Risco Empírico na equação é denominada de Termo de Capacidade (ou Risco Estrutural)
  • 36.
    UnB 36 Risco Esperado numclassificador binário O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação) O Risco Esperado é calculado durante a validação, usando um conjunto de exemplos não tuilizado durente o treinamento O termo de Capacidade vai depender da complexidade do modelo obtido+
  • 37.
    UnB 37 Support Vector Machine(SVM) (Lima, 2004) MÁQUINAS DE VETORES DE SUPORTE As SVMs buscam minimizar simultaneamente o risco empírico e o termo de capacidade.
  • 38.
  • 39.
    UnB 𝒘. 𝒙 +𝑏 = 1 ) 𝒘. 𝒙 + 𝑏 ≥ +1 𝑠𝑒 𝑦! = +1 𝒘. 𝒙 + 𝑏 ≤ −1 𝑠𝑒 𝑦! = −1 𝑦!× 𝒘. 𝒙 + 𝑏 ≥ 0, 𝐻": 𝒘. 𝒙 + 𝑏 = +1, 𝐻#: 𝒘. 𝒙 + 𝑏 = −1, 𝑑 𝑂, 𝐻" = 𝑏 − 1 𝒘 𝑑 𝑂, 𝐻# = 𝑏 + 1 𝒘 Modelando o Problema
  • 40.
    UnB 𝑃: 𝐴𝑥 +𝐵𝑦 + 𝐶𝑧 = 𝐷 𝑃: 𝐴𝑥 + 𝐵𝑦 + 𝐶𝑧 − 𝐷 = 0 𝑤 = 𝐴 ̂ 𝚤 + 𝐵 ̂ 𝚥 + 𝐶B 𝑘 𝑠𝑒𝑗𝑎 𝑢𝑚 𝑝𝑜𝑛𝑡𝑜 𝑞 = (𝑥$, 𝑦$, 𝑧$) Calcular a distância d entre q: (𝑥$, 𝑦$, 𝑧$) e P 𝑑 = 𝐴𝑥$ + 𝐵𝑦$ + 𝐶𝑧$ − 𝐷 𝐴# + 𝐵# + 𝐶# Distância entre um ponto e um plano em 3D w
  • 41.
    UnB Calculando a distânciaentre os 2 planos v Lembrar que os 2 planos são paralelos H2)
  • 42.
    UnB v Esta equaçãorepresenta a restrição do problema de treinamento e garante que não haja erro empírico na classificação. v 𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0 v A distância entre H1 e H2 é dada pela equação 𝑑 𝐻", 𝐻# = 2 𝑤 Trata-se de maximizar a distância entre H1 e H2
  • 43.
    UnB v Maximizar adistância entre as duas margens (H1 e H2) gera um problema de otimização primal nas variáveis w e b. 𝑀𝑖𝑛 1 2 𝑤 #, 𝑠𝑎 𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0 i = 1, … N onde N é cardinalidade do conjunto de treinamento. 𝑑 𝐻", 𝐻# = 2 𝑤 Nota: isto representa um problema de otimização quadrática, cuja solução é bem conhecida na área de Otimização
  • 44.
    UnB Este problema ésimplificado eliminando as restrições originais do problema e acrescentando as variáveis de Lagrange, obtendo o problema de otimização
  • 45.
    UnB O problema deotimização (maximizar/minimizar uma função custo)
  • 46.
    UnB A solução aoproblema de Otimização Quadrática
  • 47.
    UnB A solução aoproblema de Otimização Quadrática (problema Primal)
  • 48.
    UnB A solução aoproblema de Otimização Quadrática (os pontos críticos)
  • 49.
    UnB Fazendo manipulação algébricase substituindo os resultados obtidos chega-se ao problema de minimização:
  • 50.
    UnB v Para simplificaro modelo de treinamento, empregamse os multiplicadores de Lagrange e o teorema de Karush-Kuhn-Tucker - KKT para transformar o problema primal no seu correspondente dual (GRIVA; NASH; SOFER, 2008). v Segundo o teorema da dualidade fraca, os dois problemas têm a mesma solução ótima e, nesse caso, o problema dual possui conceitos que permitem a sua generalização para conjuntos com dados não linearmente separáveis. v O Problema de Otimização é conhecido como dual de Wolf, nas variáveis αi. Condições de KKT
  • 51.
  • 52.
  • 53.
    UnB O Problema Dualde Wolfe A função Ld é quadrática restrita a uma equação linear, convexa, sendo que essa característica é condição necessária e suficiente (segundo o teorema de KKT) para solução ótima única. Essa característica garante que o classificador obtido por este método seja o melhor global, dado um conjunto de treinamento e os parâmetros do modelo (Griva, Nash e Sofer 2009).
  • 54.
  • 55.
  • 56.
    UnB Os vetores deSuporte são os pares (xi, yi)
  • 57.
  • 58.
  • 59.
  • 60.
    UnB SVMs de MargensSuaves Parâmetro de Regularização
  • 61.
    UnB v C édenominado de Coeficiente ou Parâmetro de Regularização v O parâmetro de regularização (C) deve ser determinado pelo projetista da máquina a priori, sendo que a escolha correta do valor deste parâmetro determina o compromisso que uma SVM possui entre sua complexidade e a capacidade de generalização. v Caso o valor de C tenda ao infinito a SVM obtida se aproxima do modelo de margens rígidas, valorizando dados muito específicos ou até mesmo ruídos e outliers, comuns em dados reais. v Por outro lado, se o valor de C tende a zero a SVM permitirá tantos erros que não será capaz de classificar os dados assim possuindo baixa capacidade de generalização. SVMs de Margens Suaves
  • 62.
  • 63.
  • 64.
  • 65.
    UnBSVMs de MargensSuaves (KKT)
  • 66.
  • 67.
  • 68.
  • 69.
  • 70.
    UnB O Modelopara Margens Suaves
  • 71.
  • 72.
  • 73.
    UnB O queproblema de otimização que temos até agora
  • 74.
    UnB Inserindo um Kernelno Modelo da SVM
  • 75.
    UnB Inserindo um Kernelno Modelo da SVM
  • 76.
  • 77.
  • 78.
  • 79.
  • 80.
  • 81.
  • 82.
    UnB O que oTeorema define: O modelo, representado na Equação acima será convexo se, somente se, a matriz K satisfaz o Teorema de Mercer, ou seja, a matriz K deve ser semidefinida positiva e simétrica. Um kernel que não satisfaz essas condições produz um modelo com mínimos locais, tornando o processo de treinamento extremante complexo
  • 83.
  • 84.
    UnB 84 Problema de otimização- Classificador MÁQUINAS DE VETORES DE SUPORTE v O problema Ld é convexo e, portanto, possui solução ótima única garantida pelo teorema de KKT. em que αi são os multiplicadores de Lagrange, ou seja, as variáveis do problema de otimização, x e y são os vetores característicos e os rótulos de X respectivamente.
  • 85.
    UnB Problema deotimização - SVR
  • 86.
    UnB 86 Problema de otimização- SVR Hiperparâmetros
  • 87.
    UnB Problema deotimização - SVR
  • 88.