Apresentacao-Llanos-8.pdf

UnB
1
Tópicos em Aprendizado de Máquinas
(Machine Learning)
Support Vector Machines (SVMs)
Prof. Dr. Carlos Eduardo da Silva Santos
Prof. Dr. Carlos Humberto Llanos
Universidade de Brasília
Faculdade de Tecnologia
Programa de Pós-Graduação em Sistemas Mecatrônicos

UnB
2
Tipos de aprendizagem:
● Supervisionada
● Não supervisionada
● Por reforço
MÁQUINAS DE VETORES DE SUPORTE
Aprendizagem de máquina: é o processo de aprender um conjunto de regras
(associado a um algoritmo) a partir de exemplos (conjunto de treinamento)

UnB
3
Aprendizagem de máquinas - Modelos
Classificação: saídas discretas
Regressão: saídas contínuas
Binário
Multi-classes

UnB
Machine-Learning como um problema
de Indução (a inferência)
v A maioria das grandes descobertas científicas não foi alcançada por dedução, mas por
um procedimento que se assemelha a um salto no vazio, e aqui chamamos de indução.
v A Indução consiste em passar de fatos observáveis, como a queda de uma maçã na
cabeça de um ignorante (ou melhor, a observação das marés), à formulação de uma lei
geral, como a que explica as órbitas de os planetas ao redor das estrelas.
v Como a indução ocorre na cabeça humana ainda é um mistério.
v O filósofo inglês C. D. Broad chamou os problemas lógicos e filosóficos não resolvidos
relacionados à indução de escândalo da filosofia ("o escândalo da indução”).
v Por outro lado, há uma tendência a investigar se a indução tem alguma base científica
que possa ser verificada. Isso é chamado de problema de justificação.

UnB
v Esse problema da indução foi proposto por David Hume no século XVII, no qual ele
levantou a questão de como podemos justificar a inferência indutiva, ou seja, como
podemos passar do observado ao não observado.
v Mas todo esforço nos leva a um raciocínio circular, do tipo: “o que veio primeiro, a
ovo ou galinha”.
v Como isso esgota as possibilidades de justificar a inferência indutiva, devemos
concluir que ela é injustificável. Vale notar que Hume não nega a prevalência ou
importância de tal raciocínio; ele está apenas manifestando sua injustificabilidade.
Machine-Learning como um problema
de Indução

UnB
8
Problema de Seleção de Parâmetros
Parâmetros de regularização - (C)
Classificadores
Parâmetros do kernel
Regressores
Largura do tubo e-insensitive -
ϵ

UnB
Overfitting (sobre-ajuste)

UnB
14
Aprendizagem de máquinas - Subproblemas
a) Identificação dos dados necessários;
b) Pré-processamento dos dados;
c) Definição do conjunto de treinamento;
d) Seleção do algoritmos de treinamento (SVM/SVRs);
e) Seleção de parâmetros (foco do estudo);
f) Avaliação do modelo obtido com o conjunto de testes.

UnB
15
O problema de classificação
Neste caso trabalhamos num
espaço com 2 dimensões (espaço
bidimensional)

UnB
16
Por ser um
classificador binário
(discriminamos entre 2
classes de rótulos),
temos 2n possíveis
configurações de
exemplos.

UnB
17

UnB
18
v Seja G o conjunto de funções sinal com fronteira linear, como representado em:
v G : g(x) = sgn (f(x) = sgn (w · x + b)
Ø em que x representa uma entrada m-dimensional, w o vetor de pesos e b o bias
Ø (denominados de parâmetros do modelo).
v Observe que a dimensionalidade de w e de x deve ser a mesma.
v A dimensão VC do conjunto de funções G e dada por:
Ø V (G) = m + 1
Ø em que m é a dimensão do espaço onde x atua.
Dimensão de Vapnik Chervonenkis
(VC)

UnB
19
(VC)
v Dado um conjunto de funções-sinal 𝐺, sua dimensão VC é definida como o tamanho do maior conjunto de
pontos que pode ser particionado arbitrariamente pelas funções contidas em 𝐺 (Smola et al., 1999b).
v Seja ∆𝐺(𝑆) o número de dicotomias que o algoritmo de aprendizado tem capacidade de induzir sobre 𝑆;
diz-se que 𝑆 é “fragmentado” por 𝐺 se ∆𝐺(𝑆) = 2
|𝑆| (|.| representa a cardinalidade, ou tamanho, de um
conjunto), isto é, se as funções contidas em G são capazes de induzir todas as possíveis dicotomias sobre 𝑆.
v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior conjunto
S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso este valor não
possa ser estimado, N assume o valor ∞.
v O problema anterior tem dimensionalidade igual a 2.
v Podemos resolver um problema de classificação de 𝑁 = 3, o que da 2𝑁 possíveis configurações.

UnB
20
(VC)
v A dimensão VC de um conjunto de dicotomias 𝐺 é então definida como a cardinalidade do maior
conjunto S que é fragmentado por 𝐺, ou seja, o maior 𝑁 tal que ∆𝐺(𝑆) = 2𝑁, em que 𝑁 = |𝑆|. Caso
este valor não possa ser estimado, N assume o valor ∞.
v Um alto valor de dimensão VC indica uma grande complexidade das funções de decisão
contidas em G, já que essas se tornam capazes de fragmentar conjuntos de dados também
complexos.

UnB
fF é o melhor classificador
no espaço F
fn é o classificador que
estamos trabalhando
O conceito de família de funções fF
Statistical Learning Theory: Models, Concepts, and Results (Ulrike von Luxburg et al.)

UnB
23
Problema de Seleção de Parâmetros
Classificadores
Regressores
Largura do tubo e-insensitive -
ϵ

UnB
24
Risco Esperado num classificador binário
v O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação).
v O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durante o treinamento.
v O termo de Capacidade vai depender da complexidade do modelo obtido.

UnB
v A minimização do limite superior do Risco Esperado é conhecido como minimização do Risco
Estrutural.
v Entretanto, minimizar o Risco Estrutural envolve objetivos contraditórios (risco empírico e termo
de capacidade)
v Quanto menor o Risco Empírico, maior o Termo de Capacidade, e vice-versa.
v Um modelo com risco empírico mínimo para um dado conjunto de treinamento não garante que
este tenha boa capacidade de generalização, esse fenômeno é conhecido como sobreajuste
(overfitting).
v Um modelo sobreajustado perde a capacidade de generalização, pois este assimila, durante o
processo de treinamento, ruídos e informações indesejadas oriundas do conjunto de
treinamento.
v O contrário é chamado de subajuste ou, em inglês, underfitting, ou seja, o risco empírico não
atende às restrições do problema no conjunto de treinamento.

UnB
26
O Risco Empírico pode ser medido durante o treinamento (é um risco de estimação)
O Risco Esperado é calculado durante a validação, usando um conjunto de
exemplos não tuilizado durente o treinamento
O termo de Capacidade vai depender da complexidade do modelo obtido+

UnB
Objetivo: Criar uma máquina a partir do conjunto de teste
com melhor generalização
Como verificar a capacidade de generalização de uma
máquina?
O que é Capacidade de Generalização???

UnB
29

UnB
33

UnB
v A variável h na equação é a dimensão de VC, sendo relacionada com a complexidade
da SVM e, consequentemente, com sua capacidade de classificação.
v A parcela que soma ao Risco Empírico na equação é denominada de Termo de
Capacidade (ou Risco Estrutural)

UnB
36

UnB
37
Support Vector Machine (SVM)
(Lima, 2004)
As SVMs buscam minimizar simultaneamente o risco empírico e o termo de capacidade.

UnB
38
Definição
H1
H2

UnB
𝒘. 𝒙 + 𝑏 = 1
)
𝒘. 𝒙 + 𝑏 ≥ +1 𝑠𝑒 𝑦! = +1
𝒘. 𝒙 + 𝑏 ≤ −1 𝑠𝑒 𝑦! = −1
𝑦!× 𝒘. 𝒙 + 𝑏 ≥ 0,
𝐻": 𝒘. 𝒙 + 𝑏 = +1,
𝐻#: 𝒘. 𝒙 + 𝑏 = −1,
𝑑 𝑂, 𝐻" =
𝑏 − 1
𝒘
𝑑 𝑂, 𝐻# =
𝑏 + 1
𝒘
Modelando o Problema

UnB
𝑃: 𝐴𝑥 + 𝐵𝑦 + 𝐶𝑧 = 𝐷
𝑃: 𝐴𝑥 + 𝐵𝑦 + 𝐶𝑧 − 𝐷 = 0
𝑤 = 𝐴 ̂
𝚤 + 𝐵 ̂
𝚥 + 𝐶B
𝑘
𝑠𝑒𝑗𝑎 𝑢𝑚 𝑝𝑜𝑛𝑡𝑜 𝑞 = (𝑥$, 𝑦$, 𝑧$)
Calcular a distância d entre q: (𝑥$, 𝑦$, 𝑧$) e P
𝑑 =
𝐴𝑥$ + 𝐵𝑦$ + 𝐶𝑧$ − 𝐷
𝐴# + 𝐵# + 𝐶#
Distância entre um ponto e um
plano em 3D
w

UnB
Calculando a distância entre os 2 planos
v Lembrar que os 2 planos são paralelos
H2)

UnB
v Esta equação representa a restrição do problema de treinamento e garante que não haja
erro empírico na classificação.
v 𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0
v A distância entre H1 e H2 é dada pela equação
𝑑 𝐻", 𝐻# =
2
𝑤
Trata-se de maximizar a distância entre H1 e H2

UnB
v Maximizar a distância entre as duas margens (H1 e H2) gera um problema de otimização primal
nas variáveis w e b.
𝑀𝑖𝑛
1
2
𝑤 #,
𝑠𝑎
𝑦!× 𝑤 O 𝑥! + 𝑏 − 1 ≥ 0 i = 1, … N
onde N é cardinalidade do conjunto de treinamento.
𝑑 𝐻", 𝐻# =
2
𝑤
Nota: isto representa um problema de otimização quadrática, cuja
solução é bem conhecida na área de Otimização

UnB
Este problema é simplificado eliminando as restrições originais do problema e acrescentando
as variáveis de Lagrange, obtendo o problema de otimização

UnB
O problema de otimização
(maximizar/minimizar uma função custo)

UnB
A solução ao problema de
Otimização Quadrática

UnB
Otimização Quadrática (problema Primal)

UnB
Otimização Quadrática (os pontos críticos)

UnB
Fazendo manipulação algébricas e substituindo os resultados obtidos chega-se ao
problema de minimização:

UnB
v Para simplificar o modelo de treinamento, empregamse os multiplicadores de
Lagrange e o teorema de Karush-Kuhn-Tucker - KKT para transformar o problema
primal no seu correspondente dual (GRIVA; NASH; SOFER, 2008).
v Segundo o teorema da dualidade fraca, os dois problemas têm a mesma solução ótima
e, nesse caso, o problema dual possui conceitos que permitem a sua generalização para
conjuntos com dados não linearmente separáveis.
v O Problema de Otimização é conhecido como dual de Wolf, nas variáveis αi.
Condições de KKT

UnB
O Problema Dual de Wolfe
A função Ld é quadrática restrita a uma equação linear, convexa, sendo que essa
característica é condição necessária e suficiente (segundo o teorema de KKT) para
solução ótima única. Essa característica garante que o classificador obtido por este
método seja o melhor global, dado um conjunto de treinamento e os parâmetros do
modelo (Griva, Nash e Sofer 2009).

UnB
Os vetores de Suporte são os pares (xi, yi)

UnB
SVMs de Margens Suaves
Parâmetro de Regularização

UnB
v C é denominado de Coeficiente ou Parâmetro de Regularização
v O parâmetro de regularização (C) deve ser determinado pelo projetista da máquina a priori, sendo
que a escolha correta do valor deste parâmetro determina o compromisso que uma SVM possui entre
sua complexidade e a capacidade de generalização.
v Caso o valor de C tenda ao infinito a SVM obtida se aproxima do modelo de margens rígidas,
valorizando dados muito específicos ou até mesmo ruídos e outliers, comuns em dados reais.
v Por outro lado, se o valor de C tende a zero a SVM permitirá tantos erros que não será capaz de
classificar os dados assim possuindo baixa capacidade de generalização.
SVMs de Margens Suaves

UnBSVMs de Margens Suaves (KKT)

UnB O Modelo para Margens Suaves

UnB O que problema de otimização que
temos até agora

UnB
Inserindo um Kernel no Modelo da
SVM

UnB
78
Kernel trick

UnB
81
Kernel trick

UnB
O que o Teorema define: O modelo, representado na Equação acima será convexo se,
somente se, a matriz K satisfaz o Teorema de Mercer, ou seja, a matriz K deve ser
semidefinida positiva e simétrica. Um kernel que não satisfaz essas condições produz
um modelo com mínimos locais, tornando o processo de treinamento extremante
complexo

UnB
84
Problema de otimização - Classificador
v O problema Ld é convexo e, portanto, possui solução ótima única garantida
pelo teorema de KKT.
em que αi são os multiplicadores de Lagrange, ou seja, as variáveis do problema de
otimização, x e y são os vetores característicos e os rótulos de X respectivamente.

UnB Problema de otimização - SVR

UnB
86
Problema de otimização - SVR
Hiperparâmetros

UnB
88
Modelo SVM
Modelo SVR

Apresentacao-Llanos-8.pdf

Mais conteúdo relacionado

Semelhante a Apresentacao-Llanos-8.pdf

Apresentacao-Llanos-8.pdf