Este documento apresenta uma introdução ao aprendizado de máquina, definindo o conceito, distinguindo-o de inteligência artificial e apresentando alguns tipos e aplicações. Explica os conceitos de aprendizado supervisionado, não-supervisionado e por reforço, além de apresentar exemplos de regressão e classificação no aprendizado supervisionado.
2. Definindo o Aprendizado de Máquina
Refere-se ao processo pelo qual os
computadores desenvolvem o
reconhecimento de padrões ou a capacidade
de aprender continuamente com os dados,
ou fazer previsões neles baseadas e, então,
fazer ajustes sem serem especificamente
programados para isso.
4. Aplicações de ML
• Jogos
• Detecção de fraudes
• Análise estatísticas da bolsa de valores
• Sistemas de recomendação (Ex. Netflix e Spotify
• Sistemas que encontram todos os artigos de notícias similares
• Categorizar páginas de Web automaticamente
• Marcar mensagens de e-mail como spam
• Realizar predições de preços de produtos, estoques, etc
6. Aprendizado Supervisionado
• É dado um conjunto de dados rotulados que já
sabemos qual é a nossa saída correta e que deve
ser semelhante ao conjunto, tendo a ideia de que
existe uma relação entre a entrada e a saída
• Queremos prever uma variável “y” que depende
de outras variáveis “X”. Esperamos que após
apresentarmos vários exemplos dos pares (X,y)
seja possível prever o valor de “y” a partir de “X"
7. Aprendizado Não-Supervisionado
• Nos permite abordar problemas com pouca ou
nenhuma idéia do que nossos resultados deve ser
aparentar. Podemos derivar estrutura de dados
onde nós não necessariamente saberíamos o
efeito das variáveis.
• Com aprendizagem não supervisionada não há
feedback com base nos resultados da previsão, ou
seja, não há professor para corrigi-la.
8. Aprendizado por Reforço
• A terceira abordagem de aprendizagem de máquinas é a chamada
“aprendizagem por reforço”, em que a máquina tenta aprender qual é a melhor
ação a ser tomada, dependendo das circunstâncias na qual essa ação será
executada
• Essa ideia deriva da psicologia, no qual uma recompensa ou punição é dada a
um agente, dependendo da decisão tomada; com o tempo e a repetição dos
experimentos, espera-se que o agente consiga associar as ações que geram
maior recompensa para cada situação que o ambiente apresenta, e passe a
evitar as ações que geram punição ou recompensa menor.
9. Aprendizado Supervisionado - Aplicações
• Regressão, estamos tentando prever os resultados
em uma saída contínua, o que significa que
estamos a tentando mapear variáveis de entrada
para alguma função contínua
• Classificação: estamos tentando prever os
resultados em uma saída discreta. Em outras
palavras, estamos tentando mapear variáveis de
entrada em categorias distintas
10. Regressão VS Classificação
• Regressão: Dada uma imagem de homem/
mulher, temos de prever sua idade com
base em dados da imagem
• Classificação: Dado um exemplo de tumor
cancerígeno, temos de prever se ele é
benigno ou maligno através do seu
tamanho e idade do paciente
11. Terminologia
• Labels: (Rótulo) - o que estamos prevendo - a variável “y” na regressão linear
simples. O rótulo poderia ser o preço futuro do trigo, o tipo de animal
mostrado em uma imagem, o significado de um clipe de áudio ou qualquer
outra coisa.
• Features: (Característica ou Recurso) - variável de entrada - a variável “x” na
regressão linear simples. Um projeto simples de aprendizado de máquina
pode usar um único recurso, enquanto um projeto mais sofisticado de
aprendizado de máquina pode usar milhões de recursos
12.
13. Modelo
Define o relacionamento entre recursos e rótulo. Vamos destacar duas fases
da vida de um modelo:
• Treinamento significa criar ou aprender o modelo. Ou seja, você mostra os
exemplos rotulados do modelo e permite que o modelo aprenda
gradualmente os relacionamentos entre os recursos e o rótulo.
• Inferência significa aplicar o modelo treinado a exemplos não identificados.
Ou seja, você usa o modelo treinado para fazer previsões úteis (y '). Por
exemplo, durante a inferência, você pode prever “Price($1000)” para novos
exemplos não rotulados.
14. Regressão Linear Simples
• A análise de regressão estuda a relação entre uma variável chamada a
variável dependente e outras variáveis chamadas variáveis
independentes.
• A relação entre elas é representada por um modelo matemático, que
associa a variável dependente com as variáveis independentes.
• Este modelo é designado por modelo de regressão linear simples
(MRLS) se define uma relação linear entre a variável dependente e uma
variável independente.
15. Número de cantos de grilos
por minuto de acordo com a
temperatura
Gráfico de Dispersão
16. y - é a temperatura em graus Celsius
(valor que estamos tentando prever)
m - é a inclinação da linha.
x - é o número de cantos por minuto
(valor do nosso recurso de entrada)
b - é o coeficiente linear (ponto em que a
reta regressora corta o eixo dos y's,
quando x=0)
Gráfico de Dispersão
17. y’ - é o rótulo previsto (uma saída
desejada)
b - bias (Coeficiente Linear)
w1 - o peso do recurso 1. Peso é o
mesmo conceito que a "inclinação" na
equação tradicional de uma linha.
x1 - é um recurso (uma entrada
conhecida).
Regressão Linear
Por convenção
19. Treinamento (Training)
• Treinar um modelo significa simplesmente aprender (determinar) bons
valores para todos os pesos e preconceitos dos exemplos rotulados.
• No aprendizado supervisionado, um algoritmo de aprendizado de
máquina cria um modelo examinando muitos exemplos e tentando
encontrar um modelo que minimize a perda; esse processo é chamado
de minimização empírica de riscos.
20. Perda (Loss)
• Perda é a penalidade para uma previsão ruim. Ou seja, perda é um
número que indica quão ruim foi a previsão do modelo em um único
exemplo. Se a previsão do modelo for perfeita, a perda será zero; caso
contrário, a perda é maior. O objetivo de treinar um modelo é encontrar
um conjunto de pesos e desvios que apresentam baixa perda, em
média, em todos os exemplos
21. Perdas
Observe que as setas na plotagem esquerda são muito mais longas do que suas contrapartes na plotagem
direita. Claramente, a linha no gráfico da direita é um modelo preditivo muito melhor do que a linha no
gráfico da esquerda.
22. Função de Perda
• Os modelos de regressão linear que examinaremos aqui usam uma
função de perda chamada perda ao quadrado (também conhecida
como perda de L2). A perda ao quadrado para um único exemplo é a
seguinte: