Machine Learning
AGA0513 – eScience 1° sem. 2022
Gastão B. Lima Neto – IAG/USP
O que é Machine Learning?
• Machine Learning é o campo da ciência da computação onde os sistemas
podem tratar/ interpretar dados de forma análoga aos seres humanos.
• Machine Learning é um tipo de inteligência artificial que obtém padrões de
dados brutos usando um algoritmo ou modelo. O foco principal é permitir
que sistemas de computadores aprendam pela experiência, sem ser
explicitamente programado ou sem intervenção humana.
• Tom Michael Mitchell da Carnegie Mellon University propôs a seguinte
definição:
✓“Um programa de computador aprende com a experiência E em relação a alguma
classe de tarefas T e medida de desempenho P, se seu desempenho em tarefas
em T, medido por P, melhora com a experiência E.”
(Obs. P vem de Performance)
O que é Machine Learning?
• Tarefa T: um problema que deve ser resolvido. Pode ser um problema do
quotidiano ou acadêmico.
✓ Problemas que podem ser abordados por Machine Learning envolvem,
geralmente, Classificação, Regressão e Clustering (entre outros).
• Experiência E: conhecimento adquirido dos dados pelo algoritmo ou modelo
empregado.
✓ Uma vez alimentado com um conjunto de dados, o algoritmo/modelo será
executado iterativamente e aprenderá algum padrão inerente. Este aprendizado é
chamado experiência.
✓ A experiência pode ser supervisionada, não supervisionada ou reforçada.
O que é Machine Learning?
• Desempenho P: o aprendizado (execução do algoritmo/modelo) leva um
certo tempo. A métrica que nos diz se o algoritmo/modelo está
funcionando de acordo com as expectativas é o seu desempenho P.
✓ É uma métrica quantitativa que informa como um algoritmo/modelo realiza a tarefa T,
usando sua experiência E.
• Note que os sistemas são ferramentas, o desempenho de Machine
Learning está inteiramente condicionado à inteligência humana de quem
a treinou/programou.
“A máquina não faz o que queremos, faz o que mandamos”.
Métodos de Machine Learning
• Aprendizado supervisionado
✓ Classificação
✓ Regressão
• Aprendizado não-supervisionado
✓ Clustering
✓ Associação
✓ Redução de dimensionalidade
✓ Detecção de anomalia
Obs.: tem também métodos
semi-supervisionados
Métodos de Machine Learning
• Aprendizado supervisionado
✓ Classificação: previsão de categorias para os dados de entrada.
O resultado é baseado no que o modelo aprendeu no treinamento.
Lida com valores ou categorias discretas (por exemplo, o objeto j está no gupo 1
ou 2 ou3? A foto representa um cão ou um gato?)
✓ Regressão: previsão de uma resposta contínua para os dados de entrada.
O resultado é baseado no que o modelo aprendeu no treinamento.
Usa os dados de entrada são variáveis independentes com as correspondentes
variáveis dependentes.
Uma versão evoluída e mais geral de ajustes de funções.
Métodos de Machine Learning
• Aprendizado não-supervisionado
Não fornecemos nenhuma supervisão humana.
✓ Clustering: Procura por semelhanças em um conjunto de dados.
P.ex., distribuição espacial, distribuição de velocidades, clientes com traços de consumo
semelhante,...
Muito útil e popular, existem várias implementaçãoe: k-means clustering, k-nearest
neighbors, etc.
✓ Associação: análise de grandes bases de dados procurando por padrões
✓ Redução de dimensionalidade: diminui o número de variáveis de um conjunto de dados
para ficar apenos com as características mais relevantes.
P.ex., PCA (Principal Component Analysis).
✓ Detecção de anomalia: Procura por eventos raros. Pode distinguir entre dados “normais” e
aberrantes (P.ex., raios cósmicos em uma imagem CCD, solar flaire em uma curva de luz).
Métodos de Machine Learning
dados
correlacionados
ou redundantes?
Redução de
dimensionalidade
é
categorizável?
produz uma
quantidade?
(contínuo)
Os dados são
rotulados?
(discreto)
Classificação Clustering Regressão não funciona!
sim
sim
sim
não
não
não
não sim
Exemplo de Machine Learning: filtro de spam
• Filtro de spam: regras para identificar padrões comuns em e-mails
com spam
✓Palavras específicas, assunto, origem, etc.
• Testes: verifica funcionamento
✓Se houver erros, reescrevemos os filtros
Procedimento manual
(sem Machine Learning)
Exemplo de Machine Learning: filtro de spam
Procedimento com
Machine Learning
Deep Learning
• Subcategoria de Machine Learning.
✓ Deep Learning e Machine Learning não são equivalentes.
• Algumas aplicações:
✓ reconhecimento de imagens (padrões);
✓ reconhecimento de fala;
✓ análise de grande quantidade de dados multidimensionais.
Deep Learning
• Deep Learning é baseado em redes artificiais de neurônios.
✓ Ideia do funcionamento do cérebro (com seus neurônios orgânicos).
✓ McCulloch W.S. & Pitts W., 1943, “A logical calculus of the ideas immanent in nervous
activity“
✓ Hinton G., Rumelhart D., Williams R., 1986, “Learning representations by back-propagating
errors”
• Deep Learning necessita de poder de computação.
✓ Por isto, só a partir dos anos 2010 se popularizou tanto.
• Sequencia típica do Deep Learning:
entender o
problema:
pode ser resolvido
com DL?
identificar os
dados relevantes e
prepará-los
escolha do
algoritmo de DL:
algoritmo de
treinamento
testar
performance do
modelo
Deep Learning
• Deep Learning é baseado em redes artificiais de neurônios.
• Rede de neurônios: uma serie de algoritmos que operam em um
conjunto de dados, reconhecendo padrões, imitando o modo de
operação do cérebro humano.
• A rede de neurônios se adapta a mudanças dos dados de entrada.
Camada
de entrada
Camada oculta (escondida)
Camada de
saída
Rede de
neurônios simples
nodos (nós)
• O dados são processados em nodos e
repassados para frente.
• Cada conexão (link) tem seu próprio
peso.
• Deep learning é quando acrescentamos
várias camadas ocultas.
Deep Learning: múltiplas camadas
“AI in the UK: ready, willing and able?”, 2018,
https://publications.parliament.uk/pa/ld201719/ldselect/ldai/100/100.pdf
camada de
entrada
camadas ocultas
hidden layers
camada
de saída
relações (links) que transportam
informação de um nodo para
outro, incrementando ou
amortecendo de acordo com o
peso da relação/informação.
Exemplo de
reconhecimento
de padrão
Função do Mathematica.
Note que o resultado não é perfeito;
rodando várias vezes muda o
resultado.
Exemplo de classificação
data
4 grupos (cada um com uma cor),
distribuídos aleatoriamente
seguindo uma distribuição de
probabilidade gaussiana.
Objetivo: determinar a região de
cada grupo, isto é separar os
pontos de acordo com seu grupo
(cor).
Exemplo de classificação
data
LogisticRegression NeuralNetwork
NaiveBayes RandomForest
https://reference.wolfram.com/language/ref/Classify.html

Apresentção sobre machine learning, IA, inteligencia artificial

  • 1.
    Machine Learning AGA0513 –eScience 1° sem. 2022 Gastão B. Lima Neto – IAG/USP
  • 2.
    O que éMachine Learning? • Machine Learning é o campo da ciência da computação onde os sistemas podem tratar/ interpretar dados de forma análoga aos seres humanos. • Machine Learning é um tipo de inteligência artificial que obtém padrões de dados brutos usando um algoritmo ou modelo. O foco principal é permitir que sistemas de computadores aprendam pela experiência, sem ser explicitamente programado ou sem intervenção humana. • Tom Michael Mitchell da Carnegie Mellon University propôs a seguinte definição: ✓“Um programa de computador aprende com a experiência E em relação a alguma classe de tarefas T e medida de desempenho P, se seu desempenho em tarefas em T, medido por P, melhora com a experiência E.” (Obs. P vem de Performance)
  • 3.
    O que éMachine Learning? • Tarefa T: um problema que deve ser resolvido. Pode ser um problema do quotidiano ou acadêmico. ✓ Problemas que podem ser abordados por Machine Learning envolvem, geralmente, Classificação, Regressão e Clustering (entre outros). • Experiência E: conhecimento adquirido dos dados pelo algoritmo ou modelo empregado. ✓ Uma vez alimentado com um conjunto de dados, o algoritmo/modelo será executado iterativamente e aprenderá algum padrão inerente. Este aprendizado é chamado experiência. ✓ A experiência pode ser supervisionada, não supervisionada ou reforçada.
  • 4.
    O que éMachine Learning? • Desempenho P: o aprendizado (execução do algoritmo/modelo) leva um certo tempo. A métrica que nos diz se o algoritmo/modelo está funcionando de acordo com as expectativas é o seu desempenho P. ✓ É uma métrica quantitativa que informa como um algoritmo/modelo realiza a tarefa T, usando sua experiência E. • Note que os sistemas são ferramentas, o desempenho de Machine Learning está inteiramente condicionado à inteligência humana de quem a treinou/programou. “A máquina não faz o que queremos, faz o que mandamos”.
  • 5.
    Métodos de MachineLearning • Aprendizado supervisionado ✓ Classificação ✓ Regressão • Aprendizado não-supervisionado ✓ Clustering ✓ Associação ✓ Redução de dimensionalidade ✓ Detecção de anomalia Obs.: tem também métodos semi-supervisionados
  • 6.
    Métodos de MachineLearning • Aprendizado supervisionado ✓ Classificação: previsão de categorias para os dados de entrada. O resultado é baseado no que o modelo aprendeu no treinamento. Lida com valores ou categorias discretas (por exemplo, o objeto j está no gupo 1 ou 2 ou3? A foto representa um cão ou um gato?) ✓ Regressão: previsão de uma resposta contínua para os dados de entrada. O resultado é baseado no que o modelo aprendeu no treinamento. Usa os dados de entrada são variáveis independentes com as correspondentes variáveis dependentes. Uma versão evoluída e mais geral de ajustes de funções.
  • 7.
    Métodos de MachineLearning • Aprendizado não-supervisionado Não fornecemos nenhuma supervisão humana. ✓ Clustering: Procura por semelhanças em um conjunto de dados. P.ex., distribuição espacial, distribuição de velocidades, clientes com traços de consumo semelhante,... Muito útil e popular, existem várias implementaçãoe: k-means clustering, k-nearest neighbors, etc. ✓ Associação: análise de grandes bases de dados procurando por padrões ✓ Redução de dimensionalidade: diminui o número de variáveis de um conjunto de dados para ficar apenos com as características mais relevantes. P.ex., PCA (Principal Component Analysis). ✓ Detecção de anomalia: Procura por eventos raros. Pode distinguir entre dados “normais” e aberrantes (P.ex., raios cósmicos em uma imagem CCD, solar flaire em uma curva de luz).
  • 8.
    Métodos de MachineLearning dados correlacionados ou redundantes? Redução de dimensionalidade é categorizável? produz uma quantidade? (contínuo) Os dados são rotulados? (discreto) Classificação Clustering Regressão não funciona! sim sim sim não não não não sim
  • 9.
    Exemplo de MachineLearning: filtro de spam • Filtro de spam: regras para identificar padrões comuns em e-mails com spam ✓Palavras específicas, assunto, origem, etc. • Testes: verifica funcionamento ✓Se houver erros, reescrevemos os filtros Procedimento manual (sem Machine Learning)
  • 10.
    Exemplo de MachineLearning: filtro de spam Procedimento com Machine Learning
  • 11.
    Deep Learning • Subcategoriade Machine Learning. ✓ Deep Learning e Machine Learning não são equivalentes. • Algumas aplicações: ✓ reconhecimento de imagens (padrões); ✓ reconhecimento de fala; ✓ análise de grande quantidade de dados multidimensionais.
  • 12.
    Deep Learning • DeepLearning é baseado em redes artificiais de neurônios. ✓ Ideia do funcionamento do cérebro (com seus neurônios orgânicos). ✓ McCulloch W.S. & Pitts W., 1943, “A logical calculus of the ideas immanent in nervous activity“ ✓ Hinton G., Rumelhart D., Williams R., 1986, “Learning representations by back-propagating errors” • Deep Learning necessita de poder de computação. ✓ Por isto, só a partir dos anos 2010 se popularizou tanto. • Sequencia típica do Deep Learning: entender o problema: pode ser resolvido com DL? identificar os dados relevantes e prepará-los escolha do algoritmo de DL: algoritmo de treinamento testar performance do modelo
  • 13.
    Deep Learning • DeepLearning é baseado em redes artificiais de neurônios. • Rede de neurônios: uma serie de algoritmos que operam em um conjunto de dados, reconhecendo padrões, imitando o modo de operação do cérebro humano. • A rede de neurônios se adapta a mudanças dos dados de entrada. Camada de entrada Camada oculta (escondida) Camada de saída Rede de neurônios simples nodos (nós) • O dados são processados em nodos e repassados para frente. • Cada conexão (link) tem seu próprio peso. • Deep learning é quando acrescentamos várias camadas ocultas.
  • 14.
    Deep Learning: múltiplascamadas “AI in the UK: ready, willing and able?”, 2018, https://publications.parliament.uk/pa/ld201719/ldselect/ldai/100/100.pdf camada de entrada camadas ocultas hidden layers camada de saída relações (links) que transportam informação de um nodo para outro, incrementando ou amortecendo de acordo com o peso da relação/informação.
  • 15.
    Exemplo de reconhecimento de padrão Funçãodo Mathematica. Note que o resultado não é perfeito; rodando várias vezes muda o resultado.
  • 16.
    Exemplo de classificação data 4grupos (cada um com uma cor), distribuídos aleatoriamente seguindo uma distribuição de probabilidade gaussiana. Objetivo: determinar a região de cada grupo, isto é separar os pontos de acordo com seu grupo (cor).
  • 17.
    Exemplo de classificação data LogisticRegressionNeuralNetwork NaiveBayes RandomForest https://reference.wolfram.com/language/ref/Classify.html