O documento apresenta uma introdução à aprendizagem de máquina para neurociência. Discute categorias de aprendizagem de máquina como supervisionada, não-supervisionada e por reforço e como podem ser aplicadas em neurociência, por exemplo para classificação e redução de dimensionalidade de dados neurológicos. Também descreve as etapas de desenvolvimento de um modelo de aprendizagem de máquina, incluindo coleta e preparação de dados, escolha do modelo, treinamento e avaliação.
13. Aprendizagem de máquina
Usar dados
para
responder perguntas
Campo de pesquisa que desenvolve algoritmos que dão aos
computadores a capacidade de aprender a partir dos dados, e
então fazer predições e decisões
17. Supervisionado
Problemas com dados que estão associados à uma variável de
interesse
COR PH MAÇÃ OU LARANJA?
660 nm 7.5 Maçã
656nm 7 Maçã
500nm 5.9 Laranja
... ... ...
490nm 5.7 Laranja
18. Supervisionado
A cada amostra apresentada ao modelo, podemos fornecer um
feedback sobre suas predições
O modelo aprende a mapear da entrada de dados para a saída
Dois tipos de tarefas:
• Classificação e Regressão
19. Saídas desejadas são classes
discretas (grupos)
Saídas desejadas são valores
contínuos
Classificação Regressão
23. Não-Supervisionado
Objetivo do modelo
• Explorar como os dados estão geometricamente e
estatisticamente organizados
• Aprender a estrutura latente aos dados para desempenhar
tarefas
24. Agrupamento
Objetivo
• Encontrar grupos de maneira que as amostras pertencentes a
um mesmo grupo possuem grande similaridade e amostras
de grupos diferentes possuem pouca similaridade
26. Redução de Dimensionalidade
• O modelo tenta reduzir o número de dimensões em um
conjunto de dados
• Envolve transformar os dados de alta dimensionalidade em
representações mais simples que ainda preservam a maior
parte das informações relevantes dos dados
Exemplos de métodos
• Principal Components Analysis (PCA)
• Independent Component Analysis (ICA)
29. Aprendizado por reforço
O modelo não recebe o feedback diretamente.
Somente quando ele atinge o seu objetivo.
Exemplo
• Por reforço: quando ganhar o
jogo.
• Supervisionado: a cada
movimento, dizendo se o
movimento foi bom ou ruim.
49. 1º Coleta de Dados
• Coletamos vários exemplos para que o modelo consiga
aprender a relação entre entrada e saída desejada
• Escolhemos as características dos exemplos que me parecem
ser úteis para o classificador
Neste caso
• Ph da fruta
• Comprimento de onda da superfície da fruta
50. 2º Preparação dos dados
• Objetivo: deixar nossos dados no formato correto para ser
utilizado em nosso modelo
COR PH MAÇÃ OU LARANJA?
660 nm 7.5 Maçã
656nm 7 Maçã
500nm 5.9 Laranja
... ... ...
490nm 5.7 Laranja
51. 2º Preparação dos dados
• Nesse ponto também dividimos nossos dados em duas
partes
• Conjunto de treino
• Conjunto de teste
Dados
Treinamento Teste
52. 3º Escolha do modelo
Existem vários tipos de modelos
• Regressão Logística
• Árvores de decisão
• Redes Neurais
• Suport Vector Machines
• Naive Bayes
• ...
55. 4o Treinamento
• Apresentamos os dados do conjunto de treino para o
modelo
• De pouco em pouco o modelo melhora a habilidade de
predizer nossos dados
• Nessa etapa são utilizados algoritmos de otimização para
achar os parâmetros do modelo que minimizam o erro no
nosso conjunto de teste
• http://playground.tensorflow.org
56. 5º Avaliação
• Avaliação da performance do modelo treinado em novos
dados
• Nteste = 30
Acurácia do modelo = Acertos/Total
Acc ~ 70%
Maçã Laranja
Preditos como maçã 10 4
Preditos como laranja 5 11
57. 5º Avaliação
Outras métricas de performance
• Sensibilidade: proporção de positivos que foram
corretamente identificados entre todos os positivos
(alta sensibilidade raramente negligencia um positivo )
• Especificidade: proporção de negativos que foram
corretamente identificados entre os positivos
(alta especificidade específico raramente registra um positivo para
qualquer coisa que não seja o alvo de testes)
64. Podemos sofisticar nossas análises
Temos melhor estimativa da verdadeira performance do
modelo quando repetimos várias vezes o processo de treino e
teste
• Validação Cruzada
Podemos verificar quais foram as características que o modelo
achou ser mais discriminantes
Podemos verificar se essas características são estatisticamente
significativas
70. Etapas de desenvolvimento
• 1º Coleta de dados
• 2º Preparação dos dados
• 3º Escolha do modelo
• 4º Treinamento do modelo
• 5º Avaliação do modelo
73. Dados públicos
Cada vez mais surgem bancos de dados públicos para serem
utilizados em pesquisas
• https://github.com/awesomedata/awesome-public-datasets
74. E a inferência estatística?
Ela também não aborda o apresentado nesse seminário???
75. Inferência estatística vs. AM
Diferença está na filosofia da finalidade de nossos modelos
• Inferência estatística tenta criar modelos voltados para
explicar os dados
• Aprendizagem de máquina já cria modelos voltados para
predição em novos dados
78. Contribuição da neurociência
• Muitos modelos de aprendizagem de máquina tem como
inspiração sistemas biológicos
• Ferramentas de análise cognitiva começaram a serem
desenvolvidas para compreendermos melhor nossos
sistemas de inteligência artificial
• https://deepmind.com/blog/open-sourcing-psychlab/