SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Globalcode	
  –	
  Open4education
Marcelo Pias
Bravi Analytics
Data Analytics com Machine Learning (ML):
“dando sentido aos dados”
Trilha Big Data
Globalcode	
  –	
  Open4education
•  Machine Learning (ML): overview
•  Exemplo 1: esportes (Activity Inference)
•  Exemplo 2: educação (Learning Analytics)
•  Spark Mllib
•  Orange, Weka
•  Data Literacy
•  Meetup Data science Florianópolis
Outline!
Globalcode	
  –	
  Open4education
MACHINE

LEARNING#
Criação de algoritmos que
aprendem e fazem
predições
Este modelo é usado para
fazer predições ou tomar
decisões
Estes algoritmos operam
criando um modelo através
de exemplos de dados
Sub-área da Ciência da Computação
Evoluiu do reconhecimento de
padrões e teoria de aprendizagem -
Inteligência Artificial (AI)
Globalcode	
  –	
  Open4education
Machine Learning – Metodologias!
•  Classificação: identificar qual das categorias/classes um
dado item pertence. A saída é uma função discreta (ex:
“Sim/Não”, “Baixo/Médio/Alto”)
•  Regressão: a saída é função contínua (ex: preço de um
produto, tempo de um atleta, preço futuro ação na bolsa
valores
•  Clustering: encontra padrões e agrupa os dados
“similares” em clusters (ex: “compradores de
smartphones”, “homens solteiros com carro”)
Globalcode	
  –	
  Open4education
•  Dado: Conjunto de treino {(xi, yi ) | i = 1 … n }
•  Encontre: aproximação de f : X → Y
•  Exemplos: o que são X e Y?
•  Filtro spam email
Mapeamento email para {Spam, Não Spam}
• Predição valor ação bolsa
Mapeamento novos, historico para números reais
Aprendizado Supervisionado !
Globalcode	
  –	
  Open4education
Ferramentas ML e análise dados!
•  Modo explorador (data scientist)
•  Matlab statistics toolbox
•  R
•  Python: NumPy, Pandas, Scikit-learn, Orange Data
Mining
•  Weka
•  Modo cloud
•  Google Prediction API
•  Microsoft Azure ML, Amazon ML
•  IBM Watson Analytics
•  Apache Spark
Globalcode	
  –	
  Open4education
Exemplo 1: 100m rasos!
•  Alto desempenho
•  100m @ <10s
•  Coordenação extrema
•  5 passos/segundo @2m passada
•  Separação final
•  0.001s diferença entre finalista
Globalcode	
  –	
  Open4education
Objetivo!
•  Monitorar atletas com sensores wireless na roupa
•  Desafios:
1. Alta precisão (taxa de dados, confiança dados,
modelagem precisa)
2. Processamento e resposta em tempo real (“bio-
feedback”)
3. Big Data:
1.  Videos com 1000 frames/sec
2.  Sensores inerciais na roupa com 1 KHz/sensor
3. 100 atletas; 4 anos
4.  20 Terabytes de dados série temporal
5.  500 Terabytes de vídeos
Globalcode	
  –	
  Open4education
Globalcode	
  –	
  Open4education
Lab móvel!
Globalcode	
  –	
  Open4education
IONs: On-body sensor nodes!
Globalcode	
  –	
  Open4education
Exemplo: feature contato pé-solo!
Globalcode	
  –	
  Open4education
Indexação automática de vídeos!
•  Regime de treinamento intenso
•  Videos coletados a 1000 quadros/seg
•  Humanamente impossível encontrar nos vídeos partes
relevantes de um treino
•  Simultaneamente dados de sensores na roupa são
coletados
Globalcode	
  –	
  Open4education
Problema classificação!
•  Automaticamente identificar os momentos do treino em
que o atleta está:
•  Sentado, caminhando, jogging, ou correndo 100m
Modelo
Classificador
Dados de
entrada
Sentado
Caminhando
Jogging
Correndo
Classificação: mapeando dados em classes
Globalcode	
  –	
  Open4education
Globalcode	
  –	
  Open4education
Indexação automática dos vídeos!
Globalcode	
  –	
  Open4education
Exemplo 2: Learning Analytics!
•  A evasão de alunos é uma das maiores dificuldades em
cursos EAD (Ensino à Distância).
•  20% de evasão em cursos EAD no Brasil (ABED, 2014)
•  Objetivo
•  Predizer com antecedência a probabilidade de
conclusão de curso de cada aluno.
•  Elaborar estratégias de intervenção com intuito de
motivar os alunos identificados como potencial de
evadir.
• Área de aplicação muito nova, muitos desafios
Globalcode	
  –	
  Open4education
Questions: Learning Analytics!
Pertence a
grupo de
risco?
Podemos
predizer
sucesso?
acurácia?
Podemos
guiá-lo ao
sucesso?
Qual a
probabilidade
de não
sucesso?
Estudante em
risco? Como
podemos
ajudar?
Podemos
mudar seu
comportamen
to?
Globalcode	
  –	
  Open4education
Mudança
Comportamento
INTELIGÊNCIA
COLETIVA
Classificação &
Regressão
Students at risk of non-success with a
certain probability
Conscientização
ANÁLISE PREDITIVA
Tecnologia
Persuasiva
“Orientar” estudantes em risco na
direção do comportamento de
estudantes de sucesso
Pertence a
grupo de
risco evasão?
Qual
probabilidade
de não-
sucesso?
É possível
mudar
comportamen
to para
sucesso?
Estudante em
risco? Como
podemos
adjudar?
Globalcode	
  –	
  Open4education
•  Cursos EaD de curta duração (10 a 20 dias)
•  Alunos podem concluir com sucesso mesmo interangindo
pouco com o ambiente virtual
•  Predição:
•  Probabilidade do aluno concluir o curso, já no terceiro
dia de aula
Estudo de Caso: Ensino a Distância (EaD)!
Globalcode	
  –	
  Open4education
Apache Spark MLlib (opensource)!
•  Plataforma genérica para computação
•  MapReduce e processamento de streams
•  Originado no AmpLAB UC Berkeley
•  Matei Zaharia, Ion Stoica, etc
•  MLlib
•  Framework distribuído de machine learning
•  Implementa métodos e algorítmos:
•  Estatísticos, correlações, geração de dados aleatórios
•  Classificação e regressão: SVM, regressão logística, regressào
linear, árvores de decisão, naive Bayes
•  Clustering: k-means
•  Redução de dimensionalidade: PCA/SVD
Globalcode	
  –	
  Open4education
Treinamento de modelos!
+ +
+
-
- -
+ +
+
-
- -
+ +
+
-
- -
+ +
+
-
- -
+ +
+
-
- -
Zero números
de dúvidas
No. telas acessadas
Cursos concluídos anteriormente
1. Escolha das
features (atributos)
3. Melhor
modelo
2. Modelo
Globalcode	
  –	
  Open4education
1. Escolha das features!
// Calcula 2 principais componentes
val pc: Matrix = mat.computePrincipalComponents(2)
val projected: RowMatrix = mat.multiply(pc)
Globalcode	
  –	
  Open4education
2. Modelagem no Spark MLlib!
•  Dados anotados (labeled data)
•  Regressão logística (saída score)
points = # (RDD of LabeledPoint)
model = LogisticRegressionModel.train(points, iterations=200)
Concluinte
 Não-concluinte
Total
 20786
 17733
Globalcode	
  –	
  Open4education
3. Modelagem no Weka!
Globalcode	
  –	
  Open4education
3. Modelagem no Weka!
●  Open Source (Java)
●  Transformação de dados
●  Seleção de atributos
●  Visualização
●  Geração de modelos preditivos e predições
●  Altamente configurável
●  Dezenas de algoritmos disponíveis
●  Ferramenta validada pela comunidade científica
(Machine Learning)
Globalcode	
  –	
  Open4education
4. Modelo no Orange Data Mining!
Globalcode	
  –	
  Open4education
4. Modelo no Orange Data Mining!
●  Open Source (C++ e Python)
●  Versão 3.0 vai ser 100% Python (NumPy, Scikit-
learn, Pandas etc)
●  Seleção de atributos
●  Visualização
●  Geração de modelos preditivos e predições
●  Fácil de comparar diferentes modelos
●  Interface muito intuitiva
●  Fácil de criar novos componentes usando PyQt
Globalcode	
  –	
  Open4education
Acurácia (acertos/total) = 74%
“Confusion Matrix”: compara verdadeiros positivos (VP), verdadeiros negativos
(VN), falsos positivos (FP) e falsos negativos (FN)
Real 
Predição
Concluinte
 Não-concluinte
Concluinte
 14.799 (VP)
 4.187 (FN)
Não-concluinte
 5.987 (FP)
 13.546 (VN)
Total
 20786
 17733
Resultados obtidos com EaD!
Globalcode	
  –	
  Open4education
Data Literacy: Alfabetismo de dados!
•  Excelentes cursos online
(Coursera, EdX)
•  Não é ficção científica
•  Dá pra começar aos poucos (o importante é ser curioso)
•  Muitas ferramentas interessantes e gratuitas
•  Um programador que sabe analisar dados está muito bem
posicionado nessa nova "economia orientada a dados"
Globalcode	
  –	
  Open4education
meetup.com/Florianopolis-Data-Science-Meetup
Floripa Data Science Meetup - 2/7 às 19:00 na Bravi Software
Globalcode	
  –	
  Open4education
Obrigado!
marcelo.pias@bravi.com.br
Estamos recrutando!
●  PhDs ou MSc em ciência da computação e afins
●  Full-stack devs (Node, Mongo, Docker)
●  Python (NumPy, Pandas)
●  Android e iOS
Vem falar com a gente.

Mais conteúdo relacionado

Mais procurados

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
 
It skills para rh aprender e contratar
It skills para rh  aprender e contratarIt skills para rh  aprender e contratar
It skills para rh aprender e contratarAle Uehara
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
 
Mercado de trabalho e atuação desenvolvedor
Mercado de trabalho e atuação desenvolvedorMercado de trabalho e atuação desenvolvedor
Mercado de trabalho e atuação desenvolvedorRodolfo De Nadai
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Sciencetdc-globalcode
 
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...Allan Ferreira
 
MediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCastMediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCastpichiliani
 
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha Java
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha JavaPalestra sobre Carreira Java / JavaEE - TDC2012 - Trlha Java
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha JavaGlobalcode
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Use scratch para aprender a programar se divertindo
Use scratch para aprender a programar se divertindoUse scratch para aprender a programar se divertindo
Use scratch para aprender a programar se divertindoGlobalcode
 
Palestra TDC 2015 São Paulo - Mercado de trabalho para Elefantes
Palestra TDC 2015 São Paulo - Mercado de trabalho para ElefantesPalestra TDC 2015 São Paulo - Mercado de trabalho para Elefantes
Palestra TDC 2015 São Paulo - Mercado de trabalho para ElefantesRodrigo Wanderley de Melo Cardoso
 
Usando Visão Computacional para Identificar Letras em Libras
Usando Visão Computacional para Identificar Letras em LibrasUsando Visão Computacional para Identificar Letras em Libras
Usando Visão Computacional para Identificar Letras em LibrasGabriel Schade Cardoso
 
Aplicações inteligentes com o Azure Cognitive Services
Aplicações inteligentes com o Azure Cognitive ServicesAplicações inteligentes com o Azure Cognitive Services
Aplicações inteligentes com o Azure Cognitive ServicesGabriel Schade Cardoso
 
5 duvidas frequentes ao iniciar o método kanban
5 duvidas frequentes ao iniciar o método kanban 5 duvidas frequentes ao iniciar o método kanban
5 duvidas frequentes ao iniciar o método kanban Carlos Eduardo Polegato
 

Mais procurados (20)

Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
 
It skills para rh aprender e contratar
It skills para rh  aprender e contratarIt skills para rh  aprender e contratar
It skills para rh aprender e contratar
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
 
Mercado de trabalho e atuação desenvolvedor
Mercado de trabalho e atuação desenvolvedorMercado de trabalho e atuação desenvolvedor
Mercado de trabalho e atuação desenvolvedor
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Science
 
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...
[TDC-Floripa 2017] Utilizando BDD para análise de negócio e desenvolvimento d...
 
O Gerente Open Source
O Gerente Open SourceO Gerente Open Source
O Gerente Open Source
 
MediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCastMediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCast
 
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha Java
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha JavaPalestra sobre Carreira Java / JavaEE - TDC2012 - Trlha Java
Palestra sobre Carreira Java / JavaEE - TDC2012 - Trlha Java
 
Azure blob xamarin-tdc2016
Azure blob xamarin-tdc2016Azure blob xamarin-tdc2016
Azure blob xamarin-tdc2016
 
Php Experience 2016 - Mercado de Trabalho para Elefantes
Php Experience 2016 - Mercado de Trabalho para ElefantesPhp Experience 2016 - Mercado de Trabalho para Elefantes
Php Experience 2016 - Mercado de Trabalho para Elefantes
 
Programação Funcional usando F#
Programação Funcional usando F#Programação Funcional usando F#
Programação Funcional usando F#
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Use scratch para aprender a programar se divertindo
Use scratch para aprender a programar se divertindoUse scratch para aprender a programar se divertindo
Use scratch para aprender a programar se divertindo
 
Palestra TDC 2015 São Paulo - Mercado de trabalho para Elefantes
Palestra TDC 2015 São Paulo - Mercado de trabalho para ElefantesPalestra TDC 2015 São Paulo - Mercado de trabalho para Elefantes
Palestra TDC 2015 São Paulo - Mercado de trabalho para Elefantes
 
Usando Visão Computacional para Identificar Letras em Libras
Usando Visão Computacional para Identificar Letras em LibrasUsando Visão Computacional para Identificar Letras em Libras
Usando Visão Computacional para Identificar Letras em Libras
 
Aplicações inteligentes com o Azure Cognitive Services
Aplicações inteligentes com o Azure Cognitive ServicesAplicações inteligentes com o Azure Cognitive Services
Aplicações inteligentes com o Azure Cognitive Services
 
5 duvidas frequentes ao iniciar o método kanban
5 duvidas frequentes ao iniciar o método kanban 5 duvidas frequentes ao iniciar o método kanban
5 duvidas frequentes ao iniciar o método kanban
 

Semelhante a Tdc2015 bigdata-mpias-final-pdf

TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosTDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosWagner Luiz Cambruzzi
 
TDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosTDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosRodrigo Moraes
 
TDC2013 - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...
TDC2013  - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...TDC2013  - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...
TDC2013 - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...José Correia
 
Python x R: mas e o Weka?
Python x R: mas e o Weka? Python x R: mas e o Weka?
Python x R: mas e o Weka? pichiliani
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaWalter Hugo Lopez Pinaya
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
Construindo Chatbots com Design Thinking e framework i*: um método estruturado
Construindo Chatbots com Design Thinking e framework i*: um método estruturadoConstruindo Chatbots com Design Thinking e framework i*: um método estruturado
Construindo Chatbots com Design Thinking e framework i*: um método estruturadoMeire Helen Batista Dias
 
Como criar um Mooc: guidelines de preparação para o ensino superior
Como criar um Mooc: guidelines de preparação para o ensino superiorComo criar um Mooc: guidelines de preparação para o ensino superior
Como criar um Mooc: guidelines de preparação para o ensino superiorNeuza Pedro
 
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...Fulvio Mascara
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Organizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaOrganizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaJohnathan Cardoso
 
TDC2016SP - Colocando modelos de Machine Learning em produção.
TDC2016SP - Colocando modelos de Machine Learning em produção.TDC2016SP - Colocando modelos de Machine Learning em produção.
TDC2016SP - Colocando modelos de Machine Learning em produção.tdc-globalcode
 
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...Reinaldo Jr
 
Learning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoLearning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoMatheus Braun Magrin
 
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ..."Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...Cesar Augusto Nogueira
 
Ágil mas com a visão do todo: Mapeando histórias de usuário
Ágil mas com a visão do todo: Mapeando histórias de usuárioÁgil mas com a visão do todo: Mapeando histórias de usuário
Ágil mas com a visão do todo: Mapeando histórias de usuárioDaniel Alfenas
 
TDC2012 Agile - 7 Padrões Para Implantar Métodos Ágeis
TDC2012 Agile - 7 Padrões Para Implantar Métodos ÁgeisTDC2012 Agile - 7 Padrões Para Implantar Métodos Ágeis
TDC2012 Agile - 7 Padrões Para Implantar Métodos ÁgeisSuelen Carvalho
 
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...Vinicius Campos Silva
 

Semelhante a Tdc2015 bigdata-mpias-final-pdf (20)

TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosTDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
 
TDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosTDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos Preditivos
 
TDC2013 - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...
TDC2013  - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...TDC2013  - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...
TDC2013 - Trilha de Testes - Iterasys - José Correia - Testar em Multiplos A...
 
Python x R: mas e o Weka?
Python x R: mas e o Weka? Python x R: mas e o Weka?
Python x R: mas e o Weka?
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
Construindo Chatbots com Design Thinking e framework i*: um método estruturado
Construindo Chatbots com Design Thinking e framework i*: um método estruturadoConstruindo Chatbots com Design Thinking e framework i*: um método estruturado
Construindo Chatbots com Design Thinking e framework i*: um método estruturado
 
Como criar um Mooc: guidelines de preparação para o ensino superior
Como criar um Mooc: guidelines de preparação para o ensino superiorComo criar um Mooc: guidelines de preparação para o ensino superior
Como criar um Mooc: guidelines de preparação para o ensino superior
 
Challenges 2013
Challenges 2013Challenges 2013
Challenges 2013
 
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...
TDCSP2019 - Trilha: Computação Cognitiva - Palestra: Serviços cognitivos de V...
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Organizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaOrganizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gosta
 
Code Smells
Code SmellsCode Smells
Code Smells
 
TDC2016SP - Colocando modelos de Machine Learning em produção.
TDC2016SP - Colocando modelos de Machine Learning em produção.TDC2016SP - Colocando modelos de Machine Learning em produção.
TDC2016SP - Colocando modelos de Machine Learning em produção.
 
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...
PROFESSOR 5.0 - Ferramentas para transformação e reinvenção do professor em s...
 
Learning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoLearning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educação
 
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ..."Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...
"Se tornando um Desenvolvedor Java NINJA" - Semana Integrada da PUC Campinas ...
 
Ágil mas com a visão do todo: Mapeando histórias de usuário
Ágil mas com a visão do todo: Mapeando histórias de usuárioÁgil mas com a visão do todo: Mapeando histórias de usuário
Ágil mas com a visão do todo: Mapeando histórias de usuário
 
TDC2012 Agile - 7 Padrões Para Implantar Métodos Ágeis
TDC2012 Agile - 7 Padrões Para Implantar Métodos ÁgeisTDC2012 Agile - 7 Padrões Para Implantar Métodos Ágeis
TDC2012 Agile - 7 Padrões Para Implantar Métodos Ágeis
 
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...
[TDCPOA2019] Upstream Kanban: exercitando a eficácia criativa do seu fluxo de...
 

Tdc2015 bigdata-mpias-final-pdf

  • 1. Globalcode  –  Open4education Marcelo Pias Bravi Analytics Data Analytics com Machine Learning (ML): “dando sentido aos dados” Trilha Big Data
  • 2. Globalcode  –  Open4education •  Machine Learning (ML): overview •  Exemplo 1: esportes (Activity Inference) •  Exemplo 2: educação (Learning Analytics) •  Spark Mllib •  Orange, Weka •  Data Literacy •  Meetup Data science Florianópolis Outline!
  • 3. Globalcode  –  Open4education MACHINE
 LEARNING# Criação de algoritmos que aprendem e fazem predições Este modelo é usado para fazer predições ou tomar decisões Estes algoritmos operam criando um modelo através de exemplos de dados Sub-área da Ciência da Computação Evoluiu do reconhecimento de padrões e teoria de aprendizagem - Inteligência Artificial (AI)
  • 4. Globalcode  –  Open4education Machine Learning – Metodologias! •  Classificação: identificar qual das categorias/classes um dado item pertence. A saída é uma função discreta (ex: “Sim/Não”, “Baixo/Médio/Alto”) •  Regressão: a saída é função contínua (ex: preço de um produto, tempo de um atleta, preço futuro ação na bolsa valores •  Clustering: encontra padrões e agrupa os dados “similares” em clusters (ex: “compradores de smartphones”, “homens solteiros com carro”)
  • 5. Globalcode  –  Open4education •  Dado: Conjunto de treino {(xi, yi ) | i = 1 … n } •  Encontre: aproximação de f : X → Y •  Exemplos: o que são X e Y? •  Filtro spam email Mapeamento email para {Spam, Não Spam} • Predição valor ação bolsa Mapeamento novos, historico para números reais Aprendizado Supervisionado !
  • 6. Globalcode  –  Open4education Ferramentas ML e análise dados! •  Modo explorador (data scientist) •  Matlab statistics toolbox •  R •  Python: NumPy, Pandas, Scikit-learn, Orange Data Mining •  Weka •  Modo cloud •  Google Prediction API •  Microsoft Azure ML, Amazon ML •  IBM Watson Analytics •  Apache Spark
  • 7. Globalcode  –  Open4education Exemplo 1: 100m rasos! •  Alto desempenho •  100m @ <10s •  Coordenação extrema •  5 passos/segundo @2m passada •  Separação final •  0.001s diferença entre finalista
  • 8. Globalcode  –  Open4education Objetivo! •  Monitorar atletas com sensores wireless na roupa •  Desafios: 1. Alta precisão (taxa de dados, confiança dados, modelagem precisa) 2. Processamento e resposta em tempo real (“bio- feedback”) 3. Big Data: 1.  Videos com 1000 frames/sec 2.  Sensores inerciais na roupa com 1 KHz/sensor 3. 100 atletas; 4 anos 4.  20 Terabytes de dados série temporal 5.  500 Terabytes de vídeos
  • 12. Globalcode  –  Open4education Exemplo: feature contato pé-solo!
  • 13. Globalcode  –  Open4education Indexação automática de vídeos! •  Regime de treinamento intenso •  Videos coletados a 1000 quadros/seg •  Humanamente impossível encontrar nos vídeos partes relevantes de um treino •  Simultaneamente dados de sensores na roupa são coletados
  • 14. Globalcode  –  Open4education Problema classificação! •  Automaticamente identificar os momentos do treino em que o atleta está: •  Sentado, caminhando, jogging, ou correndo 100m Modelo Classificador Dados de entrada Sentado Caminhando Jogging Correndo Classificação: mapeando dados em classes
  • 17. Globalcode  –  Open4education Exemplo 2: Learning Analytics! •  A evasão de alunos é uma das maiores dificuldades em cursos EAD (Ensino à Distância). •  20% de evasão em cursos EAD no Brasil (ABED, 2014) •  Objetivo •  Predizer com antecedência a probabilidade de conclusão de curso de cada aluno. •  Elaborar estratégias de intervenção com intuito de motivar os alunos identificados como potencial de evadir. • Área de aplicação muito nova, muitos desafios
  • 18. Globalcode  –  Open4education Questions: Learning Analytics! Pertence a grupo de risco? Podemos predizer sucesso? acurácia? Podemos guiá-lo ao sucesso? Qual a probabilidade de não sucesso? Estudante em risco? Como podemos ajudar? Podemos mudar seu comportamen to?
  • 19. Globalcode  –  Open4education Mudança Comportamento INTELIGÊNCIA COLETIVA Classificação & Regressão Students at risk of non-success with a certain probability Conscientização ANÁLISE PREDITIVA Tecnologia Persuasiva “Orientar” estudantes em risco na direção do comportamento de estudantes de sucesso Pertence a grupo de risco evasão? Qual probabilidade de não- sucesso? É possível mudar comportamen to para sucesso? Estudante em risco? Como podemos adjudar?
  • 20. Globalcode  –  Open4education •  Cursos EaD de curta duração (10 a 20 dias) •  Alunos podem concluir com sucesso mesmo interangindo pouco com o ambiente virtual •  Predição: •  Probabilidade do aluno concluir o curso, já no terceiro dia de aula Estudo de Caso: Ensino a Distância (EaD)!
  • 21. Globalcode  –  Open4education Apache Spark MLlib (opensource)! •  Plataforma genérica para computação •  MapReduce e processamento de streams •  Originado no AmpLAB UC Berkeley •  Matei Zaharia, Ion Stoica, etc •  MLlib •  Framework distribuído de machine learning •  Implementa métodos e algorítmos: •  Estatísticos, correlações, geração de dados aleatórios •  Classificação e regressão: SVM, regressão logística, regressào linear, árvores de decisão, naive Bayes •  Clustering: k-means •  Redução de dimensionalidade: PCA/SVD
  • 22. Globalcode  –  Open4education Treinamento de modelos! + + + - - - + + + - - - + + + - - - + + + - - - + + + - - - Zero números de dúvidas No. telas acessadas Cursos concluídos anteriormente 1. Escolha das features (atributos) 3. Melhor modelo 2. Modelo
  • 23. Globalcode  –  Open4education 1. Escolha das features! // Calcula 2 principais componentes val pc: Matrix = mat.computePrincipalComponents(2) val projected: RowMatrix = mat.multiply(pc)
  • 24. Globalcode  –  Open4education 2. Modelagem no Spark MLlib! •  Dados anotados (labeled data) •  Regressão logística (saída score) points = # (RDD of LabeledPoint) model = LogisticRegressionModel.train(points, iterations=200) Concluinte Não-concluinte Total 20786 17733
  • 26. Globalcode  –  Open4education 3. Modelagem no Weka! ●  Open Source (Java) ●  Transformação de dados ●  Seleção de atributos ●  Visualização ●  Geração de modelos preditivos e predições ●  Altamente configurável ●  Dezenas de algoritmos disponíveis ●  Ferramenta validada pela comunidade científica (Machine Learning)
  • 27. Globalcode  –  Open4education 4. Modelo no Orange Data Mining!
  • 28. Globalcode  –  Open4education 4. Modelo no Orange Data Mining! ●  Open Source (C++ e Python) ●  Versão 3.0 vai ser 100% Python (NumPy, Scikit- learn, Pandas etc) ●  Seleção de atributos ●  Visualização ●  Geração de modelos preditivos e predições ●  Fácil de comparar diferentes modelos ●  Interface muito intuitiva ●  Fácil de criar novos componentes usando PyQt
  • 29. Globalcode  –  Open4education Acurácia (acertos/total) = 74% “Confusion Matrix”: compara verdadeiros positivos (VP), verdadeiros negativos (VN), falsos positivos (FP) e falsos negativos (FN) Real Predição Concluinte Não-concluinte Concluinte 14.799 (VP) 4.187 (FN) Não-concluinte 5.987 (FP) 13.546 (VN) Total 20786 17733 Resultados obtidos com EaD!
  • 30. Globalcode  –  Open4education Data Literacy: Alfabetismo de dados! •  Excelentes cursos online (Coursera, EdX) •  Não é ficção científica •  Dá pra começar aos poucos (o importante é ser curioso) •  Muitas ferramentas interessantes e gratuitas •  Um programador que sabe analisar dados está muito bem posicionado nessa nova "economia orientada a dados"
  • 31. Globalcode  –  Open4education meetup.com/Florianopolis-Data-Science-Meetup Floripa Data Science Meetup - 2/7 às 19:00 na Bravi Software
  • 32. Globalcode  –  Open4education Obrigado! marcelo.pias@bravi.com.br Estamos recrutando! ●  PhDs ou MSc em ciência da computação e afins ●  Full-stack devs (Node, Mongo, Docker) ●  Python (NumPy, Pandas) ●  Android e iOS Vem falar com a gente.