SlideShare uma empresa Scribd logo
1 de 71
Baixar para ler offline
Introdução a ciência de
dados com aplicações em
dados educacionais
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Big Data Analytics!!!
Big Data
– Quando volume, velocidade ou variedade de dados excede a
capacidade de armazenamento e/ou computação
– Big Data é relativo, não absoluto
Analytics
– Aprendizado de máquinas
– Mercado
• “Relatórios”, painéis, etc
Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data X Big User
Como lidar com este “dilúvio” de dados?
A palavra mais importante no termo “ciência de dados” não é “dados”,
mas ciência.
Fonte (2010): http://www.economist.com/node/15579717
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados surgiu
uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor escala
em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados surgiu
uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor escala
em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados X Mineração de Dados
Cientista de Dados


–
–
Fonte (2014): https://www.wired.com/insights/2014/06/tell-kids-data-scientists-doctors/
Cientista de Dados
Cientista de Dados
O que os cientistas de dados fazem?
Definem hipóteses e perguntas
Definem os conjuntos de dados ideais
Determinam que dados podem ser acessados
Adquirem os dados
Preprocessam os dados
Realizam análise de dados exploratória
Realizam modelagem estatística dos dados
Interpretam resultados de análises
Escrevem relatórios sobre os resultados
Criam modelos/componentes/códigos reusáveis
Compartilham modelos e resultados com outras pessoas
Considerando:
● Processos
● Ambientes
● Projetos
O que os cientistas de dados fazem?
Informação com alto valor agregado!
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Processo em ciência de dados
CRISP-DM (CRoss Industry Standard Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
Processo em ciência de dados
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Principais técnicas
Algumas classes de problemas
– Modelos de regressão
– Descoberta de conjuntos frequentes
– Agrupamento
– Classificação
Existem algoritmos diferentes para cada classe
Existem outras classe de problemas
– Análise de imagem
– Redes sociais
– Mineração de texto
– etc
Principais técnicas – um passo antes!
Modelo relacional
Principais técnicas – um passo antes!
Tabela única
Nome Idade Sexo ... salário
José 27 M 985.00
Maria 26 F 1800.00
...
...
...
...
...
Eduardo 19 M 1278.50
Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
Modelos de regressão
Modelos de regressão
Modelo é uma equação que representa a reta
– Y = 0.425X + 0.785
– Para X = 1,
• Y = (0.425)(1) + 0.785 = 1.21
– Para X = 2,
• Y = (0.425)(2) + 0.785 = 1.64
– Para X = 6,
• Y = (0.425)(6) + 0.785 = 3.34
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
Modelos de regressão
1 Grau0
2 Grau0
3 Grau0
LINHA CURVA DE 3 GRAU0
PARABOLA
VARIÁVEL
2
X X X
Y Y Y
YYY
X X X
Z Z Z
PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0
VARIÁVEL
3
Modelos de regressão
Pode não ser desejável, ou mesmo possível, descrever um fenômeno
através de um modelo de regressão linear
Descoberta de conjuntos frequentes
Consiste em encontrar padrões frequentes (conjuntos de atributos)
que ocorram simultaneamente de forma frequente em um conjunto de
dados
PRODUTO APRODUTO A
PRODUTO APRODUTO A
PRODUTO BPRODUTO B
Oferta de
produto relacionado
Compra de
produto
Descoberta de conjuntos frequentes
Exemplo
TID Items
1 pão, leite
2 pão, fralda, cerveja, ovos
3 leite, fralda, cerveja, coca
4 pão, leite, fralda, cerveja
5 pão, leite, fralda, coca
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Descoberta de conjuntos frequentes
Conjuntos
cortados
Descoberta de conjuntos frequentes
Suponha que {leite, fralda, cerveja} seja um conjunto frequente
Exemplos de regras:
{leite,fralda}  {cerveja} (s=0.4, c=0.67)
{leite,cerveja}  {fralda} (s=0.4, c=1.0)
{fralda,cerveja}  {leite} (s=0.4, c=0.67)
{cerveja}  {leite,fralda} (s=0.4, c=0.67)
{fralda}  {leite,cerveja} (s=0.4, c=0.5)
{leite}  {fralda,cerveja} (s=0.4, c=0.5)
Agrupamento
Técnicas de agrupamento são métodos usados para a construção de
grupos de objetos com base nas semelhanças e diferenças entre os
mesmos de tal maneira que os grupos obtidos são os mais
homogêneos e o mais separados possíveis.
Objetos: abstração para todo tipo de estrutura
– Registros
– Documentos
– Grafos
– ...
Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
Agrupamento
Uma forma de determinar se dois registros são próximos é através de
medidas de similaridade e distância
Distância Euclidiana
y
 

n
i
ii yxd
1
2
x
Agrupamento
    44.26)35(3432),( 222
yxd
Agrupamento
Agrupamento
Agrupamento
Agrupamento
Agrupamento
Agrupamento
Agrupamento
Agrupamento
Número de grupos?
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
Classificação
Classificação é a tarefa de predizer uma classe (atributo) para um dado
desconhecido
Instância Outlook Temperature Humidity Wind Play
D1 sunny hot high weak no
D2 sunny hot high strong no
D3 overcast hot high weak yes
D4 rain mild high weak yes
D5 rain cool normal weak yes
D6 rain cool normal strong no
D7 overcast cool normal strong yes
D8 sunny mild high weak no
D9 sunny cool normal weak yes
D10 rain mild normal weak yes
D11 sunny mild normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
D14 rain mild high strong no
Classificação
Existem diversas famílias de técnicas para classificação:
– Indução de regras
– Redes Bayesianas
– Redes Neurais
– Árvores de decisão
– KNN (k-Nearest Neighbors)
– SVM (support vector machine)
Árvore de decisão – ADs
Forma mais simples:
– Lista de perguntas e respostas “sim” ou “não”
– Hierarquicamente arranjadas
– Levam a uma decisão
Estrutura da árvore determinada por meio de aprendizado
Árvore de decisão – ADs
Instância Outlook Temperature Humidity Wind Play
D1 sunny hot high weak no
D2 sunny hot high strong no
D3 overcast hot high weak yes
D4 rain mild high weak yes
D5 rain cool normal weak yes
D6 rain cool normal strong no
D7 overcast cool normal strong yes
D8 sunny mild high weak no
D9 sunny cool normal weak yes
D10 rain mild normal weak yes
D11 sunny mild normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
D14 rain mild high strong no
Árvore de decisão – ADs
Outlook?
Sunny
Overcast
Rain
Inst Outlook Temp Hum Wind Play
D9 sunny cool normal weak yes
D11 sunny mild normal strong yes
D1 sunny hot high weak no
D2 sunny hot high strong no
D8 sunny mild high weak no
Inst Outlook Temp Hum Wind Play
D3 overcast hot high weak yes
D7 overcast cool normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
Inst Outlook Temp Hum Wind Play
D5 rain cool normal weak yes
D4 rain mild high weak yes
D10 rain mild normal weak yes
D6 rain cool normal strong no
D14 rain mild high strong no
Árvore de decisão – ADs
Teste Exemplo Outlook Temperature Humidity Wind Play?
If outlook=sunny D1
D2
D8
D9
D11
Sunny
Sunny
Sunny
Sunny
Sunny
Hot
Hot
Mild
Cool
Mild
High
High
High
Normal
Normal
Weak
Strong
Weak
Weak
Strong
No
No
No
Yes
Yes
If
outlook=overcast
D3
D7
D12
D13
Overcast
Overcast
Overcast
Overcast
Hot
Cold
Mild
Hot
High
Normal
High
Normal
Weak
Strong
Strong
Weak
Yes
Yes
Yes
Yes
If outlook=rain D4
D5
D6
D10
D14
Rain
Rain
Rain
Rain
Rain
Mild
Cool
Cool
Mild
Mild
High
Normal
Normal
Normal
High
Weak
Weak
Strong
Weak
Strong
Yes
Yes
No
Yes
No
Árvore de decisão – ADs
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Inst Outlook Temp Hum Wind Play
D5 rain cool normal weak yes
D4 rain mild high weak yes
D10 rain mild normal weak yes
Inst Outlook Temp Hum Wind Play
D6 rain cool normal strong no
D14 rain mild high strong no
Weak Strong
Árvore de decisão – ADs
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Weak Strong
YES NO
Árvore de decisão – ADs
Teste Exemplo Outlook Temperature Humidity Wind Play?
If outlook=sunny
and
humidity=high
D1
D2
D8
Sunny
Sunny
Sunny
Hot
Hot
Mild
High
High
High
Weak
Strong
Weak
No
No
No
If outlook=sunny
and
humidity=nomal
D9
D11
Sunny
Sunny
Cool
Mild
Normal
Normal
Weak
Strong
Yes
Yes
If
outlook=overcast
D3
D7
D12
D13
Overcast
Overcast
Overcast
Overcast
Hot
Cold
Mild
Hot
High
Normal
High
Normal
Weak
Strong
Strong
Weak
Yes
Yes
Yes
Yes
If outlook=rain
and wind=strong
D6
D14
Rain
Rain
Cool
Mild
Normal
High
Strong
Strong
No
No
If outlook=rain
and wind=weak
D4
D5
D10
Rain
Rain
Rain
Mild
Cool
Mild
High
Normal
Normal
Weak
Weak
Weak
Yes
Yes
Yes
Árvore de decisão – ADs
Como classificar <rain,hot,high,normal,strong>?
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Weak Strong
YES NO
Árvore de decisão – ADs
Existem critérios para escolha dos atributos em cada posição da
árvore
– Entropia, ganho de informação, etc.
A árvore pode ficar muito grande (muitos passos entre a raiz e uma
folha)
– Os algoritmos adotam critérios de poda para reduzir esse percurso
Cada ramificação é uma regra
– A árvore é um modelo que expressa conhecimento com junção e
disjunção (E e OU)
Tecnológicas
Programação X Fluxo De Dados
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Aplicações em dados educacionais
Quais dados estão disponíveis?
Aplicações em dados educacionais
Quais dados estão disponíveis?
Modelos de regressão
– Prever nota dos alunos
– A partir do histórico do aluno e uma série de exercícios qual será a
nota do aluno na prova
Descoberta de conjuntos frequentes
– Extração de regras de associação
• Se primeiro_ano e professor_A e primeiro_semestre Então
nota_média_D
• Se primeiro_ano e professor_B e primeiro_semestre Então
nota_média_A
Aplicações em dados educacionais
Agrupamento
– Agrupamento de alunos, professores, currículos do SISGAD, logs do
moodle (melhores alunos são os que mais acessam o moodle), etc
Classificação
– Aluno <aprovado, reprovado>
– Nota do aluno <A,B,C,D,E,F> semelhante a regressão
– Classificação automática de cada questão
• Pergunta ….
– ( ) a - errado
– (x) b – errado → porque o item b foi marcado
– ( ) c - errado
– ( ) d – certo → qual conteúdo sustenta o item d.
App prova
http://appprova.com.br/
Inspiração para aplicações no Serpro
Inspiração para aplicações no Serpro
Inspiração para aplicações no Serpro
Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
Dúvidas?
Grato pela atenção.
Sérgio M. Dias | www.sergiomdias.com
sergio.dias@serpro.gov.br

Mais conteúdo relacionado

Semelhante a Introdução a ciência de dados com aplicações em dados educacionais

Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Overview of Data Science e Machine Learning
Overview of Data Science e Machine Learning Overview of Data Science e Machine Learning
Overview of Data Science e Machine Learning Gleydson Lima
 
Dados de Pesquisa: gestão e curadoria
Dados de Pesquisa: gestão e curadoriaDados de Pesquisa: gestão e curadoria
Dados de Pesquisa: gestão e curadoriaLuana Sales
 
ACH 5504 - Mineração de Dados - Notas de Aula
ACH 5504 - Mineração de Dados - Notas de AulaACH 5504 - Mineração de Dados - Notas de Aula
ACH 5504 - Mineração de Dados - Notas de AulaGabrielVarga9
 
Machine learning - O que é isso?
Machine learning - O que é isso?Machine learning - O que é isso?
Machine learning - O que é isso?Vinicius Mesel
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
aulabioestatistica-130107150114-phpapp02.pdf
aulabioestatistica-130107150114-phpapp02.pdfaulabioestatistica-130107150114-phpapp02.pdf
aulabioestatistica-130107150114-phpapp02.pdfLuizAntnioDosSantos3
 
Design da Informação e Visualização de dados
Design da Informação e Visualização de dadosDesign da Informação e Visualização de dados
Design da Informação e Visualização de dadosRicardo Ruiz
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Leandro Escobar
 
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...Mariano Pimentel
 
Administração em Marketing - Aula 7 - Pesquisa em Marketing
Administração em Marketing - Aula 7 -  Pesquisa em MarketingAdministração em Marketing - Aula 7 -  Pesquisa em Marketing
Administração em Marketing - Aula 7 - Pesquisa em MarketingUeliton da Costa Leonidio
 
Prospecção tecnológica para aulas
Prospecção tecnológica para aulasProspecção tecnológica para aulas
Prospecção tecnológica para aulasDanilo Câmara
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatisticaAleNiv
 

Semelhante a Introdução a ciência de dados com aplicações em dados educacionais (20)

Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
aula_analiseDeDados.pptx
aula_analiseDeDados.pptxaula_analiseDeDados.pptx
aula_analiseDeDados.pptx
 
Overview of Data Science e Machine Learning
Overview of Data Science e Machine Learning Overview of Data Science e Machine Learning
Overview of Data Science e Machine Learning
 
Dados de Pesquisa: gestão e curadoria
Dados de Pesquisa: gestão e curadoriaDados de Pesquisa: gestão e curadoria
Dados de Pesquisa: gestão e curadoria
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Data science
Data scienceData science
Data science
 
Data mining
Data miningData mining
Data mining
 
ACH 5504 - Mineração de Dados - Notas de Aula
ACH 5504 - Mineração de Dados - Notas de AulaACH 5504 - Mineração de Dados - Notas de Aula
ACH 5504 - Mineração de Dados - Notas de Aula
 
Machine learning - O que é isso?
Machine learning - O que é isso?Machine learning - O que é isso?
Machine learning - O que é isso?
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
aulabioestatistica-130107150114-phpapp02.pdf
aulabioestatistica-130107150114-phpapp02.pdfaulabioestatistica-130107150114-phpapp02.pdf
aulabioestatistica-130107150114-phpapp02.pdf
 
Design da Informação e Visualização de dados
Design da Informação e Visualização de dadosDesign da Informação e Visualização de dados
Design da Informação e Visualização de dados
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...
Desafios para fazer Pesquisa Científica de Qualidade (rigor), Útil (aplicada...
 
Administração em Marketing - Aula 7 - Pesquisa em Marketing
Administração em Marketing - Aula 7 -  Pesquisa em MarketingAdministração em Marketing - Aula 7 -  Pesquisa em Marketing
Administração em Marketing - Aula 7 - Pesquisa em Marketing
 
Prospecção tecnológica para aulas
Prospecção tecnológica para aulasProspecção tecnológica para aulas
Prospecção tecnológica para aulas
 
Data mining
Data miningData mining
Data mining
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 

Mais de Sérgio Dias

Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...Sérgio Dias
 
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...Sérgio Dias
 
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...Sérgio Dias
 
Proposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisProposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisSérgio Dias
 
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...Sérgio Dias
 
Formal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social NetworksFormal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social NetworksSérgio Dias
 
Redução de Reticulados Conceituais
Redução de Reticulados ConceituaisRedução de Reticulados Conceituais
Redução de Reticulados ConceituaisSérgio Dias
 
Algoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados ConceituaisAlgoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados ConceituaisSérgio Dias
 
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...Sérgio Dias
 

Mais de Sérgio Dias (9)

Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Terceira Lista de Exercícios - Aula sobre...
 
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
Fundamentos da Teoria da Computação Segunda Lista de Exercícios - Aula sobre ...
 
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
Fundamentos da Teoria da Computação Primeira Lista de Exercícios - Aula sobre...
 
Proposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisProposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados Conceituais
 
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
Edital SERPRO/UFMG 01/2013 - “Práticas de Mineração de Dados Escalável para S...
 
Formal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social NetworksFormal Concept Analysis applied to Professional Social Networks
Formal Concept Analysis applied to Professional Social Networks
 
Redução de Reticulados Conceituais
Redução de Reticulados ConceituaisRedução de Reticulados Conceituais
Redução de Reticulados Conceituais
 
Algoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados ConceituaisAlgoritmos para Geração de Reticulados Conceituais
Algoritmos para Geração de Reticulados Conceituais
 
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
Extração e Representação de Conhecimento de Redes Neurais Artificiais Utiliza...
 

Último

COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptssuser2b53fe
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAHELENO FAVACHO
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...HELENO FAVACHO
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfRavenaSales1
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Ilda Bicacro
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfHELENO FAVACHO
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfHELENO FAVACHO
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfHELENO FAVACHO
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecniCleidianeCarvalhoPer
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfHELENO FAVACHO
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxLusGlissonGud
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)ElliotFerreira
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfEmanuel Pio
 
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxLuizHenriquedeAlmeid6
 

Último (20)

COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
 
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...
PROJETO DE EXTENSÃO I - TECNOLOGIA DA INFORMAÇÃO Relatório Final de Atividade...
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptx
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdf
 
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
 

Introdução a ciência de dados com aplicações em dados educacionais

  • 1. Introdução a ciência de dados com aplicações em dados educacionais
  • 2. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 3. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 4. Big Data Analytics!!! Big Data – Quando volume, velocidade ou variedade de dados excede a capacidade de armazenamento e/ou computação – Big Data é relativo, não absoluto Analytics – Aprendizado de máquinas – Mercado • “Relatórios”, painéis, etc
  • 5. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
  • 6. Big Data A cada segundo1 : – 100.000 tweets circulam – 547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2 : – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/ Big Data X Big User
  • 7. Como lidar com este “dilúvio” de dados? A palavra mais importante no termo “ciência de dados” não é “dados”, mas ciência. Fonte (2010): http://www.economist.com/node/15579717
  • 8. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 9. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
  • 10. Ciência de Dados A partir da necessidade de análise desse emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ Ciência de Dados X Mineração de Dados
  • 11. Cientista de Dados   – – Fonte (2014): https://www.wired.com/insights/2014/06/tell-kids-data-scientists-doctors/
  • 14. O que os cientistas de dados fazem? Definem hipóteses e perguntas Definem os conjuntos de dados ideais Determinam que dados podem ser acessados Adquirem os dados Preprocessam os dados Realizam análise de dados exploratória Realizam modelagem estatística dos dados Interpretam resultados de análises Escrevem relatórios sobre os resultados Criam modelos/componentes/códigos reusáveis Compartilham modelos e resultados com outras pessoas Considerando: ● Processos ● Ambientes ● Projetos
  • 15. O que os cientistas de dados fazem? Informação com alto valor agregado!
  • 16. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 17. Processo em ciência de dados CRISP-DM (CRoss Industry Standard Process for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)
  • 19. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 20. Principais técnicas Algumas classes de problemas – Modelos de regressão – Descoberta de conjuntos frequentes – Agrupamento – Classificação Existem algoritmos diferentes para cada classe Existem outras classe de problemas – Análise de imagem – Redes sociais – Mineração de texto – etc
  • 21. Principais técnicas – um passo antes! Modelo relacional
  • 22. Principais técnicas – um passo antes! Tabela única Nome Idade Sexo ... salário José 27 M 985.00 Maria 26 F 1800.00 ... ... ... ... ... Eduardo 19 M 1278.50
  • 23. Modelos de regressão Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis de tal forma que uma variável pode ser predita a partir da outra ou outras
  • 24. Modelos de regressão Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis de tal forma que uma variável pode ser predita a partir da outra ou outras X Y 1 1 2 2 3 1.3 4 3.75 5 2.25
  • 25. Modelos de regressão Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis de tal forma que uma variável pode ser predita a partir da outra ou outras X Y 1 1 2 2 3 1.3 4 3.75 5 2.25
  • 26. Modelos de regressão Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis de tal forma que uma variável pode ser predita a partir da outra ou outras X Y 1 1 2 2 3 1.3 4 3.75 5 2.25
  • 28. Modelos de regressão Modelo é uma equação que representa a reta – Y = 0.425X + 0.785 – Para X = 1, • Y = (0.425)(1) + 0.785 = 1.21 – Para X = 2, • Y = (0.425)(2) + 0.785 = 1.64 – Para X = 6, • Y = (0.425)(6) + 0.785 = 3.34 X Y 1 1 2 2 3 1.3 4 3.75 5 2.25
  • 29. Modelos de regressão 1 Grau0 2 Grau0 3 Grau0 LINHA CURVA DE 3 GRAU0 PARABOLA VARIÁVEL 2 X X X Y Y Y YYY X X X Z Z Z PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0 VARIÁVEL 3
  • 30. Modelos de regressão Pode não ser desejável, ou mesmo possível, descrever um fenômeno através de um modelo de regressão linear
  • 31. Descoberta de conjuntos frequentes Consiste em encontrar padrões frequentes (conjuntos de atributos) que ocorram simultaneamente de forma frequente em um conjunto de dados PRODUTO APRODUTO A PRODUTO APRODUTO A PRODUTO BPRODUTO B Oferta de produto relacionado Compra de produto
  • 32. Descoberta de conjuntos frequentes Exemplo TID Items 1 pão, leite 2 pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca null AB AC AD AE BC BD BE CD CE DE A B C D E ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCDE
  • 33. Descoberta de conjuntos frequentes Conjuntos cortados
  • 34. Descoberta de conjuntos frequentes Suponha que {leite, fralda, cerveja} seja um conjunto frequente Exemplos de regras: {leite,fralda}  {cerveja} (s=0.4, c=0.67) {leite,cerveja}  {fralda} (s=0.4, c=1.0) {fralda,cerveja}  {leite} (s=0.4, c=0.67) {cerveja}  {leite,fralda} (s=0.4, c=0.67) {fralda}  {leite,cerveja} (s=0.4, c=0.5) {leite}  {fralda,cerveja} (s=0.4, c=0.5)
  • 35. Agrupamento Técnicas de agrupamento são métodos usados para a construção de grupos de objetos com base nas semelhanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais homogêneos e o mais separados possíveis. Objetos: abstração para todo tipo de estrutura – Registros – Documentos – Grafos – ...
  • 36. Agrupamento Cluster: um grupo de objetos – Similares entre si quando no mesmo grupo – Dissimilares em relação a objetos em outros grupos Nome Idade Sexo ... salário José 27 M 985,00 Maria 26 F 1.800,00 ... Senna ... M 100.000,00 Nelson Piquet ... M 130.500,00 Alain Prost ... M 125.010,00 ... Ana 19 F 1.278,50
  • 37. Agrupamento Cluster: um grupo de objetos – Similares entre si quando no mesmo grupo – Dissimilares em relação a objetos em outros grupos Nome Idade Sexo ... salário José 27 M 985,00 Maria 26 F 1.800,00 ... Senna ... M 100.000,00 Nelson Piquet ... M 130.500,00 Alain Prost ... M 125.010,00 ... Ana 19 F 1.278,50
  • 38. Agrupamento Cluster: um grupo de objetos – Similares entre si quando no mesmo grupo – Dissimilares em relação a objetos em outros grupos Nome Idade Sexo ... salário José 27 M 985,00 Maria 26 F 1.800,00 ... Senna ... M 100.000,00 Nelson Piquet ... M 130.500,00 Alain Prost ... M 125.010,00 ... Ana 19 F 1.278,50
  • 39. Agrupamento Uma forma de determinar se dois registros são próximos é através de medidas de similaridade e distância Distância Euclidiana y    n i ii yxd 1 2 x
  • 40. Agrupamento     44.26)35(3432),( 222 yxd
  • 48. Agrupamento Número de grupos? Nome Idade Sexo ... salário José 27 M 985,00 Maria 26 F 1.800,00 ... Senna ... M 100.000,00 Nelson Piquet ... M 130.500,00 Alain Prost ... M 125.010,00 ... Ana 19 F 1.278,50
  • 49. Classificação Classificação é a tarefa de predizer uma classe (atributo) para um dado desconhecido Instância Outlook Temperature Humidity Wind Play D1 sunny hot high weak no D2 sunny hot high strong no D3 overcast hot high weak yes D4 rain mild high weak yes D5 rain cool normal weak yes D6 rain cool normal strong no D7 overcast cool normal strong yes D8 sunny mild high weak no D9 sunny cool normal weak yes D10 rain mild normal weak yes D11 sunny mild normal strong yes D12 overcast mild high strong yes D13 overcast hot normal weak yes D14 rain mild high strong no
  • 50. Classificação Existem diversas famílias de técnicas para classificação: – Indução de regras – Redes Bayesianas – Redes Neurais – Árvores de decisão – KNN (k-Nearest Neighbors) – SVM (support vector machine)
  • 51. Árvore de decisão – ADs Forma mais simples: – Lista de perguntas e respostas “sim” ou “não” – Hierarquicamente arranjadas – Levam a uma decisão Estrutura da árvore determinada por meio de aprendizado
  • 52. Árvore de decisão – ADs Instância Outlook Temperature Humidity Wind Play D1 sunny hot high weak no D2 sunny hot high strong no D3 overcast hot high weak yes D4 rain mild high weak yes D5 rain cool normal weak yes D6 rain cool normal strong no D7 overcast cool normal strong yes D8 sunny mild high weak no D9 sunny cool normal weak yes D10 rain mild normal weak yes D11 sunny mild normal strong yes D12 overcast mild high strong yes D13 overcast hot normal weak yes D14 rain mild high strong no
  • 53. Árvore de decisão – ADs Outlook? Sunny Overcast Rain Inst Outlook Temp Hum Wind Play D9 sunny cool normal weak yes D11 sunny mild normal strong yes D1 sunny hot high weak no D2 sunny hot high strong no D8 sunny mild high weak no Inst Outlook Temp Hum Wind Play D3 overcast hot high weak yes D7 overcast cool normal strong yes D12 overcast mild high strong yes D13 overcast hot normal weak yes Inst Outlook Temp Hum Wind Play D5 rain cool normal weak yes D4 rain mild high weak yes D10 rain mild normal weak yes D6 rain cool normal strong no D14 rain mild high strong no
  • 54. Árvore de decisão – ADs Teste Exemplo Outlook Temperature Humidity Wind Play? If outlook=sunny D1 D2 D8 D9 D11 Sunny Sunny Sunny Sunny Sunny Hot Hot Mild Cool Mild High High High Normal Normal Weak Strong Weak Weak Strong No No No Yes Yes If outlook=overcast D3 D7 D12 D13 Overcast Overcast Overcast Overcast Hot Cold Mild Hot High Normal High Normal Weak Strong Strong Weak Yes Yes Yes Yes If outlook=rain D4 D5 D6 D10 D14 Rain Rain Rain Rain Rain Mild Cool Cool Mild Mild High Normal Normal Normal High Weak Weak Strong Weak Strong Yes Yes No Yes No
  • 55. Árvore de decisão – ADs Outlook? Sunny Overcast Rain Humidity? Normal High YES YES NO Wind? Inst Outlook Temp Hum Wind Play D5 rain cool normal weak yes D4 rain mild high weak yes D10 rain mild normal weak yes Inst Outlook Temp Hum Wind Play D6 rain cool normal strong no D14 rain mild high strong no Weak Strong
  • 56. Árvore de decisão – ADs Outlook? Sunny Overcast Rain Humidity? Normal High YES YES NO Wind? Weak Strong YES NO
  • 57. Árvore de decisão – ADs Teste Exemplo Outlook Temperature Humidity Wind Play? If outlook=sunny and humidity=high D1 D2 D8 Sunny Sunny Sunny Hot Hot Mild High High High Weak Strong Weak No No No If outlook=sunny and humidity=nomal D9 D11 Sunny Sunny Cool Mild Normal Normal Weak Strong Yes Yes If outlook=overcast D3 D7 D12 D13 Overcast Overcast Overcast Overcast Hot Cold Mild Hot High Normal High Normal Weak Strong Strong Weak Yes Yes Yes Yes If outlook=rain and wind=strong D6 D14 Rain Rain Cool Mild Normal High Strong Strong No No If outlook=rain and wind=weak D4 D5 D10 Rain Rain Rain Mild Cool Mild High Normal Normal Weak Weak Weak Yes Yes Yes
  • 58. Árvore de decisão – ADs Como classificar <rain,hot,high,normal,strong>? Outlook? Sunny Overcast Rain Humidity? Normal High YES YES NO Wind? Weak Strong YES NO
  • 59. Árvore de decisão – ADs Existem critérios para escolha dos atributos em cada posição da árvore – Entropia, ganho de informação, etc. A árvore pode ficar muito grande (muitos passos entre a raiz e uma folha) – Os algoritmos adotam critérios de poda para reduzir esse percurso Cada ramificação é uma regra – A árvore é um modelo que expressa conhecimento com junção e disjunção (E e OU)
  • 62. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 63. Aplicações em dados educacionais Quais dados estão disponíveis?
  • 64. Aplicações em dados educacionais Quais dados estão disponíveis? Modelos de regressão – Prever nota dos alunos – A partir do histórico do aluno e uma série de exercícios qual será a nota do aluno na prova Descoberta de conjuntos frequentes – Extração de regras de associação • Se primeiro_ano e professor_A e primeiro_semestre Então nota_média_D • Se primeiro_ano e professor_B e primeiro_semestre Então nota_média_A
  • 65. Aplicações em dados educacionais Agrupamento – Agrupamento de alunos, professores, currículos do SISGAD, logs do moodle (melhores alunos são os que mais acessam o moodle), etc Classificação – Aluno <aprovado, reprovado> – Nota do aluno <A,B,C,D,E,F> semelhante a regressão – Classificação automática de cada questão • Pergunta …. – ( ) a - errado – (x) b – errado → porque o item b foi marcado – ( ) c - errado – ( ) d – certo → qual conteúdo sustenta o item d.
  • 70. Agenda Big Data Analytics Ciência de dados Processo em ciência de dados Principais técnicas e ferramentas Aplicações em dados educacionais Possíveis modelos de negócio para o Serpro
  • 71. Dúvidas? Grato pela atenção. Sérgio M. Dias | www.sergiomdias.com sergio.dias@serpro.gov.br