O documento introduz os conceitos de Big Data Analytics, Ciência de Dados, Processo em Ciência de Dados, Principais Técnicas e Ferramentas e Aplicações em Dados Educacionais. Explica como a Ciência de Dados lida com grandes volumes de dados através de técnicas como regressão, descoberta de padrões, agrupamento e classificação.
2. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
3. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
4. Big Data Analytics!!!
Big Data
– Quando volume, velocidade ou variedade de dados excede a
capacidade de armazenamento e/ou computação
– Big Data é relativo, não absoluto
Analytics
– Aprendizado de máquinas
– Mercado
• “Relatórios”, painéis, etc
5. Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
6. Big Data
A cada segundo1
:
– 100.000 tweets circulam
– 547 websites são criados
– mais de 2 milhões de pesquisas (Google)
– 48h de vídeos são baixadas no YouTube
– 684.478 itens são compartilhados no Facebook...
Em governo (Brasil)2
:
– Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia
– Mais de 16 bilhões de NFe autorizadas...
1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
Big Data X Big User
7. Como lidar com este “dilúvio” de dados?
A palavra mais importante no termo “ciência de dados” não é “dados”,
mas ciência.
Fonte (2010): http://www.economist.com/node/15579717
8. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
9. Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados surgiu
uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor escala
em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
10. Ciência de Dados
A partir da necessidade de análise desse emaranhado de dados surgiu
uma “nova” área da ciência, a chamada ciência de dados
– O “quarto paradigma” da ciência1
– A profissão mais “sexy” do século 212
– Uma nova buzzy word!
As atividades executadas pelo “cientista de dados”, em menor escala
em relação ao volume de dados, são bastante antigas3
1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research.
2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
Ciência de Dados X Mineração de Dados
14. O que os cientistas de dados fazem?
Definem hipóteses e perguntas
Definem os conjuntos de dados ideais
Determinam que dados podem ser acessados
Adquirem os dados
Preprocessam os dados
Realizam análise de dados exploratória
Realizam modelagem estatística dos dados
Interpretam resultados de análises
Escrevem relatórios sobre os resultados
Criam modelos/componentes/códigos reusáveis
Compartilham modelos e resultados com outras pessoas
Considerando:
● Processos
● Ambientes
● Projetos
15. O que os cientistas de dados fazem?
Informação com alto valor agregado!
16. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
17. Processo em ciência de dados
CRISP-DM (CRoss Industry Standard Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model and Assess)
19. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
20. Principais técnicas
Algumas classes de problemas
– Modelos de regressão
– Descoberta de conjuntos frequentes
– Agrupamento
– Classificação
Existem algoritmos diferentes para cada classe
Existem outras classe de problemas
– Análise de imagem
– Redes sociais
– Mineração de texto
– etc
22. Principais técnicas – um passo antes!
Tabela única
Nome Idade Sexo ... salário
José 27 M 985.00
Maria 26 F 1800.00
...
...
...
...
...
Eduardo 19 M 1278.50
23. Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
24. Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
25. Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
26. Modelos de regressão
Análise de regressão é uma metodologia estatística que utiliza a
relação entre duas ou mais variáveis de tal forma que uma variável
pode ser predita a partir da outra ou outras
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
28. Modelos de regressão
Modelo é uma equação que representa a reta
– Y = 0.425X + 0.785
– Para X = 1,
• Y = (0.425)(1) + 0.785 = 1.21
– Para X = 2,
• Y = (0.425)(2) + 0.785 = 1.64
– Para X = 6,
• Y = (0.425)(6) + 0.785 = 3.34
X Y
1 1
2 2
3 1.3
4 3.75
5 2.25
29. Modelos de regressão
1 Grau0
2 Grau0
3 Grau0
LINHA CURVA DE 3 GRAU0
PARABOLA
VARIÁVEL
2
X X X
Y Y Y
YYY
X X X
Z Z Z
PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0
VARIÁVEL
3
30. Modelos de regressão
Pode não ser desejável, ou mesmo possível, descrever um fenômeno
através de um modelo de regressão linear
31. Descoberta de conjuntos frequentes
Consiste em encontrar padrões frequentes (conjuntos de atributos)
que ocorram simultaneamente de forma frequente em um conjunto de
dados
PRODUTO APRODUTO A
PRODUTO APRODUTO A
PRODUTO BPRODUTO B
Oferta de
produto relacionado
Compra de
produto
32. Descoberta de conjuntos frequentes
Exemplo
TID Items
1 pão, leite
2 pão, fralda, cerveja, ovos
3 leite, fralda, cerveja, coca
4 pão, leite, fralda, cerveja
5 pão, leite, fralda, coca
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
34. Descoberta de conjuntos frequentes
Suponha que {leite, fralda, cerveja} seja um conjunto frequente
Exemplos de regras:
{leite,fralda} {cerveja} (s=0.4, c=0.67)
{leite,cerveja} {fralda} (s=0.4, c=1.0)
{fralda,cerveja} {leite} (s=0.4, c=0.67)
{cerveja} {leite,fralda} (s=0.4, c=0.67)
{fralda} {leite,cerveja} (s=0.4, c=0.5)
{leite} {fralda,cerveja} (s=0.4, c=0.5)
35. Agrupamento
Técnicas de agrupamento são métodos usados para a construção de
grupos de objetos com base nas semelhanças e diferenças entre os
mesmos de tal maneira que os grupos obtidos são os mais
homogêneos e o mais separados possíveis.
Objetos: abstração para todo tipo de estrutura
– Registros
– Documentos
– Grafos
– ...
36. Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
37. Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
38. Agrupamento
Cluster: um grupo de objetos
– Similares entre si quando no mesmo grupo
– Dissimilares em relação a objetos em outros grupos
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
39. Agrupamento
Uma forma de determinar se dois registros são próximos é através de
medidas de similaridade e distância
Distância Euclidiana
y
n
i
ii yxd
1
2
x
48. Agrupamento
Número de grupos?
Nome Idade Sexo ... salário
José 27 M 985,00
Maria 26 F 1.800,00
...
Senna ... M 100.000,00
Nelson Piquet ... M 130.500,00
Alain Prost ... M 125.010,00
...
Ana 19 F 1.278,50
49. Classificação
Classificação é a tarefa de predizer uma classe (atributo) para um dado
desconhecido
Instância Outlook Temperature Humidity Wind Play
D1 sunny hot high weak no
D2 sunny hot high strong no
D3 overcast hot high weak yes
D4 rain mild high weak yes
D5 rain cool normal weak yes
D6 rain cool normal strong no
D7 overcast cool normal strong yes
D8 sunny mild high weak no
D9 sunny cool normal weak yes
D10 rain mild normal weak yes
D11 sunny mild normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
D14 rain mild high strong no
50. Classificação
Existem diversas famílias de técnicas para classificação:
– Indução de regras
– Redes Bayesianas
– Redes Neurais
– Árvores de decisão
– KNN (k-Nearest Neighbors)
– SVM (support vector machine)
51. Árvore de decisão – ADs
Forma mais simples:
– Lista de perguntas e respostas “sim” ou “não”
– Hierarquicamente arranjadas
– Levam a uma decisão
Estrutura da árvore determinada por meio de aprendizado
52. Árvore de decisão – ADs
Instância Outlook Temperature Humidity Wind Play
D1 sunny hot high weak no
D2 sunny hot high strong no
D3 overcast hot high weak yes
D4 rain mild high weak yes
D5 rain cool normal weak yes
D6 rain cool normal strong no
D7 overcast cool normal strong yes
D8 sunny mild high weak no
D9 sunny cool normal weak yes
D10 rain mild normal weak yes
D11 sunny mild normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
D14 rain mild high strong no
53. Árvore de decisão – ADs
Outlook?
Sunny
Overcast
Rain
Inst Outlook Temp Hum Wind Play
D9 sunny cool normal weak yes
D11 sunny mild normal strong yes
D1 sunny hot high weak no
D2 sunny hot high strong no
D8 sunny mild high weak no
Inst Outlook Temp Hum Wind Play
D3 overcast hot high weak yes
D7 overcast cool normal strong yes
D12 overcast mild high strong yes
D13 overcast hot normal weak yes
Inst Outlook Temp Hum Wind Play
D5 rain cool normal weak yes
D4 rain mild high weak yes
D10 rain mild normal weak yes
D6 rain cool normal strong no
D14 rain mild high strong no
54. Árvore de decisão – ADs
Teste Exemplo Outlook Temperature Humidity Wind Play?
If outlook=sunny D1
D2
D8
D9
D11
Sunny
Sunny
Sunny
Sunny
Sunny
Hot
Hot
Mild
Cool
Mild
High
High
High
Normal
Normal
Weak
Strong
Weak
Weak
Strong
No
No
No
Yes
Yes
If
outlook=overcast
D3
D7
D12
D13
Overcast
Overcast
Overcast
Overcast
Hot
Cold
Mild
Hot
High
Normal
High
Normal
Weak
Strong
Strong
Weak
Yes
Yes
Yes
Yes
If outlook=rain D4
D5
D6
D10
D14
Rain
Rain
Rain
Rain
Rain
Mild
Cool
Cool
Mild
Mild
High
Normal
Normal
Normal
High
Weak
Weak
Strong
Weak
Strong
Yes
Yes
No
Yes
No
55. Árvore de decisão – ADs
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Inst Outlook Temp Hum Wind Play
D5 rain cool normal weak yes
D4 rain mild high weak yes
D10 rain mild normal weak yes
Inst Outlook Temp Hum Wind Play
D6 rain cool normal strong no
D14 rain mild high strong no
Weak Strong
56. Árvore de decisão – ADs
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Weak Strong
YES NO
57. Árvore de decisão – ADs
Teste Exemplo Outlook Temperature Humidity Wind Play?
If outlook=sunny
and
humidity=high
D1
D2
D8
Sunny
Sunny
Sunny
Hot
Hot
Mild
High
High
High
Weak
Strong
Weak
No
No
No
If outlook=sunny
and
humidity=nomal
D9
D11
Sunny
Sunny
Cool
Mild
Normal
Normal
Weak
Strong
Yes
Yes
If
outlook=overcast
D3
D7
D12
D13
Overcast
Overcast
Overcast
Overcast
Hot
Cold
Mild
Hot
High
Normal
High
Normal
Weak
Strong
Strong
Weak
Yes
Yes
Yes
Yes
If outlook=rain
and wind=strong
D6
D14
Rain
Rain
Cool
Mild
Normal
High
Strong
Strong
No
No
If outlook=rain
and wind=weak
D4
D5
D10
Rain
Rain
Rain
Mild
Cool
Mild
High
Normal
Normal
Weak
Weak
Weak
Yes
Yes
Yes
58. Árvore de decisão – ADs
Como classificar <rain,hot,high,normal,strong>?
Outlook?
Sunny Overcast Rain
Humidity?
Normal High
YES
YES NO
Wind?
Weak Strong
YES NO
59. Árvore de decisão – ADs
Existem critérios para escolha dos atributos em cada posição da
árvore
– Entropia, ganho de informação, etc.
A árvore pode ficar muito grande (muitos passos entre a raiz e uma
folha)
– Os algoritmos adotam critérios de poda para reduzir esse percurso
Cada ramificação é uma regra
– A árvore é um modelo que expressa conhecimento com junção e
disjunção (E e OU)
62. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro
64. Aplicações em dados educacionais
Quais dados estão disponíveis?
Modelos de regressão
– Prever nota dos alunos
– A partir do histórico do aluno e uma série de exercícios qual será a
nota do aluno na prova
Descoberta de conjuntos frequentes
– Extração de regras de associação
• Se primeiro_ano e professor_A e primeiro_semestre Então
nota_média_D
• Se primeiro_ano e professor_B e primeiro_semestre Então
nota_média_A
65. Aplicações em dados educacionais
Agrupamento
– Agrupamento de alunos, professores, currículos do SISGAD, logs do
moodle (melhores alunos são os que mais acessam o moodle), etc
Classificação
– Aluno <aprovado, reprovado>
– Nota do aluno <A,B,C,D,E,F> semelhante a regressão
– Classificação automática de cada questão
• Pergunta ….
– ( ) a - errado
– (x) b – errado → porque o item b foi marcado
– ( ) c - errado
– ( ) d – certo → qual conteúdo sustenta o item d.
70. Agenda
Big Data Analytics
Ciência de dados
Processo em ciência de dados
Principais técnicas e ferramentas
Aplicações em dados educacionais
Possíveis modelos de negócio para o Serpro