SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
José Roberto Motta Garcia
garcia.cptec@gmail.comNov/2016
Fases da análise de dados – Tratamento de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Aviso
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
ATENÇÃO
Fechar e reabrir o RStudio
(para ensinamento de conceito)
• Executam operações sobre um conjunto de dados (matrix, list, vector,
data.frame, …)
• Muito poderosas e compactadoras de código
Funções ?apply: apply()
apply: Aplica função em TABELA (vector, matrix, data.frame, data.table, ...) e retorna
a TABELA modificada pela função.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Funções ?apply: lapply() e sapply()
lapply: Aplica função em List e retorna um List
sapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da
função)
OUTRAS
mapply()
rapply()
tapply()
vapply()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Normalização de dados – Conceito
Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma
escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea
de relevância.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Normalização de dados – Execução e resultados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: preparando o DS
Iris dataset (incluído no R)
• 3 Espécies de íris:
versicolor, setosa e
virginica
• Medições das
pétalas e sépalas:
largura e altura
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: verificando existência
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: produzindo “na mão”
Exemplo de
geração de
números
aleatórios
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: produzindo via pacote
Valores diferentes?
Por quê?
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Reprodutibilidade
Setar “semente”
antes do comando que
usa num. aleatórios
Função prodNA()
usa aleatoriedade
(no slide anterior)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: conhecendo
10 10 6
4
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: eliminando
Decidir se
quantidade
de dados vai
prejudicar
análise
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados faltantes: preenchendo e analisando visualmente
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Versões
Dados faltantes: analisando numericamente o preenchimento
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tratamento de dados diversos
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tratamento de dados: reshaping
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
WIDELONG
. funções de sumarização
. mineração de dados
. base plot
. funções de análise
. ggplot
. lattice plots
Shape do dataset: conceito
DATA PREC TMIN TMAX
2016-09-21 5 10 21
2016-09-22 0 11 25
2016-09-23 2 14 29
DATA VARIAVE
L
VALOR
2016-09-21 PREC 5
2016-09-21 TMIN 10
2016-09-21 TMAX 21
2016-09-22 PREC 0
2016-09-22 TMIN 11
2016-09-22 TMAX 25
2016-09-23 PREC 2
2016-09-23 TMIN 14
2016-09-23 TMAX 29
WIDELONG
• Cada valor das colunas de dados no WIDE se torna
uma linha no LONG, para cada chave (que é a DATA)
• Para mudar o shape dcast() e reshape()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito: processamento iterativo x vetorizado
+
VOTE
S
VOTES_F
R
TESTE
2
VOTE
S
VOTES_F
R
TESTE
1+
+
+
+
+
+
+
=
=
=
=
=
=
=
=

Mais conteúdo relacionado

Destaque

Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro SetorAula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
Prof. Leonardo Rocha
 

Destaque (15)

Dica R - Quadrilátero gradiente
Dica R - Quadrilátero gradienteDica R - Quadrilátero gradiente
Dica R - Quadrilátero gradiente
 
Startup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman IndexStartup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman Index
 
Dissertação cap3 v12_corrigido
Dissertação cap3 v12_corrigidoDissertação cap3 v12_corrigido
Dissertação cap3 v12_corrigido
 
Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015
 
Minicurso de estatística experimental com o R - III SIC IFNMG
Minicurso de estatística experimental com o R  - III SIC IFNMGMinicurso de estatística experimental com o R  - III SIC IFNMG
Minicurso de estatística experimental com o R - III SIC IFNMG
 
Introdução ao R
Introdução ao RIntrodução ao R
Introdução ao R
 
Apresentação senac
Apresentação senacApresentação senac
Apresentação senac
 
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro SetorAula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
 
Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisAnálise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionais
 
EIA 2015 The Art of Start-Up Finance
EIA 2015 The Art of Start-Up FinanceEIA 2015 The Art of Start-Up Finance
EIA 2015 The Art of Start-Up Finance
 
Orientação a Objetos em Python
Orientação a Objetos em PythonOrientação a Objetos em Python
Orientação a Objetos em Python
 
Aula 01 empreendedorismo
Aula 01 empreendedorismoAula 01 empreendedorismo
Aula 01 empreendedorismo
 
Aula empreendedorismo
Aula empreendedorismoAula empreendedorismo
Aula empreendedorismo
 
Aprendendo python
Aprendendo pythonAprendendo python
Aprendendo python
 
Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3
 

Curso Intro à Ciência de Dados com R - 1.2 - Tratamento de dados

  • 1. José Roberto Motta Garcia garcia.cptec@gmail.comNov/2016
  • 2. Fases da análise de dados – Tratamento de dados José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 3. Aviso José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R ATENÇÃO Fechar e reabrir o RStudio (para ensinamento de conceito)
  • 4. • Executam operações sobre um conjunto de dados (matrix, list, vector, data.frame, …) • Muito poderosas e compactadoras de código Funções ?apply: apply() apply: Aplica função em TABELA (vector, matrix, data.frame, data.table, ...) e retorna a TABELA modificada pela função. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 5. Funções ?apply: lapply() e sapply() lapply: Aplica função em List e retorna um List sapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da função) OUTRAS mapply() rapply() tapply() vapply() José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 6. Normalização de dados – Conceito Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea de relevância. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 7. Normalização de dados – Execução e resultados José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 8. Dados faltantes: preparando o DS Iris dataset (incluído no R) • 3 Espécies de íris: versicolor, setosa e virginica • Medições das pétalas e sépalas: largura e altura José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 9. Dados faltantes: verificando existência José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 10. Dados faltantes: produzindo “na mão” Exemplo de geração de números aleatórios José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 11. Dados faltantes: produzindo via pacote Valores diferentes? Por quê? José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 12. Reprodutibilidade Setar “semente” antes do comando que usa num. aleatórios Função prodNA() usa aleatoriedade (no slide anterior) José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 13. Dados faltantes: conhecendo 10 10 6 4 José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 14. Dados faltantes: eliminando Decidir se quantidade de dados vai prejudicar análise José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 15. Dados faltantes: preenchendo e analisando visualmente José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Versões
  • 16. Dados faltantes: analisando numericamente o preenchimento José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 17. Tratamento de dados diversos José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 18. Tratamento de dados: reshaping José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R WIDELONG . funções de sumarização . mineração de dados . base plot . funções de análise . ggplot . lattice plots
  • 19. Shape do dataset: conceito DATA PREC TMIN TMAX 2016-09-21 5 10 21 2016-09-22 0 11 25 2016-09-23 2 14 29 DATA VARIAVE L VALOR 2016-09-21 PREC 5 2016-09-21 TMIN 10 2016-09-21 TMAX 21 2016-09-22 PREC 0 2016-09-22 TMIN 11 2016-09-22 TMAX 25 2016-09-23 PREC 2 2016-09-23 TMIN 14 2016-09-23 TMAX 29 WIDELONG • Cada valor das colunas de dados no WIDE se torna uma linha no LONG, para cada chave (que é a DATA) • Para mudar o shape dcast() e reshape() José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
  • 20. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Conceito: processamento iterativo x vetorizado + VOTE S VOTES_F R TESTE 2 VOTE S VOTES_F R TESTE 1+ + + + + + + = = = = = = = =