1) O documento discute várias etapas da análise de dados, incluindo tratamento de dados, normalização, lidando com dados faltantes e reshaping dados.
2) É apresentado o conceito e uso de funções apply como apply(), lapply() e sapply() para aplicar funções em dados.
3) Técnicas como normalização, identificação e tratamento de dados faltantes e conversão entre formatos wide e long de dados são explicadas.
2. Fases da análise de dados – Tratamento de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
3. Aviso
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
ATENÇÃO
Fechar e reabrir o RStudio
(para ensinamento de conceito)
4. • Executam operações sobre um conjunto de dados (matrix, list, vector,
data.frame, …)
• Muito poderosas e compactadoras de código
Funções ?apply: apply()
apply: Aplica função em TABELA (vector, matrix, data.frame, data.table, ...) e retorna
a TABELA modificada pela função.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
5. Funções ?apply: lapply() e sapply()
lapply: Aplica função em List e retorna um List
sapply: Aplica função em List e retorna um vector ou matrix (obedece retorno da
função)
OUTRAS
mapply()
rapply()
tapply()
vapply()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
6. Normalização de dados – Conceito
Várias técnicas de aprendizado de máquina requerem que os dados estejam numa mesma
escala, ou seja, mesmo range de valores, sob pena de: lentidão, imprecisão e attribuição errônea
de relevância.
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
7. Normalização de dados – Execução e resultados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
8. Dados faltantes: preparando o DS
Iris dataset (incluído no R)
• 3 Espécies de íris:
versicolor, setosa e
virginica
• Medições das
pétalas e sépalas:
largura e altura
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
10. Dados faltantes: produzindo “na mão”
Exemplo de
geração de
números
aleatórios
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
11. Dados faltantes: produzindo via pacote
Valores diferentes?
Por quê?
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
12. Reprodutibilidade
Setar “semente”
antes do comando que
usa num. aleatórios
Função prodNA()
usa aleatoriedade
(no slide anterior)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
14. Dados faltantes: eliminando
Decidir se
quantidade
de dados vai
prejudicar
análise
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
15. Dados faltantes: preenchendo e analisando visualmente
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Versões
16. Dados faltantes: analisando numericamente o preenchimento
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
17. Tratamento de dados diversos
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
18. Tratamento de dados: reshaping
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
WIDELONG
. funções de sumarização
. mineração de dados
. base plot
. funções de análise
. ggplot
. lattice plots
19. Shape do dataset: conceito
DATA PREC TMIN TMAX
2016-09-21 5 10 21
2016-09-22 0 11 25
2016-09-23 2 14 29
DATA VARIAVE
L
VALOR
2016-09-21 PREC 5
2016-09-21 TMIN 10
2016-09-21 TMAX 21
2016-09-22 PREC 0
2016-09-22 TMIN 11
2016-09-22 TMAX 25
2016-09-23 PREC 2
2016-09-23 TMIN 14
2016-09-23 TMAX 29
WIDELONG
• Cada valor das colunas de dados no WIDE se torna
uma linha no LONG, para cada chave (que é a DATA)
• Para mudar o shape dcast() e reshape()
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
20. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito: processamento iterativo x vetorizado
+
VOTE
S
VOTES_F
R
TESTE
2
VOTE
S
VOTES_F
R
TESTE
1+
+
+
+
+
+
+
=
=
=
=
=
=
=
=