2. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
3. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
4. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
5. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
6. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGO
AMBIENTE
DE VARIÁVEIS
SAÍDA DO
CONSOLE
GRÁFICOS,
HELP,
…
7. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGO
AMBIENTE
DE VARIÁVEIS
SAÍDA DO
CONSOLE
GRÁFICOS,
HELP,
…
Executa
código marcado
ou linha
Atalho=Comm+enter (Mac)
8. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fontes de dados para análises
• Google “free dataset for analysis”
• https://www.kaggle.com/datasets (competições diversas)
• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)
• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)
9. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Primeiros conceitos
Exemplo de estrutura
de diretórios
…IntroDSwithR
01.1- CargaDeDados.R
01.2- TratamentoDeDados.R
...
Lib
Fun.Div.R
data
txt
Rdata
Original
Slides
Use os seus diretórios
(dir.data)
(dir.src)
(dir.txt)
10. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de CSV
Na vida real os dados
quase nunca vêm “prontos
workspace
11. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – estrutura de um data.frame
Tipo do objeto
data.frame = tabela em BD (várias “colunas” de tipos diferentes)
12. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados básicos (do mais forte ao mais fraco)
Forte
Fraco
13. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados estruturados: vector
14. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados básicos são vetores
Vetores de um
elemento
Vetor de 50
elementosÍndice
do
próximo
element
o que é
mostrad
o na tela
15. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: vetores e coerção de dados
PERIGO!
NÃO GERA ERRO!!
EXECUÇÃO CONTINUA!!
16. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito de “bind” – (amarrar, unir, linkar)
Tabela T (matrix, DF ou
DT)
T <- cbind(DESCR,
MEDIDA)
DESCR
A
B
C
MEDID
A99
100
40
DESCR
A
B
C
MEDID
A99
100
40
Dois vetores
ANO
1968
1969
VALOR
974
1000
INDICE
2
3
CLASS
EAUTO
MAN
ANO
1970
1971
VALOR
1200
2000
INDICE
3
4
CLASS
EAUTO
MAN
Tabela A
Tabela B
ANO
1968
1969
VALOR
974
1000
INDICE
2
3
CLASS
EAUTO
MAN
1970
1971
1200
2000
3
4
AUTO
MAN
Tabela C
C <- rbind(A,
B)
A
B
C
D
1
2
CUIDADO COM
CICLAGEM!!
Elementos do vetor
menor são repetidos!!
Só warning!
cbind(v1, v2)
v1 v2
A
B
C
D
1
2
1
2
v1 v2
BIND DE COLUNAS
BIND DE LINHAS
17. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (1)
18. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (2)
19. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O objeto data.table
Medir
temp
o
Espaço
ocupado
20. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O que são pacotes?
• R é melhorado de forma colaborativa
• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo
inteiro.
• Pacotes = coleção de elementos (funções, tipos de dados, ...) que
otimizam as funções básicas do R
• Ficam em https://cran.r-project.org/
• Como saber qual pacote usar?
• Google it!
• http://stackoverflow.com/
• https://www.r-bloggers.com/
• http://www.statmethods.net/
• https://github.com/Rdatatable/data.table/wiki
• https://www.datacamp.com/courses/data-analysis-the-data-table-way
sobre
data.table
21. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de FWF (formatado com largura fixa)
File.info retorna um data.frame
Valores da coluna podem ser acessados via “$”
22. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de arquivo de formato livre
Separa dado
“delimitado”
[[1]]
[1] "name” "Data Science”
[[2]]
[1] "class" "IT"
[[3]]
[1] "level” "beginner”
[[4]]
[1] "url"
[2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR
[[5]]
[1] "keywords” "data analysis, statistics"
MATRIZ CONFIG
Função *apply (poderosas) Imprime
23. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
EXCEL - Download e leitura
Do pacote utils
(pré-carregado)
24. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (1)
25. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (2) – Previsão do tempo pelo CPTEC
26. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
HTML - Download e leitura
27. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Outras interfaces com arquivos
• PACKAGE FOREIGN – dados de outras linguagens de programação
• read.arff() # weka
• read.dta() # Stata
• read.mtp() # Minitab
• read.octave()
• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF
• DATABASE: RPostressSQL, RODBC, RMongo, RMySQL
• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)
• GIS: rdgal, rgeos, raster
• MUSIC: tuneR, seewave
Dados
climáticos