SlideShare uma empresa Scribd logo
1 de 27
Baixar para ler offline
José Roberto Motta Garcia
garcia.cptec@gmail.comNov/2016
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGO
AMBIENTE
DE VARIÁVEIS
SAÍDA DO
CONSOLE
GRÁFICOS,
HELP,
…
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGO
AMBIENTE
DE VARIÁVEIS
SAÍDA DO
CONSOLE
GRÁFICOS,
HELP,
…
Executa
código marcado
ou linha
Atalho=Comm+enter (Mac)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fontes de dados para análises
• Google “free dataset for analysis”
• https://www.kaggle.com/datasets (competições diversas)
• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)
• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Primeiros conceitos
Exemplo de estrutura
de diretórios
…IntroDSwithR
01.1- CargaDeDados.R
01.2- TratamentoDeDados.R
...
Lib
Fun.Div.R
data
txt
Rdata
Original
Slides
Use os seus diretórios
(dir.data)
(dir.src)
(dir.txt)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de CSV
Na vida real os dados
quase nunca vêm “prontos
workspace
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – estrutura de um data.frame
Tipo do objeto
data.frame = tabela em BD (várias “colunas” de tipos diferentes)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados básicos (do mais forte ao mais fraco)
Forte
Fraco
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados estruturados: vector
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados básicos são vetores
Vetores de um
elemento
Vetor de 50
elementosÍndice
do
próximo
element
o que é
mostrad
o na tela
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: vetores e coerção de dados
PERIGO!
NÃO GERA ERRO!!
EXECUÇÃO CONTINUA!!
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito de “bind” – (amarrar, unir, linkar)
Tabela T (matrix, DF ou
DT)
T <- cbind(DESCR,
MEDIDA)
DESCR
A
B
C
MEDID
A99
100
40
DESCR
A
B
C
MEDID
A99
100
40
Dois vetores
ANO
1968
1969
VALOR
974
1000
INDICE
2
3
CLASS
EAUTO
MAN
ANO
1970
1971
VALOR
1200
2000
INDICE
3
4
CLASS
EAUTO
MAN
Tabela A
Tabela B
ANO
1968
1969
VALOR
974
1000
INDICE
2
3
CLASS
EAUTO
MAN
1970
1971
1200
2000
3
4
AUTO
MAN
Tabela C
C <- rbind(A,
B)
A
B
C
D
1
2
CUIDADO COM
CICLAGEM!!
Elementos do vetor
menor são repetidos!!
Só warning!
cbind(v1, v2)
v1 v2
A
B
C
D
1
2
1
2
v1 v2
BIND DE COLUNAS
BIND DE LINHAS
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (1)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (2)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O objeto data.table
Medir
temp
o
Espaço
ocupado
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O que são pacotes?
• R é melhorado de forma colaborativa
• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo
inteiro.
• Pacotes = coleção de elementos (funções, tipos de dados, ...) que
otimizam as funções básicas do R
• Ficam em https://cran.r-project.org/
• Como saber qual pacote usar?
• Google it!
• http://stackoverflow.com/
• https://www.r-bloggers.com/
• http://www.statmethods.net/
• https://github.com/Rdatatable/data.table/wiki
• https://www.datacamp.com/courses/data-analysis-the-data-table-way
sobre
data.table
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de FWF (formatado com largura fixa)
File.info retorna um data.frame
Valores da coluna podem ser acessados via “$”
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de arquivo de formato livre
Separa dado
“delimitado”
[[1]]
[1] "name” "Data Science”
[[2]]
[1] "class" "IT"
[[3]]
[1] "level” "beginner”
[[4]]
[1] "url"
[2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR
[[5]]
[1] "keywords” "data analysis, statistics"
MATRIZ CONFIG
Função *apply (poderosas) Imprime
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
EXCEL - Download e leitura
Do pacote utils
(pré-carregado)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (1)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (2) – Previsão do tempo pelo CPTEC
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
HTML - Download e leitura
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Outras interfaces com arquivos
• PACKAGE FOREIGN – dados de outras linguagens de programação
• read.arff() # weka
• read.dta() # Stata
• read.mtp() # Minitab
• read.octave()
• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF
• DATABASE: RPostressSQL, RODBC, RMongo, RMySQL
• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)
• GIS: rdgal, rgeos, raster
• MUSIC: tuneR, seewave
Dados
climáticos

Mais conteúdo relacionado

Destaque

Startup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman IndexStartup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman IndexArnobio Morelix
 
Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015Jornal do Commercio
 
Minicurso de estatística experimental com o R - III SIC IFNMG
Minicurso de estatística experimental com o R  - III SIC IFNMGMinicurso de estatística experimental com o R  - III SIC IFNMG
Minicurso de estatística experimental com o R - III SIC IFNMGPetronio Candido
 
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro SetorAula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro SetorProf. Leonardo Rocha
 
Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisAnálise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisRodrigo Rodrigues
 
Orientação a Objetos em Python
Orientação a Objetos em PythonOrientação a Objetos em Python
Orientação a Objetos em PythonLuciano Ramalho
 
Aula 01 empreendedorismo
Aula 01 empreendedorismoAula 01 empreendedorismo
Aula 01 empreendedorismoNJS Consultoria
 
Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3Marcel Caraciolo
 

Destaque (15)

Dica R - Quadrilátero gradiente
Dica R - Quadrilátero gradienteDica R - Quadrilátero gradiente
Dica R - Quadrilátero gradiente
 
Startup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman IndexStartup Activity in America -- A Look at Startup Policy and the Kauffman Index
Startup Activity in America -- A Look at Startup Policy and the Kauffman Index
 
Dissertação cap3 v12_corrigido
Dissertação cap3 v12_corrigidoDissertação cap3 v12_corrigido
Dissertação cap3 v12_corrigido
 
Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015Empreendedorismo em Brasília Teimosa - maio de 2015
Empreendedorismo em Brasília Teimosa - maio de 2015
 
Minicurso de estatística experimental com o R - III SIC IFNMG
Minicurso de estatística experimental com o R  - III SIC IFNMGMinicurso de estatística experimental com o R  - III SIC IFNMG
Minicurso de estatística experimental com o R - III SIC IFNMG
 
Introdução ao R
Introdução ao RIntrodução ao R
Introdução ao R
 
Apresentação senac
Apresentação senacApresentação senac
Apresentação senac
 
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro SetorAula de Empreendedorismo Social Unibrasil - Terceiro Setor
Aula de Empreendedorismo Social Unibrasil - Terceiro Setor
 
Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisAnálise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionais
 
EIA 2015 The Art of Start-Up Finance
EIA 2015 The Art of Start-Up FinanceEIA 2015 The Art of Start-Up Finance
EIA 2015 The Art of Start-Up Finance
 
Orientação a Objetos em Python
Orientação a Objetos em PythonOrientação a Objetos em Python
Orientação a Objetos em Python
 
Aula 01 empreendedorismo
Aula 01 empreendedorismoAula 01 empreendedorismo
Aula 01 empreendedorismo
 
Aula empreendedorismo
Aula empreendedorismoAula empreendedorismo
Aula empreendedorismo
 
Aprendendo python
Aprendendo pythonAprendendo python
Aprendendo python
 
Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3Oficina Python: Hackeando a Web com Python 3
Oficina Python: Hackeando a Web com Python 3
 

Semelhante a Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 
R - Software Estatistico
R - Software EstatisticoR - Software Estatistico
R - Software EstatisticoIvan Ricarte
 
R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreLuis Borges Gouveia
 
Integração de dados genômicos e estatísticos no RStudio
Integração de dados genômicos e estatísticos no RStudioIntegração de dados genômicos e estatísticos no RStudio
Integração de dados genômicos e estatísticos no RStudioLeandro Lemos
 
Introdução à visualização espacial em R
Introdução à visualização espacial em RIntrodução à visualização espacial em R
Introdução à visualização espacial em RVitor Vieira Vasconcelos
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em RVitor Vieira Vasconcelos
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...Alexandre Saboia Fuziyama
 
MongoDB: um banco de dados orientado a documento
MongoDB: um banco de dados orientado a documentoMongoDB: um banco de dados orientado a documento
MongoDB: um banco de dados orientado a documentoJulio Monteiro
 

Semelhante a Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados (15)

Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
R - Software Estatistico
R - Software EstatisticoR - Software Estatistico
R - Software Estatistico
 
R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livre
 
Integração de dados genômicos e estatísticos no RStudio
Integração de dados genômicos e estatísticos no RStudioIntegração de dados genômicos e estatísticos no RStudio
Integração de dados genômicos e estatísticos no RStudio
 
R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
Introdução à visualização espacial em R
Introdução à visualização espacial em RIntrodução à visualização espacial em R
Introdução à visualização espacial em R
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em R
 
MARCXML
MARCXMLMARCXML
MARCXML
 
Data science
Data scienceData science
Data science
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...
Nas internas do CartolaFC: como é a nova arquitetura do game feita para supor...
 
MongoDB: um banco de dados orientado a documento
MongoDB: um banco de dados orientado a documentoMongoDB: um banco de dados orientado a documento
MongoDB: um banco de dados orientado a documento
 

Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

  • 1. José Roberto Motta Garcia garcia.cptec@gmail.comNov/2016
  • 2. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Fases da análise de dados
  • 3. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Fases da análise de dados
  • 4. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R R e RStudio
  • 5. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R R e RStudio
  • 6. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R R e RStudio CÓDIGO AMBIENTE DE VARIÁVEIS SAÍDA DO CONSOLE GRÁFICOS, HELP, …
  • 7. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R R e RStudio CÓDIGO AMBIENTE DE VARIÁVEIS SAÍDA DO CONSOLE GRÁFICOS, HELP, … Executa código marcado ou linha Atalho=Comm+enter (Mac)
  • 8. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Fontes de dados para análises • Google “free dataset for analysis” • https://www.kaggle.com/datasets (competições diversas) • http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data) • http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)
  • 9. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Primeiros conceitos Exemplo de estrutura de diretórios …IntroDSwithR 01.1- CargaDeDados.R 01.2- TratamentoDeDados.R ... Lib Fun.Div.R data txt Rdata Original Slides Use os seus diretórios (dir.data) (dir.src) (dir.txt)
  • 10. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Manipulação de dados – Leitura de CSV Na vida real os dados quase nunca vêm “prontos workspace
  • 11. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Manipulação de dados – estrutura de um data.frame Tipo do objeto data.frame = tabela em BD (várias “colunas” de tipos diferentes)
  • 12. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Tipos de dados básicos (do mais forte ao mais fraco) Forte Fraco
  • 13. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Tipos de dados estruturados: vector
  • 14. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Dados básicos são vetores Vetores de um elemento Vetor de 50 elementosÍndice do próximo element o que é mostrad o na tela
  • 15. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Tipos de dados: vetores e coerção de dados PERIGO! NÃO GERA ERRO!! EXECUÇÃO CONTINUA!!
  • 16. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Conceito de “bind” – (amarrar, unir, linkar) Tabela T (matrix, DF ou DT) T <- cbind(DESCR, MEDIDA) DESCR A B C MEDID A99 100 40 DESCR A B C MEDID A99 100 40 Dois vetores ANO 1968 1969 VALOR 974 1000 INDICE 2 3 CLASS EAUTO MAN ANO 1970 1971 VALOR 1200 2000 INDICE 3 4 CLASS EAUTO MAN Tabela A Tabela B ANO 1968 1969 VALOR 974 1000 INDICE 2 3 CLASS EAUTO MAN 1970 1971 1200 2000 3 4 AUTO MAN Tabela C C <- rbind(A, B) A B C D 1 2 CUIDADO COM CICLAGEM!! Elementos do vetor menor são repetidos!! Só warning! cbind(v1, v2) v1 v2 A B C D 1 2 1 2 v1 v2 BIND DE COLUNAS BIND DE LINHAS
  • 17. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Tipos de dados: estruturados (1)
  • 18. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Tipos de dados: estruturados (2)
  • 19. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R O objeto data.table Medir temp o Espaço ocupado
  • 20. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R O que são pacotes? • R é melhorado de forma colaborativa • Pacotes são desenvolvidos e disponibilizados por cientistas do mundo inteiro. • Pacotes = coleção de elementos (funções, tipos de dados, ...) que otimizam as funções básicas do R • Ficam em https://cran.r-project.org/ • Como saber qual pacote usar? • Google it! • http://stackoverflow.com/ • https://www.r-bloggers.com/ • http://www.statmethods.net/ • https://github.com/Rdatatable/data.table/wiki • https://www.datacamp.com/courses/data-analysis-the-data-table-way sobre data.table
  • 21. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Manipulação de dados – Leitura de FWF (formatado com largura fixa) File.info retorna um data.frame Valores da coluna podem ser acessados via “$”
  • 22. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Manipulação de dados – Leitura de arquivo de formato livre Separa dado “delimitado” [[1]] [1] "name” "Data Science” [[2]] [1] "class" "IT" [[3]] [1] "level” "beginner” [[4]] [1] "url" [2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR [[5]] [1] "keywords” "data analysis, statistics" MATRIZ CONFIG Função *apply (poderosas) Imprime
  • 23. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R EXCEL - Download e leitura Do pacote utils (pré-carregado)
  • 24. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R XML - Download e leitura (1)
  • 25. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R XML - Download e leitura (2) – Previsão do tempo pelo CPTEC
  • 26. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R HTML - Download e leitura
  • 27. José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R Outras interfaces com arquivos • PACKAGE FOREIGN – dados de outras linguagens de programação • read.arff() # weka • read.dta() # Stata • read.mtp() # Minitab • read.octave() • DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF • DATABASE: RPostressSQL, RODBC, RMongo, RMySQL • IMAGES: jpeg, readbimap, png, EBImage (Bioconductor) • GIS: rdgal, rgeos, raster • MUSIC: tuneR, seewave Dados climáticos