1) O documento apresenta uma aula sobre aplicações computacionais da estatística que inclui tópicos como softwares estatísticos, linguagem R, tipos de dados, importação de dados, limpeza de dados, plotagem de gráficos e correlação.
2) A linguagem R é apresentada como uma opção gratuita e multiplataforma para análises estatísticas que possui diversas bibliotecas.
3) Os principais tipos de dados no R incluem numéricos, caracteres, lógicos e complexos, que pode
Aula 2 prática computacional de estatística descritiva
1. Curso de Ciência de Dados e Analytics
Estatística Computacional
Aula 2 – Aplicações Computacionais da Estatística
Prof. Dr. Rodrigo Lins Rodrigues
rodrigo.linsrodrigues@ufrpe.br
Prof. Dr. Rodrigo Lins Rodrigues
2. Conteúdo programático
Conhecendo softwares estatísticos;
Porque cientistas de dados utilizam R;
Conhecendo a linguagem;
Tipos de dados;
Trabalhando com funções;
Importação de bases de dados;
Plotagem de gráficos;
Sumarização descritiva de dados;
Correlação
Projeto prático. Prof. Dr. Rodrigo Lins Rodrigues
4. Softwares Estatísticos
• Conhecendo softwares estatísticos;
Atualmente existem dezenas de softwares
estatísticos;
É praticamente impossível, imaginar “a vida” de
um analista de dados sem os recursos
computacionais atuais;
Um cientista de dados deve conhecer o máximo de
softwares de análises de dados;
Prof. Dr. Rodrigo Lins Rodrigues
7. Software Estatístico R
• Linguagem de programação especializada em
computação de dados;
• É um software gratuito;
• Multiplataforma (Win, Linux, Mac...);
• Grande quantidade de bibliotecas (pacotes);
Prof. Dr. Rodrigo Lins Rodrigues
8. Software Estatístico R
• Foi criado por Ross Ihaka e Robert
Gentleman;
• Departamento de Estatística da
universidade de Auckland, Nova Zelândia;
• O nome foi inspirado nas iniciais dos autores;
• Foi baseado na linguagem S (proprietária).
Prof. Dr. Rodrigo Lins Rodrigues
9. Software Estatístico R
• São disponibilizadas duas versões por ano;
• Possui funções para:
Extração de dados;
Limpeza de dados;
Carregamento e transformação de dados;
Análise estatística;
Machine Learning;
Visualização de dados;
...
Prof. Dr. Rodrigo Lins Rodrigues
10. Software Estatístico R
• Quantidade de pacotes disponibilizados
http://blog.revolutionanalytics.com/2016/03/16-years-of-r-history.htmlProf. Dr. Rodrigo Lins Rodrigues
12. Software Estatístico R
• Vantagens e Desvantagens na utilização do R
Prof. Dr. Rodrigo Lins Rodrigues
13. Software Estatístico R
• Grande variedade de pacotes disponíveis
gratuitamente;
• Controle total sobre o processo de análise;
• Possibilidade de integração com outras
linguagens;
• Além de estatística, análises como Text Mining...
Prof. Dr. Rodrigo Lins Rodrigues
14. Software Estatístico R
• Grade comunidade de desenvolvedores;
• Muita documentação grátis;
• Grandes empresas investindo:
Prof. Dr. Rodrigo Lins Rodrigues
15. Software Estatístico R
• Grande quantidade de pacotes:
sqldf - pacote que permite realizar queries SQL em
dataframes no R;
forecast - modelar séries temporais
plyr - dividir uma estrutura de dados em grupos;
stringr - manipulação de strings;
database drivers - RMongo, RODBC, RMySQL;
ggplot2 - visualização de dados
caret - pacote para Machine Learning;
.... quase 9.000 pacotes (https://cran.r-project.org).
Prof. Dr. Rodrigo Lins Rodrigues
16. Software Estatístico R
• Não tem uma interface gráfica robusta;
• Tudo é feito por linha de comando;
• Inicialmente tem uma curva de aprendizagem
maior;
Prof. Dr. Rodrigo Lins Rodrigues
18. Interface R (Basic)
• Console básico do R;
• O console pode ser improdutivo;
• Não fornece funcionalidades para
codificação;
Prof. Dr. Rodrigo Lins Rodrigues
19. Interface R (Basic)
• IDE – RStudio;
oDisponível gratuitamente;
oFunção autocomplete;
oQuatro áreas básicas:
Codificação (1);
Console (2);
Status(3);
Output(4).
1
2
3
4
Prof. Dr. Rodrigo Lins Rodrigues
28. • Tipos de Objetos em R
O R é uma linguagem orientada a objetos;
Os principais tipos de objetos no R são:
Vetores: sequência de valores numéricos ou caracteres;
Matrizes: coleção de vetores em linhas e colunas;
Listas: conjuntos de vetores, matrizes e data frames;
Dataframe: mesmo que matriz mas aceita vetores com tipos
de dados diferentes;
Funções: permitem os mais diversos cálculos com objetos.
Tipos de dados e objetos
Prof. Dr. Rodrigo Lins Rodrigues
29. • Vetores e Matrizes
Tipos de dados e objetos
Prof. Dr. Rodrigo Lins Rodrigues
30. • Array e Data Frames
Tipos de dados e objetos
Prof. Dr. Rodrigo Lins Rodrigues
31. • Listas e Funções
Tipos de dados e objetos
Prof. Dr. Rodrigo Lins Rodrigues
33. Estrutura de Controle
• Estão presentes em todas as linguagens de
programação;
• Permite fazer validações nos dados e
variáveis;
• Em Data Science é muito importante no pré-
processamento dos dados.
Prof. Dr. Rodrigo Lins Rodrigues
40. Trabalhando com funções
• Deixa o código mais legível, elegante e menos repetitivo;
• Funções são objetos em R;
• Funções podem receber outras funções como argumentos;
• Funções podem chamar pacotes específicos no R;
• É representada por:
Prof. Dr. Rodrigo Lins Rodrigues
41. Trabalhando com funções
• Funções nativas do R:
Conhecidas como funções Built-in
Prof. Dr. Rodrigo Lins Rodrigues
46. Importação de dados
• Saber importar dados para a ferramenta de
análise é um dos passos mais importantes;
• Dificilmente você fará todo o trabalho de análise
em uma só ferramenta;
• Os dados podem estar armazenados em
diversos sistemas e em diversos formatos.
Prof. Dr. Rodrigo Lins Rodrigues
47. Importação de dados
• De onde vem as bases que devem ser importadas?
...
Prof. Dr. Rodrigo Lins Rodrigues
50. • Outros pacotes de importação de dados
Importação de dados
Prof. Dr. Rodrigo Lins Rodrigues
51. Limpeza dos dados
• Problemas que devem ser tratados na fase de
limpeza dos dados:
Os cabeçalhos das colunas são valores e não nomes das
variáveis;
Diversas variáveis são armazenadas em uma coluna;
As variáveis são distribuídas em diversas tabelas
relacionais;
As variáveis tem grandes variabilidades;
Alta presença de valores nulos ou faltantes;
Abreviações preenchidas de diversas formas por usuários;
Etc..
Prof. Dr. Rodrigo Lins Rodrigues
53. Limpeza dos dados
• Pacote - dplyr.R
É um dos principais pacotes para o processo de
limpeza de dados;
É ideal para manipulação de dados;
Ele não faz parte do pacote básico e precisa ser
instalado;
Prof. Dr. Rodrigo Lins Rodrigues
59. Sumarização Descritiva
• É importante sempre aplicar medidas descritivas antes de
qualquer análise:
Medidas de tendência central;
Medidas de dispersão;
Amplitude de variáveis;
Construção de tabelas;
Prof. Dr. Rodrigo Lins Rodrigues
63. Plotando gráficos
• Representação gráfica construída a partir de
dados;
• O R é uma das melhores ferramentas para
construção de gráficos;
• A biblioteca básica do R para construção de
gráficos é a graphics.
Prof. Dr. Rodrigo Lins Rodrigues
64. Plotando gráficos
• Usando a função abaixo, vamos ver exemplos de gráficos com
o pacote graphics do R:
Prof. Dr. Rodrigo Lins Rodrigues
65. Plotando gráficos
• Gramática dos gráficos;
É usada para descrever as características que fundamenta a
construção de gráficos;
Elemento Descrição
Dados Conjunto de dados a ser analisado
Estética A escala em que nós mapeamos os dados
Geometria Os elementos visuais usados para representar os dados
Facets Visualizar os gráficos em porções menores
Estatística Representação e análise dos dados
Coordenadas A área na qual o gráfico será construído
Temas Visão geral do gráficoProf. Dr. Rodrigo Lins Rodrigues
76. Plotando gráficos
• Conhecendo a pacote ggplot2
É um das principais bibliotecas para construção de
gráficos em R;
A documentação completa encontra-se em:
http://ggplot2.org/;
Através da documentação é possível entender
diversos exemplos.
Prof. Dr. Rodrigo Lins Rodrigues