Análise Exploratória dos Dados
“Eu posso explicar tudo”
Prof. Juliano van Melis
“Conhecendo melhor os seus dados”
Objetivos
 Aprender o que é e como fazer a análise
exploratória dos dados;
 Aprender a fazer representações tabulares e
suas normas;
Aprender as principais representações gráficas,
suas normas e principais utilizações.
TABELASAspectos básicos
- Toda tabela deve ser simples, clara e objetiva ;
- Toda tabela deve ser autoexplicativa;
- Nenhuma célula deve ficar em branco;
- Deve ser mantida a uniformidade de casas decimais
CONCEITOS
• Dados brutos
• Rol
• Amplitude total
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
158 154 153 160 157
171 170 166 165 169
155 161 162 164 163
Altura dos
estudantes
TABELAS
CONCEITOS
• Dados brutos
• Rol
• Amplitude total
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
Altura dos
estudantes
TABELAS
153 154 155 157 158
160 161 162 163 164
165 166 169 170 171
CONCEITOS
• Dados brutos
• Rol
• Amplitude total
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
Altura dos
estudantes
TABELAS
153 154 155 157 158
160 161 162 163 164
165 166 169 170 171
Amplitude = 171-153 = 18
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
153 154 155 157 158
160 161 162 163 164
165 166 169 170 171
TABELASCONCEITOS
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
TABELASCONCEITOS
• Distribuição de frequência
• Intervalo e Limite de classe
• Frequência Acumulada (Fac)
• Frequência Relativa (FR)
TABELASCONCEITOS
TABELASCONCEITOS
Número de Classes: Pode ser calculado
C = 3 + ln(N) (fórmula de Sturges)
Intervalo de Classes: deve ser homogêneo
Tabelas de Frequência
• Qualquer tipo de variável (qualitativa/quantitativa)
• Linhas e Colunas
• Fundamental para se criar os gráficos
• Frequências = Nº de ocorrências (pode ser em %)
TABELAS
Tabelas de Frequência
Sexo Ensino
Fundamental
Ensino
Médio
Ensino
Superior
Sem Ensino
Masculino 15 60 25 5
Feminino 40 80 50 10
TABELAS
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15 60 25 5 105
Feminino 40 80 50 10 180
TABELAS
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15 60 25 5 105
Feminino 40 80 50 10 180
TABELAS
CASA
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15 60 25 5 105
Feminino 40 80 50 10 180
TABELAS
cabeçalho
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15 60 25 5 105
Feminino 40 80 50 10 180
TOTAL 55 140 75 15 285
TABELAS
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15/105 60/105 25/105 5/105 105/105
Feminino 40/180 80/180 50/180 10/180 180/180
TOTAL 55/285 140/285 75/285 15/285 285/285
TABELAS
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15/55 60/140 25/75 5/15 105/285
Feminino 40/55 80/140 50/75 10/15 180/285
TOTAL 55/55 140/140 75/75 15/15 285/285
TABELAS
Ensino
Tabelas de Frequência
Sexo
Ensino
Fundamental
Ensino Médio Ensino
Superior
Sem Ensino TOTAL
Masculino 15/285 60/285 25/285 5/285 105/285
Feminino 40/285 80/285 50/285 10/285 180/285
TOTAL 55/285 140/285 75/285 15/285 285/285
TABELAS
Ensino
Análise e Interpretação dos dados
São calculados os parâmetros como:
• Média
• Mediana
• Moda
• Proporções
• Percentis
• Variância e Desvio padrão
TABELAS
Média Aritmética ( )
No caso, seria:
(150+160+170+180+190)/5 =
850/5 =
170
150160 170180 190
Análise e Interpretação dos dados
Medidas de Tendência Central
• Mediana: colocando os valores em rol, a mediana é representada
pelo valor que divide metade do rol.
150 160 170 180 190
Análise e Interpretação dos dados
Cálculo de Mediana
Medidas de Tendência Central
• Mediana: colocando os valores em rol, a mediana é representada
pelo valor que divide metade do rol.
150 160 170 180 190 200
Análise e Interpretação dos dados
Medidas de
Tendência Central
• Moda: é o valor com maior frequência.
Neste caso, para alturas, não há.
Mas a moda para a roupa, seria vermelho.
150 160 170 180 190
Também utilizada para
dados nominais
Análise e Interpretação dos dados
Medidas de Tendência
Central - Moda
• Outro exemplo: Notas em Matemática dos estudantes =
{4; 5; 3; 4; 6; 7; 9; 10; 9; 10; 7; 7; 6}
Nota 3: 1
Nota 4: 2
Nota 5: 1
Nota 6: 2
Nota 7: 3
Nota 8: 0
Nota 9: 2
Nota 10: 2
Moda
Análise e Interpretação dos dados
Medidas de Tendência
Central - Moda
• Outro exemplo: Notas em Matemática dos estudantes =
{4; 5; 3; 4; 6; 7; 9; 10; 10; 10; 7; 7; 6}
Nota 3: 1
Nota 4: 2
Nota 5: 1
Nota 6: 2
Nota 7: 3
Nota 8: 0
Nota 9: 1
Nota 10: 3
Moda
Moda
Bimodal: Moda=7 e 10
Análise e Interpretação dos dados
Medidas de Tendência
Central - Resumo
•Média: Valores razoavelmente homogêneos
•Mediana: Valores heterogêneos
•Moda: Quando ocorrem muitas repetições
Análise e Interpretação dos dados
Medidas de Dispersão
ou variabilidade
Os dados podem estar muito ou pouco dispersos. Para isso,
podemos usar os seguintes parâmetros:
•Variância
•Desvio padrão
•Coeficiente de variação
Podem ser relativos a população ou a amostra.
Análise e Interpretação dos dados
Medidas de Dispersão - Variância
Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
Média Aluno A: (6+7+6+7)/4 = 6,5
Média Aluno B: (3+9+4+10)/4 = 6,5
Análise e Interpretação dos dados Medidas de Dispersão
Variância
Medidas de Dispersão - Variância
Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = (3-6,5)+(9-6,5)+(4-6,5)+(10-6,5)
VariânciaB = -3,5+2,5-2,5+3,5=0
Análise e Interpretação dos dados Medidas de Dispersão
Variância
Medidas de Dispersão - Variância
Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = (-3,5)2+(2,5)2+(-2,5)2+(3,5)2=37
Análise e Interpretação dos dados Medidas de Dispersão
Variância
Medidas de Dispersão - Variância
Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaA = (6-6,5)2+(7-6,5)2+(6-6,5)2+(7-6,5)2
4
VariânciaA = 0,25
Análise e Interpretação dos dados Medidas de Dispersão
Variância
Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
6,5
VariânciaA = 0,25
VariânciaB = 9,25
Análise e Interpretação dos dados Medidas de Dispersão
- Variância
Variância (S² ou σ2)
Populacional:
Amostral:
Análise e Interpretação dos dados
σ2
Medidas de Dispersão
- Variância
Problema: a variância está elevada ao quadrado, portanto, a
variância de variáveis como:
• Metros (m): média em metros e variância em m²
• Litros (l): média em litros e variância em l²
• etc..
Análise e Interpretação dos dados Medidas de Dispersão
- Variância
Variância (S² ou σ2)
Medidas de Dispersão –
Desvio Padrão
Populacional:
Amostral:
Análise e Interpretação dos dados
σ
Desvio Padrão (S ou σ)
Laboratório!
Tabule os seus dados (requisitados na última aula), colocando:
• Frequência dos dados qualitativos
• Frequência dos dados quantitativos (dividindo em classes)
• Média e desvio padrão amostral dos dados quantitativos
• Moda dos dados qualitativos
Gráficos
Análise Exploratória dos Dados
“Uma imagem vale mais
que mil palavras”
Regras
•Estética
• Eixos semelhantes.
•Ordem
• Abscissas (Horizontal): valores aumentam da esquerda pra
direita
• Ordenadas (Vertical): valores aumentam de baixo para cima
•Informação
• Nomes dos eixos e variáveis (com escala)
•Autoria
• Fonte dos dados
Gráficos
Gráfico de Barras
Gráfico de Setores
Gráficos
Representações Gráficas –
Principais Tipos
Gráfico de Setores
• Dados Qualitativos
• Frequência relativa (Total= 100%)
360° = 100%
X° = X/360 %
Gráfico de SetoresTambém chamado de Gráfico de Torta (Pie Chart) ou
Gráfico de Pizza
Gráfico de setores - exemplo
Título
Legenda
Gráfico de setores - exemplo
MAUS exemplos
+47%
+37%
+32%
+27%
+25%
+24%
+24%
+21%
+18%
+16%______
247%
Gráfico de Setores
MAUS exemplos
?
Gráfico de Setores
MAUS exemplos
Por que eu uso 3D?
Preguiça
É mais bonito
Enganar o professor e
mostrar que sei utilizar a
Tecnologia
AVATAR!
Gráfico de Setores
Representações Gráficas –
Principais Tipos
Gráfico de Colunas
Representações Gráficas –
Principais Tipos
Gráfico de Colunas
• Dados Qualitativos
• Quantidade dos dados Qualitativos
Gráfico de Colunas
Qualitativos Ordinais
Gráfico de Colunas
Qualitativos:
Porém remetem
a quantidade.
Não é um bom
exemplo
científico!
Gráfico de Colunas
Histograma: exemplo
Outro problema:
Para que barras com cores distintas?
Gráfico de Colunas
um BOM exemplo
0
1000
2000
3000
4000
5000
6000
7000
8000
Caloriasingeridas/dia(Kcal)
Meses do ano
Comparação de calorias ingeridas em três diferentes espécies
de Ursos
Urso Polar
Urso-de-Óculos
Urso-Malaio
Gráfico de Colunas
Representações Gráficas –
Principais Tipos
Histograma
Representações Gráficas –
Principais Tipos
Polígono de Frequência
K = 9 K = 5
Histograma
Histograma
Boxplot
•Dados Qualitativos vs Dados Quantitativos Contínuos
Desvantagem: esconde a moda (unimodal ou bimodal)
Lembre-se, lembre-se...
Dinkhuysen et al. 2004 – Arq. Bras. Cardiol.
*Intervalo de Confiança
Representações Gráficas –
Principais Tipos
Gráfico de linhas
Evolução do número de hosts nos três países que
lideram o setor na América do Sul.
Representações Gráficas –
Principais Tipos
Dispersão de Pontos
• Dados Quantitativos vs Dados Quantitativos
Gráfico de Dispersão
Princípio de modelagem
0
5
10
15
20
25
0 1 2 3 4 5 6 7 8
Y:ordenada(dependente)
X: abscissa (independente)
Gráfico de Dispersão
Princípio de modelagem y = a + b*x
0
5
10
15
20
25
0 1 2 3 4 5 6 7 8
Y:ordenada(dependente)
X: abscissa (independente)
Gráfico de Dispersão
Princípio de modelagem y = 1 + 2*x
0
5
10
15
20
25
0 1 2 3 4 5 6 7 8
Y:ordenada(dependente)
X: abscissa (independente)
Gráfico de Dispersão
Princípio de modelagem
Gráfico de Dispersão Quantidade de Pontos
Gráfico de Dispersão Quantidade de Pontos
Gráfico de Dispersão Quantidade de Pontos
Gráfico de Dispersão Quantidade de Pontos
Gráfico de Dispersão Quantidade de Pontos
Gráfico de Dispersão Predição
Gráfico de Dispersão Predição
Representações Gráficas –
Sugestões
O que você gostaria mostrar?
Distribuição
Representações Gráficas –
Sugestões
O que você gostaria mostrar?
Composição
Representações Gráficas –
Sugestões
O que você gostaria mostrar?
Comparação
Objetivos foram cumpridos?
Aprendeu sobre as principais normas para construção de tabelas?
Consegue construir uma tabela de frequência?
Aprendeu a calcular as medidas de dispersão (variância e desvio
padrão) e de tendência central (média, moda, mediana)?
Aprendeu as principais normas para a construção de gráficos?
Possui instrução necessária para saber qual é o gráfico mais indicado
para a sua apresentação?

Tabelas e gráficos