O documento discute vários métodos estatísticos para análise e visualização de dados, incluindo resumo estatístico, agrupamento, tabelas de contingência, séries temporais, histograma, gráficos de barras e dispersão, correlação e matrizes de dispersão. É apresentado o software R e seus comandos para aplicação destes métodos.
2. Fases da análise de dados – Tratamento de dados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
3. Resumo estatístico dos dados - comandos
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
4. Resumo estatístico dos dados - resultados
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
5. Agrupamento pela soma (via função) e ordenação de resultados - 1
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Lê-se: somatória dos votos em função do estado e candidato
6. Agrupamento pela soma (via função) e ordenação de resultados - 2
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Soma por candidato + estado
Soma por candidato Soma por candidato
(ordenado)
7. Agrupamento pela média (via data.table)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Data.table possui recursos para fazer agregações
8. Agrupamento pela média (via data.table)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Data.table possui recursos para fazer agregações
9. Tipos de variáveis
QUALITATIVA QUANTITATIVA
NOMINAL ORDINAL DISCRETA CONTÍNUA
“não pode
ordenar”
“pode ordenar” “Contável” “Não contável”
Quantidades Medidas
Estado civil Nível educação Idade Peso
Religião Classe social Capacidade de
passageiros
Altura
Sexo Faixa de idade Núm. de filhos Largura
Região Núm. De carros Produção de
leite
Raça Salário
Cor dos olhos
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tabela de
Contingência
(ou de frequência)
Contabiliza (conta)
obs de duas ou
mais variáveis
(normalmente
qualitativas)
10. Tabela de contingência - univariável
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
11. Tabela de contingência - multivariável
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
cilindros
hp
`
12. Visualização de séries temporais
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
13. Visualização de séries temporais multivariada
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
14. Histograma e densidade – análise univariada
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
15. Gráfico de barras e pizza – análise univariada
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
16. Gráfico de barras – análise multivariada
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Long
Shape
17. Scatterplot - Distribuição de uma variável em relação a outra (bivariada)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
18. Conceito - Correlacionamento
-1 .8 .6 .4 .2 0 .2 .4 .6 .8 1
Perfeita
Negativa
Perfeita
Positiva
Bem
forte
forte mod
frac
a
Bem
frac
a
nula
Bem
frac
a
frac
a
mod forte
Bem
forte
As duas distribuições variam
em sentidos inversos.
Enquanto uma aumenta a outra diminui.
As duas distribuições variam
no mesmo sentido.
Uma aumenta e a outra também.
Fonte:
www.simplypsychology.or
g/correlation.html
Métodos:
- Pearson
- Spearman
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R