Curso de Ciência de Dados e Analytics
Estatística Computacional
Aula 1 – Estatística Descritiva
Prof. Dr. Rodrigo Lins Rodrigues
rodrigo.linsrodrigues@ufrpe.br
1Prof. Dr. Rodrigo Lins Rodrigues
Rodrigo Lins Rodrigues
 Professor na UFRPE;
 Bacharel em Estatística
 Licenciado em Computação;
 Doutorado e Mestrado em Ciência da Computação;
 Pesquiso sobre Mineração de Dados Educacionais.
o Contatos:
Email: rodrigo.linsrodrigues@ufrpe.br
Facebook: /rodrigomuribec
2
Quem sou ?
Prof. Dr. Rodrigo Lins Rodrigues
3
Vamos nos apresentar?
Nome, Formação, Experiência
com Estatística...
Prof. Dr. Rodrigo Lins Rodrigues
Sobre a disciplina...
 Estatística Descritiva ou Exploratória;
 Testes de Hipóteses e ANOVA;
 Modelos de Regressão Linear e Logístico;
 Análise de Conglomerados e Fatorial.
Conceitos computacionais intercalados 4Prof. Dr. Rodrigo Lins Rodrigues
• Estatística Descritiva:
 Conceitos sobre estatística descritiva;
 Natureza das variáveis;
 Processos de amostragem;
 Medidas de tendência central;
 Medidas de Dispersão;
 Representações tabulares;
 Representações gráficas;
 Correlação;
O que veremos nesta aula ?
5Prof. Dr. Rodrigo Lins Rodrigues
Intersecção entre teoria e prática;
Reflexões sobre a estatística no cotidiano;
Relação com as outras disciplinas do curso;
Exercícios durante todas as aulas.
Como serão as aulas ?
6Prof. Dr. Rodrigo Lins Rodrigues
...e sobre as avaliações?
• Avaliações Teóricas:
 Exercícios em sala de aula – 40%
 Participação em sala – 10%
• Avaliações Práticas
 Realização de projetos práticos – 25%
 Apresentação dos resultados – 25%
7Prof. Dr. Rodrigo Lins Rodrigues
Livros de Referência
8Prof. Dr. Rodrigo Lins Rodrigues
Como a estatística é
utilizada ?
9Prof. Dr. Rodrigo Lins Rodrigues
Segmentação de clientes;
Recomendação de produtos;
Campanhas customizadas para
clientes com perfil específico;
...
Mercado de Vendas
10Prof. Dr. Rodrigo Lins Rodrigues
Score de crédito;
Probabilidade de inadimplência;
Lucratividade por cliente;
Clientes potenciais;
...
Bancos
11Prof. Dr. Rodrigo Lins Rodrigues
Previsão de desempenho;
Retenção de estudantes;
Identificação de perfil de
aprendizagem;
Recomendação de conteúdo;
...
Educação
12Prof. Dr. Rodrigo Lins Rodrigues
Modelagem epidemiológica;
Previsão de doenças;
Relação de fatores de risco;
...
Saúde
13Prof. Dr. Rodrigo Lins Rodrigues
Segmentação de clientes;
Campanhas personalizadas;
Identificação de perfil de
compra;
...
Marketing
14Prof. Dr. Rodrigo Lins Rodrigues
... Como os dados são gerados,
armazenados e coletados ? 15Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
• Existem diversas formas de coleta de dados
Coletas por instrumentos de coleta do tipo
questionários;
Dados de redes sociais;
Dados por sensores;
Etc...
16Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
• Através de questionários
Dados coletados por CENSO;
Pesquisas de opinião pública;
Pesquisas comportamentais;
Pesquisas políticas.
17Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
18
• Através plataformas web
Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
 968 milhões usuários ativos
por dia;
 + de 40 bilhões de fotos
compartilhadas;
 3,5 bilhões de likes por dia;
19Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
 + de 100 milhões de horas
de vídeo assistidas por dia;
 300 bilhões de mensagens
por dia.
20Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
Bento XVI
19 de abril de 2005
Francisco
13 de março de 2013
21Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
22Prof. Dr. Rodrigo Lins Rodrigues
...Para que serve uma
amostra
23Prof. Dr. Rodrigo Lins Rodrigues
...Vamos refletir!
24Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
25
• É através da amostra que podemos inferir sobre os parâmetros de
uma população;
• A amostra deve ser representativa, para isso existem diversas
técnicas de amostragem;
• Se o tamanho dessas amostras cresce na direção do tamanho da
população, mais precisas são as conclusões obtidas;
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
26Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
27
• Por que fazer amostragem ao invés de censo?
Economia financeira;
Menor tempo;
Rapidez no processamento e análise;
População infinita;
Mais fácil, com resultados satisfatórios.
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
 A amostra deve ser representativa!
28Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
 O que devemos evitar no processo de amostragem?
Amostras por conveniência;
Amostra de voluntários;
Amostra intencionais;
Amostra com amigos ou conhecidos.
29Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Amostragem Aleatória Simples
Ex.: selecionar, aleatoriamente, eleitores da população eleitoral do
Brasil.
• Amostragem Estratificada
Ex.: (1) dividir os eleitores por sexo; (2) Selecionar, aleatoriamente,
elementos de cada grupo.
• Amostragem de Agrupamentos
Ex.: (1) dividir os eleitores por zona eleitoral; (2) Selecionar,
aleatoriamente, 3 zonas eleitorais; (3) Selecionar, aleatoriamente,
300 eleitores de cada zona eleitoral selecionada.
30Prof. Dr. Rodrigo Lins Rodrigues
...e como calcular o tamanho de
uma amostra representativa ?
31Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
32
“Um bom tamanho de amostra é 10%
da população?”
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Calculo do Tamanho Amostral
• Algumas definições são necessárias para o entendimento:
Parâmetro: característica da população;
Estatística: característica da amostra;
Estimativa: valor que estima o valor de um parâmetro populacional.
Erro amostral: diferença entre o valor que a estatística pode acusar
e o verdadeiro valor do parâmetro que se deseja estimar;
Erro amostral tolerável: é o erro admitido na avaliação dos
parâmetros de interesse numa população.
33Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• O cálculo amostral é dado pela equação:
34
 N = Tamanho da população
 𝐸0= erro amostral tolerável
 𝑛0 = primeira aproximação do tamanho da amostra
 n= tamanho da amostra
𝑛0 =
1
𝐸0
2
𝑛 =
𝑁.𝑛0
𝑁− 𝑛0
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Exemplo:
Imagine uma cidade com 200.000 famílias e queremos fazer uma pesquisa
eleitoral onde iremos utilizar a técnica de amostragem aleatória simples. Qual
seria o tamanho da amostra?
Resolução
Inicialmente vamos admitir alguns valores
𝐸0= erro amostral tolerável = 0,04 = 4%.
35Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Exemplo:
Calculando a primeira aproximação do tamanho da amostra temos:
Agora iremos calcular o tamanho da amostra corrigido:
36Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
37
• Quais os problemas envolvidos nesse exemplo?
Não levou em consideração as características de
heterogeneidade;
Adotou o método de amostragem aleatório
simples;
Para este método a população deveria ser
homogênea;
Existem diferenças específicas por bairro;
Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
38
• Qual a diferença entre amostra e CENSO?
• Quais as vantagens em optar por uma amostra ?
• O que é uma amostra representativa ?
• Diga três tipos de técnicas de amostragem.
Prof. Dr. Rodrigo Lins Rodrigues
Conceitos sobre
Estatística Descritiva
39Prof. Dr. Rodrigo Lins Rodrigues
Qual sua definição sobre
Estatística?
40Prof. Dr. Rodrigo Lins Rodrigues
... O que é Estatística ?
“Estatística é o estudo da
coleta, organização, análise,
interpretação, e apresentação
de dados.”
[Oxford Dictionary of Statistical Terms]
41Prof. Dr. Rodrigo Lins Rodrigues
... O que é Estatística ?
• A utilização da Estatística é cada vez mais acentuada em
qualquer atividade profissional da vida moderna;
• A estatística está basicamente dividida em duas partes:
Estatística Descritiva e Estatística Inferencial:
Descritiva ou Exploratória é relacionada a descrição por tabelas,
gráficos e medidas sobre a amostra;
Inferencial tem a capacidade de estimar parâmetros de uma
população baseado em uma amostra representativa. 42Prof. Dr. Rodrigo Lins Rodrigues
• A estatística lida com o planejamento, coleta,
análise e interpretação dos dados como
ferramentas auxiliares na tomada de decisões
e resolução de problemas;
• Áreas da computação que utilizam estatística:
Inteligência Artificial;
Extração de informação;
Mineração de Dados/Texto;
 ....
Áreas que utilizam...
43Prof. Dr. Rodrigo Lins Rodrigues
• Algumas áreas e técnicas da estatística:
Estatística descritiva;
Planejamento de experimentos;
Análise multivariada;
Estatística não-paramétrica;
Análise de regressão;
Séries temporais;
Tecnologia da amostragem;
Controle de qualidade;
...Etc.
Ramos da Estatística
44Prof. Dr. Rodrigo Lins Rodrigues
Estatística Descritiva
 Descritiva - É o uso de métodos de sumarização e
descrição nos dados;
 Métodos pictóricos e tabulares
Gráficos e tabelas
 Medidas de posição
Média, mediana, moda, quartil e percentil
 Medidas de variabilidade
Amplitude, variância, desvio padrão e distância interquartil
45Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variável é uma característica da população
(amostra), possível de ser medida, contada
ou categorizada;
• É importante conhecer a natureza das
variáveis antes de pensar em qualquer
análise estatística;
• É possível realizar transformação na
natureza de uma variável:
Ex: Discreta para ordinal
Variável
Qualitativa
Nominal
Ordinal
Quantitativa
Discreta
Contínua
46Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variáveis Qualitativas;
Podem ser representadas por meio de tabelas de distribuição de frequência;
Não podem ser calculadas medidas de posição ou dispersão;
A tabela abaixo representa uma variável qualitativa por faixa de renda.
Classe Salários Mínimos (SM) Renda Familiar (R$)
A Acima de 20 SM Acima de R$ 15.760,00
B 10 a 20 SM De R$ 7.880,00 a R$ 15.760,00
C 4 e 10 SM De R$ 3.152,00 a R$ 7.879,00
D 2 a 4 SM De R$ 1.576,00 a R$ 3.151,00
E Até 2 SM Até R$ 1.575
47Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variáveis Quantitativas;
Podem ser representadas graficamente (dispersão, histograma, boxplot, etc);
Pode ser aplicado medidas de posição e dispersão;
São divididas em discretas e contínuas.
Idade (anos) Peso (kg) Altura (m)
48 62 1,60
41 56 1,63
54 84 1,76
30 82 1,90
35 76 1,85
48Prof. Dr. Rodrigo Lins Rodrigues
Análise Estatística
Descritiva
Análise Inferencial
Conclusões
Problema de pesquisa
Conhecimento sobre os
dados
Formulação de hipóteses
Amostragem
Processo de análise
49Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
Qual a diferença entre variáveis qualitativas e
quantitativas ?
Qual a diferença entre variáveis discretas e contínuas ?
Qual a diferença entre Estatística Descritiva e Estatística
Inferencial ?
50Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
Vamos elaborar uma base de dados contendo as
seguintes variáveis:
Esses dados podem ser fictícios!!!
Iremos utilizar essa tabela em vários exemplos.
51Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
52Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• São utilizadas para representar a frequência de
ocorrência de um conjunto de variáveis quantitativas ou
qualitativas
• Para variáveis qualitativas, representa a frequência de
ocorrência de cada categoria;
• Para as variáveis quantitativas, pode-se calcular a
frequência do valor ou fazer uma distribuição de
classes;
53Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
54Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados qualitativos:
É representada por rótulos qualitativos;
É contabilizado a frequência para cada rótulo.
55Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Itens para compor uma tabela de distribuição de frequência
Frequência absoluta (Fi): número de ocorrência de cada elemento na
amostra;
Frequência relativa (Fri): porcentagem relativa à frequência absoluta;
Frequência acumulada (Fac): soma de todas as ocorrências até o
elemento analisado;
Frequência relativa acumulada (Frac): porcentagem relativa à
frequência acumulada.
56Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo de uma tabela de distribuição de frequência para
variável qualitativa
57
Escolaridade Fi Fri (%) Fac Frac (%)
Ensino Fundamental 20 25% 20 25%
Ensino Médio 24 30% 44 55%
Graduação 16 20% 60 75%
Especialização 12 15% 72 90%
Mestrado 5 6% 77 96%
Doutorado 3 4% 80 100%
Total 80 100%
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados quantitativos
discretos:
É importante saber a variabilidade (amplitude) da variável;
Caso essa amplitude seja alta é mais interessante categorizar a variável.
58
Horas de trabalho Fi Fri (%) Fac Frac (%)
4 12 30% 12 30%
6 8 20% 20 50%
8 20 50% 40 100%
Total 40 100%
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados quantitativos
Contínuos:
São variáveis com valores pertencentes a um intervalo de
números reais;
Torna-se interessante agrupar os dados em classes ou faixas;
A quantidade de classes pode ser opcional, porém é
interessante ter uma visão da representatividade dos dados;
Se o número de classes for muito pequeno pode-se perder
informação;
59Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Passos para a construção da tabela de frequência para dados quantitativos
Contínuos:
 Passo 1: Ordenar os dados em forma crescente;
 Passo 2: Determinar o número de classes (K), utilizando:
𝑘 = 𝑛, onde 𝑛 é o tamanho da amostra
 Passo 3: Determinar o intervalo entre as classes (h), calculado com a amplitude da
amostra (A= máximo – mínimo):
h=
𝐴
𝑘
 Passo 4: Construir a tabela de frequência (Fi, Fri, Fac, Frac).
60Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo
Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos
matriculados na disciplina de Estatística Computacional:
Os quatro passos descritos anteriormente serão aplicados para a construção
da tabela de distribuição de frequência.
61
4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5
6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5
6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo
Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos
matriculados na disciplina de Estatística Computacional:
Os quatro passos descritos anteriormente serão aplicados para a construção
da tabela de distribuição de frequência.
62
4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5
6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5
6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
Passo 1: Ordenar os dados em forma crescente:
Passo 2: Determinar o número de classes (k):
𝑘 = 𝑛 => 30 ≅ 5,47 ≅ 6
Passo 3: Determinar o intervalo entre as classes (h):
h=
𝐴
𝑘
=>
(8,8 −3,5)
6
≅ 0,88 ≅ 1
63
3,5 3,8 3,9 4,2 4,4 4,5 4,6 4,7 4,7 5
5 5 5 5,3 5,5 5,5 5,7 6 6 6,3
6,4 6,5 6,6 6,8 7,1 7,2 7,2 7,4 8 8,8
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
Passo 4: Construir a tabela de distribuição de frequências para cada
classe:
64
Classe Fi Fri (%) Fac Frac (%)
3,5 |-- 4,5 5 16,67 5 16,67
4,5 |-- 5,5 9 30,00 14 46,67
5,5 |-- 6,5 7 23,33 21 70,00
6,5 |-- 7,5 7 23,33 28 93,33
7,5 |-- 8,5 1 3,33 29 96,67
8,5 |-- 9,5 1 3,33 30 100
Total 30 100
Prof. Dr. Rodrigo Lins Rodrigues
É possível representar a relação de
duas variáveis em uma única tabela ?
65Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabelas de dupla entrada ou tabelas de contingência:
São simples de serem construídas;
São interessantes para mostrar a relação entre duas variáveis;
É possível construir testes estatísticos para provar as relações.
66Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
O que é necessário para fazer a representação tabular para uma
variável numérica contínua ?
Quais são os passos para construir uma tabela de distribuição de
frequência ?
Quais são os itens que compõem uma tabela de distribuição de
frequência?
Construa uma tabela de frequencia, contendo (Fi, Fri, Fac, Frac)
para a variável “horasTrabalho” coletada na nossa turma.
67Prof. Dr. Rodrigo Lins Rodrigues
Representação Gráfica
68Prof. Dr. Rodrigo Lins Rodrigues
Representação Gráfica
“na sala dos professores da escola, há um cartaz com a
frase "Em 2007, eram 734 estudantes matriculados; em
2008, 753; em 2009, 777; em 2010, 794; e, em 2011,
819”.
69
Imagine o seguinte:
?
Prof. Dr. Rodrigo Lins Rodrigues
70
Essa é a representação gráfica:
Representação Gráfica
71
Representação Gráfica
Prof. Dr. Rodrigo Lins Rodrigues
72
• É cada vez mais importante no cenário de Big Data;
• Faz parte de todo o processo de análise de dados, desde
o entendimento dos dados até a fase de apresentação dos
resultados;
• É utilizado nas seguintes fases:
Visualização da qualidade dos dados brutos;
Identificação de distribuições das variáveis;
Apresentar relações e correlações entre variáveis;
Representar e verificar a consistência de modelos;
Representação Gráfica
73
Representação Gráfica
• Gráfico de Barras
Compara grandezas, por meio de retângulos de
igual largura, porém de alturas proporcionais às
grandezas;
Cada coluna (ou Barra) representa a intensidade
uma modalidade do atributo.
Prof. Dr. Rodrigo Lins Rodrigues
74
Representação Gráfica
• Gráfico de Histograma:
Representa a distribuição de uma variável
quantitativa contínua;
É ideal para representar uma tabela de
distribuição de frequência por classes;
São muito utilizados quando queremos ver
o comportamento (distribuição dos dados).
Prof. Dr. Rodrigo Lins Rodrigues
75
Representação Gráfica
• Gráfico de Histograma:
Prof. Dr. Rodrigo Lins Rodrigues
76
Representação Gráfica
• Gráfico de Pizza ou Setores:
Forma de representar dados
qualitativos;
É possível representar percentuais;
É de fácil compreensão por leigos;
Prof. Dr. Rodrigo Lins Rodrigues
77
Representação Gráfica
• Gráfico de Dispersão:
É representado pela intersecção entre duas
variáveis;
É ideal para visualizar a relação entre o
comportamento de duas variáveis
quantitativas;
É muito utilizado em análises de correlação
e regressão. Prof. Dr. Rodrigo Lins Rodrigues
78
Representação Gráfica
• BoxPlot ou Diagrama de Caixas:
É uma representação gráfica de cinco medidas: (1)
valor mínimo, (2) primeiro quartil, (3) segundo quartil
ou mediana, (4) terceiro quartil e (5) valor máximo;
Permite verificar a presença de outliers;
É interessante pra ter uma noção da distribuição
da variável;
Muito utilizado na fase de pré-processamento.
79
Representação Gráfica
• Gráfico de Séries Temporais
São utilizadas em dados temporais
históricos;
Muito utilizado com dados meteorológicos
e financeiros;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de
Tendência Central
80Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
81
• Localizam-se geralmente no centro de uma distribuição;
• Indica a posição dos dados em relação ao eixo dos valores
assumidos pela variável;
• As principais são:
Média;
Moda;
Mediana;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
82
• Média aritmética:
 É a mais utilizada entre as medidas de tendência central;
 É a soma do total de valores dividida pelo número total de
observações:
• Observação:
 Quando se refere a população a média é representada por 𝜇;
 Quando se refere a amostra a média é representada por 𝑋
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
83
 Exemplo 1:
Calcular a média aritmética para os dados referente às notas
dos alunos da especialização em Ciência dos Dados.
Notas
5,7 6,5 6,9 8,3 8,0 4,2 6,3 7,4 5,8 6,9
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
𝑋 =
5,7+6,5+ …+6,9
10
= 6,6
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
84
 Exemplo 2:
Calcular a média salarial dos alunos desta turma.
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
𝑋 =
2000+1800+2100+18.500
4
= 6.100,00
Salário
R$ 2.000,00 R$ 1.800,00 R$ 2.100,00 R$ 18.500,00
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
85
Qual o problema com o exemplo 2 ?
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
86
• Mediana:
É o valor médio para um conjunto de dados;
Não depende de todos os valores da série, podendo,
como a moda, não se alterar com a mudança de alguns
elementos;
É muito empregada em pesquisas onde não interessam
valores extremos, pois não é influenciada por esses
valores;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
87
• Mediana:
As observações devem ser colocadas em ordem crescente;
Pode ser calculada da seguinte forma:
em que 𝑛 é o número total de observações.
, se 𝑛 for par
, se 𝑛 for ímpar
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
• Exemplo:
A tabela apresenta a publicação
mensal de livros relacionados com
Data Science no mundo;
Para o cálculo da mediana as
observações devem ser
ordenadas.
Mês Produção (unidades)
Jan 210
Fev 180
Mar 203
Abr 195
Mai 208
Jun 230
Jul 185
Ago 190
Set 200
Out 182
Nov 205
Dez 196Prof. Dr. Rodrigo Lins Rodrigues 88
Medidas de Tendência Central
89
• Solução:
𝑀𝑑 =
196+200
2
= 198
Mês Produção (unidades)
Jan 210
Fev 180
Mar 203
Abr 195
Mai 208
Jun 230
Jul 185
Ago 190
Set 200
Out 182
Nov 205
Dez 196
180 < 182 < 185 < 190 < 195 < 196 < 200 < 203 < 205 < 208 < 210 < 230
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
90
• Moda:
A moda (𝑀0) é a observação que ocorre com maior frequência
no conjunto de dados;
É a única medida de posição que também pode ser utilizada
para variáveis qualitativas;
Em uma única série pode-se ter mais de uma moda.
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
91
• Moda para dados qualitativos:
Uma emissora de TV entrevistou 500 telespectadores buscando
analisar suas preferencias por categoria de interesse.
Categorias de interesse Fi
Filmes 71
Novelas 46
Jornalismo 90
Humor 98
Esporte 120
Shows 35
Variedades 40
Medida de dispersão
92Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
93
• São utilizadas para caracterizar a variabilidade dos dados;
• As medidas de dispersão mais comuns são:
Amplitude;
Variância;
Desvio padrão;
Erro padrão;
Coeficiente de Variação (CV).
• Quanto maior os valores maior é a dispersão dos dados.
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
94
• Amplitude total;
É a medida de dispersão ou variabilidade mais simples;
É representada pela diferença entre o maior e o menor valor de
um conjunto de observações:
𝐴 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
95
• Variância;
É baseada na média dos desvios quadrados;
𝜎2
= 𝑖=1
𝑁
𝑥 𝑖−𝜇 2
𝑁
𝑆2
= 𝑖=1
𝑁
𝑥 𝑖− 𝑥 2
𝑛−1
(Para a população)
(Para a amostra)
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
96
• Exemplo da variância;
Considerando os dados do exemplo anterior...
12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4
𝑆2= 𝑖=1
𝑁
𝑥 𝑖− 𝑥 2
𝑛−1
𝑆2=
12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2
10−1
𝑆2=41,94
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
97
• Desvio Padrão;
Como a variância considera a média dos desvios quadrados, seu
valor tende a ser grande e de difícil interpretação;
Para resolver este problema extrai-se a raiz quadrada para obter o
desvio padrão:
𝜎 = 𝜎2
S= 𝑆2
(Para a população)
(Para a amostra)
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
98
• Exemplo do desvio padrão:
Considere novamente os dados do exemplo anterior
41,94 = 6,476
12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4
𝑆2=
12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2
9−1
𝑆2
=41,94
Logo:
𝑥=22,6 e S =6,476
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
99Prof. Dr. Rodrigo Lins Rodrigues
Correlação
100
...O que você entende
por Correlação ?
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
101
...olhe pra essa imagem e pense um pouco mais!
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
102
“É uma técnica estatística capaz de avaliar a
existência de relação entre duas variáveis...
Essa relação pode ser expressa através de
uma força e direção"
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
103
• Mede o grau da correlação (positiva ou negativa) entre
duas variáveis de escala métrica;
 r > 0,4 Significa uma correlação positiva
entre as duas variáveis.
 -0,4 < 0 > 0,4 : Significa que as duas
variáveis não dependem linearmente uma
da outra.
 r < -0,4 Significa uma correlação negativa
entre as duas variáveis - Isto é, se uma
aumenta, a outra sempre diminui.
Coeficiente de correlação de Pearson
Correlação
104
• Representação gráfica para a correlação;
Correlação
105
• Exemplo:
A tabela abaixo mostra duas variáveis relacionadas a
profissionais de Data Science:
Profissional Tempo de Experiência (anos) Salário
1 0,1 R$ 1.290,00
2 0,8 R$ 2.330,00
3 0,6 R$ 1.800,00
4 3 R$ 3.452,00
5 5,1 R$ 5.890,00
6 7,4 R$ 6.730,00
7 8,6 R$ 8.600,00
Correlação
106
• Exemplo:
• Inicialmente é necessário calcular a média de cada uma das variáveis:
Média do Tempo de Experiência (anos) = 3,66;
Média do salário = 4298,86.
• Em seguida aplica os somatórios:
𝑟 =
( 0,1 − 3,66 ∗ 1290 − 4298,86 ) + ...+ ( 8,6 − 3,66 ∗ 8600 − 4298,86 )
( 0,1 − 3,66 2∗ 1290 − 4298,86 2) + ⋯ + ( 8,6 − 3,66 2∗ 8600 − 4298,86 2)
𝑟 = 0,990774749
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
107
• Exemplo:
Este valor indica uma correlação forte e positiva entre as duas variáveis;
Podemos ver a relação visualmente através do gráfico de dispersão:
𝑟 = 0,990774749
R$0,00
R$1.000,00
R$2.000,00
R$3.000,00
R$4.000,00
R$5.000,00
R$6.000,00
R$7.000,00
R$8.000,00
R$9.000,00
R$10.000,00
0 1 2 3 4 5 6 7 8 9 10
Salário
Prof. Dr. Rodrigo Lins Rodrigues
Dúvidas
o Contatos:
Email: rodrigo.linsrodrigues@ufrpe.br
Facebook: /rodrigomuribec
108

Aula 1 introdução e estatística descritiva

  • 1.
    Curso de Ciênciade Dados e Analytics Estatística Computacional Aula 1 – Estatística Descritiva Prof. Dr. Rodrigo Lins Rodrigues rodrigo.linsrodrigues@ufrpe.br 1Prof. Dr. Rodrigo Lins Rodrigues
  • 2.
    Rodrigo Lins Rodrigues Professor na UFRPE;  Bacharel em Estatística  Licenciado em Computação;  Doutorado e Mestrado em Ciência da Computação;  Pesquiso sobre Mineração de Dados Educacionais. o Contatos: Email: rodrigo.linsrodrigues@ufrpe.br Facebook: /rodrigomuribec 2 Quem sou ? Prof. Dr. Rodrigo Lins Rodrigues
  • 3.
    3 Vamos nos apresentar? Nome,Formação, Experiência com Estatística... Prof. Dr. Rodrigo Lins Rodrigues
  • 4.
    Sobre a disciplina... Estatística Descritiva ou Exploratória;  Testes de Hipóteses e ANOVA;  Modelos de Regressão Linear e Logístico;  Análise de Conglomerados e Fatorial. Conceitos computacionais intercalados 4Prof. Dr. Rodrigo Lins Rodrigues
  • 5.
    • Estatística Descritiva: Conceitos sobre estatística descritiva;  Natureza das variáveis;  Processos de amostragem;  Medidas de tendência central;  Medidas de Dispersão;  Representações tabulares;  Representações gráficas;  Correlação; O que veremos nesta aula ? 5Prof. Dr. Rodrigo Lins Rodrigues
  • 6.
    Intersecção entre teoriae prática; Reflexões sobre a estatística no cotidiano; Relação com as outras disciplinas do curso; Exercícios durante todas as aulas. Como serão as aulas ? 6Prof. Dr. Rodrigo Lins Rodrigues
  • 7.
    ...e sobre asavaliações? • Avaliações Teóricas:  Exercícios em sala de aula – 40%  Participação em sala – 10% • Avaliações Práticas  Realização de projetos práticos – 25%  Apresentação dos resultados – 25% 7Prof. Dr. Rodrigo Lins Rodrigues
  • 8.
    Livros de Referência 8Prof.Dr. Rodrigo Lins Rodrigues
  • 9.
    Como a estatísticaé utilizada ? 9Prof. Dr. Rodrigo Lins Rodrigues
  • 10.
    Segmentação de clientes; Recomendaçãode produtos; Campanhas customizadas para clientes com perfil específico; ... Mercado de Vendas 10Prof. Dr. Rodrigo Lins Rodrigues
  • 11.
    Score de crédito; Probabilidadede inadimplência; Lucratividade por cliente; Clientes potenciais; ... Bancos 11Prof. Dr. Rodrigo Lins Rodrigues
  • 12.
    Previsão de desempenho; Retençãode estudantes; Identificação de perfil de aprendizagem; Recomendação de conteúdo; ... Educação 12Prof. Dr. Rodrigo Lins Rodrigues
  • 13.
    Modelagem epidemiológica; Previsão dedoenças; Relação de fatores de risco; ... Saúde 13Prof. Dr. Rodrigo Lins Rodrigues
  • 14.
    Segmentação de clientes; Campanhaspersonalizadas; Identificação de perfil de compra; ... Marketing 14Prof. Dr. Rodrigo Lins Rodrigues
  • 15.
    ... Como osdados são gerados, armazenados e coletados ? 15Prof. Dr. Rodrigo Lins Rodrigues
  • 16.
    Geração de dados... •Existem diversas formas de coleta de dados Coletas por instrumentos de coleta do tipo questionários; Dados de redes sociais; Dados por sensores; Etc... 16Prof. Dr. Rodrigo Lins Rodrigues
  • 17.
    Geração de dados... •Através de questionários Dados coletados por CENSO; Pesquisas de opinião pública; Pesquisas comportamentais; Pesquisas políticas. 17Prof. Dr. Rodrigo Lins Rodrigues
  • 18.
    Geração de dados... 18 •Através plataformas web Prof. Dr. Rodrigo Lins Rodrigues
  • 19.
    Geração de dados... 968 milhões usuários ativos por dia;  + de 40 bilhões de fotos compartilhadas;  3,5 bilhões de likes por dia; 19Prof. Dr. Rodrigo Lins Rodrigues
  • 20.
    Geração de dados... + de 100 milhões de horas de vídeo assistidas por dia;  300 bilhões de mensagens por dia. 20Prof. Dr. Rodrigo Lins Rodrigues
  • 21.
    Geração de dados... BentoXVI 19 de abril de 2005 Francisco 13 de março de 2013 21Prof. Dr. Rodrigo Lins Rodrigues
  • 22.
    Processo de Amostragem 22Prof.Dr. Rodrigo Lins Rodrigues
  • 23.
    ...Para que serveuma amostra 23Prof. Dr. Rodrigo Lins Rodrigues
  • 24.
    ...Vamos refletir! 24Prof. Dr.Rodrigo Lins Rodrigues
  • 25.
    Processo de Amostragem 25 •É através da amostra que podemos inferir sobre os parâmetros de uma população; • A amostra deve ser representativa, para isso existem diversas técnicas de amostragem; • Se o tamanho dessas amostras cresce na direção do tamanho da população, mais precisas são as conclusões obtidas; Prof. Dr. Rodrigo Lins Rodrigues
  • 26.
    Processo de Amostragem 26Prof.Dr. Rodrigo Lins Rodrigues
  • 27.
    Processo de Amostragem 27 •Por que fazer amostragem ao invés de censo? Economia financeira; Menor tempo; Rapidez no processamento e análise; População infinita; Mais fácil, com resultados satisfatórios. Prof. Dr. Rodrigo Lins Rodrigues
  • 28.
    Processo de Amostragem A amostra deve ser representativa! 28Prof. Dr. Rodrigo Lins Rodrigues
  • 29.
    Processo de Amostragem O que devemos evitar no processo de amostragem? Amostras por conveniência; Amostra de voluntários; Amostra intencionais; Amostra com amigos ou conhecidos. 29Prof. Dr. Rodrigo Lins Rodrigues
  • 30.
    Processo de Amostragem •Amostragem Aleatória Simples Ex.: selecionar, aleatoriamente, eleitores da população eleitoral do Brasil. • Amostragem Estratificada Ex.: (1) dividir os eleitores por sexo; (2) Selecionar, aleatoriamente, elementos de cada grupo. • Amostragem de Agrupamentos Ex.: (1) dividir os eleitores por zona eleitoral; (2) Selecionar, aleatoriamente, 3 zonas eleitorais; (3) Selecionar, aleatoriamente, 300 eleitores de cada zona eleitoral selecionada. 30Prof. Dr. Rodrigo Lins Rodrigues
  • 31.
    ...e como calcularo tamanho de uma amostra representativa ? 31Prof. Dr. Rodrigo Lins Rodrigues
  • 32.
    Processo de Amostragem 32 “Umbom tamanho de amostra é 10% da população?” Prof. Dr. Rodrigo Lins Rodrigues
  • 33.
    Processo de Amostragem •Calculo do Tamanho Amostral • Algumas definições são necessárias para o entendimento: Parâmetro: característica da população; Estatística: característica da amostra; Estimativa: valor que estima o valor de um parâmetro populacional. Erro amostral: diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se deseja estimar; Erro amostral tolerável: é o erro admitido na avaliação dos parâmetros de interesse numa população. 33Prof. Dr. Rodrigo Lins Rodrigues
  • 34.
    Processo de Amostragem •O cálculo amostral é dado pela equação: 34  N = Tamanho da população  𝐸0= erro amostral tolerável  𝑛0 = primeira aproximação do tamanho da amostra  n= tamanho da amostra 𝑛0 = 1 𝐸0 2 𝑛 = 𝑁.𝑛0 𝑁− 𝑛0 Prof. Dr. Rodrigo Lins Rodrigues
  • 35.
    Processo de Amostragem •Exemplo: Imagine uma cidade com 200.000 famílias e queremos fazer uma pesquisa eleitoral onde iremos utilizar a técnica de amostragem aleatória simples. Qual seria o tamanho da amostra? Resolução Inicialmente vamos admitir alguns valores 𝐸0= erro amostral tolerável = 0,04 = 4%. 35Prof. Dr. Rodrigo Lins Rodrigues
  • 36.
    Processo de Amostragem •Exemplo: Calculando a primeira aproximação do tamanho da amostra temos: Agora iremos calcular o tamanho da amostra corrigido: 36Prof. Dr. Rodrigo Lins Rodrigues
  • 37.
    Processo de Amostragem 37 •Quais os problemas envolvidos nesse exemplo? Não levou em consideração as características de heterogeneidade; Adotou o método de amostragem aleatório simples; Para este método a população deveria ser homogênea; Existem diferenças específicas por bairro; Prof. Dr. Rodrigo Lins Rodrigues
  • 38.
    Agora é comvocês! 38 • Qual a diferença entre amostra e CENSO? • Quais as vantagens em optar por uma amostra ? • O que é uma amostra representativa ? • Diga três tipos de técnicas de amostragem. Prof. Dr. Rodrigo Lins Rodrigues
  • 39.
  • 40.
    Qual sua definiçãosobre Estatística? 40Prof. Dr. Rodrigo Lins Rodrigues
  • 41.
    ... O queé Estatística ? “Estatística é o estudo da coleta, organização, análise, interpretação, e apresentação de dados.” [Oxford Dictionary of Statistical Terms] 41Prof. Dr. Rodrigo Lins Rodrigues
  • 42.
    ... O queé Estatística ? • A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna; • A estatística está basicamente dividida em duas partes: Estatística Descritiva e Estatística Inferencial: Descritiva ou Exploratória é relacionada a descrição por tabelas, gráficos e medidas sobre a amostra; Inferencial tem a capacidade de estimar parâmetros de uma população baseado em uma amostra representativa. 42Prof. Dr. Rodrigo Lins Rodrigues
  • 43.
    • A estatísticalida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas; • Áreas da computação que utilizam estatística: Inteligência Artificial; Extração de informação; Mineração de Dados/Texto;  .... Áreas que utilizam... 43Prof. Dr. Rodrigo Lins Rodrigues
  • 44.
    • Algumas árease técnicas da estatística: Estatística descritiva; Planejamento de experimentos; Análise multivariada; Estatística não-paramétrica; Análise de regressão; Séries temporais; Tecnologia da amostragem; Controle de qualidade; ...Etc. Ramos da Estatística 44Prof. Dr. Rodrigo Lins Rodrigues
  • 45.
    Estatística Descritiva  Descritiva- É o uso de métodos de sumarização e descrição nos dados;  Métodos pictóricos e tabulares Gráficos e tabelas  Medidas de posição Média, mediana, moda, quartil e percentil  Medidas de variabilidade Amplitude, variância, desvio padrão e distância interquartil 45Prof. Dr. Rodrigo Lins Rodrigues
  • 46.
    Natureza das variáveis •Variável é uma característica da população (amostra), possível de ser medida, contada ou categorizada; • É importante conhecer a natureza das variáveis antes de pensar em qualquer análise estatística; • É possível realizar transformação na natureza de uma variável: Ex: Discreta para ordinal Variável Qualitativa Nominal Ordinal Quantitativa Discreta Contínua 46Prof. Dr. Rodrigo Lins Rodrigues
  • 47.
    Natureza das variáveis •Variáveis Qualitativas; Podem ser representadas por meio de tabelas de distribuição de frequência; Não podem ser calculadas medidas de posição ou dispersão; A tabela abaixo representa uma variável qualitativa por faixa de renda. Classe Salários Mínimos (SM) Renda Familiar (R$) A Acima de 20 SM Acima de R$ 15.760,00 B 10 a 20 SM De R$ 7.880,00 a R$ 15.760,00 C 4 e 10 SM De R$ 3.152,00 a R$ 7.879,00 D 2 a 4 SM De R$ 1.576,00 a R$ 3.151,00 E Até 2 SM Até R$ 1.575 47Prof. Dr. Rodrigo Lins Rodrigues
  • 48.
    Natureza das variáveis •Variáveis Quantitativas; Podem ser representadas graficamente (dispersão, histograma, boxplot, etc); Pode ser aplicado medidas de posição e dispersão; São divididas em discretas e contínuas. Idade (anos) Peso (kg) Altura (m) 48 62 1,60 41 56 1,63 54 84 1,76 30 82 1,90 35 76 1,85 48Prof. Dr. Rodrigo Lins Rodrigues
  • 49.
    Análise Estatística Descritiva Análise Inferencial Conclusões Problemade pesquisa Conhecimento sobre os dados Formulação de hipóteses Amostragem Processo de análise 49Prof. Dr. Rodrigo Lins Rodrigues
  • 50.
    Agora é comvocês! Qual a diferença entre variáveis qualitativas e quantitativas ? Qual a diferença entre variáveis discretas e contínuas ? Qual a diferença entre Estatística Descritiva e Estatística Inferencial ? 50Prof. Dr. Rodrigo Lins Rodrigues
  • 51.
    Agora é comvocês! Vamos elaborar uma base de dados contendo as seguintes variáveis: Esses dados podem ser fictícios!!! Iremos utilizar essa tabela em vários exemplos. 51Prof. Dr. Rodrigo Lins Rodrigues
  • 52.
  • 53.
    Representação tabular • Sãoutilizadas para representar a frequência de ocorrência de um conjunto de variáveis quantitativas ou qualitativas • Para variáveis qualitativas, representa a frequência de ocorrência de cada categoria; • Para as variáveis quantitativas, pode-se calcular a frequência do valor ou fazer uma distribuição de classes; 53Prof. Dr. Rodrigo Lins Rodrigues
  • 54.
  • 55.
    Representação tabular • Tabelade distribuição de frequência para dados qualitativos: É representada por rótulos qualitativos; É contabilizado a frequência para cada rótulo. 55Prof. Dr. Rodrigo Lins Rodrigues
  • 56.
    Representação tabular • Itenspara compor uma tabela de distribuição de frequência Frequência absoluta (Fi): número de ocorrência de cada elemento na amostra; Frequência relativa (Fri): porcentagem relativa à frequência absoluta; Frequência acumulada (Fac): soma de todas as ocorrências até o elemento analisado; Frequência relativa acumulada (Frac): porcentagem relativa à frequência acumulada. 56Prof. Dr. Rodrigo Lins Rodrigues
  • 57.
    Representação tabular • Exemplode uma tabela de distribuição de frequência para variável qualitativa 57 Escolaridade Fi Fri (%) Fac Frac (%) Ensino Fundamental 20 25% 20 25% Ensino Médio 24 30% 44 55% Graduação 16 20% 60 75% Especialização 12 15% 72 90% Mestrado 5 6% 77 96% Doutorado 3 4% 80 100% Total 80 100% Prof. Dr. Rodrigo Lins Rodrigues
  • 58.
    Representação tabular • Tabelade distribuição de frequência para dados quantitativos discretos: É importante saber a variabilidade (amplitude) da variável; Caso essa amplitude seja alta é mais interessante categorizar a variável. 58 Horas de trabalho Fi Fri (%) Fac Frac (%) 4 12 30% 12 30% 6 8 20% 20 50% 8 20 50% 40 100% Total 40 100% Prof. Dr. Rodrigo Lins Rodrigues
  • 59.
    Representação tabular • Tabelade distribuição de frequência para dados quantitativos Contínuos: São variáveis com valores pertencentes a um intervalo de números reais; Torna-se interessante agrupar os dados em classes ou faixas; A quantidade de classes pode ser opcional, porém é interessante ter uma visão da representatividade dos dados; Se o número de classes for muito pequeno pode-se perder informação; 59Prof. Dr. Rodrigo Lins Rodrigues
  • 60.
    Representação tabular • Passospara a construção da tabela de frequência para dados quantitativos Contínuos:  Passo 1: Ordenar os dados em forma crescente;  Passo 2: Determinar o número de classes (K), utilizando: 𝑘 = 𝑛, onde 𝑛 é o tamanho da amostra  Passo 3: Determinar o intervalo entre as classes (h), calculado com a amplitude da amostra (A= máximo – mínimo): h= 𝐴 𝑘  Passo 4: Construir a tabela de frequência (Fi, Fri, Fac, Frac). 60Prof. Dr. Rodrigo Lins Rodrigues
  • 61.
    Representação tabular • Exemplo Considereos dados da tabela abaixo. Refere-se às notas de 30 alunos matriculados na disciplina de Estatística Computacional: Os quatro passos descritos anteriormente serão aplicados para a construção da tabela de distribuição de frequência. 61 4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5 6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5 6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7 Prof. Dr. Rodrigo Lins Rodrigues
  • 62.
    Representação tabular • Exemplo Considereos dados da tabela abaixo. Refere-se às notas de 30 alunos matriculados na disciplina de Estatística Computacional: Os quatro passos descritos anteriormente serão aplicados para a construção da tabela de distribuição de frequência. 62 4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5 6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5 6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7 Prof. Dr. Rodrigo Lins Rodrigues
  • 63.
    Representação tabular Passo 1:Ordenar os dados em forma crescente: Passo 2: Determinar o número de classes (k): 𝑘 = 𝑛 => 30 ≅ 5,47 ≅ 6 Passo 3: Determinar o intervalo entre as classes (h): h= 𝐴 𝑘 => (8,8 −3,5) 6 ≅ 0,88 ≅ 1 63 3,5 3,8 3,9 4,2 4,4 4,5 4,6 4,7 4,7 5 5 5 5 5,3 5,5 5,5 5,7 6 6 6,3 6,4 6,5 6,6 6,8 7,1 7,2 7,2 7,4 8 8,8 Prof. Dr. Rodrigo Lins Rodrigues
  • 64.
    Representação tabular Passo 4:Construir a tabela de distribuição de frequências para cada classe: 64 Classe Fi Fri (%) Fac Frac (%) 3,5 |-- 4,5 5 16,67 5 16,67 4,5 |-- 5,5 9 30,00 14 46,67 5,5 |-- 6,5 7 23,33 21 70,00 6,5 |-- 7,5 7 23,33 28 93,33 7,5 |-- 8,5 1 3,33 29 96,67 8,5 |-- 9,5 1 3,33 30 100 Total 30 100 Prof. Dr. Rodrigo Lins Rodrigues
  • 65.
    É possível representara relação de duas variáveis em uma única tabela ? 65Prof. Dr. Rodrigo Lins Rodrigues
  • 66.
    Representação tabular • Tabelasde dupla entrada ou tabelas de contingência: São simples de serem construídas; São interessantes para mostrar a relação entre duas variáveis; É possível construir testes estatísticos para provar as relações. 66Prof. Dr. Rodrigo Lins Rodrigues
  • 67.
    Agora é comvocês! O que é necessário para fazer a representação tabular para uma variável numérica contínua ? Quais são os passos para construir uma tabela de distribuição de frequência ? Quais são os itens que compõem uma tabela de distribuição de frequência? Construa uma tabela de frequencia, contendo (Fi, Fri, Fac, Frac) para a variável “horasTrabalho” coletada na nossa turma. 67Prof. Dr. Rodrigo Lins Rodrigues
  • 68.
  • 69.
    Representação Gráfica “na salados professores da escola, há um cartaz com a frase "Em 2007, eram 734 estudantes matriculados; em 2008, 753; em 2009, 777; em 2010, 794; e, em 2011, 819”. 69 Imagine o seguinte: ? Prof. Dr. Rodrigo Lins Rodrigues
  • 70.
    70 Essa é arepresentação gráfica: Representação Gráfica
  • 71.
  • 72.
    72 • É cadavez mais importante no cenário de Big Data; • Faz parte de todo o processo de análise de dados, desde o entendimento dos dados até a fase de apresentação dos resultados; • É utilizado nas seguintes fases: Visualização da qualidade dos dados brutos; Identificação de distribuições das variáveis; Apresentar relações e correlações entre variáveis; Representar e verificar a consistência de modelos; Representação Gráfica
  • 73.
    73 Representação Gráfica • Gráficode Barras Compara grandezas, por meio de retângulos de igual largura, porém de alturas proporcionais às grandezas; Cada coluna (ou Barra) representa a intensidade uma modalidade do atributo. Prof. Dr. Rodrigo Lins Rodrigues
  • 74.
    74 Representação Gráfica • Gráficode Histograma: Representa a distribuição de uma variável quantitativa contínua; É ideal para representar uma tabela de distribuição de frequência por classes; São muito utilizados quando queremos ver o comportamento (distribuição dos dados). Prof. Dr. Rodrigo Lins Rodrigues
  • 75.
    75 Representação Gráfica • Gráficode Histograma: Prof. Dr. Rodrigo Lins Rodrigues
  • 76.
    76 Representação Gráfica • Gráficode Pizza ou Setores: Forma de representar dados qualitativos; É possível representar percentuais; É de fácil compreensão por leigos; Prof. Dr. Rodrigo Lins Rodrigues
  • 77.
    77 Representação Gráfica • Gráficode Dispersão: É representado pela intersecção entre duas variáveis; É ideal para visualizar a relação entre o comportamento de duas variáveis quantitativas; É muito utilizado em análises de correlação e regressão. Prof. Dr. Rodrigo Lins Rodrigues
  • 78.
    78 Representação Gráfica • BoxPlotou Diagrama de Caixas: É uma representação gráfica de cinco medidas: (1) valor mínimo, (2) primeiro quartil, (3) segundo quartil ou mediana, (4) terceiro quartil e (5) valor máximo; Permite verificar a presença de outliers; É interessante pra ter uma noção da distribuição da variável; Muito utilizado na fase de pré-processamento.
  • 79.
    79 Representação Gráfica • Gráficode Séries Temporais São utilizadas em dados temporais históricos; Muito utilizado com dados meteorológicos e financeiros; Prof. Dr. Rodrigo Lins Rodrigues
  • 80.
    Medidas de Tendência Central 80Prof.Dr. Rodrigo Lins Rodrigues
  • 81.
    Medidas de TendênciaCentral 81 • Localizam-se geralmente no centro de uma distribuição; • Indica a posição dos dados em relação ao eixo dos valores assumidos pela variável; • As principais são: Média; Moda; Mediana; Prof. Dr. Rodrigo Lins Rodrigues
  • 82.
    Medidas de TendênciaCentral 82 • Média aritmética:  É a mais utilizada entre as medidas de tendência central;  É a soma do total de valores dividida pelo número total de observações: • Observação:  Quando se refere a população a média é representada por 𝜇;  Quando se refere a amostra a média é representada por 𝑋 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 Prof. Dr. Rodrigo Lins Rodrigues
  • 83.
    Medidas de TendênciaCentral 83  Exemplo 1: Calcular a média aritmética para os dados referente às notas dos alunos da especialização em Ciência dos Dados. Notas 5,7 6,5 6,9 8,3 8,0 4,2 6,3 7,4 5,8 6,9 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 𝑋 = 5,7+6,5+ …+6,9 10 = 6,6 Prof. Dr. Rodrigo Lins Rodrigues
  • 84.
    Medidas de TendênciaCentral 84  Exemplo 2: Calcular a média salarial dos alunos desta turma. 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 𝑋 = 2000+1800+2100+18.500 4 = 6.100,00 Salário R$ 2.000,00 R$ 1.800,00 R$ 2.100,00 R$ 18.500,00 Prof. Dr. Rodrigo Lins Rodrigues
  • 85.
    Medidas de TendênciaCentral 85 Qual o problema com o exemplo 2 ? Prof. Dr. Rodrigo Lins Rodrigues
  • 86.
    Medidas de TendênciaCentral 86 • Mediana: É o valor médio para um conjunto de dados; Não depende de todos os valores da série, podendo, como a moda, não se alterar com a mudança de alguns elementos; É muito empregada em pesquisas onde não interessam valores extremos, pois não é influenciada por esses valores; Prof. Dr. Rodrigo Lins Rodrigues
  • 87.
    Medidas de TendênciaCentral 87 • Mediana: As observações devem ser colocadas em ordem crescente; Pode ser calculada da seguinte forma: em que 𝑛 é o número total de observações. , se 𝑛 for par , se 𝑛 for ímpar Prof. Dr. Rodrigo Lins Rodrigues
  • 88.
    Medidas de TendênciaCentral • Exemplo: A tabela apresenta a publicação mensal de livros relacionados com Data Science no mundo; Para o cálculo da mediana as observações devem ser ordenadas. Mês Produção (unidades) Jan 210 Fev 180 Mar 203 Abr 195 Mai 208 Jun 230 Jul 185 Ago 190 Set 200 Out 182 Nov 205 Dez 196Prof. Dr. Rodrigo Lins Rodrigues 88
  • 89.
    Medidas de TendênciaCentral 89 • Solução: 𝑀𝑑 = 196+200 2 = 198 Mês Produção (unidades) Jan 210 Fev 180 Mar 203 Abr 195 Mai 208 Jun 230 Jul 185 Ago 190 Set 200 Out 182 Nov 205 Dez 196 180 < 182 < 185 < 190 < 195 < 196 < 200 < 203 < 205 < 208 < 210 < 230 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º Prof. Dr. Rodrigo Lins Rodrigues
  • 90.
    Medidas de TendênciaCentral 90 • Moda: A moda (𝑀0) é a observação que ocorre com maior frequência no conjunto de dados; É a única medida de posição que também pode ser utilizada para variáveis qualitativas; Em uma única série pode-se ter mais de uma moda. Prof. Dr. Rodrigo Lins Rodrigues
  • 91.
    Medidas de TendênciaCentral 91 • Moda para dados qualitativos: Uma emissora de TV entrevistou 500 telespectadores buscando analisar suas preferencias por categoria de interesse. Categorias de interesse Fi Filmes 71 Novelas 46 Jornalismo 90 Humor 98 Esporte 120 Shows 35 Variedades 40
  • 92.
    Medida de dispersão 92Prof.Dr. Rodrigo Lins Rodrigues
  • 93.
    Medidas de dispersão 93 •São utilizadas para caracterizar a variabilidade dos dados; • As medidas de dispersão mais comuns são: Amplitude; Variância; Desvio padrão; Erro padrão; Coeficiente de Variação (CV). • Quanto maior os valores maior é a dispersão dos dados. Prof. Dr. Rodrigo Lins Rodrigues
  • 94.
    Medidas de dispersão 94 •Amplitude total; É a medida de dispersão ou variabilidade mais simples; É representada pela diferença entre o maior e o menor valor de um conjunto de observações: 𝐴 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Prof. Dr. Rodrigo Lins Rodrigues
  • 95.
    Medidas de dispersão 95 •Variância; É baseada na média dos desvios quadrados; 𝜎2 = 𝑖=1 𝑁 𝑥 𝑖−𝜇 2 𝑁 𝑆2 = 𝑖=1 𝑁 𝑥 𝑖− 𝑥 2 𝑛−1 (Para a população) (Para a amostra) Prof. Dr. Rodrigo Lins Rodrigues
  • 96.
    Medidas de dispersão 96 •Exemplo da variância; Considerando os dados do exemplo anterior... 12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4 𝑆2= 𝑖=1 𝑁 𝑥 𝑖− 𝑥 2 𝑛−1 𝑆2= 12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2 10−1 𝑆2=41,94 Prof. Dr. Rodrigo Lins Rodrigues
  • 97.
    Medidas de dispersão 97 •Desvio Padrão; Como a variância considera a média dos desvios quadrados, seu valor tende a ser grande e de difícil interpretação; Para resolver este problema extrai-se a raiz quadrada para obter o desvio padrão: 𝜎 = 𝜎2 S= 𝑆2 (Para a população) (Para a amostra) Prof. Dr. Rodrigo Lins Rodrigues
  • 98.
    Medidas de dispersão 98 •Exemplo do desvio padrão: Considere novamente os dados do exemplo anterior 41,94 = 6,476 12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4 𝑆2= 12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2 9−1 𝑆2 =41,94 Logo: 𝑥=22,6 e S =6,476 Prof. Dr. Rodrigo Lins Rodrigues
  • 99.
  • 100.
    Correlação 100 ...O que vocêentende por Correlação ? Prof. Dr. Rodrigo Lins Rodrigues
  • 101.
    Correlação 101 ...olhe pra essaimagem e pense um pouco mais! Prof. Dr. Rodrigo Lins Rodrigues
  • 102.
    Correlação 102 “É uma técnicaestatística capaz de avaliar a existência de relação entre duas variáveis... Essa relação pode ser expressa através de uma força e direção" Prof. Dr. Rodrigo Lins Rodrigues
  • 103.
    Correlação 103 • Mede ograu da correlação (positiva ou negativa) entre duas variáveis de escala métrica;  r > 0,4 Significa uma correlação positiva entre as duas variáveis.  -0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.  r < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui. Coeficiente de correlação de Pearson
  • 104.
  • 105.
    Correlação 105 • Exemplo: A tabelaabaixo mostra duas variáveis relacionadas a profissionais de Data Science: Profissional Tempo de Experiência (anos) Salário 1 0,1 R$ 1.290,00 2 0,8 R$ 2.330,00 3 0,6 R$ 1.800,00 4 3 R$ 3.452,00 5 5,1 R$ 5.890,00 6 7,4 R$ 6.730,00 7 8,6 R$ 8.600,00
  • 106.
    Correlação 106 • Exemplo: • Inicialmenteé necessário calcular a média de cada uma das variáveis: Média do Tempo de Experiência (anos) = 3,66; Média do salário = 4298,86. • Em seguida aplica os somatórios: 𝑟 = ( 0,1 − 3,66 ∗ 1290 − 4298,86 ) + ...+ ( 8,6 − 3,66 ∗ 8600 − 4298,86 ) ( 0,1 − 3,66 2∗ 1290 − 4298,86 2) + ⋯ + ( 8,6 − 3,66 2∗ 8600 − 4298,86 2) 𝑟 = 0,990774749 Prof. Dr. Rodrigo Lins Rodrigues
  • 107.
    Correlação 107 • Exemplo: Este valorindica uma correlação forte e positiva entre as duas variáveis; Podemos ver a relação visualmente através do gráfico de dispersão: 𝑟 = 0,990774749 R$0,00 R$1.000,00 R$2.000,00 R$3.000,00 R$4.000,00 R$5.000,00 R$6.000,00 R$7.000,00 R$8.000,00 R$9.000,00 R$10.000,00 0 1 2 3 4 5 6 7 8 9 10 Salário Prof. Dr. Rodrigo Lins Rodrigues
  • 108.