SlideShare uma empresa Scribd logo
1 de 108
Baixar para ler offline
Curso de Ciência de Dados e Analytics
Estatística Computacional
Aula 1 – Estatística Descritiva
Prof. Dr. Rodrigo Lins Rodrigues
rodrigo.linsrodrigues@ufrpe.br
1Prof. Dr. Rodrigo Lins Rodrigues
Rodrigo Lins Rodrigues
 Professor na UFRPE;
 Bacharel em Estatística
 Licenciado em Computação;
 Doutorado e Mestrado em Ciência da Computação;
 Pesquiso sobre Mineração de Dados Educacionais.
o Contatos:
Email: rodrigo.linsrodrigues@ufrpe.br
Facebook: /rodrigomuribec
2
Quem sou ?
Prof. Dr. Rodrigo Lins Rodrigues
3
Vamos nos apresentar?
Nome, Formação, Experiência
com Estatística...
Prof. Dr. Rodrigo Lins Rodrigues
Sobre a disciplina...
 Estatística Descritiva ou Exploratória;
 Testes de Hipóteses e ANOVA;
 Modelos de Regressão Linear e Logístico;
 Análise de Conglomerados e Fatorial.
Conceitos computacionais intercalados 4Prof. Dr. Rodrigo Lins Rodrigues
• Estatística Descritiva:
 Conceitos sobre estatística descritiva;
 Natureza das variáveis;
 Processos de amostragem;
 Medidas de tendência central;
 Medidas de Dispersão;
 Representações tabulares;
 Representações gráficas;
 Correlação;
O que veremos nesta aula ?
5Prof. Dr. Rodrigo Lins Rodrigues
Intersecção entre teoria e prática;
Reflexões sobre a estatística no cotidiano;
Relação com as outras disciplinas do curso;
Exercícios durante todas as aulas.
Como serão as aulas ?
6Prof. Dr. Rodrigo Lins Rodrigues
...e sobre as avaliações?
• Avaliações Teóricas:
 Exercícios em sala de aula – 40%
 Participação em sala – 10%
• Avaliações Práticas
 Realização de projetos práticos – 25%
 Apresentação dos resultados – 25%
7Prof. Dr. Rodrigo Lins Rodrigues
Livros de Referência
8Prof. Dr. Rodrigo Lins Rodrigues
Como a estatística é
utilizada ?
9Prof. Dr. Rodrigo Lins Rodrigues
Segmentação de clientes;
Recomendação de produtos;
Campanhas customizadas para
clientes com perfil específico;
...
Mercado de Vendas
10Prof. Dr. Rodrigo Lins Rodrigues
Score de crédito;
Probabilidade de inadimplência;
Lucratividade por cliente;
Clientes potenciais;
...
Bancos
11Prof. Dr. Rodrigo Lins Rodrigues
Previsão de desempenho;
Retenção de estudantes;
Identificação de perfil de
aprendizagem;
Recomendação de conteúdo;
...
Educação
12Prof. Dr. Rodrigo Lins Rodrigues
Modelagem epidemiológica;
Previsão de doenças;
Relação de fatores de risco;
...
Saúde
13Prof. Dr. Rodrigo Lins Rodrigues
Segmentação de clientes;
Campanhas personalizadas;
Identificação de perfil de
compra;
...
Marketing
14Prof. Dr. Rodrigo Lins Rodrigues
... Como os dados são gerados,
armazenados e coletados ? 15Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
• Existem diversas formas de coleta de dados
Coletas por instrumentos de coleta do tipo
questionários;
Dados de redes sociais;
Dados por sensores;
Etc...
16Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
• Através de questionários
Dados coletados por CENSO;
Pesquisas de opinião pública;
Pesquisas comportamentais;
Pesquisas políticas.
17Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
18
• Através plataformas web
Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
 968 milhões usuários ativos
por dia;
 + de 40 bilhões de fotos
compartilhadas;
 3,5 bilhões de likes por dia;
19Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
 + de 100 milhões de horas
de vídeo assistidas por dia;
 300 bilhões de mensagens
por dia.
20Prof. Dr. Rodrigo Lins Rodrigues
Geração de dados...
Bento XVI
19 de abril de 2005
Francisco
13 de março de 2013
21Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
22Prof. Dr. Rodrigo Lins Rodrigues
...Para que serve uma
amostra
23Prof. Dr. Rodrigo Lins Rodrigues
...Vamos refletir!
24Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
25
• É através da amostra que podemos inferir sobre os parâmetros de
uma população;
• A amostra deve ser representativa, para isso existem diversas
técnicas de amostragem;
• Se o tamanho dessas amostras cresce na direção do tamanho da
população, mais precisas são as conclusões obtidas;
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
26Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
27
• Por que fazer amostragem ao invés de censo?
Economia financeira;
Menor tempo;
Rapidez no processamento e análise;
População infinita;
Mais fácil, com resultados satisfatórios.
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
 A amostra deve ser representativa!
28Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
 O que devemos evitar no processo de amostragem?
Amostras por conveniência;
Amostra de voluntários;
Amostra intencionais;
Amostra com amigos ou conhecidos.
29Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Amostragem Aleatória Simples
Ex.: selecionar, aleatoriamente, eleitores da população eleitoral do
Brasil.
• Amostragem Estratificada
Ex.: (1) dividir os eleitores por sexo; (2) Selecionar, aleatoriamente,
elementos de cada grupo.
• Amostragem de Agrupamentos
Ex.: (1) dividir os eleitores por zona eleitoral; (2) Selecionar,
aleatoriamente, 3 zonas eleitorais; (3) Selecionar, aleatoriamente,
300 eleitores de cada zona eleitoral selecionada.
30Prof. Dr. Rodrigo Lins Rodrigues
...e como calcular o tamanho de
uma amostra representativa ?
31Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
32
“Um bom tamanho de amostra é 10%
da população?”
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Calculo do Tamanho Amostral
• Algumas definições são necessárias para o entendimento:
Parâmetro: característica da população;
Estatística: característica da amostra;
Estimativa: valor que estima o valor de um parâmetro populacional.
Erro amostral: diferença entre o valor que a estatística pode acusar
e o verdadeiro valor do parâmetro que se deseja estimar;
Erro amostral tolerável: é o erro admitido na avaliação dos
parâmetros de interesse numa população.
33Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• O cálculo amostral é dado pela equação:
34
 N = Tamanho da população
 𝐸0= erro amostral tolerável
 𝑛0 = primeira aproximação do tamanho da amostra
 n= tamanho da amostra
𝑛0 =
1
𝐸0
2
𝑛 =
𝑁.𝑛0
𝑁− 𝑛0
Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Exemplo:
Imagine uma cidade com 200.000 famílias e queremos fazer uma pesquisa
eleitoral onde iremos utilizar a técnica de amostragem aleatória simples. Qual
seria o tamanho da amostra?
Resolução
Inicialmente vamos admitir alguns valores
𝐸0= erro amostral tolerável = 0,04 = 4%.
35Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
• Exemplo:
Calculando a primeira aproximação do tamanho da amostra temos:
Agora iremos calcular o tamanho da amostra corrigido:
36Prof. Dr. Rodrigo Lins Rodrigues
Processo de Amostragem
37
• Quais os problemas envolvidos nesse exemplo?
Não levou em consideração as características de
heterogeneidade;
Adotou o método de amostragem aleatório
simples;
Para este método a população deveria ser
homogênea;
Existem diferenças específicas por bairro;
Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
38
• Qual a diferença entre amostra e CENSO?
• Quais as vantagens em optar por uma amostra ?
• O que é uma amostra representativa ?
• Diga três tipos de técnicas de amostragem.
Prof. Dr. Rodrigo Lins Rodrigues
Conceitos sobre
Estatística Descritiva
39Prof. Dr. Rodrigo Lins Rodrigues
Qual sua definição sobre
Estatística?
40Prof. Dr. Rodrigo Lins Rodrigues
... O que é Estatística ?
“Estatística é o estudo da
coleta, organização, análise,
interpretação, e apresentação
de dados.”
[Oxford Dictionary of Statistical Terms]
41Prof. Dr. Rodrigo Lins Rodrigues
... O que é Estatística ?
• A utilização da Estatística é cada vez mais acentuada em
qualquer atividade profissional da vida moderna;
• A estatística está basicamente dividida em duas partes:
Estatística Descritiva e Estatística Inferencial:
Descritiva ou Exploratória é relacionada a descrição por tabelas,
gráficos e medidas sobre a amostra;
Inferencial tem a capacidade de estimar parâmetros de uma
população baseado em uma amostra representativa. 42Prof. Dr. Rodrigo Lins Rodrigues
• A estatística lida com o planejamento, coleta,
análise e interpretação dos dados como
ferramentas auxiliares na tomada de decisões
e resolução de problemas;
• Áreas da computação que utilizam estatística:
Inteligência Artificial;
Extração de informação;
Mineração de Dados/Texto;
 ....
Áreas que utilizam...
43Prof. Dr. Rodrigo Lins Rodrigues
• Algumas áreas e técnicas da estatística:
Estatística descritiva;
Planejamento de experimentos;
Análise multivariada;
Estatística não-paramétrica;
Análise de regressão;
Séries temporais;
Tecnologia da amostragem;
Controle de qualidade;
...Etc.
Ramos da Estatística
44Prof. Dr. Rodrigo Lins Rodrigues
Estatística Descritiva
 Descritiva - É o uso de métodos de sumarização e
descrição nos dados;
 Métodos pictóricos e tabulares
Gráficos e tabelas
 Medidas de posição
Média, mediana, moda, quartil e percentil
 Medidas de variabilidade
Amplitude, variância, desvio padrão e distância interquartil
45Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variável é uma característica da população
(amostra), possível de ser medida, contada
ou categorizada;
• É importante conhecer a natureza das
variáveis antes de pensar em qualquer
análise estatística;
• É possível realizar transformação na
natureza de uma variável:
Ex: Discreta para ordinal
Variável
Qualitativa
Nominal
Ordinal
Quantitativa
Discreta
Contínua
46Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variáveis Qualitativas;
Podem ser representadas por meio de tabelas de distribuição de frequência;
Não podem ser calculadas medidas de posição ou dispersão;
A tabela abaixo representa uma variável qualitativa por faixa de renda.
Classe Salários Mínimos (SM) Renda Familiar (R$)
A Acima de 20 SM Acima de R$ 15.760,00
B 10 a 20 SM De R$ 7.880,00 a R$ 15.760,00
C 4 e 10 SM De R$ 3.152,00 a R$ 7.879,00
D 2 a 4 SM De R$ 1.576,00 a R$ 3.151,00
E Até 2 SM Até R$ 1.575
47Prof. Dr. Rodrigo Lins Rodrigues
Natureza das variáveis
• Variáveis Quantitativas;
Podem ser representadas graficamente (dispersão, histograma, boxplot, etc);
Pode ser aplicado medidas de posição e dispersão;
São divididas em discretas e contínuas.
Idade (anos) Peso (kg) Altura (m)
48 62 1,60
41 56 1,63
54 84 1,76
30 82 1,90
35 76 1,85
48Prof. Dr. Rodrigo Lins Rodrigues
Análise Estatística
Descritiva
Análise Inferencial
Conclusões
Problema de pesquisa
Conhecimento sobre os
dados
Formulação de hipóteses
Amostragem
Processo de análise
49Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
Qual a diferença entre variáveis qualitativas e
quantitativas ?
Qual a diferença entre variáveis discretas e contínuas ?
Qual a diferença entre Estatística Descritiva e Estatística
Inferencial ?
50Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
Vamos elaborar uma base de dados contendo as
seguintes variáveis:
Esses dados podem ser fictícios!!!
Iremos utilizar essa tabela em vários exemplos.
51Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
52Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• São utilizadas para representar a frequência de
ocorrência de um conjunto de variáveis quantitativas ou
qualitativas
• Para variáveis qualitativas, representa a frequência de
ocorrência de cada categoria;
• Para as variáveis quantitativas, pode-se calcular a
frequência do valor ou fazer uma distribuição de
classes;
53Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
54Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados qualitativos:
É representada por rótulos qualitativos;
É contabilizado a frequência para cada rótulo.
55Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Itens para compor uma tabela de distribuição de frequência
Frequência absoluta (Fi): número de ocorrência de cada elemento na
amostra;
Frequência relativa (Fri): porcentagem relativa à frequência absoluta;
Frequência acumulada (Fac): soma de todas as ocorrências até o
elemento analisado;
Frequência relativa acumulada (Frac): porcentagem relativa à
frequência acumulada.
56Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo de uma tabela de distribuição de frequência para
variável qualitativa
57
Escolaridade Fi Fri (%) Fac Frac (%)
Ensino Fundamental 20 25% 20 25%
Ensino Médio 24 30% 44 55%
Graduação 16 20% 60 75%
Especialização 12 15% 72 90%
Mestrado 5 6% 77 96%
Doutorado 3 4% 80 100%
Total 80 100%
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados quantitativos
discretos:
É importante saber a variabilidade (amplitude) da variável;
Caso essa amplitude seja alta é mais interessante categorizar a variável.
58
Horas de trabalho Fi Fri (%) Fac Frac (%)
4 12 30% 12 30%
6 8 20% 20 50%
8 20 50% 40 100%
Total 40 100%
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabela de distribuição de frequência para dados quantitativos
Contínuos:
São variáveis com valores pertencentes a um intervalo de
números reais;
Torna-se interessante agrupar os dados em classes ou faixas;
A quantidade de classes pode ser opcional, porém é
interessante ter uma visão da representatividade dos dados;
Se o número de classes for muito pequeno pode-se perder
informação;
59Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Passos para a construção da tabela de frequência para dados quantitativos
Contínuos:
 Passo 1: Ordenar os dados em forma crescente;
 Passo 2: Determinar o número de classes (K), utilizando:
𝑘 = 𝑛, onde 𝑛 é o tamanho da amostra
 Passo 3: Determinar o intervalo entre as classes (h), calculado com a amplitude da
amostra (A= máximo – mínimo):
h=
𝐴
𝑘
 Passo 4: Construir a tabela de frequência (Fi, Fri, Fac, Frac).
60Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo
Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos
matriculados na disciplina de Estatística Computacional:
Os quatro passos descritos anteriormente serão aplicados para a construção
da tabela de distribuição de frequência.
61
4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5
6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5
6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Exemplo
Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos
matriculados na disciplina de Estatística Computacional:
Os quatro passos descritos anteriormente serão aplicados para a construção
da tabela de distribuição de frequência.
62
4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5
6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5
6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
Passo 1: Ordenar os dados em forma crescente:
Passo 2: Determinar o número de classes (k):
𝑘 = 𝑛 => 30 ≅ 5,47 ≅ 6
Passo 3: Determinar o intervalo entre as classes (h):
h=
𝐴
𝑘
=>
(8,8 −3,5)
6
≅ 0,88 ≅ 1
63
3,5 3,8 3,9 4,2 4,4 4,5 4,6 4,7 4,7 5
5 5 5 5,3 5,5 5,5 5,7 6 6 6,3
6,4 6,5 6,6 6,8 7,1 7,2 7,2 7,4 8 8,8
Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
Passo 4: Construir a tabela de distribuição de frequências para cada
classe:
64
Classe Fi Fri (%) Fac Frac (%)
3,5 |-- 4,5 5 16,67 5 16,67
4,5 |-- 5,5 9 30,00 14 46,67
5,5 |-- 6,5 7 23,33 21 70,00
6,5 |-- 7,5 7 23,33 28 93,33
7,5 |-- 8,5 1 3,33 29 96,67
8,5 |-- 9,5 1 3,33 30 100
Total 30 100
Prof. Dr. Rodrigo Lins Rodrigues
É possível representar a relação de
duas variáveis em uma única tabela ?
65Prof. Dr. Rodrigo Lins Rodrigues
Representação tabular
• Tabelas de dupla entrada ou tabelas de contingência:
São simples de serem construídas;
São interessantes para mostrar a relação entre duas variáveis;
É possível construir testes estatísticos para provar as relações.
66Prof. Dr. Rodrigo Lins Rodrigues
Agora é com vocês!
O que é necessário para fazer a representação tabular para uma
variável numérica contínua ?
Quais são os passos para construir uma tabela de distribuição de
frequência ?
Quais são os itens que compõem uma tabela de distribuição de
frequência?
Construa uma tabela de frequencia, contendo (Fi, Fri, Fac, Frac)
para a variável “horasTrabalho” coletada na nossa turma.
67Prof. Dr. Rodrigo Lins Rodrigues
Representação Gráfica
68Prof. Dr. Rodrigo Lins Rodrigues
Representação Gráfica
“na sala dos professores da escola, há um cartaz com a
frase "Em 2007, eram 734 estudantes matriculados; em
2008, 753; em 2009, 777; em 2010, 794; e, em 2011,
819”.
69
Imagine o seguinte:
?
Prof. Dr. Rodrigo Lins Rodrigues
70
Essa é a representação gráfica:
Representação Gráfica
71
Representação Gráfica
Prof. Dr. Rodrigo Lins Rodrigues
72
• É cada vez mais importante no cenário de Big Data;
• Faz parte de todo o processo de análise de dados, desde
o entendimento dos dados até a fase de apresentação dos
resultados;
• É utilizado nas seguintes fases:
Visualização da qualidade dos dados brutos;
Identificação de distribuições das variáveis;
Apresentar relações e correlações entre variáveis;
Representar e verificar a consistência de modelos;
Representação Gráfica
73
Representação Gráfica
• Gráfico de Barras
Compara grandezas, por meio de retângulos de
igual largura, porém de alturas proporcionais às
grandezas;
Cada coluna (ou Barra) representa a intensidade
uma modalidade do atributo.
Prof. Dr. Rodrigo Lins Rodrigues
74
Representação Gráfica
• Gráfico de Histograma:
Representa a distribuição de uma variável
quantitativa contínua;
É ideal para representar uma tabela de
distribuição de frequência por classes;
São muito utilizados quando queremos ver
o comportamento (distribuição dos dados).
Prof. Dr. Rodrigo Lins Rodrigues
75
Representação Gráfica
• Gráfico de Histograma:
Prof. Dr. Rodrigo Lins Rodrigues
76
Representação Gráfica
• Gráfico de Pizza ou Setores:
Forma de representar dados
qualitativos;
É possível representar percentuais;
É de fácil compreensão por leigos;
Prof. Dr. Rodrigo Lins Rodrigues
77
Representação Gráfica
• Gráfico de Dispersão:
É representado pela intersecção entre duas
variáveis;
É ideal para visualizar a relação entre o
comportamento de duas variáveis
quantitativas;
É muito utilizado em análises de correlação
e regressão. Prof. Dr. Rodrigo Lins Rodrigues
78
Representação Gráfica
• BoxPlot ou Diagrama de Caixas:
É uma representação gráfica de cinco medidas: (1)
valor mínimo, (2) primeiro quartil, (3) segundo quartil
ou mediana, (4) terceiro quartil e (5) valor máximo;
Permite verificar a presença de outliers;
É interessante pra ter uma noção da distribuição
da variável;
Muito utilizado na fase de pré-processamento.
79
Representação Gráfica
• Gráfico de Séries Temporais
São utilizadas em dados temporais
históricos;
Muito utilizado com dados meteorológicos
e financeiros;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de
Tendência Central
80Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
81
• Localizam-se geralmente no centro de uma distribuição;
• Indica a posição dos dados em relação ao eixo dos valores
assumidos pela variável;
• As principais são:
Média;
Moda;
Mediana;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
82
• Média aritmética:
 É a mais utilizada entre as medidas de tendência central;
 É a soma do total de valores dividida pelo número total de
observações:
• Observação:
 Quando se refere a população a média é representada por 𝜇;
 Quando se refere a amostra a média é representada por 𝑋
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
83
 Exemplo 1:
Calcular a média aritmética para os dados referente às notas
dos alunos da especialização em Ciência dos Dados.
Notas
5,7 6,5 6,9 8,3 8,0 4,2 6,3 7,4 5,8 6,9
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
𝑋 =
5,7+6,5+ …+6,9
10
= 6,6
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
84
 Exemplo 2:
Calcular a média salarial dos alunos desta turma.
𝑋 =
𝑖=1
𝑛
𝑥𝑖
𝑛
𝑋 =
2000+1800+2100+18.500
4
= 6.100,00
Salário
R$ 2.000,00 R$ 1.800,00 R$ 2.100,00 R$ 18.500,00
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
85
Qual o problema com o exemplo 2 ?
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
86
• Mediana:
É o valor médio para um conjunto de dados;
Não depende de todos os valores da série, podendo,
como a moda, não se alterar com a mudança de alguns
elementos;
É muito empregada em pesquisas onde não interessam
valores extremos, pois não é influenciada por esses
valores;
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
87
• Mediana:
As observações devem ser colocadas em ordem crescente;
Pode ser calculada da seguinte forma:
em que 𝑛 é o número total de observações.
, se 𝑛 for par
, se 𝑛 for ímpar
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
• Exemplo:
A tabela apresenta a publicação
mensal de livros relacionados com
Data Science no mundo;
Para o cálculo da mediana as
observações devem ser
ordenadas.
Mês Produção (unidades)
Jan 210
Fev 180
Mar 203
Abr 195
Mai 208
Jun 230
Jul 185
Ago 190
Set 200
Out 182
Nov 205
Dez 196Prof. Dr. Rodrigo Lins Rodrigues 88
Medidas de Tendência Central
89
• Solução:
𝑀𝑑 =
196+200
2
= 198
Mês Produção (unidades)
Jan 210
Fev 180
Mar 203
Abr 195
Mai 208
Jun 230
Jul 185
Ago 190
Set 200
Out 182
Nov 205
Dez 196
180 < 182 < 185 < 190 < 195 < 196 < 200 < 203 < 205 < 208 < 210 < 230
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
90
• Moda:
A moda (𝑀0) é a observação que ocorre com maior frequência
no conjunto de dados;
É a única medida de posição que também pode ser utilizada
para variáveis qualitativas;
Em uma única série pode-se ter mais de uma moda.
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de Tendência Central
91
• Moda para dados qualitativos:
Uma emissora de TV entrevistou 500 telespectadores buscando
analisar suas preferencias por categoria de interesse.
Categorias de interesse Fi
Filmes 71
Novelas 46
Jornalismo 90
Humor 98
Esporte 120
Shows 35
Variedades 40
Medida de dispersão
92Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
93
• São utilizadas para caracterizar a variabilidade dos dados;
• As medidas de dispersão mais comuns são:
Amplitude;
Variância;
Desvio padrão;
Erro padrão;
Coeficiente de Variação (CV).
• Quanto maior os valores maior é a dispersão dos dados.
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
94
• Amplitude total;
É a medida de dispersão ou variabilidade mais simples;
É representada pela diferença entre o maior e o menor valor de
um conjunto de observações:
𝐴 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
95
• Variância;
É baseada na média dos desvios quadrados;
𝜎2
= 𝑖=1
𝑁
𝑥 𝑖−𝜇 2
𝑁
𝑆2
= 𝑖=1
𝑁
𝑥 𝑖− 𝑥 2
𝑛−1
(Para a população)
(Para a amostra)
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
96
• Exemplo da variância;
Considerando os dados do exemplo anterior...
12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4
𝑆2= 𝑖=1
𝑁
𝑥 𝑖− 𝑥 2
𝑛−1
𝑆2=
12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2
10−1
𝑆2=41,94
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
97
• Desvio Padrão;
Como a variância considera a média dos desvios quadrados, seu
valor tende a ser grande e de difícil interpretação;
Para resolver este problema extrai-se a raiz quadrada para obter o
desvio padrão:
𝜎 = 𝜎2
S= 𝑆2
(Para a população)
(Para a amostra)
Prof. Dr. Rodrigo Lins Rodrigues
Medidas de dispersão
98
• Exemplo do desvio padrão:
Considere novamente os dados do exemplo anterior
41,94 = 6,476
12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4
𝑆2=
12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2
9−1
𝑆2
=41,94
Logo:
𝑥=22,6 e S =6,476
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
99Prof. Dr. Rodrigo Lins Rodrigues
Correlação
100
...O que você entende
por Correlação ?
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
101
...olhe pra essa imagem e pense um pouco mais!
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
102
“É uma técnica estatística capaz de avaliar a
existência de relação entre duas variáveis...
Essa relação pode ser expressa através de
uma força e direção"
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
103
• Mede o grau da correlação (positiva ou negativa) entre
duas variáveis de escala métrica;
 r > 0,4 Significa uma correlação positiva
entre as duas variáveis.
 -0,4 < 0 > 0,4 : Significa que as duas
variáveis não dependem linearmente uma
da outra.
 r < -0,4 Significa uma correlação negativa
entre as duas variáveis - Isto é, se uma
aumenta, a outra sempre diminui.
Coeficiente de correlação de Pearson
Correlação
104
• Representação gráfica para a correlação;
Correlação
105
• Exemplo:
A tabela abaixo mostra duas variáveis relacionadas a
profissionais de Data Science:
Profissional Tempo de Experiência (anos) Salário
1 0,1 R$ 1.290,00
2 0,8 R$ 2.330,00
3 0,6 R$ 1.800,00
4 3 R$ 3.452,00
5 5,1 R$ 5.890,00
6 7,4 R$ 6.730,00
7 8,6 R$ 8.600,00
Correlação
106
• Exemplo:
• Inicialmente é necessário calcular a média de cada uma das variáveis:
Média do Tempo de Experiência (anos) = 3,66;
Média do salário = 4298,86.
• Em seguida aplica os somatórios:
𝑟 =
( 0,1 − 3,66 ∗ 1290 − 4298,86 ) + ...+ ( 8,6 − 3,66 ∗ 8600 − 4298,86 )
( 0,1 − 3,66 2∗ 1290 − 4298,86 2) + ⋯ + ( 8,6 − 3,66 2∗ 8600 − 4298,86 2)
𝑟 = 0,990774749
Prof. Dr. Rodrigo Lins Rodrigues
Correlação
107
• Exemplo:
Este valor indica uma correlação forte e positiva entre as duas variáveis;
Podemos ver a relação visualmente através do gráfico de dispersão:
𝑟 = 0,990774749
R$0,00
R$1.000,00
R$2.000,00
R$3.000,00
R$4.000,00
R$5.000,00
R$6.000,00
R$7.000,00
R$8.000,00
R$9.000,00
R$10.000,00
0 1 2 3 4 5 6 7 8 9 10
Salário
Prof. Dr. Rodrigo Lins Rodrigues
Dúvidas
o Contatos:
Email: rodrigo.linsrodrigues@ufrpe.br
Facebook: /rodrigomuribec
108

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

amostragem
amostragemamostragem
amostragem
 
Moda, Média e Mediana
Moda, Média e MedianaModa, Média e Mediana
Moda, Média e Mediana
 
Aula 01: Conceitos básicos de Estatística
Aula 01: Conceitos básicos de EstatísticaAula 01: Conceitos básicos de Estatística
Aula 01: Conceitos básicos de Estatística
 
Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Aula 22 probabilidade - parte 1
Aula 22   probabilidade - parte 1Aula 22   probabilidade - parte 1
Aula 22 probabilidade - parte 1
 
Estatística
EstatísticaEstatística
Estatística
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Exercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostraExercicios amostragem e tamanho amostra
Exercicios amostragem e tamanho amostra
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 
Aula 7 análise fatorial
Aula 7  análise fatorialAula 7  análise fatorial
Aula 7 análise fatorial
 
Aula 4 modelos de regressão linear
Aula 4   modelos de regressão linearAula 4   modelos de regressão linear
Aula 4 modelos de regressão linear
 
Estatística
EstatísticaEstatística
Estatística
 
Técnicas para a coleta de dados
Técnicas para a coleta de dadosTécnicas para a coleta de dados
Técnicas para a coleta de dados
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Estatística conceitos iniciais_professorjarbas.com.br
Estatística conceitos iniciais_professorjarbas.com.brEstatística conceitos iniciais_professorjarbas.com.br
Estatística conceitos iniciais_professorjarbas.com.br
 
Cálculo Amostral
Cálculo AmostralCálculo Amostral
Cálculo Amostral
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelas
 
Capítulo 1 introdução à estatística
Capítulo 1   introdução à estatísticaCapítulo 1   introdução à estatística
Capítulo 1 introdução à estatística
 
Bioestatística
 Bioestatística Bioestatística
Bioestatística
 

Semelhante a Aula 1 introdução e estatística descritiva

Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anovaRodrigo Rodrigues
 
Pesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisPesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisRodrigo Rodrigues
 
Aula 6 análise de conglomerados
Aula 6  análise de conglomeradosAula 6  análise de conglomerados
Aula 6 análise de conglomeradosRodrigo Rodrigues
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Sistemas de informações em saúde.pptx
Sistemas de informações em saúde.pptxSistemas de informações em saúde.pptx
Sistemas de informações em saúde.pptxBiancaCruz74
 
Abordagens teóricas metodológicas 1.ppt
Abordagens teóricas metodológicas 1.pptAbordagens teóricas metodológicas 1.ppt
Abordagens teóricas metodológicas 1.pptUbirajaraCoutoLima
 
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisaMetolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisaDaniela Cartoni
 
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...Marcus Bizareli
 
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUA...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA  E DE ANÁLISE QUANTITATIVA E QUA...DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA  E DE ANÁLISE QUANTITATIVA E QUA...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUA...Marcus Bizareli
 
Realização de experimentos
Realização de experimentosRealização de experimentos
Realização de experimentosCaio Maximino
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Aula-tga-09-matemática
Aula-tga-09-matemáticaAula-tga-09-matemática
Aula-tga-09-matemáticaAndre Boavista
 
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Dalton Martins
 
Amazonia Region Sustainable Development through Partnerships Strategies
Amazonia Region Sustainable Development through Partnerships StrategiesAmazonia Region Sustainable Development through Partnerships Strategies
Amazonia Region Sustainable Development through Partnerships StrategiesBruno Oliveira
 

Semelhante a Aula 1 introdução e estatística descritiva (20)

Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anova
 
Pesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisPesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionais
 
Aula 6 análise de conglomerados
Aula 6  análise de conglomeradosAula 6  análise de conglomerados
Aula 6 análise de conglomerados
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Sistemas de informações em saúde.pptx
Sistemas de informações em saúde.pptxSistemas de informações em saúde.pptx
Sistemas de informações em saúde.pptx
 
Abordagens teóricas metodológicas 1.ppt
Abordagens teóricas metodológicas 1.pptAbordagens teóricas metodológicas 1.ppt
Abordagens teóricas metodológicas 1.ppt
 
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisaMetolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
 
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUAL...
 
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUA...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA  E DE ANÁLISE QUANTITATIVA E QUA...DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA  E DE ANÁLISE QUANTITATIVA E QUA...
DA OBSERVAÇÃO À DECISÃO: MÉTODOS DE PESQUISA E DE ANÁLISE QUANTITATIVA E QUA...
 
Realização de experimentos
Realização de experimentosRealização de experimentos
Realização de experimentos
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Survey e Análise Estatística
Survey e Análise Estatística Survey e Análise Estatística
Survey e Análise Estatística
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Pesquisa de marketing #3
Pesquisa de marketing #3Pesquisa de marketing #3
Pesquisa de marketing #3
 
Projeto GráFico5
Projeto GráFico5Projeto GráFico5
Projeto GráFico5
 
Aula-tga-09-matemática
Aula-tga-09-matemáticaAula-tga-09-matemática
Aula-tga-09-matemática
 
Métodos Digitais para Análise de Dados - Aula 03 - Do tipo de problema à apli...
Métodos Digitais para Análise de Dados - Aula 03 - Do tipo de problema à apli...Métodos Digitais para Análise de Dados - Aula 03 - Do tipo de problema à apli...
Métodos Digitais para Análise de Dados - Aula 03 - Do tipo de problema à apli...
 
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
 
Amazonia Region Sustainable Development through Partnerships Strategies
Amazonia Region Sustainable Development through Partnerships StrategiesAmazonia Region Sustainable Development through Partnerships Strategies
Amazonia Region Sustainable Development through Partnerships Strategies
 
S.i.m.amb.mkt. Ary
S.i.m.amb.mkt. AryS.i.m.amb.mkt. Ary
S.i.m.amb.mkt. Ary
 

Mais de Rodrigo Rodrigues

Aula 5 modelo de regressão loística
Aula 5   modelo de regressão loísticaAula 5   modelo de regressão loística
Aula 5 modelo de regressão loísticaRodrigo Rodrigues
 
Aula 2 prática computacional de estatística descritiva
Aula 2   prática computacional de estatística descritivaAula 2   prática computacional de estatística descritiva
Aula 2 prática computacional de estatística descritivaRodrigo Rodrigues
 
Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisAnálise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisRodrigo Rodrigues
 
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...Rodrigo Rodrigues
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...Rodrigo Rodrigues
 
Jogos Educativos - Nativos Digitais
Jogos Educativos - Nativos DigitaisJogos Educativos - Nativos Digitais
Jogos Educativos - Nativos DigitaisRodrigo Rodrigues
 
Introdução sobre desenvolvimento web
Introdução sobre desenvolvimento webIntrodução sobre desenvolvimento web
Introdução sobre desenvolvimento webRodrigo Rodrigues
 
Componentes do Sistema operacional
Componentes do Sistema operacional Componentes do Sistema operacional
Componentes do Sistema operacional Rodrigo Rodrigues
 
Infraestrutura de Software - Introdução
Infraestrutura de Software - IntroduçãoInfraestrutura de Software - Introdução
Infraestrutura de Software - IntroduçãoRodrigo Rodrigues
 
Revsão sobre sistemas operacionais
Revsão sobre sistemas operacionaisRevsão sobre sistemas operacionais
Revsão sobre sistemas operacionaisRodrigo Rodrigues
 
As novas perspectivas para informática na educação e o paradigma colaborativo
As novas perspectivas para informática na educação e o paradigma colaborativo As novas perspectivas para informática na educação e o paradigma colaborativo
As novas perspectivas para informática na educação e o paradigma colaborativo Rodrigo Rodrigues
 

Mais de Rodrigo Rodrigues (20)

Aula 5 modelo de regressão loística
Aula 5   modelo de regressão loísticaAula 5   modelo de regressão loística
Aula 5 modelo de regressão loística
 
Aula 2 prática computacional de estatística descritiva
Aula 2   prática computacional de estatística descritivaAula 2   prática computacional de estatística descritiva
Aula 2 prática computacional de estatística descritiva
 
Análise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionaisAnálise de Regressão: aspectos teóricos e computacionais
Análise de Regressão: aspectos teóricos e computacionais
 
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...
Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a A...
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...
Modelo de Regressão Linear aplicado à previsão de desempenho de estudantes em...
 
Jogos Educativos - Nativos Digitais
Jogos Educativos - Nativos DigitaisJogos Educativos - Nativos Digitais
Jogos Educativos - Nativos Digitais
 
Introdução sobre desenvolvimento web
Introdução sobre desenvolvimento webIntrodução sobre desenvolvimento web
Introdução sobre desenvolvimento web
 
Gerência de dispositivos
Gerência de dispositivosGerência de dispositivos
Gerência de dispositivos
 
Memória virtual
Memória virtualMemória virtual
Memória virtual
 
Memória virtual
Memória virtualMemória virtual
Memória virtual
 
Gerenciamento de memória
Gerenciamento de memóriaGerenciamento de memória
Gerenciamento de memória
 
Aula revisão ok
Aula revisão       okAula revisão       ok
Aula revisão ok
 
Gerência de memória
Gerência de memóriaGerência de memória
Gerência de memória
 
Escalonamento de processos
Escalonamento de processosEscalonamento de processos
Escalonamento de processos
 
Componentes do Sistema operacional
Componentes do Sistema operacional Componentes do Sistema operacional
Componentes do Sistema operacional
 
Infraestrutura de Software - Introdução
Infraestrutura de Software - IntroduçãoInfraestrutura de Software - Introdução
Infraestrutura de Software - Introdução
 
Revsão sobre sistemas operacionais
Revsão sobre sistemas operacionaisRevsão sobre sistemas operacionais
Revsão sobre sistemas operacionais
 
Introdução a IHC
Introdução a IHCIntrodução a IHC
Introdução a IHC
 
As novas perspectivas para informática na educação e o paradigma colaborativo
As novas perspectivas para informática na educação e o paradigma colaborativo As novas perspectivas para informática na educação e o paradigma colaborativo
As novas perspectivas para informática na educação e o paradigma colaborativo
 

Último

A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Centro Jacques Delors
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
A horta do Senhor Lobo que protege a sua horta.
A horta do Senhor Lobo que protege a sua horta.A horta do Senhor Lobo que protege a sua horta.
A horta do Senhor Lobo que protege a sua horta.silves15
 
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxAULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxLaurindo6
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfAdrianaCunha84
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividadeMary Alvarenga
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManuais Formação
 
Bullying - Atividade com caça- palavras
Bullying   - Atividade com  caça- palavrasBullying   - Atividade com  caça- palavras
Bullying - Atividade com caça- palavrasMary Alvarenga
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
Nova BNCC Atualizada para novas pesquisas
Nova BNCC Atualizada para novas pesquisasNova BNCC Atualizada para novas pesquisas
Nova BNCC Atualizada para novas pesquisasraveccavp
 
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA  - Autora Djamila RibeiroLivro O QUE É LUGAR DE FALA  - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA - Autora Djamila RibeiroMarcele Ravasio
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxLuizHenriquedeAlmeid6
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 

Último (20)

A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
A horta do Senhor Lobo que protege a sua horta.
A horta do Senhor Lobo que protege a sua horta.A horta do Senhor Lobo que protege a sua horta.
A horta do Senhor Lobo que protege a sua horta.
 
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxAULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
 
Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdf
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividade
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envio
 
Bullying - Atividade com caça- palavras
Bullying   - Atividade com  caça- palavrasBullying   - Atividade com  caça- palavras
Bullying - Atividade com caça- palavras
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
Nova BNCC Atualizada para novas pesquisas
Nova BNCC Atualizada para novas pesquisasNova BNCC Atualizada para novas pesquisas
Nova BNCC Atualizada para novas pesquisas
 
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA  - Autora Djamila RibeiroLivro O QUE É LUGAR DE FALA  - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
 
CINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULACINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULA
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 

Aula 1 introdução e estatística descritiva

  • 1. Curso de Ciência de Dados e Analytics Estatística Computacional Aula 1 – Estatística Descritiva Prof. Dr. Rodrigo Lins Rodrigues rodrigo.linsrodrigues@ufrpe.br 1Prof. Dr. Rodrigo Lins Rodrigues
  • 2. Rodrigo Lins Rodrigues  Professor na UFRPE;  Bacharel em Estatística  Licenciado em Computação;  Doutorado e Mestrado em Ciência da Computação;  Pesquiso sobre Mineração de Dados Educacionais. o Contatos: Email: rodrigo.linsrodrigues@ufrpe.br Facebook: /rodrigomuribec 2 Quem sou ? Prof. Dr. Rodrigo Lins Rodrigues
  • 3. 3 Vamos nos apresentar? Nome, Formação, Experiência com Estatística... Prof. Dr. Rodrigo Lins Rodrigues
  • 4. Sobre a disciplina...  Estatística Descritiva ou Exploratória;  Testes de Hipóteses e ANOVA;  Modelos de Regressão Linear e Logístico;  Análise de Conglomerados e Fatorial. Conceitos computacionais intercalados 4Prof. Dr. Rodrigo Lins Rodrigues
  • 5. • Estatística Descritiva:  Conceitos sobre estatística descritiva;  Natureza das variáveis;  Processos de amostragem;  Medidas de tendência central;  Medidas de Dispersão;  Representações tabulares;  Representações gráficas;  Correlação; O que veremos nesta aula ? 5Prof. Dr. Rodrigo Lins Rodrigues
  • 6. Intersecção entre teoria e prática; Reflexões sobre a estatística no cotidiano; Relação com as outras disciplinas do curso; Exercícios durante todas as aulas. Como serão as aulas ? 6Prof. Dr. Rodrigo Lins Rodrigues
  • 7. ...e sobre as avaliações? • Avaliações Teóricas:  Exercícios em sala de aula – 40%  Participação em sala – 10% • Avaliações Práticas  Realização de projetos práticos – 25%  Apresentação dos resultados – 25% 7Prof. Dr. Rodrigo Lins Rodrigues
  • 8. Livros de Referência 8Prof. Dr. Rodrigo Lins Rodrigues
  • 9. Como a estatística é utilizada ? 9Prof. Dr. Rodrigo Lins Rodrigues
  • 10. Segmentação de clientes; Recomendação de produtos; Campanhas customizadas para clientes com perfil específico; ... Mercado de Vendas 10Prof. Dr. Rodrigo Lins Rodrigues
  • 11. Score de crédito; Probabilidade de inadimplência; Lucratividade por cliente; Clientes potenciais; ... Bancos 11Prof. Dr. Rodrigo Lins Rodrigues
  • 12. Previsão de desempenho; Retenção de estudantes; Identificação de perfil de aprendizagem; Recomendação de conteúdo; ... Educação 12Prof. Dr. Rodrigo Lins Rodrigues
  • 13. Modelagem epidemiológica; Previsão de doenças; Relação de fatores de risco; ... Saúde 13Prof. Dr. Rodrigo Lins Rodrigues
  • 14. Segmentação de clientes; Campanhas personalizadas; Identificação de perfil de compra; ... Marketing 14Prof. Dr. Rodrigo Lins Rodrigues
  • 15. ... Como os dados são gerados, armazenados e coletados ? 15Prof. Dr. Rodrigo Lins Rodrigues
  • 16. Geração de dados... • Existem diversas formas de coleta de dados Coletas por instrumentos de coleta do tipo questionários; Dados de redes sociais; Dados por sensores; Etc... 16Prof. Dr. Rodrigo Lins Rodrigues
  • 17. Geração de dados... • Através de questionários Dados coletados por CENSO; Pesquisas de opinião pública; Pesquisas comportamentais; Pesquisas políticas. 17Prof. Dr. Rodrigo Lins Rodrigues
  • 18. Geração de dados... 18 • Através plataformas web Prof. Dr. Rodrigo Lins Rodrigues
  • 19. Geração de dados...  968 milhões usuários ativos por dia;  + de 40 bilhões de fotos compartilhadas;  3,5 bilhões de likes por dia; 19Prof. Dr. Rodrigo Lins Rodrigues
  • 20. Geração de dados...  + de 100 milhões de horas de vídeo assistidas por dia;  300 bilhões de mensagens por dia. 20Prof. Dr. Rodrigo Lins Rodrigues
  • 21. Geração de dados... Bento XVI 19 de abril de 2005 Francisco 13 de março de 2013 21Prof. Dr. Rodrigo Lins Rodrigues
  • 22. Processo de Amostragem 22Prof. Dr. Rodrigo Lins Rodrigues
  • 23. ...Para que serve uma amostra 23Prof. Dr. Rodrigo Lins Rodrigues
  • 24. ...Vamos refletir! 24Prof. Dr. Rodrigo Lins Rodrigues
  • 25. Processo de Amostragem 25 • É através da amostra que podemos inferir sobre os parâmetros de uma população; • A amostra deve ser representativa, para isso existem diversas técnicas de amostragem; • Se o tamanho dessas amostras cresce na direção do tamanho da população, mais precisas são as conclusões obtidas; Prof. Dr. Rodrigo Lins Rodrigues
  • 26. Processo de Amostragem 26Prof. Dr. Rodrigo Lins Rodrigues
  • 27. Processo de Amostragem 27 • Por que fazer amostragem ao invés de censo? Economia financeira; Menor tempo; Rapidez no processamento e análise; População infinita; Mais fácil, com resultados satisfatórios. Prof. Dr. Rodrigo Lins Rodrigues
  • 28. Processo de Amostragem  A amostra deve ser representativa! 28Prof. Dr. Rodrigo Lins Rodrigues
  • 29. Processo de Amostragem  O que devemos evitar no processo de amostragem? Amostras por conveniência; Amostra de voluntários; Amostra intencionais; Amostra com amigos ou conhecidos. 29Prof. Dr. Rodrigo Lins Rodrigues
  • 30. Processo de Amostragem • Amostragem Aleatória Simples Ex.: selecionar, aleatoriamente, eleitores da população eleitoral do Brasil. • Amostragem Estratificada Ex.: (1) dividir os eleitores por sexo; (2) Selecionar, aleatoriamente, elementos de cada grupo. • Amostragem de Agrupamentos Ex.: (1) dividir os eleitores por zona eleitoral; (2) Selecionar, aleatoriamente, 3 zonas eleitorais; (3) Selecionar, aleatoriamente, 300 eleitores de cada zona eleitoral selecionada. 30Prof. Dr. Rodrigo Lins Rodrigues
  • 31. ...e como calcular o tamanho de uma amostra representativa ? 31Prof. Dr. Rodrigo Lins Rodrigues
  • 32. Processo de Amostragem 32 “Um bom tamanho de amostra é 10% da população?” Prof. Dr. Rodrigo Lins Rodrigues
  • 33. Processo de Amostragem • Calculo do Tamanho Amostral • Algumas definições são necessárias para o entendimento: Parâmetro: característica da população; Estatística: característica da amostra; Estimativa: valor que estima o valor de um parâmetro populacional. Erro amostral: diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se deseja estimar; Erro amostral tolerável: é o erro admitido na avaliação dos parâmetros de interesse numa população. 33Prof. Dr. Rodrigo Lins Rodrigues
  • 34. Processo de Amostragem • O cálculo amostral é dado pela equação: 34  N = Tamanho da população  𝐸0= erro amostral tolerável  𝑛0 = primeira aproximação do tamanho da amostra  n= tamanho da amostra 𝑛0 = 1 𝐸0 2 𝑛 = 𝑁.𝑛0 𝑁− 𝑛0 Prof. Dr. Rodrigo Lins Rodrigues
  • 35. Processo de Amostragem • Exemplo: Imagine uma cidade com 200.000 famílias e queremos fazer uma pesquisa eleitoral onde iremos utilizar a técnica de amostragem aleatória simples. Qual seria o tamanho da amostra? Resolução Inicialmente vamos admitir alguns valores 𝐸0= erro amostral tolerável = 0,04 = 4%. 35Prof. Dr. Rodrigo Lins Rodrigues
  • 36. Processo de Amostragem • Exemplo: Calculando a primeira aproximação do tamanho da amostra temos: Agora iremos calcular o tamanho da amostra corrigido: 36Prof. Dr. Rodrigo Lins Rodrigues
  • 37. Processo de Amostragem 37 • Quais os problemas envolvidos nesse exemplo? Não levou em consideração as características de heterogeneidade; Adotou o método de amostragem aleatório simples; Para este método a população deveria ser homogênea; Existem diferenças específicas por bairro; Prof. Dr. Rodrigo Lins Rodrigues
  • 38. Agora é com vocês! 38 • Qual a diferença entre amostra e CENSO? • Quais as vantagens em optar por uma amostra ? • O que é uma amostra representativa ? • Diga três tipos de técnicas de amostragem. Prof. Dr. Rodrigo Lins Rodrigues
  • 40. Qual sua definição sobre Estatística? 40Prof. Dr. Rodrigo Lins Rodrigues
  • 41. ... O que é Estatística ? “Estatística é o estudo da coleta, organização, análise, interpretação, e apresentação de dados.” [Oxford Dictionary of Statistical Terms] 41Prof. Dr. Rodrigo Lins Rodrigues
  • 42. ... O que é Estatística ? • A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna; • A estatística está basicamente dividida em duas partes: Estatística Descritiva e Estatística Inferencial: Descritiva ou Exploratória é relacionada a descrição por tabelas, gráficos e medidas sobre a amostra; Inferencial tem a capacidade de estimar parâmetros de uma população baseado em uma amostra representativa. 42Prof. Dr. Rodrigo Lins Rodrigues
  • 43. • A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas; • Áreas da computação que utilizam estatística: Inteligência Artificial; Extração de informação; Mineração de Dados/Texto;  .... Áreas que utilizam... 43Prof. Dr. Rodrigo Lins Rodrigues
  • 44. • Algumas áreas e técnicas da estatística: Estatística descritiva; Planejamento de experimentos; Análise multivariada; Estatística não-paramétrica; Análise de regressão; Séries temporais; Tecnologia da amostragem; Controle de qualidade; ...Etc. Ramos da Estatística 44Prof. Dr. Rodrigo Lins Rodrigues
  • 45. Estatística Descritiva  Descritiva - É o uso de métodos de sumarização e descrição nos dados;  Métodos pictóricos e tabulares Gráficos e tabelas  Medidas de posição Média, mediana, moda, quartil e percentil  Medidas de variabilidade Amplitude, variância, desvio padrão e distância interquartil 45Prof. Dr. Rodrigo Lins Rodrigues
  • 46. Natureza das variáveis • Variável é uma característica da população (amostra), possível de ser medida, contada ou categorizada; • É importante conhecer a natureza das variáveis antes de pensar em qualquer análise estatística; • É possível realizar transformação na natureza de uma variável: Ex: Discreta para ordinal Variável Qualitativa Nominal Ordinal Quantitativa Discreta Contínua 46Prof. Dr. Rodrigo Lins Rodrigues
  • 47. Natureza das variáveis • Variáveis Qualitativas; Podem ser representadas por meio de tabelas de distribuição de frequência; Não podem ser calculadas medidas de posição ou dispersão; A tabela abaixo representa uma variável qualitativa por faixa de renda. Classe Salários Mínimos (SM) Renda Familiar (R$) A Acima de 20 SM Acima de R$ 15.760,00 B 10 a 20 SM De R$ 7.880,00 a R$ 15.760,00 C 4 e 10 SM De R$ 3.152,00 a R$ 7.879,00 D 2 a 4 SM De R$ 1.576,00 a R$ 3.151,00 E Até 2 SM Até R$ 1.575 47Prof. Dr. Rodrigo Lins Rodrigues
  • 48. Natureza das variáveis • Variáveis Quantitativas; Podem ser representadas graficamente (dispersão, histograma, boxplot, etc); Pode ser aplicado medidas de posição e dispersão; São divididas em discretas e contínuas. Idade (anos) Peso (kg) Altura (m) 48 62 1,60 41 56 1,63 54 84 1,76 30 82 1,90 35 76 1,85 48Prof. Dr. Rodrigo Lins Rodrigues
  • 49. Análise Estatística Descritiva Análise Inferencial Conclusões Problema de pesquisa Conhecimento sobre os dados Formulação de hipóteses Amostragem Processo de análise 49Prof. Dr. Rodrigo Lins Rodrigues
  • 50. Agora é com vocês! Qual a diferença entre variáveis qualitativas e quantitativas ? Qual a diferença entre variáveis discretas e contínuas ? Qual a diferença entre Estatística Descritiva e Estatística Inferencial ? 50Prof. Dr. Rodrigo Lins Rodrigues
  • 51. Agora é com vocês! Vamos elaborar uma base de dados contendo as seguintes variáveis: Esses dados podem ser fictícios!!! Iremos utilizar essa tabela em vários exemplos. 51Prof. Dr. Rodrigo Lins Rodrigues
  • 52. Representação tabular 52Prof. Dr. Rodrigo Lins Rodrigues
  • 53. Representação tabular • São utilizadas para representar a frequência de ocorrência de um conjunto de variáveis quantitativas ou qualitativas • Para variáveis qualitativas, representa a frequência de ocorrência de cada categoria; • Para as variáveis quantitativas, pode-se calcular a frequência do valor ou fazer uma distribuição de classes; 53Prof. Dr. Rodrigo Lins Rodrigues
  • 54. Representação tabular 54Prof. Dr. Rodrigo Lins Rodrigues
  • 55. Representação tabular • Tabela de distribuição de frequência para dados qualitativos: É representada por rótulos qualitativos; É contabilizado a frequência para cada rótulo. 55Prof. Dr. Rodrigo Lins Rodrigues
  • 56. Representação tabular • Itens para compor uma tabela de distribuição de frequência Frequência absoluta (Fi): número de ocorrência de cada elemento na amostra; Frequência relativa (Fri): porcentagem relativa à frequência absoluta; Frequência acumulada (Fac): soma de todas as ocorrências até o elemento analisado; Frequência relativa acumulada (Frac): porcentagem relativa à frequência acumulada. 56Prof. Dr. Rodrigo Lins Rodrigues
  • 57. Representação tabular • Exemplo de uma tabela de distribuição de frequência para variável qualitativa 57 Escolaridade Fi Fri (%) Fac Frac (%) Ensino Fundamental 20 25% 20 25% Ensino Médio 24 30% 44 55% Graduação 16 20% 60 75% Especialização 12 15% 72 90% Mestrado 5 6% 77 96% Doutorado 3 4% 80 100% Total 80 100% Prof. Dr. Rodrigo Lins Rodrigues
  • 58. Representação tabular • Tabela de distribuição de frequência para dados quantitativos discretos: É importante saber a variabilidade (amplitude) da variável; Caso essa amplitude seja alta é mais interessante categorizar a variável. 58 Horas de trabalho Fi Fri (%) Fac Frac (%) 4 12 30% 12 30% 6 8 20% 20 50% 8 20 50% 40 100% Total 40 100% Prof. Dr. Rodrigo Lins Rodrigues
  • 59. Representação tabular • Tabela de distribuição de frequência para dados quantitativos Contínuos: São variáveis com valores pertencentes a um intervalo de números reais; Torna-se interessante agrupar os dados em classes ou faixas; A quantidade de classes pode ser opcional, porém é interessante ter uma visão da representatividade dos dados; Se o número de classes for muito pequeno pode-se perder informação; 59Prof. Dr. Rodrigo Lins Rodrigues
  • 60. Representação tabular • Passos para a construção da tabela de frequência para dados quantitativos Contínuos:  Passo 1: Ordenar os dados em forma crescente;  Passo 2: Determinar o número de classes (K), utilizando: 𝑘 = 𝑛, onde 𝑛 é o tamanho da amostra  Passo 3: Determinar o intervalo entre as classes (h), calculado com a amplitude da amostra (A= máximo – mínimo): h= 𝐴 𝑘  Passo 4: Construir a tabela de frequência (Fi, Fri, Fac, Frac). 60Prof. Dr. Rodrigo Lins Rodrigues
  • 61. Representação tabular • Exemplo Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos matriculados na disciplina de Estatística Computacional: Os quatro passos descritos anteriormente serão aplicados para a construção da tabela de distribuição de frequência. 61 4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5 6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5 6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7 Prof. Dr. Rodrigo Lins Rodrigues
  • 62. Representação tabular • Exemplo Considere os dados da tabela abaixo. Refere-se às notas de 30 alunos matriculados na disciplina de Estatística Computacional: Os quatro passos descritos anteriormente serão aplicados para a construção da tabela de distribuição de frequência. 62 4,2 3,9 5,7 6,5 4,6 6,3 8,0 4,4 5,0 5,5 6,0 4,5 5,0 7,2 6,4 7,2 5,0 6,8 4,7 3,5 6,0 7,4 8,8 3,8 5,5 5,0 6,6 7,1 5,3 4,7 Prof. Dr. Rodrigo Lins Rodrigues
  • 63. Representação tabular Passo 1: Ordenar os dados em forma crescente: Passo 2: Determinar o número de classes (k): 𝑘 = 𝑛 => 30 ≅ 5,47 ≅ 6 Passo 3: Determinar o intervalo entre as classes (h): h= 𝐴 𝑘 => (8,8 −3,5) 6 ≅ 0,88 ≅ 1 63 3,5 3,8 3,9 4,2 4,4 4,5 4,6 4,7 4,7 5 5 5 5 5,3 5,5 5,5 5,7 6 6 6,3 6,4 6,5 6,6 6,8 7,1 7,2 7,2 7,4 8 8,8 Prof. Dr. Rodrigo Lins Rodrigues
  • 64. Representação tabular Passo 4: Construir a tabela de distribuição de frequências para cada classe: 64 Classe Fi Fri (%) Fac Frac (%) 3,5 |-- 4,5 5 16,67 5 16,67 4,5 |-- 5,5 9 30,00 14 46,67 5,5 |-- 6,5 7 23,33 21 70,00 6,5 |-- 7,5 7 23,33 28 93,33 7,5 |-- 8,5 1 3,33 29 96,67 8,5 |-- 9,5 1 3,33 30 100 Total 30 100 Prof. Dr. Rodrigo Lins Rodrigues
  • 65. É possível representar a relação de duas variáveis em uma única tabela ? 65Prof. Dr. Rodrigo Lins Rodrigues
  • 66. Representação tabular • Tabelas de dupla entrada ou tabelas de contingência: São simples de serem construídas; São interessantes para mostrar a relação entre duas variáveis; É possível construir testes estatísticos para provar as relações. 66Prof. Dr. Rodrigo Lins Rodrigues
  • 67. Agora é com vocês! O que é necessário para fazer a representação tabular para uma variável numérica contínua ? Quais são os passos para construir uma tabela de distribuição de frequência ? Quais são os itens que compõem uma tabela de distribuição de frequência? Construa uma tabela de frequencia, contendo (Fi, Fri, Fac, Frac) para a variável “horasTrabalho” coletada na nossa turma. 67Prof. Dr. Rodrigo Lins Rodrigues
  • 68. Representação Gráfica 68Prof. Dr. Rodrigo Lins Rodrigues
  • 69. Representação Gráfica “na sala dos professores da escola, há um cartaz com a frase "Em 2007, eram 734 estudantes matriculados; em 2008, 753; em 2009, 777; em 2010, 794; e, em 2011, 819”. 69 Imagine o seguinte: ? Prof. Dr. Rodrigo Lins Rodrigues
  • 70. 70 Essa é a representação gráfica: Representação Gráfica
  • 71. 71 Representação Gráfica Prof. Dr. Rodrigo Lins Rodrigues
  • 72. 72 • É cada vez mais importante no cenário de Big Data; • Faz parte de todo o processo de análise de dados, desde o entendimento dos dados até a fase de apresentação dos resultados; • É utilizado nas seguintes fases: Visualização da qualidade dos dados brutos; Identificação de distribuições das variáveis; Apresentar relações e correlações entre variáveis; Representar e verificar a consistência de modelos; Representação Gráfica
  • 73. 73 Representação Gráfica • Gráfico de Barras Compara grandezas, por meio de retângulos de igual largura, porém de alturas proporcionais às grandezas; Cada coluna (ou Barra) representa a intensidade uma modalidade do atributo. Prof. Dr. Rodrigo Lins Rodrigues
  • 74. 74 Representação Gráfica • Gráfico de Histograma: Representa a distribuição de uma variável quantitativa contínua; É ideal para representar uma tabela de distribuição de frequência por classes; São muito utilizados quando queremos ver o comportamento (distribuição dos dados). Prof. Dr. Rodrigo Lins Rodrigues
  • 75. 75 Representação Gráfica • Gráfico de Histograma: Prof. Dr. Rodrigo Lins Rodrigues
  • 76. 76 Representação Gráfica • Gráfico de Pizza ou Setores: Forma de representar dados qualitativos; É possível representar percentuais; É de fácil compreensão por leigos; Prof. Dr. Rodrigo Lins Rodrigues
  • 77. 77 Representação Gráfica • Gráfico de Dispersão: É representado pela intersecção entre duas variáveis; É ideal para visualizar a relação entre o comportamento de duas variáveis quantitativas; É muito utilizado em análises de correlação e regressão. Prof. Dr. Rodrigo Lins Rodrigues
  • 78. 78 Representação Gráfica • BoxPlot ou Diagrama de Caixas: É uma representação gráfica de cinco medidas: (1) valor mínimo, (2) primeiro quartil, (3) segundo quartil ou mediana, (4) terceiro quartil e (5) valor máximo; Permite verificar a presença de outliers; É interessante pra ter uma noção da distribuição da variável; Muito utilizado na fase de pré-processamento.
  • 79. 79 Representação Gráfica • Gráfico de Séries Temporais São utilizadas em dados temporais históricos; Muito utilizado com dados meteorológicos e financeiros; Prof. Dr. Rodrigo Lins Rodrigues
  • 80. Medidas de Tendência Central 80Prof. Dr. Rodrigo Lins Rodrigues
  • 81. Medidas de Tendência Central 81 • Localizam-se geralmente no centro de uma distribuição; • Indica a posição dos dados em relação ao eixo dos valores assumidos pela variável; • As principais são: Média; Moda; Mediana; Prof. Dr. Rodrigo Lins Rodrigues
  • 82. Medidas de Tendência Central 82 • Média aritmética:  É a mais utilizada entre as medidas de tendência central;  É a soma do total de valores dividida pelo número total de observações: • Observação:  Quando se refere a população a média é representada por 𝜇;  Quando se refere a amostra a média é representada por 𝑋 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 Prof. Dr. Rodrigo Lins Rodrigues
  • 83. Medidas de Tendência Central 83  Exemplo 1: Calcular a média aritmética para os dados referente às notas dos alunos da especialização em Ciência dos Dados. Notas 5,7 6,5 6,9 8,3 8,0 4,2 6,3 7,4 5,8 6,9 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 𝑋 = 5,7+6,5+ …+6,9 10 = 6,6 Prof. Dr. Rodrigo Lins Rodrigues
  • 84. Medidas de Tendência Central 84  Exemplo 2: Calcular a média salarial dos alunos desta turma. 𝑋 = 𝑖=1 𝑛 𝑥𝑖 𝑛 𝑋 = 2000+1800+2100+18.500 4 = 6.100,00 Salário R$ 2.000,00 R$ 1.800,00 R$ 2.100,00 R$ 18.500,00 Prof. Dr. Rodrigo Lins Rodrigues
  • 85. Medidas de Tendência Central 85 Qual o problema com o exemplo 2 ? Prof. Dr. Rodrigo Lins Rodrigues
  • 86. Medidas de Tendência Central 86 • Mediana: É o valor médio para um conjunto de dados; Não depende de todos os valores da série, podendo, como a moda, não se alterar com a mudança de alguns elementos; É muito empregada em pesquisas onde não interessam valores extremos, pois não é influenciada por esses valores; Prof. Dr. Rodrigo Lins Rodrigues
  • 87. Medidas de Tendência Central 87 • Mediana: As observações devem ser colocadas em ordem crescente; Pode ser calculada da seguinte forma: em que 𝑛 é o número total de observações. , se 𝑛 for par , se 𝑛 for ímpar Prof. Dr. Rodrigo Lins Rodrigues
  • 88. Medidas de Tendência Central • Exemplo: A tabela apresenta a publicação mensal de livros relacionados com Data Science no mundo; Para o cálculo da mediana as observações devem ser ordenadas. Mês Produção (unidades) Jan 210 Fev 180 Mar 203 Abr 195 Mai 208 Jun 230 Jul 185 Ago 190 Set 200 Out 182 Nov 205 Dez 196Prof. Dr. Rodrigo Lins Rodrigues 88
  • 89. Medidas de Tendência Central 89 • Solução: 𝑀𝑑 = 196+200 2 = 198 Mês Produção (unidades) Jan 210 Fev 180 Mar 203 Abr 195 Mai 208 Jun 230 Jul 185 Ago 190 Set 200 Out 182 Nov 205 Dez 196 180 < 182 < 185 < 190 < 195 < 196 < 200 < 203 < 205 < 208 < 210 < 230 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º Prof. Dr. Rodrigo Lins Rodrigues
  • 90. Medidas de Tendência Central 90 • Moda: A moda (𝑀0) é a observação que ocorre com maior frequência no conjunto de dados; É a única medida de posição que também pode ser utilizada para variáveis qualitativas; Em uma única série pode-se ter mais de uma moda. Prof. Dr. Rodrigo Lins Rodrigues
  • 91. Medidas de Tendência Central 91 • Moda para dados qualitativos: Uma emissora de TV entrevistou 500 telespectadores buscando analisar suas preferencias por categoria de interesse. Categorias de interesse Fi Filmes 71 Novelas 46 Jornalismo 90 Humor 98 Esporte 120 Shows 35 Variedades 40
  • 92. Medida de dispersão 92Prof. Dr. Rodrigo Lins Rodrigues
  • 93. Medidas de dispersão 93 • São utilizadas para caracterizar a variabilidade dos dados; • As medidas de dispersão mais comuns são: Amplitude; Variância; Desvio padrão; Erro padrão; Coeficiente de Variação (CV). • Quanto maior os valores maior é a dispersão dos dados. Prof. Dr. Rodrigo Lins Rodrigues
  • 94. Medidas de dispersão 94 • Amplitude total; É a medida de dispersão ou variabilidade mais simples; É representada pela diferença entre o maior e o menor valor de um conjunto de observações: 𝐴 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Prof. Dr. Rodrigo Lins Rodrigues
  • 95. Medidas de dispersão 95 • Variância; É baseada na média dos desvios quadrados; 𝜎2 = 𝑖=1 𝑁 𝑥 𝑖−𝜇 2 𝑁 𝑆2 = 𝑖=1 𝑁 𝑥 𝑖− 𝑥 2 𝑛−1 (Para a população) (Para a amostra) Prof. Dr. Rodrigo Lins Rodrigues
  • 96. Medidas de dispersão 96 • Exemplo da variância; Considerando os dados do exemplo anterior... 12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4 𝑆2= 𝑖=1 𝑁 𝑥 𝑖− 𝑥 2 𝑛−1 𝑆2= 12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2 10−1 𝑆2=41,94 Prof. Dr. Rodrigo Lins Rodrigues
  • 97. Medidas de dispersão 97 • Desvio Padrão; Como a variância considera a média dos desvios quadrados, seu valor tende a ser grande e de difícil interpretação; Para resolver este problema extrai-se a raiz quadrada para obter o desvio padrão: 𝜎 = 𝜎2 S= 𝑆2 (Para a população) (Para a amostra) Prof. Dr. Rodrigo Lins Rodrigues
  • 98. Medidas de dispersão 98 • Exemplo do desvio padrão: Considere novamente os dados do exemplo anterior 41,94 = 6,476 12,4 22,6 18,9 9,7 14,5 22,5 26,3 17,7 31,2 20,4 𝑆2= 12,4−19,62 2+ 22,6−19,62 2+⋯+ 20,4−19,62 2 9−1 𝑆2 =41,94 Logo: 𝑥=22,6 e S =6,476 Prof. Dr. Rodrigo Lins Rodrigues
  • 100. Correlação 100 ...O que você entende por Correlação ? Prof. Dr. Rodrigo Lins Rodrigues
  • 101. Correlação 101 ...olhe pra essa imagem e pense um pouco mais! Prof. Dr. Rodrigo Lins Rodrigues
  • 102. Correlação 102 “É uma técnica estatística capaz de avaliar a existência de relação entre duas variáveis... Essa relação pode ser expressa através de uma força e direção" Prof. Dr. Rodrigo Lins Rodrigues
  • 103. Correlação 103 • Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica;  r > 0,4 Significa uma correlação positiva entre as duas variáveis.  -0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra.  r < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui. Coeficiente de correlação de Pearson
  • 105. Correlação 105 • Exemplo: A tabela abaixo mostra duas variáveis relacionadas a profissionais de Data Science: Profissional Tempo de Experiência (anos) Salário 1 0,1 R$ 1.290,00 2 0,8 R$ 2.330,00 3 0,6 R$ 1.800,00 4 3 R$ 3.452,00 5 5,1 R$ 5.890,00 6 7,4 R$ 6.730,00 7 8,6 R$ 8.600,00
  • 106. Correlação 106 • Exemplo: • Inicialmente é necessário calcular a média de cada uma das variáveis: Média do Tempo de Experiência (anos) = 3,66; Média do salário = 4298,86. • Em seguida aplica os somatórios: 𝑟 = ( 0,1 − 3,66 ∗ 1290 − 4298,86 ) + ...+ ( 8,6 − 3,66 ∗ 8600 − 4298,86 ) ( 0,1 − 3,66 2∗ 1290 − 4298,86 2) + ⋯ + ( 8,6 − 3,66 2∗ 8600 − 4298,86 2) 𝑟 = 0,990774749 Prof. Dr. Rodrigo Lins Rodrigues
  • 107. Correlação 107 • Exemplo: Este valor indica uma correlação forte e positiva entre as duas variáveis; Podemos ver a relação visualmente através do gráfico de dispersão: 𝑟 = 0,990774749 R$0,00 R$1.000,00 R$2.000,00 R$3.000,00 R$4.000,00 R$5.000,00 R$6.000,00 R$7.000,00 R$8.000,00 R$9.000,00 R$10.000,00 0 1 2 3 4 5 6 7 8 9 10 Salário Prof. Dr. Rodrigo Lins Rodrigues