O documento descreve os conceitos fundamentais de análise de dados e estatística. Ele explica que a análise de dados envolve aplicar técnicas estatísticas para extrair informações úteis a partir de dados. Também define termos-chave como população, amostra, variável, dados, estatística descritiva e inferência estatística.
2. Análise de Dados
Processo de aplicação de técnicas estatísticas e lógicas para avaliar
informações obtidas visando extrair informações úteis a partir dos
dados
3. Estatística
É a linguagem comum da ciência, usada para converter dados em
informações úteis
Processo:
Coleta de dados
Análise exploratória
Inferência
4. Visão Sistêmica da Estatística
A partir de valores obtidos em uma amostra de uma certa
população de interesse,
descrevemos esta amostra e caracterizamos a população como um
todo, generalizando as observações na amostra.
Tirar conclusões sobre uma população com base em uma amostra
de observações.
5. • Estatística descritiva: parte da estatística que descreve os aspectos importantes de um
conjunto de características observadas.
• Probabilidade: número que indica a chance de uma determinada situação ocorrer.
• Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a
respeito de aspectos importantes de uma população.
Análises Estatísticas
Amostra
População
Estatística
descritiva
Probabilidade
Erro
Inferência
estatística
6. Dedução e Indução
População é
conhecida
Amostra?
População ??
Amostra é
conhecida
Dedução => Probabilidade
Indução => Inferência estatística
7. Definições básicas iniciais
População
Coleção completa de todos os elementos a serem estudados (Ex.: todos os alunos da
sala de aula)
Censo
Coleção de dados relativos a todos os elementos de uma população (Ex.: idade de
todos os alunos da sala de aula)
Amostra
Coleção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos
alunos da sala de aula)
8. Parâmetro
Medida numérica que descreve uma característica de uma população (Ex.: idade média de toda
a turma é um parâmetro)
Estatística
Medida numérica que descreve uma característica de uma amostra (Ex.: idade média da turma
baseada numa amostra de 10% dos alunos é uma estatística)
Estimativa
Valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro
de interesse
Definições básicas iniciais
9. Dado:
Informação
Aquilo que caracteriza determinada coisa
Resultado de uma observação ou experimento
Ex.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...
Variável:
A característica em si
Ex.: altura de indivíduos de um grupo
Dados e Variáveis
10. Natureza das Variáveis
Variáveis
Qualitativas
(são atributos)
Ex.: sexo, religião,
naturalidade, cor
dos olhos, etc.
Quantitativas
(são numéricas)
Discretas
Conjunto finito de valores –
conjunto enumerável
“CONTAGEM”
(1,2,3,4...)
Ex.: qtd. de estudantes em um
uma disciplina; qtd. de
cômodos em uma residência
Contínuas
Número infinito de valores
possíveis – escala contínua
“MENSURAÇÃO”
(Ex.: medidas de tempo:
tempo de vôo entre duas
cidades; duração da bateria
de um celular)
11. Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrão
O altímetro de um avião indica uma altitude de 21.359 pés
Uma pesquisa efetuada com 1015 pessoas indica que 40 não
possuem acesso à internet
O radar indica uma velocidade de 81 km/h
De 1000 consumidores pesquisados, 930 reconheceram uma
marca de sopa
Fazendo um regime, um executivo perdeu 13,45kg
12. Exercício 1: Contínuo ou Discreto?
Uma marca de cigarro possui 16,13mg de alcatrão
O altímetro de um avião indica uma altitude de 21.359 pés
O radar indica uma velocidade de 81 km/h
De 1000 consumidores pesquisados, 930 reconheceram
uma marca de sopa
Fazendo um regime, um executivo perdeu 13,45kg
C
C
D Uma pesquisa efetuada com 1015 pessoas indica que 40
não possuem acesso à internet
C
D
C
13. Reflexão
Para comprovar que muitos conceitos em Probabilidade e Estatística são
intuitivos, acabamos de falar em “população” e “amostra” e quase todos
compreenderam naturalmente do que se trata!
14. Abusos da Estatística
Pequenas amostras
Pesquisou-se 10 dentistas. “7 entre 10 dentistas
preferem dentifrício X.”
Estimativas por suposição
“Igreja estimou em 2 milhões os fiéis presentes em
missa do padre Marcelo Rossi em São Paulo.” Fotos
aéreas e cálculos baseados em grades estimaram
80.000 pessoas.
Porcentagens distorcidas
“Tirei 1 na primeira prova. Tirei 2 na segunda prova.
Melhorei 100%!”
15. Abusos da Estatística
Distorções deliberadas
“Pesquisas feitas entre usuários de TchauFumaça
mostram que 98% deixou de fumar.” Duas pesquisas
feitas entre os funcionários da empresa fabricante de
TchauFumaça.
Perguntas tendenciosas
“Você é a favor da suspensão do pagamento da
dívida externa, sobrando assim mais dinheiro para
ajudar as criancinhas famintas?”
“Você é a favor da proibição de fabrico e venda de
armas mortíferas de fogo no Brasil?”
17. Abusos da Estatística
Pressão do pesquisador ou ambiente
“Você já traiu seu(a) companheiro(a)?”
Pergunta feita com o(a) companheiro(a) ao
lado.
Más amostras
Pesquisas feitas em sites da internet
(pesquisa auto-selecionada)
Não se pode concluir nada sobre a população
em geral!
18. Coleta de Dados
População
É o grupo inteiro que se deseja
observar
Normalmente, é muito grande,
o que impossibilita o estudo
completo
Amostra
Subgrupo representativo da
população
Como obter uma amostra
significativa, sem vieses???
Espaço Amostral
Coleção de todos os
resultados possíveis de um
experimento
19. Análise
Exploratória
de Dados
A partir da base de dados obtida,
podemos formular questões que nos
direcionarão na construção de
conhecimento
Para entender a natureza dos dados,
precisamos de um passo que auxilie na
síntese dos dados, chamado ANÁLISE
EXPLORATÓRIA DE DADOS
Revela novas maneiras de pensar sobre os
dados
Ajuda cientistas a refinar suas perguntas
O que podemos generalizar a partir
das observações???
20. Inferência
Após a análise exploratória de
dados, podemos responder
questões específicas dos
nossos dados
Inferência é um passo que visa
analisar a aplicabilidade dos
achados em toda a população
(generalização)
ANÁLISE INFERENCIAL DOS
DADOS
22. Dados
São informações sobre indivíduos organizados em variáveis
Indivíduos
Unidade de observação
Pessoa ou objeto em particular de observação na sua amostra de estudo
Variável
Determinada característica de uma unidade de observação
Pessoa: altura, peso, sexo, raça, religião...
Carro: modelo, tamanho do pneu, quilometragem, modelo...
Conjunto de dados (dataset)
Dados acerca de indivíduos observados e suas variáveis
23. Tipos de
Variáveis
- requerem abordagens
diferentes para análise
estatística
• Assumem valores numéricos e representam alguma medida
• Exemplos: 178cm de altura, 65kg de massa, 36ºC de
temperatura ambiente...
Variáveis Quantitativas
• Rotulam valores em grupos
• Exemplos: Fumante, Idoso, Nível superior completo
• Variáveis categóricas são codificadas com números (0 – não
fumante; 1 – fumante; 99 – não informado)
• Códigos fictícios - Não faz sentido realizar cálculos matemáticos
Variáveis Categóricas
• Variável que se destina a distinguir as unidades de observação
Identificador único
24. Variável Aleatória
Variável quantitativa cujo valor depende de fatores aleatórios
Considere um dado de seis faces
X =
1
2
3
4
5
6
Pr (X>3) = 0.5
Pr (X=1) = 1/6
25. Variável Aleatória
Discretas
conjunto de valores possíveis é finitos
exemplo: moeda, dado, número de assaltos...
Contínuas
quantidade de valores possíveis é indeterminado
exemplo: peso, altura, tempo em uma fila
Em todos esses casos, a medida dependerá da precisão do equipamento: kg,
g? m, cm, mm? horas, minutos, segundos, milissegundos?
26. Codebooks (livros de códigos)
São dicionários de dados, que oferecem informações acerca do
conjunto de dados
Dados são inúteis se não forem completamente interpretáveis.
Boas bases de dados possuem codebooks bem detalhados
Boa fonte para formulação de perguntas de pesquisa
Descrição das variáveis:
significado
valores válidos
27. Pergunta de Pesquisa
Após selecionar uma base de dados bem formatada, escolha um tema de
interesse
Uma forma interessante de formular uma pergunta de pesquisa é buscar a
influência que uma variável pode produzir em uma outra
Exemplo:
Tema de interesse: dependência da nicotina
Variáveis escolhidas: dependência da nicotina ao longo da vida TABLIFEDX; uso de
cigarros nos últimos 12 meses TAB12MDX
Questão de Pesquisa: TAB12MDX implica em TABLIFEDX?
O uso de cigarros ao longo dos últimos 12 meses aumentam a chance de
dependência da nicotina para a vida inteira?
28. Pergunta de pesquisa
As bases de dados normalmente são muito extensas.
Faça uma análise panorâmica de seus dados, busque por algum insight
baseado nos seus conhecimentos e na literatura atual
Certamente, temos alguma expectativa a respeito da nossa questão de
pesquisa
É provável que quanto mais um indivíduo fuma ao longo do ano, maior a
probabilidade dele se tornar dependente
Cuidado para não enviesar sua pesquisa! Tente controlar suas paixões...
29. Análise
Exploratória
de Dados
Análise exploratória de dados visa dar
sentido a esses dados
Organizar e resumir
dados brutos,
procurando
características
importantes e padrões
em dados, algum desvio
de padrão.
Interpretar as
descobertas no contexto
do problema ou questão
de pesquisa
Dados Brutos (raw data) são longas listas
de números e rótulos que não parecem
muito informativos. Não tem contexto
30. Análise
Exploratória
de Dados
Organizar e Resumir Dados Brutos
Procurar por características e padrões
importantes
Pesquisar por qualquer desvio de
padrões relevante
Interpretar os resultados no contexto da
pesquisa
31. Análise de Exploratória de Dados Bivariada
Olhar uma variável de cada vez:
Examinar a distribuição de uma variável – observar
quais valores a variável assume e com que
frequência esses valores se repetem
Como usaremos massas de dados enormes,
usaremos softwares estatísticos
Python
32. Atividade:
Defina um dataset para iniciar sua análise exploratória
Faça uma leitura do codebook da sua base e defina uma questão de
pesquisa
Estabeleça sua hipótese
Embase sua hipótese na literatura (busque artigos que fundamentem sua
pesquisa)
Enumere as variáveis que serão utilizadas