O documento discute conceitos básicos de estatística, incluindo o que são dados, tipos de dados (crus e processados), distribuições de probabilidade, e diferentes tipos de análise de dados como descritiva, exploratória, inferencial, preditiva e causal. Ele também apresenta exemplos de simulações de dados e conceitos como aleatoriedade, amostragem e população.
1. +
Bioestatística - Universidade Católica de Brasília
Trabalhando com dados e respondendo perguntas
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com
2. +
O que são os dados?
2
nDados são valores de variáveis qualitativas ou quantitativas,
pertencentes a um conjunto de itens.
nConjunto de itens = população, objetos que você está
interessado.
nVariáveis = são medidas ou características de cada item.
n Qualitativas: definidas por uma característica.
n Quantitativas: mensuráveis
3. +
Dados crus x processados
nDados crus:
n Vem da originalmente da fonte dos dados.
n Geralmente é difícil de se adaptar a alguma análise.
n A análise de dados inclui o pré processamento dos dados crus.
nDados processados:
n Dados prontos para serem analisados.
n Incluem: união de dados, subamostragem, transformação...
n Existem padrões para o pré processamento.
n Todos os passos devem ser registrados.
3
9. +
Filosofia
n“Os dados podem não conter a resposta. Uma combinação de
alguns dados e uma vontade ardente por uma resposta não
garantem que uma resposta plausível pode ser extraída de um
certo conjunto de dados...”
Tukey
9
10. +
Como expressamos sobre nossos
dados?
nCada ponto de dado é normalmente representado por uma
letra maiúscula:
n P para peso, A para altura, I para idade...
nQuando temos mais que uma observação, escrevemos a letra e
um número subescrito:
n A1, A2, A3, para 3 a altura de 3 indivíduos.
nTente usar letras informativas ao invés de genéricas: X,Y, Z...
nGeralmente chamamos as variáveis aleatórias de X,Y...
10
11. +
Aleatoreidade
nDifícil de falar, difícil de definir.
nNossa definição:
n Representa uma variável medida incompletamente.
n Representa uma amostra da população selecionada aleatoriamente.
nSe a variável deixa de ser aleatória e passa a ter um valor fixo,
então a letrinha dela diminui. E o X passa a ser x.
nX=x ou X=1 indica que observamos um valor específico x ou 1.
11
12. +
Medições de aleatoreidade
nArremesso de uma moeda é consirado aleatório.
nUm experimento mostrou que existe uma probabilidade maior
de que uma moeda caia na mesma posição em que ela saiu.
nUm a toa criou uma máquina que arremessa moedas, e em 95%
das vezes cai em coroa.
nhttp://player.vimeo.com/video/5293679
nMesmo assim usamos X, pois não conhecemos os fatores físicos
que determinam o lado que a moeda vai cair.
12
13. +
Distribuições
nEm modelagem estatística, variáveis aleatórias são amostras
de uma distribuição.
nUma distribuição nos diz sobre os possíveis valores de X e as
probabilidades de cada um deles.
nDiscretas
n Qualitativas são discretas.
n Variáveis tem valores inteiros.
nContinuas
n Probabilidade para um intervalo de valores.
n Variáveis são continuas.
n Mas você pode ver alguns valores específicos.
13
14. +
Parametros
nValores fixos que definem as distribuições
nRepresentados por letras gregas: μ, σ, λ.
nDistribuições são definidas por parâmetros que vem nos
parenteses. N(μ, σ), Poisson(λ).
nX ~ N(μ, σ), significa que X obedece uma distribuição normal.
nE[X] é a esperança (média) de X. Mede o centro da
distribuição.
nVar[X], mede a dispersão em unidades ao quadrado.
nSD[X] é o desvio padrão que mede a dispersão na mesma
unidade que X.
14
15. +
Condicionamento
nVariável X é considerada aleatória.
nOs parâmetros são considerados valores fixos.
nPodemos fixar o valor de uma variável aleatória.
nUsamos um marcador de condição “|”
nX|μ quer dizer que X é uma variável aleatória com valor fixado
em μ.
nY|X=2 quer dizer que Y é uma variável aleatória quando X for
fixado em 2.
15
16. +
Distribuição binomial
nDistribuição que descreve a soma de uma seria de arremessos
de moedas.
nVocê joga 10 moedas, e conta quantas vezes apareceram
“cara”.
nX ~ Bin(n,p)
n n = numero de tentativas
n p = probabilidade do evento acontecer
16
25. +
Análise descritiva
nObjetivo: descrever um conjunto de dados
nPrimeiro tipo de análise a ser realizada.
nComumente aplicada a dados de censo.
nDescrição e interpretação são passos diferentes.
nNão podem ser generalizadas sem um suporte estatístico,
25
26. +
Análise exploratória
nObjetivo: encontrar relações
nModelos exploratórios usados para descobrir novas relações.
nDefinir estudos futuros.
nQuase nunca chegam a uma conclusão final.
nNão deve ser usada para uma predição ou generalização.
nCorrelação não quer dizer causa.
26
27. +
Analise inferencial
nObjetivo: usar uma amostra pequena para dizer algo sobre
uma população maior.
nInferência é o objetivo da maioria dos modelos estatísticos.
nInferir algo implica em estimar a quantidade do seu objeto de
estudo e a incerteza sobre sua estimativa.
nAltamente dependente da população com um todo e do
método de amostragem.
27
28. +
Análise preditiva
nObjetivo: usar dados em alguns objetos para predizer valores
para outro objeto.
nSe X prediz Y, não quer dizer que X causaY.
nA predição eficaz está associado ao uso de variáveis corretas.
nPredição é muito difícil.
28
29. +
Análise causal
nObjetivo: descobrir o que acontece com uma variável quando
você modifica outra.
nSimulações aleatórias são usadas para verificar causa.
nRelações de causalidade são identificadas como efeitos
médios, e por isso podem não se aplicar a todos os individuos.
nModelos causais não normalmente o padrão ouro da análise de
dados.
nExemplo: Infecção intestinal
n Um grupo recebe transplante de microbiota
n Outro grupo aleatório não recebe
n Observa-se as curas em relação ao tratamento.
29
30. +
Origem dos dados
nOs dados são definidos por como eles são coletados.
nCenso => descritiva
nObservações => inferencial
nAmostragem por conveniência => viés
nTestes aleatórios => causal
nEstudos de predição => preditivo
nEstudos ao longo do tempo => inferencial, preditivo
nRetrospectiva => inferencial
30
36. +
Estudos de predição
nPrecisa de dois conjuntos de dados:
n Treino: construir o modelo de predição
n Teste: avaliar o modelo de predição
nTreino: seleciona amostras aleatórias e colhe informações.
n Tem cancer?
n Fuma?
n Faz exercícios?
nTenta predizer um modelo usando a associação dos hábitos de
vida com a presença do cancer ou não.
nUsa o modelo pra predizer se o indivíduo vai desenvolver um
cancer, baseado nos hábitos do indivíduo.
36