Estatística - Aula 1

+
Bioestatística - Universidade Católica de Brasília
Trabalhando com dados e respondendo perguntas
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com

+
O que são os dados?
2
nDados são valores de variáveis qualitativas ou quantitativas,
pertencentes a um conjunto de itens.
nConjunto de itens = população, objetos que você está
interessado.
nVariáveis = são medidas ou características de cada item.
n Qualitativas: definidas por uma característica.
n Quantitativas: mensuráveis

+
Dados crus x processados
nDados crus:
n Vem da originalmente da fonte dos dados.
n Geralmente é difícil de se adaptar a alguma análise.
n A análise de dados inclui o pré processamento dos dados crus.
nDados processados:
n Dados prontos para serem analisados.
n Incluem: união de dados, subamostragem, transformação...
n Existem padrões para o pré processamento.
n Todos os passos devem ser registrados.
3

+
Exemplos: Illumina
4
@1:1:1927:1011:Y
NTGGATCTGTTTTAATTGTGCAGTCTACAACTTCCCCAAATCGAGACAAGTACTCTGTCAGATCTTTTTTGCTTGT
+1:1:1927:1011:Y
%(*((,/.--@@2.@:<:<<<:<8<97998::::798887<:8<<813885///.9889170777@:2202@@@@7
@1:1:2536:1008:Y
NTTGAAGTCCACTCCAAAGTCAGTACTAAGAAAAGCAAGAGAAAAGGTACAGATGATTTTGACTTTGCTGGCTCAT
+1:1:2536:1008:Y
&++++113113::::@@:@@89999:8::::<222@@@@@<<:<22@@@@333333::::@@8@@@@@@@@@@@@@
@1:1:2970:1008:Y
NAAATCCATAGATTTTTACCCAAAAGGCAAACTGATAATTTAAAAGGTAAGCCTCCTACTGAGCCAAAGCCCAAAC
+1:1:2970:1008:Y
############################################################################
@1:1:2999:1012:Y
NGTAGAAGTCCACGTCGTGCAGCTTCTCCTTGCAGCGGGTCAGCTCCAGCTCCAGCCTCTCCACGCGGTTCGCCTT
+1:1:2999:1012:Y
############################################################################
@1:1:3148:1011:Y
NACAAAAGCACAGGCAGAATCTCTATCTGTTTTTACGTTTCTCTTTCTTGCTTTGACTACTTGTTGCGCTGTTTAA
+1:1:3148:1011:Y
(220050077@@@@@@@@@@@@@@@@@@@@C@222@@@C@@@@C@@@C22@C@@C@@@@C@@CC@@@@@@@@@@@C
@1:1:3398:1009:Y
NCTCATCTGAGTACACAGTGGGCTCCTCCCCCTCCTTCAGCAGTTTGCCCACGTGATGATACTTGAAAGTGAACTG
+1:1:3398:1009:Y
'00//77777@@@@@<<<<<@@@@@@CC@2222222@@@C@8@@@@@@CC@CC@@@@@CC@CC@C@@@@@@@@@@:

+
Dados processados
nCada variável é uma coluna.
nCada observação é uma linha.
nCada tabela guarda a informação de um tipo de observação.
6

+
Filosofia
n“Os dados podem não conter a resposta. Uma combinação de
alguns dados e uma vontade ardente por uma resposta não
garantem que uma resposta plausível pode ser extraída de um
certo conjunto de dados...”
Tukey
9

+
Como expressamos sobre nossos
dados?
nCada ponto de dado é normalmente representado por uma
letra maiúscula:
n P para peso, A para altura, I para idade...
nQuando temos mais que uma observação, escrevemos a letra e
um número subescrito:
n A1, A2, A3, para 3 a altura de 3 indivíduos.
nTente usar letras informativas ao invés de genéricas: X,Y, Z...
nGeralmente chamamos as variáveis aleatórias de X,Y...
10

+
Aleatoreidade
nDifícil de falar, difícil de definir.
nNossa definição:
n Representa uma variável medida incompletamente.
n Representa uma amostra da população selecionada aleatoriamente.
nSe a variável deixa de ser aleatória e passa a ter um valor fixo,
então a letrinha dela diminui. E o X passa a ser x.
nX=x ou X=1 indica que observamos um valor específico x ou 1.
11

+
Medições de aleatoreidade
nArremesso de uma moeda é consirado aleatório.
nUm experimento mostrou que existe uma probabilidade maior
de que uma moeda caia na mesma posição em que ela saiu.
nUm a toa criou uma máquina que arremessa moedas, e em 95%
das vezes cai em coroa.
nhttp://player.vimeo.com/video/5293679
nMesmo assim usamos X, pois não conhecemos os fatores físicos
que determinam o lado que a moeda vai cair.
12

+
Distribuições
nEm modelagem estatística, variáveis aleatórias são amostras
de uma distribuição.
nUma distribuição nos diz sobre os possíveis valores de X e as
probabilidades de cada um deles.
nDiscretas
n Qualitativas são discretas.
n Variáveis tem valores inteiros.
nContinuas
n Probabilidade para um intervalo de valores.
n Variáveis são continuas.
n Mas você pode ver alguns valores específicos.
13

+
Parametros
nValores fixos que definem as distribuições
nRepresentados por letras gregas: μ, σ, λ.
nDistribuições são definidas por parâmetros que vem nos
parenteses. N(μ, σ), Poisson(λ).
nX ~ N(μ, σ), significa que X obedece uma distribuição normal.
nE[X] é a esperança (média) de X. Mede o centro da
distribuição.
nVar[X], mede a dispersão em unidades ao quadrado.
nSD[X] é o desvio padrão que mede a dispersão na mesma
unidade que X.
14

+
Condicionamento
nVariável X é considerada aleatória.
nOs parâmetros são considerados valores fixos.
nPodemos fixar o valor de uma variável aleatória.
nUsamos um marcador de condição “|”
nX|μ quer dizer que X é uma variável aleatória com valor fixado
em μ.
nY|X=2 quer dizer que Y é uma variável aleatória quando X for
fixado em 2.
15

+
Distribuição binomial
nDistribuição que descreve a soma de uma seria de arremessos
de moedas.
nVocê joga 10 moedas, e conta quantas vezes apareceram
“cara”.
nX ~ Bin(n,p)
n n = numero de tentativas
n p = probabilidade do evento acontecer
16

+
Distribuição normal
nDois parametros: média e desvio padrão.
17

+
Tipos de dados em R
nClasses:
n Caracteres, Numericos, Inteiros, Lógicos...
nObjetos:
n Vetores, Matrizes, Data Frames, Listas, Fatores, Missing values
nOperações:
n Subamostragem, Subamostragem lógica.
18

+
Simulações
nUsadas para simular dados para comparações
nDistribuições:
n rbeta, rbinom, rnorm, rpois, rchisq, rcauchy
nDensidades
n dbeta, dbinom, dnorm, dpois, dchisq, dcauchy
nsample(,replace=TRUE), sample(replace=FALSE)
19

+
sample com probabilidades
23

+
Análise descritiva
nObjetivo: descrever um conjunto de dados
nPrimeiro tipo de análise a ser realizada.
nComumente aplicada a dados de censo.
nDescrição e interpretação são passos diferentes.
nNão podem ser generalizadas sem um suporte estatístico,
25

+
Análise exploratória
nObjetivo: encontrar relações
nModelos exploratórios usados para descobrir novas relações.
nDefinir estudos futuros.
nQuase nunca chegam a uma conclusão final.
nNão deve ser usada para uma predição ou generalização.
nCorrelação não quer dizer causa.
26

+
Analise inferencial
nObjetivo: usar uma amostra pequena para dizer algo sobre
uma população maior.
nInferência é o objetivo da maioria dos modelos estatísticos.
nInferir algo implica em estimar a quantidade do seu objeto de
estudo e a incerteza sobre sua estimativa.
nAltamente dependente da população com um todo e do
método de amostragem.
27

+
Análise preditiva
nObjetivo: usar dados em alguns objetos para predizer valores
para outro objeto.
nSe X prediz Y, não quer dizer que X causaY.
nA predição eficaz está associado ao uso de variáveis corretas.
nPredição é muito difícil.
28

+
Análise causal
nObjetivo: descobrir o que acontece com uma variável quando
você modifica outra.
nSimulações aleatórias são usadas para verificar causa.
nRelações de causalidade são identificadas como efeitos
médios, e por isso podem não se aplicar a todos os individuos.
nModelos causais não normalmente o padrão ouro da análise de
dados.
nExemplo: Infecção intestinal
n Um grupo recebe transplante de microbiota
n Outro grupo aleatório não recebe
n Observa-se as curas em relação ao tratamento.
29

+
Origem dos dados
nOs dados são definidos por como eles são coletados.
nCenso => descritiva
nObservações => inferencial
nAmostragem por conveniência => viés
nTestes aleatórios => causal
nEstudos de predição => preditivo
nEstudos ao longo do tempo => inferencial, preditivo
nRetrospectiva => inferencial
30

+
Censo
nColeta dados de todos os indivíduos.
nNão precisa usar subamostras para inferir algo sobre uma
população maior.
32

+
Estudos de predição
nPrecisa de dois conjuntos de dados:
n Treino: construir o modelo de predição
n Teste: avaliar o modelo de predição
nTreino: seleciona amostras aleatórias e colhe informações.
n Tem cancer?
n Fuma?
n Faz exercícios?
nTenta predizer um modelo usando a associação dos hábitos de
vida com a presença do cancer ou não.
nUsa o modelo pra predizer se o indivíduo vai desenvolver um
cancer, baseado nos hábitos do indivíduo.
36

+
Estudo ao longo do tempo: cross-
sectional => inferencial
38

+
Estudo ao longo do tempo:
longitudinal => preditivo
39

Estatística - Aula 1

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a Estatística - Aula 1

Semelhante a Estatística - Aula 1 (7)

Último

Último (20)

Estatística - Aula 1