SlideShare uma empresa Scribd logo
1 de 99
ESTATÍSTICA APLICADA
À VALIDAÇÃO DE MÉTODOS ANALÍTICOS
Prof. Manoel Antonio da Fonseca Costa Filho
ESTATÍSTICA APLICADA
• Objetivos:
• Apresentação dos fundamentos, conceitos e
técnicas estatísticas mais aplicáveis a
Validação de Métodos Analíticos;
• Prática de cálculos estatísticos aplicados,
diretamente ou com uso do Excel;
• Familiarização com o uso das tabelas;
• Entendimento dos testes, seus objetivos, suas
limitações e seus riscos.
ESTATÍSTICA APLICADA
• PROGRAMA:
• - Medidas de posição e de dispersão
• - Propriedades da média e da variância
• - Principais distribuições de probabilidades
• - Inferência estatística
• - População e amostra
• - Distribuição dos parâmetros amostrais
• - Erros em análises quantitativas
ESTATÍSTICA APLICADA
• PROGRAMA:
• - Conceitos e termos de metrologia
• - Intervalos de confiança
• - Incerteza de medição
• - Repetitividade e Reprodutibilidade
• - Testes de Hipóteses
• - Detecção de valores anômalos (outliers)
ESTATÍSTICA APLICADA
• PROGRAMA:
• - Análise de variância a um fator único
(ANOVA)
• - Regressão linear e correlação
• - Calibração
• - Regressão inversa
PROPRIEDADES DA MÉDIA E DA
VARIÂNCIA
PROPRIEDADES DA MÉDIA E DA
VARIÂNCIA
PROPRIEDADES DA MÉDIA E DA
VARIÂNCIA
• A Covariância é uma medida da relação linear
entre y1 e y2.
• Se y1 e y2 são independentes:
MÉDIA E VARIÂNCIA AMOSTRAIS
ESTIMAÇÃO DE PARÂMETROS
• Avaliar parâmetros populacionais a partir de
operações com os dados de uma amostra;
• Estimativa por ponto: fornece um único valor;
• Estimativa por intervalo: A estimativa está
incluída em um intervalo, considerando uma
probabilidade de acerto.
PROPRIEDADES DOS ESTIMADORES
• Não ser tendencioso, o estimador por ponto
deve convergir para o valor do parâmetro
estimado quando o tamanho da amostra
crescer;
• Ter sua variância mínima;
• e são estimadores não tendenciosos de
e
GRAUS DE LIBERDADE
GRAUS DE LIBERDADE
• O no. de G. L. de uma SS é igual ao no. de
elementos independentes naquela soma de
quadrados
DISTRIBUIÇÃO NORMAL
DISTRIBUIÇÃO NORMAL
• INTERVALOS CARACTERÍSTICOS
DISTRIBUIÇÃO NORMAL
INTERVALO ÁREA (%)
 -  a  +  68,26
 - 2  a  + 2  95,44
 - 3  a  + 3  99,74
DISTRIBUIÇÃO NORMAL REDUZIDA OU
(PADRONIZADA)
• e
•
DISTRIBUIÇÃO NORMAL REDUZIDA
OU (PADRONIZADA)
• USO DA TABELA – ERROS FREQÜENTES
DISTRIBUIÇÃO NORMAL
• USO DO EXCEL:
• DIST.NORM(x;média;desv_padrão;cumulativo)
• cumulativo é um operador lógico.
• cumulativo = “verdadeiro” – função
acumulada até “x”
DISTRIBUIÇÃO NORMAL REDUZIDA OU
(PADRONIZADA)
• USO DO EXCEL:
• DIST.NORMP(z)
• Retorna o valor da Distribuição Normal
Padronizada Cumulativa até a abscissa “z”.
• Ex. EXCEL x Consulta a Tabela – comparar
resultados.
TEOREMA DO LIMITE CENTRAL
• A soma de “n” variáveis aleatórias
independentes e identicamente distribuídas
tem uma distribuição aproximadamente
Normal.
• Também denominado de “Teorema das
Combinações Lineares”.
TEOREMA DO LIMITE CENTRAL
• Se o tamanho da amostra for razoavelmente
grande ( n  30 ), então a DISTRIBUIÇÃO
AMOSTRAL DA MÉDIA pode ser aproximada pela
DISTRIBUIÇÃO NORMAL.
• DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS:
média μ e variância dada por:
POPULAÇÃO INFINITA: σ2/n
TEOREMA DO LIMITE CENTRAL
• População Finita:
• N < 20n ou n>5% de N ou amostragem sem
reposição:
TEOREMA DO LIMITE CENTRAL
Se representa
a soma de “n” v.a. independentes com qualquer
distribuição, e
• e
• então é
DISTRIBUIÇÃO DE PARÂMETROS
AMOSTRAIS
• FREQÜÊNCIA RELATIVA OU PROPORÇÃO (p)
• Na retirada de uma amostra com n elementos
de uma população infinita, a quantidade de
elementos que possuem a característica
representada por p tem Distribuição Binomial.
• q = 1 – p
• f ~ N (p, (p.q/n))
DISTRIBUIÇÃO DE PARÂMETROS
AMOSTRAIS – VARIÂNCIA (S2)
ERROS DE MEDIÇÃO
• ERROS SISTEMÁTICOS – POSSUEM
COMPORTAMENTO TENDENCIOSO, DEVEM
SER DETERMINADOS E ELIMINADOS DOS
RESULTADOS DAS MEDIÇÕES
ERROS DE MEDIÇÃO
• ERROS ALEATÓRIOS – DEVIDO A SUA
NATUREZA, NÃO PODEM SER ELIMINADOS
DOS RESULTADOS.
• DEVEM SER TRATADOS ESTATISTICAMENTE E
INCLUÍDOS NOS RESULTADOS DAS MEDIÇÕES,
ATRAVÉS DA INCERTEZA DA MEDIÇÃO.
ERROS DE MEDIÇÃO
• Os erros aleatórios podem ser atribuídos a
soma de uma infinidade de causas de
variação.
• Então o modelo Normal de distribuição de
probabilidades se torna um modelo plausível
para o erro aleatório de medição.
DISTRIBUIÇÃO QUI-QUADRADO
• SÍMBOLO:
• Se são v.a. independentes
e normalmente distribuídas com média = 0 e
variância = 1, então:
• tem Distribuição com “k” G.L.
DISTRIBUIÇÃO QUI-QUADRADO
DISTRIBUIÇÃO QUI-QUADRADO
• Se y1, y2, ... yn formam uma amostra aleatória
de uma distribuição
• Então:
DISTRIBUIÇÃO t DE STUDENT
• Se y1, y2, ... yn formam uma amostra aleatória
de uma distribuição
• Então:
• Se distribui segundo t com n-1 G.L.
DISTRIBUIÇÃO t DE STUDENT
DISTRIBUIÇÃO F
• Se 1 e 2 são 2 v.a. qui-quadradas
independentes com respectivamente “u” e “v”
G.L. , então a razão:
• segue uma Distribuição F com “u” G.L. no
numerador e “v” G.L. no denominador.
DISTRIBUIÇÃO F
DISTRIBUIÇÃO F
• 2 populações normais com a mesma variância:
• representam n1 observações
de uma amostra aleatória da primeira
população;
• representam n2 observações
de uma amostra aleatória da segunda
população;
• Então:
TESTE DE HIPÓTESES
• Modelo:
• Erro: ----
TESTE DE HIPÓTESES
• Hipótese Nula
• Hipótese Alternativa
• Bilateral
• Unilateral a Direita
• Unilateral a Esquerda
TESTE DE HIPÓTESES
• REGIÃO CRÍTICA = REGIÃO DE REJEIÇÃO DA
HIPÓTESE NULA
TESTE DE HIPÓTESES
• TIPOS DE ERROS:
• PODER OU POTÊNCIA DO TESTE:
TESTE DE HIPÓTESES
• NÍVEL DE SIGNIFICÂNCIA = α
• NÍVEL DE CONFIANÇA = 1 – α
• Especifica-se um valor para α e estabelece-se
um valor de β adequadamente pequeno.
TESTE DE HIPÓTESES
• PARA COMPARAÇÃO ENTRE MÉDIAS DE 2
AMOSTRAS:
TESTE DE HIPÓTESES
• PARA COMPARAÇÃO ENTRE MÉDIAS DE 2
AMOSTRAS:
• Rejeita-se H0 se:
TESTE DE HIPÓTESES
TESTE DE HIPÓTESES
• PRESSUPOSTOS DO TESTE t:
• Ambas as amostras foram retiradas de
populações Normais independentes com
mesma variância.
• Independência é crítica e a aleatorização na
retirada das amostras satisfaz a esta condição.
• Normalidade: Normal Probability Plot
INTERVALOS DE CONFIANÇA
• L = Limite inferior do Intervalo de Confiança;
• U = Limite superior do Intervalo de Confiança;
• Ѳ = Parâmetro para o qual está sendo
calculado o Intervalo;
• α = nível de significância.
INTERVALOS DE CONFIANÇA
• Distribuição da média amostral:
• Mesmo quando a população não é Normal,
quando o tamanho da amostra cresce, a
distribuição da média amostral tende a
Distribuição Normal
mente.
aproximada
grande,
para
,
σ
,
N
~
2
n
n
μ
X 





INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
σ2 conhecida ou n > 30
INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
• População finita com σ2 conhecida ou n > 30
INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
• σ2 conhecida ou n > 30
INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
• População infinita com σ2 desconhecida
INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
• População finita com σ2 desconhecida
INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
• σ2 desconhecida
INTERVALOS DE CONFIANÇA
• PARA A DIFERENÇA ENTRE 2 MÉDIAS µ1 E µ2
INTERVALO DE CONFIANÇA
PROPORÇÃO POPULACIONAL
• População infinita
INTERVALO DE CONFIANÇA
PROPORÇÃO POPULACIONAL
• População finita
Nestes primeiros slides
colocar :
O titulo da aula;
Objetivos dessa disciplina;
Citar os tópicos que irá
trabalhar.
INTERVALO DE CONFIANÇA
VARIÂNCIA POPULACIONAL
INTERVALO DE CONFIANÇA
VARIÂNCIA POPULACIONAL
OUTLIERS
• São observações que apresentam um grande
afastamento das restantes;
• São também designadas por observações
anormais ou extremas;
• Solução mais simples e usual: Eliminar estas
observações “inconsistentes” das demais;
• Solução correta: Dar um adeqüado tratamento
estatístico para saber se a observação “estranha”
deve ser eliminada ou considerada na amostra.
OUTLIERS
• CAUSAS DO APARECIMENTO DE OUTLIERS:
• Erros de medição;
• Erros de execução;
• Erros de anotação;
• Variabilidade inerente dos elementos da
população.
OUTLIERS
• CONTRIBUIÇÕES POSITIVAS:
• Detecção de fraudes;
• Em análises médicas e pesquisa farmacêuticas
resultados não esperados de tratamentos
levam a novas descobertas;
OUTLIERS
• TRATAMENTO DE OUTLIERS
• Primeira Fase: Identificação das observações que são
potencialmente aberrantes.
• Segunda Fase: Verificação se as observações
suspeitas são realmente outliers, através da
aplicação de testes estatísticos.
• Terceira Fase: Decisão mais usual: eliminação dos
outliers da amostra. Em um programa de Qualidade,
devem ser buscadas as causa de seu surgimento.
OUTLIERS
• MÉTODOS DE IDENTIFICAÇÃO:
• Gráfico de Box
• Teste de Dixon
• Teste de Grubbs
• Teste de Cochran
• Z-scores
OUTLIERS
• GRÁFICO DE BOX-PLOT
• Procedimento:
• 1. Calcula-se a mediana, o quartil inferior (Q1)
e o quartil superior (Q3);
• 2. Subtrai-se o quartil superior do quartil
inferior = (L);
OUTLIERS
• GRÁFICO DE BOX-PLOT
• Análise:
• 3. Os valores que estiverem no intervalo de
Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-
3L, serão considerados outliers podendo,
portanto ser aceitos na população com
alguma suspeita;
OUTLIERS
• GRÁFICO DE BOX-PLOT
• Análise:
• 4. Os valores que forem maiores que Q3+3L e
menores que Q1-3L devem ser considerados
suspeitos de pertencer à população, devendo
ser investigada a origem da dispersão. Estes
pontos são chamados de extremos.
OUTLIERS
OUTLIERS
• TESTE DE DIXON:
• Também chamado de Teste Q de Dixon.
• Distribuição normal; teste bilateral.
• Ordenar os valores de forma crescente de “1”
a “H”.
• Supor a hipótese de que o menor valor, 1, ou
o maior valor, H, são suspeitos como valores
outliers.
OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 1. Ordenar os dados amostrais em ordem
crescente;
• 2. De acordo com a quantidade de dados n
calcular o valor de Q para o menor e maior:
OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 3 ≤ n ≤ 7: Q = (x2 - x1)/(xn - x1) ou Q = (xn - xn-1)/(xn - x1)
• 8 ≤ n ≤ 12: Q = (x2 - x1)/(xn-1 - x1) ou Q = (xn - xn-1)/(xn – x2)
• 13 ≤ n ≤ 14: Q = (x3 - x1)/(xn-2 - x1) ou Q = (xn - xn-2)/(xn - x3)
OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 3. Obter o valor crítico tabelado, indicado por Qc,
para o nível de significância adequado.
• 4. Em seguida, aplicar o teste abaixo:
• Se Q > Qc, o valor é considerado um outlier;
• Se Q ≤ Qc, o valor não é considerado um outlier.
OUTLIERS
• TESTE Z-SCORE
• z-score é uma medida de posição, que
descreve a localização de um valor, em termos
de desvios padrões, em relação a média.
• Z = (xi - x)/s
OUTLIERS
• TESTE Z-SCORE
• Procedimento:
• n ≤ 50: Se Z ≥ 2,5 ou Z ≤ -2,5 ; o valor é
considerado um outlier.
• 50 < n < 1000: Se Z ≥ 3 ou Z ≤ -3 ; o valor é
considerado um outlier.
• n ≥ 1000: Se Z ≥ 3,3 ou Z ≤ -3,3 ; o valor é
considerado um outlier.
OUTLIERS
• TESTE DE COCHRAN
• Para a identificação de outliers em um grupo de
dados em relação aos demais.
• Comparam-se variâncias, ou seja, verifica-se a
variância dos resultados obtidos por um grupo é
excessiva em relação a dos demais grupos.
• Amostras retiradas de k grupos distribuídas
normalmente e de mesmo tamanho.
OUTLIERS
• TESTE DE COCHRAN
• Procedimento:
• 1. Dividir o conjunto de dados de tamanho n
em k grupos de tamanho m.
• 2. Calcular os desvios padrões de cada grupo si
(i = 1, 2, ...k).
• 3. Calcular w = v max / (Somatório vi)
OUTLIERS
• TESTE DE COCHRAN
• Procedimento:
• 4. Compara-se a estatística w com o valor
crítico tabelado.
• 5. A hipótese de que há grande variação no
grupo analisado em relação aos demais é
rejeitada caso o valor observado de (w) não
exceda o valor crítico.
OUTLIERS
• TESTE DE GRUBBS
• É assumida Normalidade. Esta condição deve
ser verificada antes de se usar este teste.
• Detecta um outlier por vez. Este é expurgado
do conjunto de dados e o teste é iterado até
que um novo outlier surja.
• n > 6.
OUTLIERS
• TESTE DE GRUBBS
• É definido para as hipóteses:
• H0: Não existem outliers no conjunto de
dados;
• H1: Há pelo menos 1 outliers no conjunto de
dados
OUTLIERS
• TESTE DE GRUBBS
• Para um teste bilateral:
• Unilateral para um valor mínimo:
• Unilateral para um valor máximo:
OUTLIERS
• TESTE DE GRUBBS
• Para o teste bilateral, H0 é rejeitada, ao nível
de significância α se:
• Onde tα/(2N),N−2 indica o valor crítico superior
da Distribuição t com N-2 g.l.
• Para testes unilaterais, substituir α/(2N) por
α/(N)
REGRESSÃO LINEAR
• Modelo de regressão linear simples
Define uma relação linear entre a variável
dependente e uma variável independente.
• Modelo de regressão linear múltipla
Define uma relação linear entre a variável
dependente e várias variáveis independentes.
REGRESSÃO LINEAR SIMPLES
• Modelo: Y = β0 + β1X + ε
• β0 = coeficiente linear estimado da reta
• β1= coeficiente angular estimado da reta
• ε = erro aleatório
REGRESSÃO LINEAR SIMPLES
• x1, x2, . . . , xn (assume-se que estas
observações são medidas sem erro);
• y1, y2, . . . , yn – observações correspondentes
da variável dependente.
• Dados medidos: (x1, y1), (x2, y2), ..., (x1n, y1n)
• Modelo: Yi = β0 + β1Xi + εi i = 1, ..., n
• εi ~ NID (0, σ2)
• A média de Yi é β0 + β1Xi
REGRESSÃO LINEAR SIMPLES
• Resíduos: di = Yi – (β0 + β1Xi)
REGRESSÃO LINEAR SIMPLES
• MÉTODOS DOS MÍNIMOS QUADRADOS
• O objetivo é escolher b0 e b1 de modo a
minimizar a soma dos quadrados dos resíduos.
REGRESSÃO LINEAR SIMPLES
• Para encontrar os valores de b0 e b1 que
minimizem a SSE:
• e
• e
REGRESSÃO LINEAR SIMPLES
• SST = Soma dos Quadrados Totais = Variação
Total;
• SSE = Soma dos Quadrados dos Resíduos =
Parcela da Variação não Prevista pelo Modelo;
• SSR = Soma dos Quadrados da Regressão =
Parcela da Variação Prevista pelo Modelo.
REGRESSÃO LINEAR SIMPLES
REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• Fornece uma avaliação da proporção da
Variação Total que é prevista pelo Modelo
REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• 0 ≤ r2 ≤ 1;
• r2 ≈ 1 – significa que grande parte da variação
de Y é explicada pela relação linear entre X e
Y;
• r2 ≈ 0 – significa que grande parte da variação
de Y não é explicada pela relação linear entre
X e Y
REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• É usado como uma medida da qualidade do
ajuste
• É diretamente calculado por:
REGRESSÃO LINEAR SIMPLES
REGRESSÃO LINEAR SIMPLES
• Coeficiente de Correlação (r)
• -1 ≤ r ≤ 1
• r = 1 : indica uma relação linear crescente
entre X e Y
• r = -1 : indica uma relação linear decrescente
entre X e Y
REGRESSÃO LINEAR SIMPLES
• r = 0 : indica a inexistência de qualquer
relação linear entre X e Y;
• r > 0 : indica uma relação linear positiva entre
X e Y;
• r < 0 : indica uma relação linear negativa
entre X e Y
REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS
• Para o Modelo de Regressão ser Válido, faz-se
necessário que os pressupostos assumidos em
relação aos Resíduos εi sejam satisfeitos.
• εi ~ NID (0, σ2)
REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS:
• INDEPENDÊNCIA: Plotar os resíduos contra X,
contra Y e em ordem cronológica. Observar
nos gráficos se há alguma tendência ou indício
de não aleatoriedade dos resíduos ou de
dependência destes em relação a X ou a Y
REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS
• Verificar se os Resíduos apresentam
Distribuição Normal
• Usar o recurso “Normal Probability Plot” de
um programa computacional de Estatística.
REFERÊNCIAS
- Design and Analysis of Experiments, 5Th Edition,Douglas C
Montgomery;
- Costa Neto, P. L. O., Estatística, Edgard Blucher, São
Paulo, 1977;
- Montgomery, Douglas C., Introduction to Statistical
Quality Control
- Morettin, Estatística básica: probabilidade e inferência,
Pearson

Mais conteúdo relacionado

Semelhante a Estatística - Manoel Fonseca Costa.ppt

Estatistica inferencial
Estatistica inferencial Estatistica inferencial
Estatistica inferencial Caio da Silva
 
Conceitos de estatística espacial
Conceitos de estatística espacialConceitos de estatística espacial
Conceitos de estatística espacialunesp
 
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdf
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdfAula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdf
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdfMaraLuizaGonalvesFre
 
Aula 02 - Análise de dados e probabilidade.pptx
Aula 02 - Análise de dados e probabilidade.pptxAula 02 - Análise de dados e probabilidade.pptx
Aula 02 - Análise de dados e probabilidade.pptxJoel Júnior
 
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxMedidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxPatriciaFerreiradaSi9
 
Distribuicaonormal
DistribuicaonormalDistribuicaonormal
Distribuicaonormalthiagoufal
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0Ronne Seles
 
Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação UFMA e UEMA
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotEstatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotRanilson Paiva
 
Estatística
EstatísticaEstatística
Estatísticapaulocsm
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normaljoseagrosa
 
Função de densidade normal bom
Função de densidade normal   bomFunção de densidade normal   bom
Função de densidade normal bomjon024
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Kleverton Saath
 
amostragem
amostragemamostragem
amostragemsocram01
 

Semelhante a Estatística - Manoel Fonseca Costa.ppt (20)

Estatistica inferencial
Estatistica inferencial Estatistica inferencial
Estatistica inferencial
 
Aula02pdf
Aula02pdfAula02pdf
Aula02pdf
 
Estatistica[1]
Estatistica[1]Estatistica[1]
Estatistica[1]
 
referente a estatística
referente a estatísticareferente a estatística
referente a estatística
 
Conceitos de estatística espacial
Conceitos de estatística espacialConceitos de estatística espacial
Conceitos de estatística espacial
 
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdf
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdfAula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdf
Aula 5 - VARIÁVEIS, POPULAÇÕES E AMOSTRAS IV.pdf
 
Aula 02 - Análise de dados e probabilidade.pptx
Aula 02 - Análise de dados e probabilidade.pptxAula 02 - Análise de dados e probabilidade.pptx
Aula 02 - Análise de dados e probabilidade.pptx
 
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxMedidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
 
Distribuicaonormal
DistribuicaonormalDistribuicaonormal
Distribuicaonormal
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0
 
BIOESTATÍSTICA
BIOESTATÍSTICABIOESTATÍSTICA
BIOESTATÍSTICA
 
Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotEstatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
 
Princípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - IPrincípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - I
 
Estatística
EstatísticaEstatística
Estatística
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Função de densidade normal bom
Função de densidade normal   bomFunção de densidade normal   bom
Função de densidade normal bom
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
amostragem
amostragemamostragem
amostragem
 

Estatística - Manoel Fonseca Costa.ppt

  • 1. ESTATÍSTICA APLICADA À VALIDAÇÃO DE MÉTODOS ANALÍTICOS Prof. Manoel Antonio da Fonseca Costa Filho
  • 2. ESTATÍSTICA APLICADA • Objetivos: • Apresentação dos fundamentos, conceitos e técnicas estatísticas mais aplicáveis a Validação de Métodos Analíticos; • Prática de cálculos estatísticos aplicados, diretamente ou com uso do Excel; • Familiarização com o uso das tabelas; • Entendimento dos testes, seus objetivos, suas limitações e seus riscos.
  • 3. ESTATÍSTICA APLICADA • PROGRAMA: • - Medidas de posição e de dispersão • - Propriedades da média e da variância • - Principais distribuições de probabilidades • - Inferência estatística • - População e amostra • - Distribuição dos parâmetros amostrais • - Erros em análises quantitativas
  • 4. ESTATÍSTICA APLICADA • PROGRAMA: • - Conceitos e termos de metrologia • - Intervalos de confiança • - Incerteza de medição • - Repetitividade e Reprodutibilidade • - Testes de Hipóteses • - Detecção de valores anômalos (outliers)
  • 5. ESTATÍSTICA APLICADA • PROGRAMA: • - Análise de variância a um fator único (ANOVA) • - Regressão linear e correlação • - Calibração • - Regressão inversa
  • 6. PROPRIEDADES DA MÉDIA E DA VARIÂNCIA
  • 7. PROPRIEDADES DA MÉDIA E DA VARIÂNCIA
  • 8. PROPRIEDADES DA MÉDIA E DA VARIÂNCIA • A Covariância é uma medida da relação linear entre y1 e y2. • Se y1 e y2 são independentes:
  • 10. ESTIMAÇÃO DE PARÂMETROS • Avaliar parâmetros populacionais a partir de operações com os dados de uma amostra; • Estimativa por ponto: fornece um único valor; • Estimativa por intervalo: A estimativa está incluída em um intervalo, considerando uma probabilidade de acerto.
  • 11. PROPRIEDADES DOS ESTIMADORES • Não ser tendencioso, o estimador por ponto deve convergir para o valor do parâmetro estimado quando o tamanho da amostra crescer; • Ter sua variância mínima; • e são estimadores não tendenciosos de e
  • 13. GRAUS DE LIBERDADE • O no. de G. L. de uma SS é igual ao no. de elementos independentes naquela soma de quadrados
  • 16. DISTRIBUIÇÃO NORMAL INTERVALO ÁREA (%)  -  a  +  68,26  - 2  a  + 2  95,44  - 3  a  + 3  99,74
  • 17. DISTRIBUIÇÃO NORMAL REDUZIDA OU (PADRONIZADA) • e •
  • 18. DISTRIBUIÇÃO NORMAL REDUZIDA OU (PADRONIZADA) • USO DA TABELA – ERROS FREQÜENTES
  • 19. DISTRIBUIÇÃO NORMAL • USO DO EXCEL: • DIST.NORM(x;média;desv_padrão;cumulativo) • cumulativo é um operador lógico. • cumulativo = “verdadeiro” – função acumulada até “x”
  • 20. DISTRIBUIÇÃO NORMAL REDUZIDA OU (PADRONIZADA) • USO DO EXCEL: • DIST.NORMP(z) • Retorna o valor da Distribuição Normal Padronizada Cumulativa até a abscissa “z”. • Ex. EXCEL x Consulta a Tabela – comparar resultados.
  • 21. TEOREMA DO LIMITE CENTRAL • A soma de “n” variáveis aleatórias independentes e identicamente distribuídas tem uma distribuição aproximadamente Normal. • Também denominado de “Teorema das Combinações Lineares”.
  • 22. TEOREMA DO LIMITE CENTRAL • Se o tamanho da amostra for razoavelmente grande ( n  30 ), então a DISTRIBUIÇÃO AMOSTRAL DA MÉDIA pode ser aproximada pela DISTRIBUIÇÃO NORMAL. • DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS: média μ e variância dada por: POPULAÇÃO INFINITA: σ2/n
  • 23. TEOREMA DO LIMITE CENTRAL • População Finita: • N < 20n ou n>5% de N ou amostragem sem reposição:
  • 24. TEOREMA DO LIMITE CENTRAL Se representa a soma de “n” v.a. independentes com qualquer distribuição, e • e • então é
  • 25. DISTRIBUIÇÃO DE PARÂMETROS AMOSTRAIS • FREQÜÊNCIA RELATIVA OU PROPORÇÃO (p) • Na retirada de uma amostra com n elementos de uma população infinita, a quantidade de elementos que possuem a característica representada por p tem Distribuição Binomial. • q = 1 – p • f ~ N (p, (p.q/n))
  • 27. ERROS DE MEDIÇÃO • ERROS SISTEMÁTICOS – POSSUEM COMPORTAMENTO TENDENCIOSO, DEVEM SER DETERMINADOS E ELIMINADOS DOS RESULTADOS DAS MEDIÇÕES
  • 28. ERROS DE MEDIÇÃO • ERROS ALEATÓRIOS – DEVIDO A SUA NATUREZA, NÃO PODEM SER ELIMINADOS DOS RESULTADOS. • DEVEM SER TRATADOS ESTATISTICAMENTE E INCLUÍDOS NOS RESULTADOS DAS MEDIÇÕES, ATRAVÉS DA INCERTEZA DA MEDIÇÃO.
  • 29. ERROS DE MEDIÇÃO • Os erros aleatórios podem ser atribuídos a soma de uma infinidade de causas de variação. • Então o modelo Normal de distribuição de probabilidades se torna um modelo plausível para o erro aleatório de medição.
  • 30. DISTRIBUIÇÃO QUI-QUADRADO • SÍMBOLO: • Se são v.a. independentes e normalmente distribuídas com média = 0 e variância = 1, então: • tem Distribuição com “k” G.L.
  • 32. DISTRIBUIÇÃO QUI-QUADRADO • Se y1, y2, ... yn formam uma amostra aleatória de uma distribuição • Então:
  • 33. DISTRIBUIÇÃO t DE STUDENT • Se y1, y2, ... yn formam uma amostra aleatória de uma distribuição • Então: • Se distribui segundo t com n-1 G.L.
  • 35. DISTRIBUIÇÃO F • Se 1 e 2 são 2 v.a. qui-quadradas independentes com respectivamente “u” e “v” G.L. , então a razão: • segue uma Distribuição F com “u” G.L. no numerador e “v” G.L. no denominador.
  • 37. DISTRIBUIÇÃO F • 2 populações normais com a mesma variância: • representam n1 observações de uma amostra aleatória da primeira população; • representam n2 observações de uma amostra aleatória da segunda população; • Então:
  • 38. TESTE DE HIPÓTESES • Modelo: • Erro: ----
  • 39. TESTE DE HIPÓTESES • Hipótese Nula • Hipótese Alternativa • Bilateral • Unilateral a Direita • Unilateral a Esquerda
  • 40. TESTE DE HIPÓTESES • REGIÃO CRÍTICA = REGIÃO DE REJEIÇÃO DA HIPÓTESE NULA
  • 41. TESTE DE HIPÓTESES • TIPOS DE ERROS: • PODER OU POTÊNCIA DO TESTE:
  • 42. TESTE DE HIPÓTESES • NÍVEL DE SIGNIFICÂNCIA = α • NÍVEL DE CONFIANÇA = 1 – α • Especifica-se um valor para α e estabelece-se um valor de β adequadamente pequeno.
  • 43. TESTE DE HIPÓTESES • PARA COMPARAÇÃO ENTRE MÉDIAS DE 2 AMOSTRAS:
  • 44. TESTE DE HIPÓTESES • PARA COMPARAÇÃO ENTRE MÉDIAS DE 2 AMOSTRAS: • Rejeita-se H0 se:
  • 46. TESTE DE HIPÓTESES • PRESSUPOSTOS DO TESTE t: • Ambas as amostras foram retiradas de populações Normais independentes com mesma variância. • Independência é crítica e a aleatorização na retirada das amostras satisfaz a esta condição. • Normalidade: Normal Probability Plot
  • 47. INTERVALOS DE CONFIANÇA • L = Limite inferior do Intervalo de Confiança; • U = Limite superior do Intervalo de Confiança; • Ѳ = Parâmetro para o qual está sendo calculado o Intervalo; • α = nível de significância.
  • 48. INTERVALOS DE CONFIANÇA • Distribuição da média amostral: • Mesmo quando a população não é Normal, quando o tamanho da amostra cresce, a distribuição da média amostral tende a Distribuição Normal mente. aproximada grande, para , σ , N ~ 2 n n μ X      
  • 49. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL σ2 conhecida ou n > 30
  • 50. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL • População finita com σ2 conhecida ou n > 30
  • 51. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL • σ2 conhecida ou n > 30
  • 52. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL • População infinita com σ2 desconhecida
  • 53. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL • População finita com σ2 desconhecida
  • 54. INTERVALO DE CONFIANÇA MÉDIA POPULACIONAL • σ2 desconhecida
  • 55. INTERVALOS DE CONFIANÇA • PARA A DIFERENÇA ENTRE 2 MÉDIAS µ1 E µ2
  • 56. INTERVALO DE CONFIANÇA PROPORÇÃO POPULACIONAL • População infinita
  • 57. INTERVALO DE CONFIANÇA PROPORÇÃO POPULACIONAL • População finita Nestes primeiros slides colocar : O titulo da aula; Objetivos dessa disciplina; Citar os tópicos que irá trabalhar.
  • 60. OUTLIERS • São observações que apresentam um grande afastamento das restantes; • São também designadas por observações anormais ou extremas; • Solução mais simples e usual: Eliminar estas observações “inconsistentes” das demais; • Solução correta: Dar um adeqüado tratamento estatístico para saber se a observação “estranha” deve ser eliminada ou considerada na amostra.
  • 61. OUTLIERS • CAUSAS DO APARECIMENTO DE OUTLIERS: • Erros de medição; • Erros de execução; • Erros de anotação; • Variabilidade inerente dos elementos da população.
  • 62. OUTLIERS • CONTRIBUIÇÕES POSITIVAS: • Detecção de fraudes; • Em análises médicas e pesquisa farmacêuticas resultados não esperados de tratamentos levam a novas descobertas;
  • 63. OUTLIERS • TRATAMENTO DE OUTLIERS • Primeira Fase: Identificação das observações que são potencialmente aberrantes. • Segunda Fase: Verificação se as observações suspeitas são realmente outliers, através da aplicação de testes estatísticos. • Terceira Fase: Decisão mais usual: eliminação dos outliers da amostra. Em um programa de Qualidade, devem ser buscadas as causa de seu surgimento.
  • 64. OUTLIERS • MÉTODOS DE IDENTIFICAÇÃO: • Gráfico de Box • Teste de Dixon • Teste de Grubbs • Teste de Cochran • Z-scores
  • 65. OUTLIERS • GRÁFICO DE BOX-PLOT • Procedimento: • 1. Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3); • 2. Subtrai-se o quartil superior do quartil inferior = (L);
  • 66. OUTLIERS • GRÁFICO DE BOX-PLOT • Análise: • 3. Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1- 3L, serão considerados outliers podendo, portanto ser aceitos na população com alguma suspeita;
  • 67. OUTLIERS • GRÁFICO DE BOX-PLOT • Análise: • 4. Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer à população, devendo ser investigada a origem da dispersão. Estes pontos são chamados de extremos.
  • 69. OUTLIERS • TESTE DE DIXON: • Também chamado de Teste Q de Dixon. • Distribuição normal; teste bilateral. • Ordenar os valores de forma crescente de “1” a “H”. • Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são suspeitos como valores outliers.
  • 70. OUTLIERS • TESTE Q DE DIXON • Procedimento: • 1. Ordenar os dados amostrais em ordem crescente; • 2. De acordo com a quantidade de dados n calcular o valor de Q para o menor e maior:
  • 71. OUTLIERS • TESTE Q DE DIXON • Procedimento: • 3 ≤ n ≤ 7: Q = (x2 - x1)/(xn - x1) ou Q = (xn - xn-1)/(xn - x1) • 8 ≤ n ≤ 12: Q = (x2 - x1)/(xn-1 - x1) ou Q = (xn - xn-1)/(xn – x2) • 13 ≤ n ≤ 14: Q = (x3 - x1)/(xn-2 - x1) ou Q = (xn - xn-2)/(xn - x3)
  • 72. OUTLIERS • TESTE Q DE DIXON • Procedimento: • 3. Obter o valor crítico tabelado, indicado por Qc, para o nível de significância adequado. • 4. Em seguida, aplicar o teste abaixo: • Se Q > Qc, o valor é considerado um outlier; • Se Q ≤ Qc, o valor não é considerado um outlier.
  • 73. OUTLIERS • TESTE Z-SCORE • z-score é uma medida de posição, que descreve a localização de um valor, em termos de desvios padrões, em relação a média. • Z = (xi - x)/s
  • 74. OUTLIERS • TESTE Z-SCORE • Procedimento: • n ≤ 50: Se Z ≥ 2,5 ou Z ≤ -2,5 ; o valor é considerado um outlier. • 50 < n < 1000: Se Z ≥ 3 ou Z ≤ -3 ; o valor é considerado um outlier. • n ≥ 1000: Se Z ≥ 3,3 ou Z ≤ -3,3 ; o valor é considerado um outlier.
  • 75. OUTLIERS • TESTE DE COCHRAN • Para a identificação de outliers em um grupo de dados em relação aos demais. • Comparam-se variâncias, ou seja, verifica-se a variância dos resultados obtidos por um grupo é excessiva em relação a dos demais grupos. • Amostras retiradas de k grupos distribuídas normalmente e de mesmo tamanho.
  • 76. OUTLIERS • TESTE DE COCHRAN • Procedimento: • 1. Dividir o conjunto de dados de tamanho n em k grupos de tamanho m. • 2. Calcular os desvios padrões de cada grupo si (i = 1, 2, ...k). • 3. Calcular w = v max / (Somatório vi)
  • 77. OUTLIERS • TESTE DE COCHRAN • Procedimento: • 4. Compara-se a estatística w com o valor crítico tabelado. • 5. A hipótese de que há grande variação no grupo analisado em relação aos demais é rejeitada caso o valor observado de (w) não exceda o valor crítico.
  • 78. OUTLIERS • TESTE DE GRUBBS • É assumida Normalidade. Esta condição deve ser verificada antes de se usar este teste. • Detecta um outlier por vez. Este é expurgado do conjunto de dados e o teste é iterado até que um novo outlier surja. • n > 6.
  • 79. OUTLIERS • TESTE DE GRUBBS • É definido para as hipóteses: • H0: Não existem outliers no conjunto de dados; • H1: Há pelo menos 1 outliers no conjunto de dados
  • 80. OUTLIERS • TESTE DE GRUBBS • Para um teste bilateral: • Unilateral para um valor mínimo: • Unilateral para um valor máximo:
  • 81. OUTLIERS • TESTE DE GRUBBS • Para o teste bilateral, H0 é rejeitada, ao nível de significância α se: • Onde tα/(2N),N−2 indica o valor crítico superior da Distribuição t com N-2 g.l. • Para testes unilaterais, substituir α/(2N) por α/(N)
  • 82. REGRESSÃO LINEAR • Modelo de regressão linear simples Define uma relação linear entre a variável dependente e uma variável independente. • Modelo de regressão linear múltipla Define uma relação linear entre a variável dependente e várias variáveis independentes.
  • 83. REGRESSÃO LINEAR SIMPLES • Modelo: Y = β0 + β1X + ε • β0 = coeficiente linear estimado da reta • β1= coeficiente angular estimado da reta • ε = erro aleatório
  • 84. REGRESSÃO LINEAR SIMPLES • x1, x2, . . . , xn (assume-se que estas observações são medidas sem erro); • y1, y2, . . . , yn – observações correspondentes da variável dependente. • Dados medidos: (x1, y1), (x2, y2), ..., (x1n, y1n) • Modelo: Yi = β0 + β1Xi + εi i = 1, ..., n • εi ~ NID (0, σ2) • A média de Yi é β0 + β1Xi
  • 85. REGRESSÃO LINEAR SIMPLES • Resíduos: di = Yi – (β0 + β1Xi)
  • 86. REGRESSÃO LINEAR SIMPLES • MÉTODOS DOS MÍNIMOS QUADRADOS • O objetivo é escolher b0 e b1 de modo a minimizar a soma dos quadrados dos resíduos.
  • 87. REGRESSÃO LINEAR SIMPLES • Para encontrar os valores de b0 e b1 que minimizem a SSE: • e • e
  • 88. REGRESSÃO LINEAR SIMPLES • SST = Soma dos Quadrados Totais = Variação Total; • SSE = Soma dos Quadrados dos Resíduos = Parcela da Variação não Prevista pelo Modelo; • SSR = Soma dos Quadrados da Regressão = Parcela da Variação Prevista pelo Modelo.
  • 90. REGRESSÃO LINEAR SIMPLES • Coeficiente de Determinação (r2) • Fornece uma avaliação da proporção da Variação Total que é prevista pelo Modelo
  • 91. REGRESSÃO LINEAR SIMPLES • Coeficiente de Determinação (r2) • 0 ≤ r2 ≤ 1; • r2 ≈ 1 – significa que grande parte da variação de Y é explicada pela relação linear entre X e Y; • r2 ≈ 0 – significa que grande parte da variação de Y não é explicada pela relação linear entre X e Y
  • 92. REGRESSÃO LINEAR SIMPLES • Coeficiente de Determinação (r2) • É usado como uma medida da qualidade do ajuste • É diretamente calculado por:
  • 94. REGRESSÃO LINEAR SIMPLES • Coeficiente de Correlação (r) • -1 ≤ r ≤ 1 • r = 1 : indica uma relação linear crescente entre X e Y • r = -1 : indica uma relação linear decrescente entre X e Y
  • 95. REGRESSÃO LINEAR SIMPLES • r = 0 : indica a inexistência de qualquer relação linear entre X e Y; • r > 0 : indica uma relação linear positiva entre X e Y; • r < 0 : indica uma relação linear negativa entre X e Y
  • 96. REGRESSÃO LINEAR SIMPLES • ANÁLISE DOS RESÍDUOS • Para o Modelo de Regressão ser Válido, faz-se necessário que os pressupostos assumidos em relação aos Resíduos εi sejam satisfeitos. • εi ~ NID (0, σ2)
  • 97. REGRESSÃO LINEAR SIMPLES • ANÁLISE DOS RESÍDUOS: • INDEPENDÊNCIA: Plotar os resíduos contra X, contra Y e em ordem cronológica. Observar nos gráficos se há alguma tendência ou indício de não aleatoriedade dos resíduos ou de dependência destes em relação a X ou a Y
  • 98. REGRESSÃO LINEAR SIMPLES • ANÁLISE DOS RESÍDUOS • Verificar se os Resíduos apresentam Distribuição Normal • Usar o recurso “Normal Probability Plot” de um programa computacional de Estatística.
  • 99. REFERÊNCIAS - Design and Analysis of Experiments, 5Th Edition,Douglas C Montgomery; - Costa Neto, P. L. O., Estatística, Edgard Blucher, São Paulo, 1977; - Montgomery, Douglas C., Introduction to Statistical Quality Control - Morettin, Estatística básica: probabilidade e inferência, Pearson