Estatística - Manoel Fonseca Costa.ppt

ESTATÍSTICA APLICADA
À VALIDAÇÃO DE MÉTODOS ANALÍTICOS
Prof. Manoel Antonio da Fonseca Costa Filho

• Objetivos:
• Apresentação dos fundamentos, conceitos e
técnicas estatísticas mais aplicáveis a
Validação de Métodos Analíticos;
• Prática de cálculos estatísticos aplicados,
diretamente ou com uso do Excel;
• Familiarização com o uso das tabelas;
• Entendimento dos testes, seus objetivos, suas
limitações e seus riscos.

• PROGRAMA:
• - Medidas de posição e de dispersão
• - Propriedades da média e da variância
• - Principais distribuições de probabilidades
• - Inferência estatística
• - População e amostra
• - Distribuição dos parâmetros amostrais
• - Erros em análises quantitativas

• PROGRAMA:
• - Conceitos e termos de metrologia
• - Intervalos de confiança
• - Incerteza de medição
• - Repetitividade e Reprodutibilidade
• - Testes de Hipóteses
• - Detecção de valores anômalos (outliers)

• PROGRAMA:
• - Análise de variância a um fator único
(ANOVA)
• - Regressão linear e correlação
• - Calibração
• - Regressão inversa

PROPRIEDADES DA MÉDIA E DA
VARIÂNCIA

PROPRIEDADES DA MÉDIA E DA
VARIÂNCIA
• A Covariância é uma medida da relação linear
entre y1 e y2.
• Se y1 e y2 são independentes:

ESTIMAÇÃO DE PARÂMETROS
• Avaliar parâmetros populacionais a partir de
operações com os dados de uma amostra;
• Estimativa por ponto: fornece um único valor;
• Estimativa por intervalo: A estimativa está
incluída em um intervalo, considerando uma
probabilidade de acerto.

PROPRIEDADES DOS ESTIMADORES
• Não ser tendencioso, o estimador por ponto
deve convergir para o valor do parâmetro
estimado quando o tamanho da amostra
crescer;
• Ter sua variância mínima;
• e são estimadores não tendenciosos de
e

GRAUS DE LIBERDADE
• O no. de G. L. de uma SS é igual ao no. de
elementos independentes naquela soma de
quadrados

DISTRIBUIÇÃO NORMAL
• INTERVALOS CARACTERÍSTICOS

INTERVALO ÁREA (%)
 -  a  +  68,26
 - 2  a  + 2  95,44
 - 3  a  + 3  99,74

DISTRIBUIÇÃO NORMAL REDUZIDA OU
(PADRONIZADA)
• e
•

DISTRIBUIÇÃO NORMAL REDUZIDA
OU (PADRONIZADA)
• USO DA TABELA – ERROS FREQÜENTES

• USO DO EXCEL:
• DIST.NORM(x;média;desv_padrão;cumulativo)
• cumulativo é um operador lógico.
• cumulativo = “verdadeiro” – função
acumulada até “x”

DISTRIBUIÇÃO NORMAL REDUZIDA OU
(PADRONIZADA)
• USO DO EXCEL:
• DIST.NORMP(z)
• Retorna o valor da Distribuição Normal
Padronizada Cumulativa até a abscissa “z”.
• Ex. EXCEL x Consulta a Tabela – comparar
resultados.

TEOREMA DO LIMITE CENTRAL
• A soma de “n” variáveis aleatórias
independentes e identicamente distribuídas
tem uma distribuição aproximadamente
Normal.
• Também denominado de “Teorema das
Combinações Lineares”.

• Se o tamanho da amostra for razoavelmente
grande ( n  30 ), então a DISTRIBUIÇÃO
AMOSTRAL DA MÉDIA pode ser aproximada pela
DISTRIBUIÇÃO NORMAL.
• DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS:
média μ e variância dada por:
POPULAÇÃO INFINITA: σ2/n

• População Finita:
• N < 20n ou n>5% de N ou amostragem sem
reposição:

Se representa
a soma de “n” v.a. independentes com qualquer
distribuição, e
• e
• então é

DISTRIBUIÇÃO DE PARÂMETROS
AMOSTRAIS
• FREQÜÊNCIA RELATIVA OU PROPORÇÃO (p)
• Na retirada de uma amostra com n elementos
de uma população infinita, a quantidade de
elementos que possuem a característica
representada por p tem Distribuição Binomial.
• q = 1 – p
• f ~ N (p, (p.q/n))

DISTRIBUIÇÃO DE PARÂMETROS
AMOSTRAIS – VARIÂNCIA (S2)

ERROS DE MEDIÇÃO
• ERROS SISTEMÁTICOS – POSSUEM
COMPORTAMENTO TENDENCIOSO, DEVEM
SER DETERMINADOS E ELIMINADOS DOS
RESULTADOS DAS MEDIÇÕES

ERROS DE MEDIÇÃO
• ERROS ALEATÓRIOS – DEVIDO A SUA
NATUREZA, NÃO PODEM SER ELIMINADOS
DOS RESULTADOS.
• DEVEM SER TRATADOS ESTATISTICAMENTE E
INCLUÍDOS NOS RESULTADOS DAS MEDIÇÕES,
ATRAVÉS DA INCERTEZA DA MEDIÇÃO.

ERROS DE MEDIÇÃO
• Os erros aleatórios podem ser atribuídos a
soma de uma infinidade de causas de
variação.
• Então o modelo Normal de distribuição de
probabilidades se torna um modelo plausível
para o erro aleatório de medição.

DISTRIBUIÇÃO QUI-QUADRADO
• SÍMBOLO:
• Se são v.a. independentes
e normalmente distribuídas com média = 0 e
variância = 1, então:
• tem Distribuição com “k” G.L.

DISTRIBUIÇÃO QUI-QUADRADO
• Se y1, y2, ... yn formam uma amostra aleatória
de uma distribuição
• Então:

DISTRIBUIÇÃO t DE STUDENT
• Se y1, y2, ... yn formam uma amostra aleatória
de uma distribuição
• Então:
• Se distribui segundo t com n-1 G.L.

DISTRIBUIÇÃO F
• Se 1 e 2 são 2 v.a. qui-quadradas
independentes com respectivamente “u” e “v”
G.L. , então a razão:
• segue uma Distribuição F com “u” G.L. no
numerador e “v” G.L. no denominador.

DISTRIBUIÇÃO F
• 2 populações normais com a mesma variância:
• representam n1 observações
de uma amostra aleatória da primeira
população;
• representam n2 observações
de uma amostra aleatória da segunda
população;
• Então:

TESTE DE HIPÓTESES
• Modelo:
• Erro: ----

TESTE DE HIPÓTESES
• Hipótese Nula
• Hipótese Alternativa
• Bilateral
• Unilateral a Direita
• Unilateral a Esquerda

TESTE DE HIPÓTESES
• REGIÃO CRÍTICA = REGIÃO DE REJEIÇÃO DA
HIPÓTESE NULA

TESTE DE HIPÓTESES
• TIPOS DE ERROS:
• PODER OU POTÊNCIA DO TESTE:

TESTE DE HIPÓTESES
• NÍVEL DE SIGNIFICÂNCIA = α
• NÍVEL DE CONFIANÇA = 1 – α
• Especifica-se um valor para α e estabelece-se
um valor de β adequadamente pequeno.

TESTE DE HIPÓTESES
• PARA COMPARAÇÃO ENTRE MÉDIAS DE 2
AMOSTRAS:

TESTE DE HIPÓTESES
• PARA COMPARAÇÃO ENTRE MÉDIAS DE 2
AMOSTRAS:
• Rejeita-se H0 se:

TESTE DE HIPÓTESES
• PRESSUPOSTOS DO TESTE t:
• Ambas as amostras foram retiradas de
populações Normais independentes com
mesma variância.
• Independência é crítica e a aleatorização na
retirada das amostras satisfaz a esta condição.
• Normalidade: Normal Probability Plot

INTERVALOS DE CONFIANÇA
• L = Limite inferior do Intervalo de Confiança;
• U = Limite superior do Intervalo de Confiança;
• Ѳ = Parâmetro para o qual está sendo
calculado o Intervalo;
• α = nível de significância.

• Distribuição da média amostral:
• Mesmo quando a população não é Normal,
quando o tamanho da amostra cresce, a
distribuição da média amostral tende a
Distribuição Normal
mente.
aproximada
grande,
para
,
σ
,
N
~
2
n
n
μ
X 






INTERVALO DE CONFIANÇA
MÉDIA POPULACIONAL
σ2 conhecida ou n > 30

MÉDIA POPULACIONAL
• População finita com σ2 conhecida ou n > 30

MÉDIA POPULACIONAL
• σ2 conhecida ou n > 30

MÉDIA POPULACIONAL
• População infinita com σ2 desconhecida

MÉDIA POPULACIONAL
• População finita com σ2 desconhecida

MÉDIA POPULACIONAL
• σ2 desconhecida

• PARA A DIFERENÇA ENTRE 2 MÉDIAS µ1 E µ2

PROPORÇÃO POPULACIONAL
• População infinita

PROPORÇÃO POPULACIONAL
• População finita
Nestes primeiros slides
colocar :
O titulo da aula;
Objetivos dessa disciplina;
Citar os tópicos que irá
trabalhar.

VARIÂNCIA POPULACIONAL

OUTLIERS
• São observações que apresentam um grande
afastamento das restantes;
• São também designadas por observações
anormais ou extremas;
• Solução mais simples e usual: Eliminar estas
observações “inconsistentes” das demais;
• Solução correta: Dar um adeqüado tratamento
estatístico para saber se a observação “estranha”
deve ser eliminada ou considerada na amostra.

OUTLIERS
• CAUSAS DO APARECIMENTO DE OUTLIERS:
• Erros de medição;
• Erros de execução;
• Erros de anotação;
• Variabilidade inerente dos elementos da
população.

OUTLIERS
• CONTRIBUIÇÕES POSITIVAS:
• Detecção de fraudes;
• Em análises médicas e pesquisa farmacêuticas
resultados não esperados de tratamentos
levam a novas descobertas;

OUTLIERS
• TRATAMENTO DE OUTLIERS
• Primeira Fase: Identificação das observações que são
potencialmente aberrantes.
• Segunda Fase: Verificação se as observações
suspeitas são realmente outliers, através da
aplicação de testes estatísticos.
• Terceira Fase: Decisão mais usual: eliminação dos
outliers da amostra. Em um programa de Qualidade,
devem ser buscadas as causa de seu surgimento.

OUTLIERS
• MÉTODOS DE IDENTIFICAÇÃO:
• Gráfico de Box
• Teste de Dixon
• Teste de Grubbs
• Teste de Cochran
• Z-scores

OUTLIERS
• GRÁFICO DE BOX-PLOT
• Procedimento:
• 1. Calcula-se a mediana, o quartil inferior (Q1)
e o quartil superior (Q3);
• 2. Subtrai-se o quartil superior do quartil
inferior = (L);

OUTLIERS
• Análise:
• 3. Os valores que estiverem no intervalo de
Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-
3L, serão considerados outliers podendo,
portanto ser aceitos na população com
alguma suspeita;

OUTLIERS
• Análise:
• 4. Os valores que forem maiores que Q3+3L e
menores que Q1-3L devem ser considerados
suspeitos de pertencer à população, devendo
ser investigada a origem da dispersão. Estes
pontos são chamados de extremos.

OUTLIERS
• TESTE DE DIXON:
• Também chamado de Teste Q de Dixon.
• Distribuição normal; teste bilateral.
• Ordenar os valores de forma crescente de “1”
a “H”.
• Supor a hipótese de que o menor valor, 1, ou
o maior valor, H, são suspeitos como valores
outliers.

OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 1. Ordenar os dados amostrais em ordem
crescente;
• 2. De acordo com a quantidade de dados n
calcular o valor de Q para o menor e maior:

OUTLIERS
• Procedimento:
• 3 ≤ n ≤ 7: Q = (x2 - x1)/(xn - x1) ou Q = (xn - xn-1)/(xn - x1)
• 8 ≤ n ≤ 12: Q = (x2 - x1)/(xn-1 - x1) ou Q = (xn - xn-1)/(xn – x2)
• 13 ≤ n ≤ 14: Q = (x3 - x1)/(xn-2 - x1) ou Q = (xn - xn-2)/(xn - x3)

OUTLIERS
• Procedimento:
• 3. Obter o valor crítico tabelado, indicado por Qc,
para o nível de significância adequado.
• 4. Em seguida, aplicar o teste abaixo:
• Se Q > Qc, o valor é considerado um outlier;
• Se Q ≤ Qc, o valor não é considerado um outlier.

OUTLIERS
• TESTE Z-SCORE
• z-score é uma medida de posição, que
descreve a localização de um valor, em termos
de desvios padrões, em relação a média.
• Z = (xi - x)/s

OUTLIERS
• TESTE Z-SCORE
• Procedimento:
• n ≤ 50: Se Z ≥ 2,5 ou Z ≤ -2,5 ; o valor é
considerado um outlier.
• 50 < n < 1000: Se Z ≥ 3 ou Z ≤ -3 ; o valor é
• n ≥ 1000: Se Z ≥ 3,3 ou Z ≤ -3,3 ; o valor é

OUTLIERS
• TESTE DE COCHRAN
• Para a identificação de outliers em um grupo de
dados em relação aos demais.
• Comparam-se variâncias, ou seja, verifica-se a
variância dos resultados obtidos por um grupo é
excessiva em relação a dos demais grupos.
• Amostras retiradas de k grupos distribuídas
normalmente e de mesmo tamanho.

OUTLIERS
• Procedimento:
• 1. Dividir o conjunto de dados de tamanho n
em k grupos de tamanho m.
• 2. Calcular os desvios padrões de cada grupo si
(i = 1, 2, ...k).
• 3. Calcular w = v max / (Somatório vi)

OUTLIERS
• Procedimento:
• 4. Compara-se a estatística w com o valor
crítico tabelado.
• 5. A hipótese de que há grande variação no
grupo analisado em relação aos demais é
rejeitada caso o valor observado de (w) não
exceda o valor crítico.

OUTLIERS
• TESTE DE GRUBBS
• É assumida Normalidade. Esta condição deve
ser verificada antes de se usar este teste.
• Detecta um outlier por vez. Este é expurgado
do conjunto de dados e o teste é iterado até
que um novo outlier surja.
• n > 6.

OUTLIERS
• TESTE DE GRUBBS
• É definido para as hipóteses:
• H0: Não existem outliers no conjunto de
dados;
• H1: Há pelo menos 1 outliers no conjunto de
dados

OUTLIERS
• TESTE DE GRUBBS
• Para um teste bilateral:
• Unilateral para um valor mínimo:
• Unilateral para um valor máximo:

OUTLIERS
• TESTE DE GRUBBS
• Para o teste bilateral, H0 é rejeitada, ao nível
de significância α se:
• Onde tα/(2N),N−2 indica o valor crítico superior
da Distribuição t com N-2 g.l.
• Para testes unilaterais, substituir α/(2N) por
α/(N)

REGRESSÃO LINEAR
• Modelo de regressão linear simples
Define uma relação linear entre a variável
dependente e uma variável independente.
• Modelo de regressão linear múltipla
Define uma relação linear entre a variável
dependente e várias variáveis independentes.

REGRESSÃO LINEAR SIMPLES
• Modelo: Y = β0 + β1X + ε
• β0 = coeficiente linear estimado da reta
• β1= coeficiente angular estimado da reta
• ε = erro aleatório

• x1, x2, . . . , xn (assume-se que estas
observações são medidas sem erro);
• y1, y2, . . . , yn – observações correspondentes
da variável dependente.
• Dados medidos: (x1, y1), (x2, y2), ..., (x1n, y1n)
• Modelo: Yi = β0 + β1Xi + εi i = 1, ..., n
• εi ~ NID (0, σ2)
• A média de Yi é β0 + β1Xi

• Resíduos: di = Yi – (β0 + β1Xi)

• MÉTODOS DOS MÍNIMOS QUADRADOS
• O objetivo é escolher b0 e b1 de modo a
minimizar a soma dos quadrados dos resíduos.

• Para encontrar os valores de b0 e b1 que
minimizem a SSE:
• e
• e

• SST = Soma dos Quadrados Totais = Variação
Total;
• SSE = Soma dos Quadrados dos Resíduos =
Parcela da Variação não Prevista pelo Modelo;
• SSR = Soma dos Quadrados da Regressão =
Parcela da Variação Prevista pelo Modelo.

• Coeficiente de Determinação (r2)
• Fornece uma avaliação da proporção da
Variação Total que é prevista pelo Modelo

• 0 ≤ r2 ≤ 1;
• r2 ≈ 1 – significa que grande parte da variação
de Y é explicada pela relação linear entre X e
Y;
• r2 ≈ 0 – significa que grande parte da variação
de Y não é explicada pela relação linear entre
X e Y

• É usado como uma medida da qualidade do
ajuste
• É diretamente calculado por:

• Coeficiente de Correlação (r)
• -1 ≤ r ≤ 1
• r = 1 : indica uma relação linear crescente
entre X e Y
• r = -1 : indica uma relação linear decrescente
entre X e Y

• r = 0 : indica a inexistência de qualquer
relação linear entre X e Y;
• r > 0 : indica uma relação linear positiva entre
X e Y;
• r < 0 : indica uma relação linear negativa
entre X e Y

• ANÁLISE DOS RESÍDUOS
• Para o Modelo de Regressão ser Válido, faz-se
necessário que os pressupostos assumidos em
relação aos Resíduos εi sejam satisfeitos.
• εi ~ NID (0, σ2)

• ANÁLISE DOS RESÍDUOS:
• INDEPENDÊNCIA: Plotar os resíduos contra X,
contra Y e em ordem cronológica. Observar
nos gráficos se há alguma tendência ou indício
de não aleatoriedade dos resíduos ou de
dependência destes em relação a X ou a Y

• ANÁLISE DOS RESÍDUOS
• Verificar se os Resíduos apresentam
Distribuição Normal
• Usar o recurso “Normal Probability Plot” de
um programa computacional de Estatística.

REFERÊNCIAS
- Design and Analysis of Experiments, 5Th Edition,Douglas C
Montgomery;
- Costa Neto, P. L. O., Estatística, Edgard Blucher, São
Paulo, 1977;
- Montgomery, Douglas C., Introduction to Statistical
Quality Control
- Morettin, Estatística básica: probabilidade e inferência,
Pearson

Estatística - Manoel Fonseca Costa.ppt

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Estatística - Manoel Fonseca Costa.ppt

Semelhante a Estatística - Manoel Fonseca Costa.ppt (20)

Estatística - Manoel Fonseca Costa.ppt