2. ESTATÍSTICA APLICADA
• Objetivos:
• Apresentação dos fundamentos, conceitos e
técnicas estatísticas mais aplicáveis a
Validação de Métodos Analíticos;
• Prática de cálculos estatísticos aplicados,
diretamente ou com uso do Excel;
• Familiarização com o uso das tabelas;
• Entendimento dos testes, seus objetivos, suas
limitações e seus riscos.
3. ESTATÍSTICA APLICADA
• PROGRAMA:
• - Medidas de posição e de dispersão
• - Propriedades da média e da variância
• - Principais distribuições de probabilidades
• - Inferência estatística
• - População e amostra
• - Distribuição dos parâmetros amostrais
• - Erros em análises quantitativas
4. ESTATÍSTICA APLICADA
• PROGRAMA:
• - Conceitos e termos de metrologia
• - Intervalos de confiança
• - Incerteza de medição
• - Repetitividade e Reprodutibilidade
• - Testes de Hipóteses
• - Detecção de valores anômalos (outliers)
5. ESTATÍSTICA APLICADA
• PROGRAMA:
• - Análise de variância a um fator único
(ANOVA)
• - Regressão linear e correlação
• - Calibração
• - Regressão inversa
10. ESTIMAÇÃO DE PARÂMETROS
• Avaliar parâmetros populacionais a partir de
operações com os dados de uma amostra;
• Estimativa por ponto: fornece um único valor;
• Estimativa por intervalo: A estimativa está
incluída em um intervalo, considerando uma
probabilidade de acerto.
11. PROPRIEDADES DOS ESTIMADORES
• Não ser tendencioso, o estimador por ponto
deve convergir para o valor do parâmetro
estimado quando o tamanho da amostra
crescer;
• Ter sua variância mínima;
• e são estimadores não tendenciosos de
e
19. DISTRIBUIÇÃO NORMAL
• USO DO EXCEL:
• DIST.NORM(x;média;desv_padrão;cumulativo)
• cumulativo é um operador lógico.
• cumulativo = “verdadeiro” – função
acumulada até “x”
20. DISTRIBUIÇÃO NORMAL REDUZIDA OU
(PADRONIZADA)
• USO DO EXCEL:
• DIST.NORMP(z)
• Retorna o valor da Distribuição Normal
Padronizada Cumulativa até a abscissa “z”.
• Ex. EXCEL x Consulta a Tabela – comparar
resultados.
21. TEOREMA DO LIMITE CENTRAL
• A soma de “n” variáveis aleatórias
independentes e identicamente distribuídas
tem uma distribuição aproximadamente
Normal.
• Também denominado de “Teorema das
Combinações Lineares”.
22. TEOREMA DO LIMITE CENTRAL
• Se o tamanho da amostra for razoavelmente
grande ( n 30 ), então a DISTRIBUIÇÃO
AMOSTRAL DA MÉDIA pode ser aproximada pela
DISTRIBUIÇÃO NORMAL.
• DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS:
média μ e variância dada por:
POPULAÇÃO INFINITA: σ2/n
23. TEOREMA DO LIMITE CENTRAL
• População Finita:
• N < 20n ou n>5% de N ou amostragem sem
reposição:
24. TEOREMA DO LIMITE CENTRAL
Se representa
a soma de “n” v.a. independentes com qualquer
distribuição, e
• e
• então é
25. DISTRIBUIÇÃO DE PARÂMETROS
AMOSTRAIS
• FREQÜÊNCIA RELATIVA OU PROPORÇÃO (p)
• Na retirada de uma amostra com n elementos
de uma população infinita, a quantidade de
elementos que possuem a característica
representada por p tem Distribuição Binomial.
• q = 1 – p
• f ~ N (p, (p.q/n))
27. ERROS DE MEDIÇÃO
• ERROS SISTEMÁTICOS – POSSUEM
COMPORTAMENTO TENDENCIOSO, DEVEM
SER DETERMINADOS E ELIMINADOS DOS
RESULTADOS DAS MEDIÇÕES
28. ERROS DE MEDIÇÃO
• ERROS ALEATÓRIOS – DEVIDO A SUA
NATUREZA, NÃO PODEM SER ELIMINADOS
DOS RESULTADOS.
• DEVEM SER TRATADOS ESTATISTICAMENTE E
INCLUÍDOS NOS RESULTADOS DAS MEDIÇÕES,
ATRAVÉS DA INCERTEZA DA MEDIÇÃO.
29. ERROS DE MEDIÇÃO
• Os erros aleatórios podem ser atribuídos a
soma de uma infinidade de causas de
variação.
• Então o modelo Normal de distribuição de
probabilidades se torna um modelo plausível
para o erro aleatório de medição.
30. DISTRIBUIÇÃO QUI-QUADRADO
• SÍMBOLO:
• Se são v.a. independentes
e normalmente distribuídas com média = 0 e
variância = 1, então:
• tem Distribuição com “k” G.L.
35. DISTRIBUIÇÃO F
• Se 1 e 2 são 2 v.a. qui-quadradas
independentes com respectivamente “u” e “v”
G.L. , então a razão:
• segue uma Distribuição F com “u” G.L. no
numerador e “v” G.L. no denominador.
37. DISTRIBUIÇÃO F
• 2 populações normais com a mesma variância:
• representam n1 observações
de uma amostra aleatória da primeira
população;
• representam n2 observações
de uma amostra aleatória da segunda
população;
• Então:
42. TESTE DE HIPÓTESES
• NÍVEL DE SIGNIFICÂNCIA = α
• NÍVEL DE CONFIANÇA = 1 – α
• Especifica-se um valor para α e estabelece-se
um valor de β adequadamente pequeno.
46. TESTE DE HIPÓTESES
• PRESSUPOSTOS DO TESTE t:
• Ambas as amostras foram retiradas de
populações Normais independentes com
mesma variância.
• Independência é crítica e a aleatorização na
retirada das amostras satisfaz a esta condição.
• Normalidade: Normal Probability Plot
47. INTERVALOS DE CONFIANÇA
• L = Limite inferior do Intervalo de Confiança;
• U = Limite superior do Intervalo de Confiança;
• Ѳ = Parâmetro para o qual está sendo
calculado o Intervalo;
• α = nível de significância.
48. INTERVALOS DE CONFIANÇA
• Distribuição da média amostral:
• Mesmo quando a população não é Normal,
quando o tamanho da amostra cresce, a
distribuição da média amostral tende a
Distribuição Normal
mente.
aproximada
grande,
para
,
σ
,
N
~
2
n
n
μ
X
57. INTERVALO DE CONFIANÇA
PROPORÇÃO POPULACIONAL
• População finita
Nestes primeiros slides
colocar :
O titulo da aula;
Objetivos dessa disciplina;
Citar os tópicos que irá
trabalhar.
60. OUTLIERS
• São observações que apresentam um grande
afastamento das restantes;
• São também designadas por observações
anormais ou extremas;
• Solução mais simples e usual: Eliminar estas
observações “inconsistentes” das demais;
• Solução correta: Dar um adeqüado tratamento
estatístico para saber se a observação “estranha”
deve ser eliminada ou considerada na amostra.
61. OUTLIERS
• CAUSAS DO APARECIMENTO DE OUTLIERS:
• Erros de medição;
• Erros de execução;
• Erros de anotação;
• Variabilidade inerente dos elementos da
população.
62. OUTLIERS
• CONTRIBUIÇÕES POSITIVAS:
• Detecção de fraudes;
• Em análises médicas e pesquisa farmacêuticas
resultados não esperados de tratamentos
levam a novas descobertas;
63. OUTLIERS
• TRATAMENTO DE OUTLIERS
• Primeira Fase: Identificação das observações que são
potencialmente aberrantes.
• Segunda Fase: Verificação se as observações
suspeitas são realmente outliers, através da
aplicação de testes estatísticos.
• Terceira Fase: Decisão mais usual: eliminação dos
outliers da amostra. Em um programa de Qualidade,
devem ser buscadas as causa de seu surgimento.
64. OUTLIERS
• MÉTODOS DE IDENTIFICAÇÃO:
• Gráfico de Box
• Teste de Dixon
• Teste de Grubbs
• Teste de Cochran
• Z-scores
65. OUTLIERS
• GRÁFICO DE BOX-PLOT
• Procedimento:
• 1. Calcula-se a mediana, o quartil inferior (Q1)
e o quartil superior (Q3);
• 2. Subtrai-se o quartil superior do quartil
inferior = (L);
66. OUTLIERS
• GRÁFICO DE BOX-PLOT
• Análise:
• 3. Os valores que estiverem no intervalo de
Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-
3L, serão considerados outliers podendo,
portanto ser aceitos na população com
alguma suspeita;
67. OUTLIERS
• GRÁFICO DE BOX-PLOT
• Análise:
• 4. Os valores que forem maiores que Q3+3L e
menores que Q1-3L devem ser considerados
suspeitos de pertencer à população, devendo
ser investigada a origem da dispersão. Estes
pontos são chamados de extremos.
69. OUTLIERS
• TESTE DE DIXON:
• Também chamado de Teste Q de Dixon.
• Distribuição normal; teste bilateral.
• Ordenar os valores de forma crescente de “1”
a “H”.
• Supor a hipótese de que o menor valor, 1, ou
o maior valor, H, são suspeitos como valores
outliers.
70. OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 1. Ordenar os dados amostrais em ordem
crescente;
• 2. De acordo com a quantidade de dados n
calcular o valor de Q para o menor e maior:
71. OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 3 ≤ n ≤ 7: Q = (x2 - x1)/(xn - x1) ou Q = (xn - xn-1)/(xn - x1)
• 8 ≤ n ≤ 12: Q = (x2 - x1)/(xn-1 - x1) ou Q = (xn - xn-1)/(xn – x2)
• 13 ≤ n ≤ 14: Q = (x3 - x1)/(xn-2 - x1) ou Q = (xn - xn-2)/(xn - x3)
72. OUTLIERS
• TESTE Q DE DIXON
• Procedimento:
• 3. Obter o valor crítico tabelado, indicado por Qc,
para o nível de significância adequado.
• 4. Em seguida, aplicar o teste abaixo:
• Se Q > Qc, o valor é considerado um outlier;
• Se Q ≤ Qc, o valor não é considerado um outlier.
73. OUTLIERS
• TESTE Z-SCORE
• z-score é uma medida de posição, que
descreve a localização de um valor, em termos
de desvios padrões, em relação a média.
• Z = (xi - x)/s
74. OUTLIERS
• TESTE Z-SCORE
• Procedimento:
• n ≤ 50: Se Z ≥ 2,5 ou Z ≤ -2,5 ; o valor é
considerado um outlier.
• 50 < n < 1000: Se Z ≥ 3 ou Z ≤ -3 ; o valor é
considerado um outlier.
• n ≥ 1000: Se Z ≥ 3,3 ou Z ≤ -3,3 ; o valor é
considerado um outlier.
75. OUTLIERS
• TESTE DE COCHRAN
• Para a identificação de outliers em um grupo de
dados em relação aos demais.
• Comparam-se variâncias, ou seja, verifica-se a
variância dos resultados obtidos por um grupo é
excessiva em relação a dos demais grupos.
• Amostras retiradas de k grupos distribuídas
normalmente e de mesmo tamanho.
76. OUTLIERS
• TESTE DE COCHRAN
• Procedimento:
• 1. Dividir o conjunto de dados de tamanho n
em k grupos de tamanho m.
• 2. Calcular os desvios padrões de cada grupo si
(i = 1, 2, ...k).
• 3. Calcular w = v max / (Somatório vi)
77. OUTLIERS
• TESTE DE COCHRAN
• Procedimento:
• 4. Compara-se a estatística w com o valor
crítico tabelado.
• 5. A hipótese de que há grande variação no
grupo analisado em relação aos demais é
rejeitada caso o valor observado de (w) não
exceda o valor crítico.
78. OUTLIERS
• TESTE DE GRUBBS
• É assumida Normalidade. Esta condição deve
ser verificada antes de se usar este teste.
• Detecta um outlier por vez. Este é expurgado
do conjunto de dados e o teste é iterado até
que um novo outlier surja.
• n > 6.
79. OUTLIERS
• TESTE DE GRUBBS
• É definido para as hipóteses:
• H0: Não existem outliers no conjunto de
dados;
• H1: Há pelo menos 1 outliers no conjunto de
dados
80. OUTLIERS
• TESTE DE GRUBBS
• Para um teste bilateral:
• Unilateral para um valor mínimo:
• Unilateral para um valor máximo:
81. OUTLIERS
• TESTE DE GRUBBS
• Para o teste bilateral, H0 é rejeitada, ao nível
de significância α se:
• Onde tα/(2N),N−2 indica o valor crítico superior
da Distribuição t com N-2 g.l.
• Para testes unilaterais, substituir α/(2N) por
α/(N)
82. REGRESSÃO LINEAR
• Modelo de regressão linear simples
Define uma relação linear entre a variável
dependente e uma variável independente.
• Modelo de regressão linear múltipla
Define uma relação linear entre a variável
dependente e várias variáveis independentes.
83. REGRESSÃO LINEAR SIMPLES
• Modelo: Y = β0 + β1X + ε
• β0 = coeficiente linear estimado da reta
• β1= coeficiente angular estimado da reta
• ε = erro aleatório
84. REGRESSÃO LINEAR SIMPLES
• x1, x2, . . . , xn (assume-se que estas
observações são medidas sem erro);
• y1, y2, . . . , yn – observações correspondentes
da variável dependente.
• Dados medidos: (x1, y1), (x2, y2), ..., (x1n, y1n)
• Modelo: Yi = β0 + β1Xi + εi i = 1, ..., n
• εi ~ NID (0, σ2)
• A média de Yi é β0 + β1Xi
88. REGRESSÃO LINEAR SIMPLES
• SST = Soma dos Quadrados Totais = Variação
Total;
• SSE = Soma dos Quadrados dos Resíduos =
Parcela da Variação não Prevista pelo Modelo;
• SSR = Soma dos Quadrados da Regressão =
Parcela da Variação Prevista pelo Modelo.
90. REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• Fornece uma avaliação da proporção da
Variação Total que é prevista pelo Modelo
91. REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• 0 ≤ r2 ≤ 1;
• r2 ≈ 1 – significa que grande parte da variação
de Y é explicada pela relação linear entre X e
Y;
• r2 ≈ 0 – significa que grande parte da variação
de Y não é explicada pela relação linear entre
X e Y
92. REGRESSÃO LINEAR SIMPLES
• Coeficiente de Determinação (r2)
• É usado como uma medida da qualidade do
ajuste
• É diretamente calculado por:
94. REGRESSÃO LINEAR SIMPLES
• Coeficiente de Correlação (r)
• -1 ≤ r ≤ 1
• r = 1 : indica uma relação linear crescente
entre X e Y
• r = -1 : indica uma relação linear decrescente
entre X e Y
95. REGRESSÃO LINEAR SIMPLES
• r = 0 : indica a inexistência de qualquer
relação linear entre X e Y;
• r > 0 : indica uma relação linear positiva entre
X e Y;
• r < 0 : indica uma relação linear negativa
entre X e Y
96. REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS
• Para o Modelo de Regressão ser Válido, faz-se
necessário que os pressupostos assumidos em
relação aos Resíduos εi sejam satisfeitos.
• εi ~ NID (0, σ2)
97. REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS:
• INDEPENDÊNCIA: Plotar os resíduos contra X,
contra Y e em ordem cronológica. Observar
nos gráficos se há alguma tendência ou indício
de não aleatoriedade dos resíduos ou de
dependência destes em relação a X ou a Y
98. REGRESSÃO LINEAR SIMPLES
• ANÁLISE DOS RESÍDUOS
• Verificar se os Resíduos apresentam
Distribuição Normal
• Usar o recurso “Normal Probability Plot” de
um programa computacional de Estatística.
99. REFERÊNCIAS
- Design and Analysis of Experiments, 5Th Edition,Douglas C
Montgomery;
- Costa Neto, P. L. O., Estatística, Edgard Blucher, São
Paulo, 1977;
- Montgomery, Douglas C., Introduction to Statistical
Quality Control
- Morettin, Estatística básica: probabilidade e inferência,
Pearson