1. UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
Campus Toledo
Disciplina: Estatística Turma: P13
Professora Aracéli Ciotti de Marins
ESTATÍSTICA
Toledo, 1/2010
2. Introdução à Estatística
A disciplina Estatística nos auxilia na obtenção de resultados que possibilitam tirar
conclusões e tomar decisões na presença de incertezas e variações, mediante seu
conjunto de técnicas, dos quais alguns serão abordados neste material.
A Estatística é definida por CRESPO (1997) como “uma parte da Matemática
aplicada que fornece métodos para a coleta, organização, descrição, análise e
interpretação de dados e para a utilização dos mesmos para a tomada de decisões”.
Os objetivos desta disciplina são:
o Baseado em informações de amostras, fazer generalizações e inferências às
populações;
o Determinar as características de uma população ou conjunto de dados.
Etapas da Estatística
o Obtenção dos dados;
o Organização dos dados;
o Análise dos dados;
o Interpretação dos dados;
o Conclusão, inferência ou predição com base nos dados.
Na parte inicial de um estudo estatístico, se determina a população de estudo,
que aqui pode ser definida como um conjunto de objetos que constituem um certo grupo.
Nesta etapa também se decidem as variáveis, que é qualquer característica cujo valor
pode mudar de um objeto para o outro na população. Cada objeto da população é
denominado um dado, e os dados podem ser numéricos ou literais, no caso de serem
numéricos, a variável é chamada quantitativa, e caso seja literal, ela denomina-se
qualitativa. Um subconjunto da população é chamado amostra. As variáveis
quantitativas subdividem-se em: contínuas e discretas.
Agora, que conhecemos estas definições, entenderemos melhor os procedimentos
da estatística descritiva.
Considere assim, toda uma população, que pode ser de qualquer objeto que você
imaginar, como exemplo: “os dentes de sua boca”, “os alunos desta sala”, “os habitantes
da cidade de Toledo”, “os professores de Matemática da UTFPR”, “as formiguinhas do
quintal de sua casa”, “um grupo de pessoas de um mesmo bairro”, etc.
2
3. Imagine que você queira fazer um estudo para determinar algum resultado a cerca
destas populações. Em alguns casos, seria fácil investigar toda a população e dar os
resultados, o que caracterizaria um censo, mas em outros, como no caso das
formiguinhas, seria impossível analisar todas de um mesmo jardim. Assim, determina-se
um número de elementos a serem investigados, e coleta-se uma amostra de informações.
Suponha que você criou certo composto para limpeza da casa que tenha vendido
em todo o estado. Imagine agora, que queira saber o grau de satisfação das pessoas que
compraram. É claro que você não vai sair perguntado para todos os que compraram, pois
com certeza foram muitos e se tornaria muito difícil.
O que fazer então? A Estatística dá a resposta. Por meio dela, você determinará o
tamanho da amostra da qual você coletará informações. Então, você não investigará
toda a população, mas uma parte dela, o que facilitará sua vida e lhe dará resultados
dentro de certa margem de precisão. A seguir, você estudará estes dados e será capaz
de determinar o nível de satisfação dos clientes.
Em estatística, atribuem-se símbolos para representar cada item. Por exemplo:
o Número de elementos da População: N
o Número de elementos da Amostra: n
o As variáveis são representadas por letras maiúsculas: X, Y, Z, ...
3
4. Capítulo 1 – Estatística Descritiva
1. Organização de dados
a. Dados apresentados em tabelas
Elementos de uma tabela:
o Número: Vem sempre depois da palavra Tabela e antes do título, serve para
que se possa identificar a tabela, ao citá-la no texto.
o Título: Local onde se escreve o maior número de informações acerca da
tabela. Localiza-se logo após o número.
o Corpo, que é subdividido em:
o Cabeçalho: parte superior do corpo da tabela, onde se especificam
os conteúdos da coluna;
o Coluna Indicadora: onde se especificam os conteúdos das linhas;
o Linhas: onde se insere o conteúdo.
o Rodapé: Local em que se indica a fonte, caso haja.
Exemplo: A Tabela 1 indica o número de proprietários de motocicletas de 120
pessoas, de acordo com o fabricante:
Tabela 1 Distribuição dos dados de motocicletas
Fabricante Quantidade
Honda 41
Yamaha 27
Kawasaki 20
BMW 3
Harley-Davidson 18
Outro 11
Fonte: Probabilidade e Estatística: para Engenharia e Ciências, Jay L. Devore, 2006.
4
5. Tabela de Distribuição de Freqüência
É um tipo de tabela na qual as linhas são compostas por freqüências dadas pela
contagem ou freqüências proporcionais, ou ainda percentuais, que podem ser obtidos
pela divisão de ocorrências pelo total de elementos multiplicado por 100.
Exemplo: Montar uma tabela com os dados a respeito de: idade, sexo, estatura e
estado civil dos alunos da turma.
Tabela de Freqüência para variáveis qualitativas
Uma variável é dita qualitativa, quando os dados se referem a qualidades.
Exemplo: Construir a tabela de freqüência para as variáveis sexo e estado civil do
exemplo anterior.
Tabela de Freqüência para variáveis quantitativas
Uma variável é dita quantitativa, quando os dados se referem a quantidades. Para
a construção desta tabela, contudo, é necessário que os dados sejam agrupados em
intervalos de classes, seguindo o procedimento:
5
6. Procedimento para determinar os intervalos de classes
o Calcula-se i: número de classes, dado por: i = 1 + 3,3 ∙ log n, em que: n é o
número de elementos da amostra.
o Calcula-se h: amplitude de classe, dado por: h = AT/i, em que: AT é a
amplitude total, dada pelo maior valor menos o menor.
Exemplo: Construir a tabela de freqüência para as variáveis idade e estatura do
exemplo anterior.
b. Dados apresentados em gráficos
Tipos de gráficos
1) Gráfico de Barras
Utiliza-se um plano cartesiano, e constroem-se barras paralelas ao eixo-y com área
correspondente ao valor das variáveis.
Exemplo: A Tabela 1 apresenta o número de alunos da UTFPR campus de Medianeira
que cursam a disciplina de Estatística no segundo semestre de 2006.
Tabela 1 Número de alunos que cursam estatística no 2º semestre de 2006 da
UTFPR Campus Medianeira, segundo o curso.
Turma Número de Alunos
A21 18
E11 25
I11 23
C23 30
A Figura 1 apresenta o gráfico de barras para esta variável.
Figura 1 Número de alunos que cursam Estatística no 2º semestre de 2006.
6
7. 2) Gráfico de Pizza
Utiliza-se um círculo, que é subdividido em sessões cujas áreas representam as
porcentagens atribuídas à variável.
Exemplo: Utilizando os dados da Tabela 1, a figura 2 apresenta o gráfico de pizza
para esta variável.
Figura 2 Número de alunos que cursam Estatística no 2º semestre de 2006.
3) Gráfico de Dispersão
É um gráfico de pontos no R2, cujo eixo-x é formado pela ordem da coleta e o eixo-y
pelos valores coletados.
Exemplo: Em 2003, foram anotadas as estaturas de 18 alunos da turma A51, e os
resultados são dados na Tabela 2.
Tabela 2 Estatura dos alunos da turma ____ do primeiro semestre de 2009.
Ordem de coleta Estatura
1 A Figura 3 apresenta o gráfico de
2 dispersão para esta variável.
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Figura 3 Estatura em cm dos alunos
da turma ____ do 1º semestre 2009.
7
8. 4) Gráfico Dotplot
Constitui-se de uma linha numerada entre os valores mínimo e máximo do conjunto,
onde se marcam as freqüências das ocorrências.
Exemplo: A Figura 4 apresenta o gráfico dotplot para a variável estatura dada na
Tabela 2.
Figura 4 Estatura em cm dos alunos da turma ____ do 1º semestre 2009.
5) Histograma
É um gráfico formado por um conjunto de retângulos justapostos, cujo número de
retângulos corresponde ao número de classes e tem base sobre o eixo-x e as alturas
correspondem às freqüências.
Exemplo: A Figura 5 apresenta o histograma para a variável estatura dada na
Tabela 2.
Figura 5 Estatura em cm dos alunos da turma _____ do 1º semestre 2009.
6) Pictograma
Utiliza desenhos para representar um conjunto de dados. Para elaborar este tipo de
gráfico inserem-se figuras relacionadas à variável, substituindo e representando os
elementos dos dados.
Exemplo: O pictograma abaixo refere-se aos dados da Tabela 1.
Figura 6 Número de alunos que cursam Estatística no 2º semestre de 2006.
8
9. 2. Medidas de Localização:
Objetivo: Considere um conjunto de n valores medidos de uma determinada
variável X: X1, X2, X3, ..., Xn. O objetivo de determinar as medidas de posição é de verificar
a distribuição e o comportamento de dados quantitativos, situados entre um valor mínimo
e um valor máximo, denotados respectivamente por: Xmín e Xmáx.
a. Média Amostral
n
X
i 1
i
X1 X 2 X n
X
n n
em que: X é a média amostral e n é o número de elementos da amostra.
b. Moda: É o valor que mais se repete na amostra ou na população.
c. Mediana:A mediana é valor central do conjunto de dados X1, X2, X3, ..., Xn. A
mediana é uma medida de posição, que deixa 50% dos dados acima e 50% dos
dados acima dela. É necessário que os dados estejam ordenados de forma
crescente para determiná-la.
i. Se o número de dados n for ímpar, a mediana é dada pela relação
matemática que determina sua posição:
~
X X n 1 , ou seja, o termo que se encontra no centro.
2
ii. Caso n seja par, para determinar a mediana, calcula-se a posição da
mediana pela relação:
X n X n
1
~ 2 2
X , que é a média dos dois termos que se encontram
2
no centro do conjunto de dados.
d. Quartis: São medidas de posição que dividem os conjuntos de dados em quatro
partes iguais. Abaixo do primeiro quartil, denotado por Q1, estão 25% dos dados,
entre o primeiro quartil e o segundo (Q2), estão 25% dos dados, entre o Q2 e o
terceiro quartil (Q3), estão outros 25% dos dados, e acima do Q3, estão os 25%
restantes.
~
Para calcular as posições de Q1 e Q3, utilizam-se as relações abaixo. Q2 X .
1 3
Q1 X n 1 X n 1 X n 1 e Q3 X n 1 X n 1 X n 1
4
4 4 1
4
3*
4
4 3* 4 1
3*
4
e. Intervalo Interquartílico é a diferença entre Q3 e Q1:
d Q3 Q1
9
10. 3. Medidas de Dispersão: Seja X uma variável e X1, X2, X3, ..., Xn, onde haja um
elemento Xmáx e um elemento Xmín.
a. Amplitude: A Amplitude Total, denotada por R, é obtida pela diferença entre
o maior e o menor valor do conjunto de dados:
R X máx X mín
b. Variância: é dada pela equação:
n
2
X
i 1
i X
S
n 1
c. Desvio Padrão;
O Desvio Padrão (S) é a raiz quadrada da Variância, obtido na equação abaixo:
n
X
i 1
i X
S
n 1
d. Coeficiente de Variação: é obtido por:
S
CV 100 (6)
X
Segundo Pimentel Gomes (1987), tem-se que:
o Se CV < 10%, a variabilidade é considerada baixa;
o Se 10% < CV < 20%, os dados apresentam baixa variabilidade;
o Se 20% < CV < 30%, a variabilidade é dita alta;
o Se CV > 30%, a variabilidade é considerada muito alta.
4. Estatística Descritiva para dados agrupados em tabelas de freqüência:
Só para lembrar, quando os dados estão agrupados em uma tabela, o valor fi
representa o número de vezes que o valor xi se repete. Assim, os valores da média e da
variância são calculados pelas respectivas fórmulas abaixo:
n n
X i fi
2
Xi 1
i
X fi
i 1
X e S
n n 1
10
11. Exercícios de Estatística Descritiva
1. Organize os dados abaixo em uma tabela de frequências, faça um histograma, um
boxplot e calcule a média utilizando a tabela e compare com a média encontrada
ao utilizar os dados: 23 26 31 46 21 37 33 48 41
44 80
2. Dado o conjunto: 1,2 1,9 1,5 1,1 1,7 2,0 1,7, determine:
a. Moda f. Média
b. Mediana g. Variância
c. Primeiro Quartil h. Desvio Padrão
d. Terceiro Quartil i. Coeficiente de Variação
e. Intervalo Interquartílico j. Amplitude
3. Em um bairro, foram entrevistados 11 casais e anotou-se o número de filhos. Os
resultados foram:
0 2 1 2 3 0 4 3 3 2 1
Pode-se afirmar que:
a. 50% dos casais têm mais que ____ filhos;
b. 25% dos casais têm menos que ____ filhos;
c. 75% dos casais têm menos que ____ filhos;
d. Faça um dotplot.
4. No semestre passado, um aluno da turma P13 tinha as notas a seguir para as
respectivas disciplinas:
Cálculo 1 5,2
Estatística 7,4
Geometria e Álgebra 6,3
Química Geral 5,7
Comunicação e L. 4,3
a. Faça um gráfico de barras;
b. Faça um gráfico de pizza.
5. Em uma prova de 10 questões, 1 aluno não acertou questão alguma, 2 alunos
acertaram todas, 2 alunos acertaram 4, 3 alunos erraram 2, 5 alunos acertaram 6
e 4 alunos erraram 3:
a. Classifique o conjunto de dados quanto à variabilidade;
b. Faça um histograma;
c. Faça um pictograma.
11
12. Capítulo 2 – Variáveis aleatórias
Uma outra área da Estatística, muito estudada é a Teoria das Probabilidades. O
termo probabilidade se refere ao estudo da incerteza e da aleatoriedade. Nesta teoria,
um experimento é qualquer ação cujo resultado está sujeito à incerteza, e o espaço
amostral de um experimento, geralmente representado por é o conjunto de todos os
resultados possíveis desse experimento.
Em geral, cada resultado de um experimento é associado a um número,
especificando-se uma regra de associação, por exemplo, “o número de vezes que um
aluno sai da sala na hora da explicação”. Esta regra de associação é chamada variável
aleatória. Variável porque é possível obter diferentes valores numéricos e aleatória
porque o valor observado depende de qual dos resultados possíveis do experimento é
obtido.
Uma variável aleatória discreta é uma variável cujos valores possíveis constituem
um conjunto finito, e é contínua se seu conjunto de valores possíveis consiste em um
intervalo completo da reta Real.
Exemplos:
a) Variável aleatória discreta: Número de filhos por casal em um bairro de Toledo;
Grau de escolaridade; Número de alunos na turma; etc.
b) Variável aleatória contínua: Horas; Peso dos alunos da turma; tempo que se
demora para tomar banho; etc.
Distribuições de Probabilidade
Em um certo experimento, quando são atribuídas probabilidades a diversos
resultados de , elas, por sua vez, determinam probabilidades associadas aos valores de
qualquer variável aleatória X. A distribuição de probabilidade de X expressa como a
probabilidade total 1 é distribuída entre os diversos valores possíveis de X.
As distribuições mais estudadas são: Distribuição Normal, Distribuição de
Bernoulli, Distribuição Binomial, Distribuição Hipergeométrica, Distribuição de Poisson,
Distribuição Gama, Distribuição Exponencial, entre outras.
12
13. Considere o experimento em que um aluno “tente” passar na disciplina de
Estatística. Se ele passar, terá sucesso S e se reprovar, terá fracasso F. Com = {S,F},
defina uma variável X como:
X(S) = 1 X(F) = 0
A variável X indica se o estudante pode (1) ou não (2) passar.
Assim, pode-se escrever a distribuição de probabilidade X como sendo:
1 se o aluno passar
X
0 se o aluno não passar
Definição: Qualquer variável aleatória cujos únicos valores possíveis são 0 e 1 é
denominada Variável aleatória de Bernoulli
Seja um experimento que satisfaça as seguintes condições:
O experimento consiste em uma seqüência de n experimentos menores
denominados tentativas, onde n é estabelecido antes do experimento;
Cada tentativa pode resultar em um de dois resultados possíveis, chamados de
sucesso (S) ou falha (F);
As tentativas são independentes, de forma que o resultado de qualquer tentativa
particular não influencia o resultado de qualquer outra tentativa.
A probabilidade de sucesso é constante de uma tentativa para a outra.
Denominamos essa probabilidade p.
Definição: Um experimento para o qual as condições 1-4 são satisfeitas é denominado
Experimento Binomial.
Definição: Dado um experimento binomial consistindo de n tentativas, a Variável
aleatória Binomial X a ele associada e definida como:
X = quantidade de S nas n tentativas
Exemplo: A mesma moeda é lançada sucessiva e independentemente n vezes. Suponha,
por exemplo que n = 3. Haverá então oito resultados possíveis para o experimento:
SSS SSF SFS SFF FSS FSF FFS FFF
A partir da definição de X, temos: X(SSS) = 3, X(SSF) = 2, ..., X(FFS) = 1 e X(FFF) = 0.
Os valores possíveis de X em um experimento de n tentativas são x = 0, 1, 2, ..., n.
13
14. A função distribuição de probabilidade (fdp) de uma variável aleatória é definida
para cada número x por p(x) = P(X=x) = P. Em outras palavras, para cada valor possível
de x da variável aleatória, a fdp especifica a probabilidade de observar aquele valor
quando o experimento for realizado. Por exemplo, no lançamento de um dado, P(X=2)
indica a probabilidade de que o valor resultante de X seja 2.
Definição: Seja X uma variável contínua. A distribuição de probabilidade ou função de
densidade de probabilidade (fdp) de X será, então, uma função f(x) tal que, para
quaisquer dois números a e b com a ≤ b,
b
P a X b f x dx
a
A distribuição normal é a mais importante de todas em probabilidade e em
estatística, já que muitos cálculos e suposições só podem ser realizados diante da certeza
de que a distribuição é normal.
Definição: Diz-se que uma variável contínua X possui distribuição normal com
parâmetros e , se a fdp de X for:
x 2
1
e 2
2
f x, , -<x<
2
14
15. Capítulo 3 – Amostragem
Aqui serão explicados três tipos de amostragem probabilísticos que existem na
literatura estatística e suas diferenças, com um exemplo de cada tipo.
Amostragem Aleatória Simples ou Casual
É uma amostragem na qual cada elemento de uma população tem a mesma
probabilidade de ser incluído na amostra, ou seja, os dados são escolhidos ao acaso.
Para escolher aleatoriamente os dados que farão parte da amostra, pode-se
recorrer à tabelas matemáticas (números randômicos), à calculadora científica, utilizando
a função RAN, ou também ao Programa Excell, que fornece números aleatórios através
da Janela Colar Função, opção Aleatório.
Ex.: Escolher 10 alunos de uma sala de aula de 40 para representarem a turma
em uma competição organizada pela escola.
Pelo processo de Amostragem Aleatória Simples, pode-se numerar os alunos de 1
à 40 e a seguir utilizar, por exemplo, a função RAN da calculadora científica e a partir dos
valores dados pela mesma, determinar os alunos que representarão a turma.
Amostragem Proporcional Estratificada
É utilizada quando a população em estudo pode se dividida em sub-populações,
que podem também ser chamadas estratos.
Ex.: Quer-se verificar a opinião dos moradores de um município quanto a
satisfação com relação aos órgãos públicos. Sabe-se que 3.500 pessoas são de classe
alta, 24,500 são de classe média e 42.000 de classe baixa. Obter uma amostra
significativa (que represente a população) de 300 moradores desta cidade.
A amostra deverá ser proporcional. Como há 70.000 habitantes, a amostra deverá
ser composta por: 5% por pessoas de classe alta, 35% de classe média e 60% de classe
baixa. Logo, 15 pessoas de classe alta, 105 de classe média e 180 de classe baixa.
Amostragem Sistemática
É um processo no qual a amostra é selecionada segundo um sistema já
elaborado. Ex.: Escolher 15 alunos de uma classe utilizando o número da chamada como
critério. Poderíamos, por exemplo, escolher apenas os alunos cujos números de chamada
são ímpares.
15
16. Capítulo 4 – Análise de Regressão
Nos casos estudados até agora, considerávamos apenas uma variável. De agora
em diante, estudaremos o caso de conjuntos de dados em que sejam coletadas
informações sobre duas ou mais variáveis. Isto caracteriza o estudo da Análise de
Regressão.
Muitas variáveis estão correlacionadas, por exemplo:
o Idade e altura das crianças
o Tempo de prática de esportes e ritmo cardíaco
o Tempo de estudo e nota na prova
o Taxa de desemprego e taxa de criminalidade
o Expectativa de vida e taxa de analfabetismo
Exemplo: Sejam duas variáveis “tempo de estudo” e “nota na prova de estatística”. Foram
escolhidos sete alunos ao acaso, e anotou-se suas notas e respectivas horas gastas para
estudar para a prova:
Nota 0 1,5 4,2 6,5 7,9 8,7 9,4
Horas de Estudo 0 0,5 1 1,8 2,3 2,5 3
Questão a ser considerada: Faz sentido, ou existe uma explicação lógica ou teórica para
que estas variáveis estejam relacionadas?
Nomeando as variáveis
o X = variável independente (explicativa);
o Y = variável dependente (explicada).
Em nosso exemplo:
o X = Horas de estudo
o Y = Nota obtida na prova
Investigaremos a existência de relação linear sob dois pontos de vista:
o Quantificando a força dessa relação: correlação.
o Explicitando a forma dessa relação: regressão.
16
17. Verificando a existência de relação Linear
o Através do diagrama de dispersão;
o Através do Coeficiente de Correlação Linear de Pearson.
Diagrama de Dispersão
É um gráfico de pontos, em que no eixo x ficam os dados da variável independente,
e no eixo y os valores da variável dependente. O diagrama de dispersão do nosso exemplo
é:
Coeficiente de Correlação Linear de Pearson
n
X
i 1
i
X Yi Y
r
n n
X Y Y
2 2
i X i
i 1 i 1
o r: coeficiente de correlação linear de Pearson;
o X : média dos valores de X;
o Y : média dos valores de Y;
o n: número de pares.
Sobre r pode-se afirmar:
o -1 ≤ r ≤ 1 sempre;
o r = 0: não existe relação linear;
o 0 < |r | ≤ 0,2: relação linear indefinida;
o 0,2 < |r | ≤ 0,4: relação linear fraca;
o 0,4 < |r | ≤ 0,7: relação linear acentuada;
o 0,7 < |r | < 1: relação linear forte;
o |r | = 1: ralação linear perfeita.
17
18. O sentido da Relação Linear
Pode ser verificado através do valor de r:
o se r < 0 – relação inversa;
o se r > 0 – relação direta.
Nosso Exemplo
o Qual o valor de r?
o Classifique a relação quanto sua força.
o Qual o sentido da relação?
A Regressão
Fazer a regressão entre dois conjuntos de dados, nada mais é, que verificar a
forma com que estão relacionados, ou seja, qual é a equação matemática, que nos
permite fazer previsões sobre valores não coletados.
Toda relação linear é da forma:
ˆ
y aX b
o ˆ
y : valores a serem estimados;
o X: valores da variável independente;
o a: taxa de variação de Y com respeito a X;
o b: variação de Y que não depende de X.
Determinando os valores a e b:
n X iYi X i Yi
a
n X i
2
X
i
2
b Y aX
Nosso Exemplo
o Determine qual é a ralação existente entre as variáveis.
o Verifique se uma pessoa que tivesse estudado 2,06 horas teria atingido a média?
18
19. Poder de explicação do Modelo
Para todo modelo de regressão podemos calcular uma estatística denominada
“Coeficiente de Determinação”, também chamado de “Coeficiente de Explicação do
Modelo”, representado por R2.
O R2 mede o percentual da variabilidade total da variável Y que é explicada pelo
modelo. Como R2 representa uma porcentagem, é um valor de 0 a 100%. Quanto maior
for R2 o ajuste é considerado melhor.
O cálculo de R2
n 2
yi Y
ˆ
R 2 i 1
n 2
yi Y
i 1
o ˆ
y é o valor estimado pelo modelo
o
y é o valor da variável Y
o Em Nosso Exemplo
Verifique, através do Coeficiente de Determinação, quanto da variável Y é
explicada pelo modelo encontrado.
19
20. Exercícios de Análise de Regressão
1) A taxa de eficiência de uma amostra de aço imersa em um tanque de fosfatação é
o peso do revestimento de fosfato dividido pela perda do metal (ambos em
mg/pés). O artigo “Statistical Process Control of a Phosphate Coating Line”
forneceu os dados a seguir sobre a temperatura do tanque (X) e a taxa de
eficiência (Y):
X 170 172 173 174 174 175 176 177 180 180
Y 0,84 1,31 1,42 1,03 1,07 1,08 1,04 1,08 1,45 1,6
a. Elabore um gráfico de dispersão dos dados. Há indícios de que a taxa de
eficiência pode ser prevista de maneira altamente satisfatória pelo valor da
temperatura?
b. Calcule o valor de r para verificar a existência de correlação linear entre
estas variáveis.
2) Os valores do módulo de elasticidade MOE (GPa) e a resistência à flexão (MPa)
foram determinados para um tipo de amostra de vigas de concreto, gerando os
dados a seguir:
MOE 29,8 33,2 33,7 35,3 35,5 41,0 45,6 48,0 62,6 79,5
Resistência 5,9 7,2 7,3 7,5 8,1 9,0 9,7 9,7 11,6 11,8
a. Faça um diagrama de dispersão e verifique se há indícios de que estas
variáveis estejam relacionadas linearmente;
b. Verifique se há correlação linear utilizando o coeficiente de correlação
linear de Pearson, e caso haja, determine o sentido e a força da relação;
c. Determine a relação linear;
d. Estime o valor da resistência para o módulo de elasticidade igual a 50 GPa;
e. Determine o poder de explicação do modelo criado;
3) Os dados a seguir representam a taxa de deposição (X) (mg/m2/d) de SO2 e a
perda de peso do aço (Y) (g/m2).
X 14 18 40 43 45 112
Y 280 350 470 500 560 1200
a. Elabore um gráfico de dispersão. O modelo de regressão linear simples
parece razoável nessa cisrcustância?
b. Calcule r e confirme sua resposta da letra (a);
c. Calcule a equação da reta de regressão;
d. Que porcentagem da variação observada na perda de peso do aço pode
ser atribuída à relação do modelo com a variação na taxa de deposição?
4) Verifique se existe relação linear entre as variáveis abaixo, utilizando o coeficiente
de correlação linear de pearson, diga a força da relação linear, se existir.
Adubo NPK (Kg) 200 250 300 350
Produtividade da soja (sc ha-1) 30 35 38 40
5) Determine a relação linear entre as variáveis, caso exista. Justifique.
Peso de uma criança (kg) 3 4 5 6
Idade (meses) 1 2 3 4
20
21. 6) Na tabela abaixo são apresentados os custos na fabricação de peças de
computadores, e o número de peças produzidas:
Custo (R$) Número de peças
produzidas (por hora)
78 16
94 20
100 24
120 28
Com base nos dados da tabela pede-se:
a. Faça um gráfico de dispersão para estas variáveis e verifique se há
indícios de correlação linear entre elas.
b. Verifique se existe correlação linear por meio do Coeficiente de Correlação
Linear de Pearson, e, caso haja correlação linear:
i. Classifique a relação quanto ao sentido (direta ou inversa).
ii. Diga se a relação é fraca, forte, acentuada, perfeita ou indefinida.
c. Determine a equação da relação linear, caso exista.
d. Qual seria o custo para a empresa, se fossem produzidas 75 peças?
7) A resistência do papel usado na fabricação de caixas de papelão (Y) está
relacionada à porcentagem da concentração de madeira de lei na polpa original
(X). Os dados dessas variáveis estão amostrados abaixo:
X 101,4 117,4 117,1 106,2 131,9 146,9 146,8 133,9 111,0 123,0 125,1 145,2
Y 1,0 1,5 1,5 1,5 2,0 2,0 2,2 2,4 2,5 2,5 2,8 2,8
a. Ajuste um modelo de regressão simples aos dados;
b. Estime a resistência se a porcentagem de madeira de lei for de 2,7;
c. Determine o poder de explicação do modelo.
8) A tabela abaixo apresenta o tempo de uma reação química baseado na
temperatura.
Tabela 1. Tempo de reação química x Temperatura
Temperatura Tempo
20 12,2
30 11,4
40 10,8
50 9,8
60 9,4
70 9,1
80 8,4
90 7,9
a) Faz sentido ou existe uma explicação lógica para que estas variáveis estejam
relacionadas? Caso a resposta seja sim, qual é a variável independente e qual a
dependente?
b) Faça um gráfico de dispersão para estas variáveis. Em sua opinião, os dados
parecem estar alinhados sobre uma reta?
c) Verifique se existe relação linear entre essas variáveis. ( r )
d) Qual o sentido e a força da relação?
e) Qual a relação existente? ( y = ax + b )
f) Quanto da variável Y é explicada pelo modelo? ( R2 )
21
22. 9) As equações abaixo representam a relação linear para os dados da tabela a
seguir. Determine qual a equação que melhor explica a variável Y, utilizando o
Coeficiente de Determinação. Se necessário, utilize os demais dados da tabela.
Equações:
ˆ
a. Y1 4,72 0,69 X
ˆ
b. Y2 5 0,65 X
ˆ
c. Y3 5 0,52 X
ˆ
d. Y4 4,9 0,6 X
Tabela 2. Nota que você vai tirar nesta prova dependendo do número de horas de estudo
Horas de
Estudo
Nota que você
vai tirar nesta
Y Y
i
2
Yˆ Y
1
2
Yˆ
2 Y
2
Yˆ
3 Y
2
Yˆ
4 Y
2
(Xi) prova (Yi)
2 5,5 4 1.96 1.44 2.1316 1.96
3 7,5 0 0.50 0.3025 0.8836 0.64
4,5 8,0 0.25 0.11 0.180625 0.03 0.01
6,5 9,0 2.25 2.91 2.975625 0.77 1.69
22
23. Capítulo 5 – Testes de Hipótese
Um Teste de hipóteses é utilizado quando desejamos verificar se uma hipótese
que temos a respeito de um conjunto de dados é verdadeira ou falsa. Para tal, fazemos
algumas continhas e concluímos com base em valores obtidos em tabelas. Todos os
testes aqui apresentados levam em consideração que a população tem distribuição
normal.
As Hipóteses:
o H0: é a hipótese nula, normalmente aquela que praticamente não possui
possibilidade de ocorrer;
o H1: é a hipótese alternativa, aquela que gostaríamos de provar ser verdade.
H0: _____
vs
H1: _____
Os tipos de erros:
Realidade
H0 verdadeira H0 falsa
Aceitar H0 Decisão Correta
Erro Tipo II ()
(1-)
Decisão
Rejeitar H0 Erro Tipo I () Decisão Correta
(1-)
As estatísticas do Teste: Cada teste possui uma estatística, normalmente
calculada por uma fórmula. Esta estatística sempre é comparada com um valor,
determinado Valor Crítico do Teste.
O valor crítico do Teste: É obtido geralmente em tabelas, e está associado ao nível
de significância e aos graus de liberdade.
Resultado do Teste: É sempre enunciado em termos de H0, ou seja, rejeita-se a
hipótese nula, ou não rejeita-se. Nunca se deve dizer que se aceita ou se rejeita a
hipótese alternativa.
23
24. Teste de Hipóteses para uma média com desvio padrão populacional conhecido
As hipóteses do Teste são:
1 2 3
H0: = 0 H0: = 0 H0: = 0
vs vs vs
H1: < 0 H1: > 0 H1: 0
Em todos os casos a Estatística do Teste é:
X 0
z
n
em que:
o X : média amostral
o 0 : média da hipótese
o : desvio-padrão populacional
Regra de Decisão:
Hipóteses Rejeita-se H0
H0: µ = µ0
vs z < - z
H1: µ < µ0
H0: µ = µ0
vs z > z
H1: µ > µ 0
H0: µ= µ0
vs |z| > z/2
H1: µ µ0
Exemplo: O desvio-padrão de uma população distribuída normalmente é conhecido e
igual a 22. Se uma amostra de cem elementos, retirada dessa população forneceu média
igual a 115,8, podemos afirmar que a média dessa população é inferior a 120 unidades,
ao nível de 5% de significância? Por quê?
Teste de Hipóteses para uma média com desvio padrão populacional desconhecido
As únicas coisas que mudam com respeito ao teste com desvio padrão conhecido, é a
estatística do teste e a regra de decisão:
X 0
t n1
S n
24
25. Regra de Decisão:
Hipóteses Rejeita-se H0
H0: µ = µ0
vs tn-1 < -tn-1,
H1: µ < µ0
H0: µ = µ0
vs tn-1 > tn-1,
H1: µ > µ 0
H0: µ= µ0
vs |tn-1| < tn-1, /2
H1: µ µ0
Exemplo: Em indivíduos sadios, o consumo renal de oxigênio distribui-se normalmente em
torno de 12 cm3/min. Deseja-se investigar, com base em cinco indivíduos portadores de
certa moléstia, se esta tem influência no consumo renal médio de oxigênio. Os consumos
médios para estes pacientes foram: 14,5 12,9 15,0 13,7 13,5. Qual a conclusão, ao
nível de 5% de significância?
Exercícios de Intervalo de Confiança e Teste de Hipóteses
1) Uma classe de 30 alunos determinou a energia de ativação de uma reação
química como 27,7 kcal/mol (valor médio), com um desvio padrão de 5,2 kcal/mol.
Os dados estão de acordo com o valor de 30,8 kcal/mol descrito na literatura em:
a. Um nível de confiança de 95%?
b. Um nível de confiança de 99%?
2) Um químico obteve os seguintes dados para o teor alcoólico de uma amostra de
sangue: % de C2H5OH: 0,084; 0,089 e 0,079. Determine o intervalo de confiança a
95% para a média, considerando:
c. Que os três resultados obtidos são os únicos (desvio padrão
desconhecido);
d. Que uma pesquisa anterior com centenas de amostras mostrou desvio
padrão igual a 0,005% de C2H5OH.
3) Determine o intervalo de confiança com 90% para a concentração de glicose
(mg/l) em pacientes com níveis elevados: 1,108 1,122 1,075 1,099 1,115
1,083 1,100 992 975 1,022 1,001.
4) Um novo procedimento automático para a determinação da glicose em soro
sanguineo (Método A) será comparado com o método estabelecido (Método B).
Ambos os métodos são realizados em amostras de sangue dos mesmos pacientes
para eliminar variabilidades entre os pacientes. Os resultados que seguem
confirmam uma diferença entre os dois métodos em um nível de confiança de
95%?
Paciente 1 Paciente 2 Paciente 3 Paciente 4 Paciente 5 Paciente 6
Glicose método A 1,044 720 845 800 957 650
Glicose método B 1,028 711 820 795 935 639
25
26. 5) Considere os seguintes conjuntos de réplicas de medidas:
A B C D E F
3,5 70,24 0,812 2,7 70,65 0,514
3,1 70,22 0,792 3,0 70,63 0,503
3,1 70,1 0,794 2,6 70,64 0,486
3,3 0,900 2,8 70,21 0,497
2,5 3,2 0,472
Calcule a média e o desvio padrão para cada um dos seis conjuntos de dados.
Calcule o intervalo de confiança de 95% para cada conjunto de dados. Qual o
significado desse intervalo?
6) O esgoto e os poluentes industriais lançados em um corpo de água podem reduzir
a concentração de oxigênio dissolvido e afetar negativamente espécies aquáticas.
Em um estudo, foram feitas leituras semanais no mesmo local em um rio durante
um período de dois meses.
Semana O2 dissolvido, ppm
1 4,9
2 5,1
3 5,6
4 4,3
5 4,7
6 4,9
7 4,5
8 5,1
Alguns cientistas consideram que 5,0 ppm é um nível de O2 dissolvido que é limítrofe
para a sobrevivência de peixes. Realize um teste de hipóteses para determinar se a
média da concentração de O2 dissolvido é menor que 5,0 ppm em um nível de
confiança de 95%. Defina claramente as hipóteses nula e alternativa.
26
27. Capítulo 6 – Planejamento Experimental e Análise de Variância
Para que se possa realizar um experimento, deve-se garantir uma Abordagem
Científica com dados apropriados e técnicas estatísticas adequadas
Princípios básicos do planejamento experimental
o Réplica: São repetições do experimento feitas sob mesmas condições
experimentais
o Aleatorização: Alocação do material experimental e ordem dos ensaios são
determinadas ao acaso
o Formação de blocos: Controlar efeito de efeitos perturbadores sob os quais não se
tem interesse.
Terminologia
o Unidade experimental: Unidade básica para a qual será feita a medida da
resposta.
o Fatores: Tipos distintos de condições que são manipuladas nas unidades
experimentais. Ou variáveis que tem influência na resposta.
o Nível de um fator: Diferentes modos de presença de um fator no estudo
considerado.
o Tratamento: Combinações específicas dos níveis de diferentes fatores.
o Ensaio: Cada realização de experimento em uma determinada condição de
interesse, ou, cada coleta de dados.
o Variável resposta: Resultado de interesse registrado após a realização de um
ensaio. Testemunha: Conjunto de parcelas que não recebe tratamento ou recebe
tratamento conhecido
o Bordadura: Áreas separadas da parcela para evitar influência dos tratamentos
aplicados em parcelas vizinhas
o Erro experimental: Duas parcelas que recebem o mesmo tratamento, não
apresentam necessariamente a mesma resposta; a variação existente é medida
pelo erro experimental.
Fases para realizar um experimento
o Identificação dos objetivos;
o Seleção da variável resposta;
o Escolha dos fatores e níveis;
o Planejamento do procedimento experimental;
o Realização do experimento – coleta de dados;
o Análise de dados;
o Interpretação dos resultados;
o Elaboração do relatório.
27
28. Análise de Variância – ANOVA
A Análise de Variância introduzida por R. A. Fisher compara a magnitude das
variações de mais de duas amostras. A terminologia ANOVA vem da expressão inglesa:
“ANalisys Of VAriance, chamando-se F-teste, em homenagem a Fisher.
Para realizar a ANOVA, primeiramente devemos entender o que significa
Inferência, inferir, é fazer predições sobre a população geral, baseado nessas
informações. Em seguida, opta-se por um dos tipos de delineamento experimental, e
pode-se optar entre fazer os cálculos manualmente, ou utilizar-se de softwares
estatísticos.
Tipos de experimentos
o Delineamento completamente casualizado;
o Delineamento em blocos casualizados;
o Delineamento fatorial;
o Delineamento hierárquico;
o Delineamento Split Plot;
o Delineamento Split Split Plot;
o Delineamento quadrado latino.
Delineamento Inteiramente Casualizado – DIC
Neste experimento, divide-se o local experimental, de forma que todas as parcelas
tem a mesma probabilidade de serem escolhidas, ou seja, elas são designadas de forma
totalmente aleatória.
Após ter decidido qual será o melhor delineamento experimental, procede-se à
obtenção da Tabela ANOVA, que será diferente para cada tipo de delineamento
experimental. Finalmente, observando o valor de F0 nessa tabela, compara-se com o
valor de F na Tabela F, em anexo.
ANOVA para delineamento inteiramente casualizado
Monta-se primeiro a tabela:
Em seguida, monta-se a tabela a seguir:
28
29. As fórmulas utilizadas são:
O Teste F e suas hipóteses
Para verificar se existem diferenças significativas entre as médias dos tratamentos em
estudo, testam-se as hipóteses:
H0: as médias são iguais
vs
H1: as médias são diferentes
Regra de decisão: Se F > F(k-1,n-k,), rejeita-se H0 ao nível de % de significância.
Exercício: Verificar se os três banhos de têmpera do exemplo são diferentes a 5% de
significância.
Testes de Comparação de Médias
Os mais conhecidos e utilizados são:
o Teste Tukey;
o Teste de Fisher;
o Teste de Duncan;
o Teste de Dunnet.
29
30. Exercícios de Análise de Variância
1) Alexiev e colaboradores desenvolveram um método espectrofotométrico para a
determinação de Fe3+ baseado no seu efeito catalítico sobre a oxidação do ácido
sulfanílico pelo periodato de potássio (KIO4). Como parte do estudo, foi
determinada a concentração de Fe3+ no plasma sanguíneo de humanos por meio
do método proposto e do método padrão de análise. A seguir são apresentados os
resultados obtidos, com as concentrações em micromoles/L.
Verificar se o método proposto é igual ao método padrão, ao nível de 5% de
significância.
2) Cinco analistas obtiveram os resultados (mmol de Ca), mostrados na tabela que
segue, para determinação de cálcio por um método volumétrico. As médias
diferem significativamente em um nível de confiança de 95%?
Réplica Analista 1 Analista 2 Analista 3 Analista 4 Analista 5
1 10,93 9,5 12,1 9,6 11,6
2 9,8 8,6 13,0 8,3 12,5
3 11,4 8,9 12,4 8,2 11,4
3) Dois métodos analíticos diferentes foram usados para determinar cloro residual em
efluentes de esgoto. Ambos os métodos foram usados nas mesmas amostras,
mas cada amostra foi coletada em vários locais, com tempos de contato diferentes
com o efluente. A concentração de Cl, expressa em mg/l, foi determinada pelos
dois métodos e os seguintes resultados foram obtidos:
Amostra Método A Método B
1 0,39 0,36
2 0,84 1,35
3 1,76 2,56
4 3,35 3,92
5 4,69 5,35
6 7,7 8,33
Verifique se o método utilizado não é significativo a 10% de significância.
30
31. 4) Cinco laboratórios diferentes participaram de um estudo interlaboratorial
envolvendo determinações dos níveis de Fe em amostras de água. Os seguintes
resultados são réplicas de determinações de PPM de Fe para os laboratórios A-E.
Resultado Lab A Lab B Lab C Lab D Lab E
1 10,3 9,5 10,1 8,6 10,6
2 11,4 9,9 10,0 9,3 10,5
3 9,8 9,6 10,4 9,2 11,1
a) Defina as hipóteses apropriadas.
b) Os laboratórios diferem a 99% de confiança?
5) O teor de fósforo foi medido em três solos diferentes locais. Cinco réplicas de
medidas foram feitas para cada amostra de solo. Uma tabela ANOVA parcial é
mostrada a seguir:
Fonte SQ1 gl2 QM3 F
de Variação
Tratamento
Resíduos 0,0081
Total 0,374
1- Soma dos Quadrados
2- Graus de liberdade
3- Quadrados médios
a. Preencha os campos vazios (corretamente)
b. Defina as hipóteses nula e alternativa
c. Os três solos diferem nos teores de fósforo em um nível de significância de
1%?
31