Aprender que a estatística ajuda a responder as
suas perguntas;
Entender o que são parâmetros a serem
utilizados nos testes estatísticos;
Ser apresentado às distribuições de
probabilidade e suas inferências;
Conhecer as 3 formas de trabalhos estatísticos:
Exploração
Teste de Hipóteses
Predição
2. Objetivos
• Aprender que a estatística ajuda a responder as
suas perguntas;
• Entender o que são parâmetros a serem
utilizados nos testes estatísticos;
• Ser apresentado às distribuições de
probabilidade e suas inferências;
• Conhecer as 3 formas de trabalhos estatísticos:
– Exploração
– Teste de Hipóteses
– Predição
5. Conceitos básicosEstatística
- Em Deus nós confiamos. Para o todo resto são necessários
dados. W. E. Deming
- Todos os modelos são errados, mas alguns são úteis. George
Box
- Existem três tipos de mentiras: as boas mentiras, as más
mentiras e as estatísticas. Benjamin Disraeli
- Estatísticas são como bikinis. O que eles relevam é
sugestivo, mas o que eles escondem é vital. Aaron Levenstein
- Estatística é usada da mesma maneira que um poste por
um bêbado: para suporte, não como iluminação. Vin Scully
8. Distribuições de Probabilidades
•A representação da variabilidade e
diversidade é um aspecto fundamental nas
ciências da vida
x
8 10 12 14 16 18 20
0.000.050.100.150.20
8 10 12 14 16 18 20
x ± s
78 %
x
-2 -1 0 1 2 3
0.00.10.20.30.40.5
-2 -1 0 1 2 3
x ± s
66 %
x
0 2 4 6 8 10 12 14
0.000.050.100.150.20
0 2 4 6 8 10 12 14
x ± s
78 %
Imagens:Bioestadística. U. Málaga.
16. -3 -2 -1 0 1 2 3
0.00.10.20.3
densidad
-3 -2 -1 0 1 2 3
x ± s
66 %
x ±2s
95 %
-3 -2 -1 0 1 2 3
0.00.10.20.3
densidad
-3 -2 -1 0 1 2 3
x ±s
71 %
x ± 2s
94 %
-3 -2 -1 0 1 2 3
0.00.10.20.30.4
densidad
-3 -2 -1 0 1 2 3
x ± s
68 %
x ±2s
94 %
-3 -2 -1 0 1 2 3
0.00.10.20.3
densidad
-3 -2 -1 0 1 2 3
x ±s
70 %
x ± 2s
94 %
Bioestadística. U. Málaga.
17. Bioestadística. U. Málaga.
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0.00.51.01.52.0
0.0 0.2 0.4 0.6 0.8 1.0
x±s
57 % Apuntada como la normal
-3 -2 -1 0 1 2 3
0.00.10.20.3
-3 -2 -1 0 1 2 3
x± s
68 %
Apuntada
-2 -1 0 1 2
0.00.20.40.60.8
-2 -1 0 1 2
x± s
82 %
18. Conceitos básicos
POPULAÇÃO:
conjunto absoluto do seu
objeto de estudo, que
apresenta ao menos
uma característica em
comum. Dela se obterá
um PARÂMETRO.
PARÂMETRO:
Quantidade numérica
que caracteriza uma
população.
PARÂMETRO
ESTATÍSTICO:
É referente à AMOSTRA
23. Como são os seus dados?
Qualitativos?
•Ordinais
•Nominais
Quantitativos?
•Discretas
•Contínuas
QUAL É O SEU OBJETIVO?
24. Conceitos básicosMétodo Científico
DEFINIÇÃO DO TEMA -
OBJETIVO
PLANEJAMENTO DA PESQUISA
EXECUÇÃO DA PESQUISA –
Coleta dos dados
ANÁLISE e INTERPRETAÇÃO
DOS DADOS
CONCLUSÃ
O
RESULTADOS
Apresentação dos dados e
testes
Métodos de Amostragem
Estatística
Descritiva e
Analítica
Background teórico
25. Exploração de dados
• Construção de tabelas
– Dados Brutos
– Parâmetros
• Construção de gráficos
– Observação
– Explicação
26. TABELASAspectos básicos
- Toda tabela deve ser simples, clara e objetiva ;
- Toda tabela deve ser autoexplicativa;
- Nenhuma célula deve ficar em branco;
- Deve ser mantida a uniformidade de casas decimais.
27. • Qualquer tipo de variável
(qualitativa/quantitativa)
• Conceitos: Linhas e Colunas
• Fundamental para se criar os gráficos
TABELASAspectos básicos
37. Medidas de Tendência
Central - Resumo
• Média: Valores razoavelmente homogêneos
• Mediana: Valores heterogêneos
• Moda: Quando ocorrem muitas repetições
Análise e Interpretação
dos dados
38. Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = (3-6,5)+(9-6,5)+(4-6,5)+(10-6,5) = 0
Medidas de
Dispersão
VariânciaA = (6-6,5)+(7-6,5)+(6-6,5)+(7-6,5) = 0
Análise e Interpretação
dos dados
39. Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = (3-6,5)²+(9-6,5)²+(4-6,5)²+(10-6,5)²
Medidas de
Dispersão
VariânciaA = (6-6,5)²+(7-6,5)²+(6-6,5)²+(7-6,5)²
Análise e Interpretação
dos dados
40. Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = 37
Medidas de
Dispersão
VariânciaA = 1
Análise e Interpretação
dos dados
41. Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
VariânciaB = 37
Medidas de
Dispersão
VariânciaA = 1 /4
/4
Análise e Interpretação
dos dados
42. Aluno A: 6; 7; 6; 7
Aluno B: 3; 9; 4; 10
Análise e Interpretação
dos dados
Medidas de
Dispersão
43. Análise e Interpretação
dos dados
Medidas de
Dispersão
Variância (S² ou σ2
) e Desvio Padrão (S ou σ)
Populacional:
Amostral:
σ2
44. Regras
–Estética
• Eixos semelhantes.
–Ordem
• Abscissas (Horizontal): valores aumentam da
esquerda pra direita
• Ordenadas (Vertical): valores aumentam de
baixo para cima
–Informação
• Nomes dos eixos e variáveis (com escala)
–Autoria
• Fonte dos dados
Gráficos
51. Fonte: Rodrigo A.S. Pereira (USP-Ribeirão Preto)
> qqnorm(x)Meus dados são normais?
52.
53. Teste de Hipóteses
• Baseada no método hipotético-dedutivo
• “Hipóteses falseáveis”
• Erro tipo-I e tipo-II
54. Teste de Hipóteses
Hipótese: afirmação ou asserção sobre uma
propriedade da população.
Teste de Hipóteses (ou teste de significância):
testar uma afirmação sobre uma propriedade
da população
55. Teste de Hipóteses
“Todos os cisnes são brancos”
Método hipotético-dedutivo
Evidência de presença contrária HIPÓTESE FALSEADA
56. Teste de HipótesesMétodo hipotético-dedutivo
• Hipótese Nula (H0): valor do parâmetro
que se assume como verdadeiro para a
população.
Tem que ser uma afirmação escrita na
forma de uma igualdade (=)
Conclusão: Rejeita-se ou não H0
58. Teste de Hipóteses
H0 é
verdadeira
H0 é falsa
Rejeita-se
H0
Erro Tipo I
(α)
DECISÃO
CORRETA
Aceita-se
H0
DECISÃO
CORRETA
Erro Tipo II
(β)
falso negativo
falso positivo
61. Distribuição t de Student
Curva de densidade de Probabilidade
• Simétrica em relação à média;
• Depende do grau de liberdade,
gl;
• Quanto mais gl aumenta, mais
a distribuição t tende à Normal
padrão.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
-4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00
Normal
T1gl
T5gl
T30gl
64. Fonte: Alexandre A. Oliveira (IB-USP)
H0: Mandíbulas de Chacais machos e fêmeas são iguais (mesmo tamanho)
65. Região crítica (ou região de rejeição ou zona de
rejeição): Conjunto de valores da estatística de teste
que nos levam a rejeitar a hipótese nula.
66. P-value (ou p-value ou valor da probabilidade):
Probabilidade de obter um valor da estatística de teste
que seja pelo menos tão extremo quanto o
representado pelos dados, admitindo que a hipótese
nula é verdadeira.
A hipótese nula é rejeitada se o P-value for
muito pequeno, digamos 0.05 (5%) ou inferior.
73. Análise de Variância
(ANOVA)
Conclusão: Como a probabilidade de erro Tipo I
é considerada baixa (2,5%), assumimos que há
diferença entre os grupos de solo quanto a
variável estudada.
H0 da ANOVA
Não rejeitada
(α>0,05)
Rejeitada
(α<0,05)
Teste HSD (Tukey)
encontrar médias diferentes
entre os grupos
74. ANOVA e Tukey’s HSD
Exemplo: http://www.scielo.br/img/revistas/aseb/v28n2/2a03f1.jpg
76. Análise de Variância
(ANOVA)
OBSERVAÇÕES:
- Cada observação é independente das demais;
- Cada tratamento tem distribuição normal;
- Todas as distribuições têm a mesma variância; e
- ANOVA com 2 tratamentos (r = 2) é similar a um
teste t bilateral (homocedástico).
79. 1) Identificar H0 e H1.
2) Decidir o nível de significância,
3) Escolher uma estatística de teste
apropriada.
4) Identificar a região de rejeição.
5) Efectuar os cálculos para determinar o valor
da estatística de teste.
6) Concluir pela rejeição ou não de H0.
Teste de HipótesesEtapas
85. Fonte: João L.F. Batista (ESALQ-USP)
A variável resposta é uma variável normal (Gaussiana) sendo
que:
Sua média é uma função linear das variáveis preditoras;
Seu desvio-padrão é constante;
LOGO: resíduos com média zero e variância
y = a.x + b + ε
GLM: pode utilizar
outras distribuições de
Probabilidade
86. Predição x Explicação
Modelo estatístico ou
algoritmo de seleção de
dados com o objetivo de
predizer novas e futuras
observações
•“Aplicada”
Modelo estatístico para
testar hipóteses causais
•“Básica”
É diferente de Exploração
(correlação dos dados)
http://arxiv.org/pdf/1101.0891.pdf
Shmueli, G. 2010.To Explain or to Predict? Statistical Science 25(3): 289-310
94. Análise dos dados Muito fácil de usar (e em
Bio
http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-ve
Restrições:
-Análises mais
avançadas;
-Lembrar quais
“botões apertar”
95. Análise dos dados TODA e QUALQUER
ANÁLISE ESTATÍSTICA
(de graça, código aberto)
R
https://cran.r-project.org
96. Análise dos dados Facilidades do R
Use R!
http://www.springer.com/series/6991?detailsPage=titles
97. Análise dos dados Facilidades do R
Novas formas analíticas, ou correções, são
feitas na linguagem R
Livros tem tutoriais para aprender a
programar E melhor entender as análises
Se não encontrar um livro, procure na
internet
Sites interessantes (mas tem muitos outros):
http://www.statmethods.net/index.html
http://zoonek2.free.fr/UNIX/48_R/all.html
http://ecologia.ib.usp.br/bie5782/doku.php?id=star
http://www.estatisticanor.xpg.com.br/
99. Objetivos foram cumpridos?
• Consegue diferenciar entre testes paramétricos e
não-paramétricos?
• Entendeu o que é o p-valor e o que significa 5%?
• Entendeu que não há fórmulas prontas para
construção de gráficos, mas existem as melhores
sugestões?
100. Cursos disponíveis na internet
https://www.coursera.org/course/introstats
https://www.coursera.org/course/exdata
http://cmq.esalq.usp.br/BIE5781/doku.php?id=00-
modelagem:00-modelagem
http://cmq.esalq.usp.br/wiki/doku.php?id=publico:tutoriais:r-relam