Bioestatística

2.424 visualizações

Publicada em

Uma aula de (Bio)Estatística que fiz para ajudar uns colegas a não confundir conceitos (ex: homo e heterocedasticidade, valor de "p", nível de significância, hipóteses nula e alternativa, etc). Espero que seja útil para alguém! Acredito que a aula esteja bem didática e ajude na compreensão da estatística básica ministrada em aulas de (Bio)estatística!

Publicada em: Ciências
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
2.424
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
116
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Bioestatística

  1. 1. O que é estatística? • Estatística é a ciência que se ocupa de coletar, organizar, analisar e interpretar dados para que se tomem decisões. Média • Valor que “representa” vários outros. Ex: Qual foi sua média em fisiologia no segundo semestre? Suas notas: 9,3; 6,2; 8,5; 5,2. • “S” = Soma das notas • “n” = número de notas que você teve • “M” = Média. M = S/n = 9,3 + 6,2 + 8,5 + 5,2/4 = 7,3
  2. 2. Medidas de dispersão • Muitas vezes a média não é suficiente para avaliar um conjunto de dados. Por exemplo: • Grupos de mulheres com idade média de 18 anos. Esse dado, sozinho, não significa muito.No grupo, podem ter muitas mulheres de 24 anos, outras com 38 anos, e outras tantas com 3 anos de idade. • Dispersão – diferença existente entre a média e os valores do conjunto. • Vamos calcular o desvio (diferença de cada nota em relação à média): Notas Média Desvio 9,3 7,3 2 6,2 7,3 -1,1 8,5 7,3 1,2 5,2 7,3 -2,1
  3. 3. • Outro dado importante em estatística: Soma dos desvios ao quadrado. • Cada desvio é elevado ao quadrado e, em seguida, somados. Variância • Soma dos quadrados dos desvios dividida pelo número de ocorrências • V = 11,06/4 = 2,765 Notas Média Desvio Quadrado dos desvios 9,3 7,3 2 4 6,2 7,3 -1,1 1,21 8,5 7,3 1,2 1,44 5,2 7,3 -2,1 4,41 Soma dos quadrados dos desvios 11,06
  4. 4. Desvio padrão • Valor obtido a partir da média e da variância • Desvios foram elevados ao quadrado, portanto, deve-se tirar a raiz quadrada da variância para achar o desvio padrão: • Dp = Raiz quadrada (2,765) = 1,663 • O desvio é o quanto varia para mais ou para menos o valor das notas • Desempenho: “M+Dp” e “M-Dp” • D = 7,3 + 1,7 = 9 • D = 7,3 - 1,7 = 5,6 Notas Desvio Padrão (+) (-) 9,3 1,7 11 7,6 6,2 1,7 7,9 4,5 8,5 1,7 10,2 6,8 5,2 1,7 6,9 3,5
  5. 5. Erro Padrão de Estimativa • Amostra qualquer de tamanho “n” – Média aritmética populacional • Outra amostra aleatória – Média aritmética difere da primeira amostra • Variabilidade das médias – Erro padrão (precisão do cálculo da média populacional) • Sx = s/raiz quadrada (n) • Sx = erro padrão • s = desvio padrão • n = tamanho da amostra • Observação: quanto melhor a precisão no cálculo da média populacional, menor será o erro padrão.
  6. 6. • Exemplo 1: Numa população obteve-se o desvio padrão de 3,52 com uma amostra aleatória de 76 elementos. Qual o provável erro padrão? • Sx = n/raiz quadrada (n) • Sx = 3,52/raiz quadrada (76) • Sx = 3,52/8,717797887081347 • Sx = 0,404 (a média pode variar para mais ou para menos nesse valor) • Exemplo 2: Numa população obteve-se desvio padrão de 1,43 com uma amostra aleatória de 134 elementos. Sabendo que para essa mesma amostra obteve-se uma média de 7,75, determine o valor mais provável para a média dos dados. •Sx = n/raiz quadrada (n) •Sx = 1,43/raiz quadrada (134) •Sx = 0,123 • Média = 7,75 +/- 0,12 (a média pode ser 7,87 ou 7,63)
  7. 7. Média x Mediana • Média – Soma das observações divididas pelos nos de observações. • Média de: 3, 3, 4, 5, 5, 5, 6, 8, 9 = (3+3+4+5+5+5+6+8+9)/9 = 5,33 • Mediana = Número que ocupa a posição central da série de observações. • Determine a mediana das duas séries de dados: (a) 8, 4, 9, 5, 5. (b) 7, 5, 2, 4, 5, 9. Respostas: (a) Para séries pares 4, 5, 5, 8, 9 (o valor em negrito é a mediana) (b) Para séries ímpares 2, 4, 5, 5, 7, 9 = (2+4+5+5+7+9)/2 = 16 *** Média + Desvio padrão. *** Mediana + Erro padrão.
  8. 8. Diferença entre Mediana e Moda • Mediana = Número que ocupa a posição central da série de observações. • Moda = Valor que detém o maior número de observações; o valor que ocorre com maior frequência num conjunto de dados (valor mais comum). É especialemnte útil quando os valores ou observações não são numéricos, uma vez que mediana e média podem não ser bem definidas. • Amodal – não possui moda {1,5,9,2,6,3,4,8,7} • Multimodal – possui mais do que dois valores modais. {1,1,2,5,5,3,4,7,7,8,9} • Bimodal – possui dois valores modais {1,4,7,7,9,9} {pêra, uva, laranja, pessego, pessego, pessego, abacaxi}
  9. 9. Teste t-Student • Teste de hipóteses – Conceitos estatísticos para rejeitar ou não uma hipótese nula, ou seja, quando a estatística do teste, na verdade, segue uma distribuição normal, mas a variância da população é desconhecida. Hipótese nula – Apresentada sobre determinados fatos estatísticos, e cuja falsidade de um determinado teste de hipóteses tenta-se provar. Geralmente a hipótese nula afirma que não existe relação entre dois fenômenos medidos. Ex: (1) Um aumento de 5% no preço de um determinado produto não afetará adversamente as vendas dele. (2) O aumento da diferença de potencial não afeta a corrente em um condutor. • Hipótese que pretende-se confrontar com os dados. • Quando não é possível ou viável observar toda a população – observação de uma amostra aleatória da população (parâmetro mais frequente – média + desvio padrão). • Muitas vezes a hipótese nula consiste em afirmar que os parâmetros ou características matemáticas de duas ou mais populações são idênticos, ou seja, uma igualdade (hipóteses simples).
  10. 10. Hipótese Nula (H0) • Duas amostras aleatórias de caranguejos. Uma amostra oriunda do Manguezal do Portinho da Praia Grande e a outra amostra oriunda do Manguezal Guaratuba de Bertioga. Queremos ver se existe diferença no tamanho dos indivíduos dessas duas populações. A hipótese nula seria - "que a média do tamanho dos indivíduos amostrados da população de Praia Grande é a mesma dos indivíduos amostrados em Bertioga.“ H0: u1 = u2 • u1 = a média do tamanho dos indivíduos da população 1 • u2 = a média do tamanho dos indivíduos da população 2 H0: u1-u2 = 0 (α = 0,05) * α - nível de significância mais comumente aceito. • Duas decisões podem ser tomadas: (1) Rejeitar a hipótese nula (2) Não rejeitar a hipótese nula – Salienta-se que não rejeitar a hipótese nula significa apenas que não se conseguiu, através dos dados disponíveis, demonstrar a sua falsidade, o que difere completamente de provar a sua veracidade. Analogia: Nos processos judiciais, a hiótese nula seria que o réu é inocente. Durante o julgamento tenta-se provar a falsidade desta hipótese, ou seja, que o réu é culpado. Entretanto no caso de não conseguir provar a culpa, isso não significa que o réu seja inocente; significa apenas que não foram encontradas provas suficientes. O fato de não se poder “aceitar” a hipótese nula, porém apenas “não a rejeitar”, tem a ver com os erros que podem ser cometidos ao rejeitar ou não rejeitar a hipótese.
  11. 11. Hipótese Alternativa (H1) • Hipótese contraditória a hipótese nula. • A escolha do par hipótese nula/hipótese alternativa depende do contexto do problema, do parâmtero que se deseja testar e das conclusões a que se pretende chegar. Deve-se sempre levar em conta que a hipótese nula é sempre formulada sob a forma de igualdade. • Hipótese nula (H0: u = 0) • Hipótese alternativa (H1: u # 0; H1: u < 1; H1: u > 1) • Cada par de hipótese nula/hipótese alternativa conduz a um teste de hipóteses diferente. Uma diferente hipótese alternativa pode conduzir a uma decisão diferente em comparação a hipótese nula.
  12. 12. Diferença entre nível de significância (α) e o “Valor-p” • Não confundir nível de significância com probabilidade de significância • Ex: Ao fazer um teste com uma média, se fosse possível repetir um número muito grande de amostras para calcular a média, em aproximadamente 5% dessas amostras, seria rejeitada a hipótese nula quando esta é verdadeira. Experimento real: 1 amostra qualquer 5% onde a hipótese nula é realmente verdadeira. 95% onde a hipótese nula é realmente falsa. * Estabelece-se o intervalo de confiança • Intervalo de confiança de 95% - equivalente a um Erro do Tipo 1 (5%). • Tem-se a confiança que o intervalo contêm o parâmetro estimado. • Uma vez que reporta-se um intervalo numérico, o parâmetro populacional desconhecido ou está dentro do intervalo ou fora; não existe uma probabilidade desse intervalo conter o parâmetro. *Necessidade testes!
  13. 13. Diferença entre nível de significância (α) e o “Valor-p” • Probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula.
  14. 14. Teste t-Student (Teste de hipóteses) – Conceitos estatísticos para rejeitar ou não uma hipótese nula, ou seja, quando a estatística do teste, na verdade, segue uma distribuição normal, mas a variância da população é desconhecida. Distribuição normal (normalidade) – Conhecida também como Distribuição de Gauss ou Gaussiana. A lei da distribuição normal de erros, apresenta uma curva em formato de sino, utilizada por todos que trabalham com estatística. A área em azul escuro está a menos de um desvio padrão(σ) da média. Em uma distribuição normal, isto representa cerca de 68% do conjunto. Dois desvios padrões desde a média (azul médio e escuro) representam cerca de 95% do conjunto. Já os três desvios padrões (azul claro, médio e escuro) cobrem cerca de 99,7% do conjunto.
  15. 15. Variância • A variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.  Variável aleatória – pode ser entendida como uma variável quantitativa, cujo resultado (valor) depende de fatores aleatórios. • A variância não é medida ponto a ponto (é a "distância média") entre a média das amostras e seus pontos... Ex: Temos dois pontos 1 e 3, a média é 2 e a variância é 1, pois cada um dos pontos está distante em uma unidade da média. Homo e heterocedasticidade (medida de dispersão da variância, não tem nada a ver com o valor do “p”. O “p” valida se uma hipótese é nula ou alternativa) HETEROCEDASTICIDADE - Forte dispersão dos dados em torno de uma reta. * Uma distribuição de frequências em que todas as distribuições condicionadas têm desvios padrão diferentes. HOMOCEDASTICIDADE - Os dados regredidos encontram-se mais homogeneamente e menos dispersos (concentrados) em torno da reta de regressão do modelo.
  16. 16. Nível de significância de 5% α = 0,05
  17. 17. Nível de significância de 5% α = 0,05 “variâncias desiguais" (p ≤ 0,05) Necessidade de utilizar um teste não paramétrico.
  18. 18. Testes paramétrico e não paramétrico PARAMÉTRICO: Refere-se a média e ao desvio-padrão, que são parâmetros que definem as populações que apresentam distribuição normal. NÃO PARAMÉTRICO: Refere-se a mediana e erro padrão. Razão para a transformação dos dados • Quando algum dos requisitos para o emprego da estatística paramétrica (normalidade da distribuição dos erros, homogeneidade das variâncias e aditividade dos efeitos dos fatores de variação) não puder ser preenchido pelos dados da sua amostra experimental, o pesquisador ainda pode tentar o recurso da transformação dos dados, antes de optar pela aplicação da estatística não-paramétrica. É um recurso que sempre vale a pena tentar, porque a estatística paramétrica é evidentemente mais poderosa que a não-paramétrica. • A estatística não-paramétrica foi desenvolvida como um recurso complementar, destinado a suprir a necessidade de testes estatísticos nos casos em que alguma restrição desaconselhava o uso da estatística paramétrica, ou quando a própria natureza dos dados, muitas vezes não exatamente numéricos, vedava a aplicação desta.
  19. 19. • Executando o teste t-Student (paramétrico) • “p” bicaudal (ou bilateral): utilizado quando interessam os resultados de ambos os lados da curva. • “p” monocaudal (ou unilateral): usado quando são importantes os resultados de apenas um lado da curva. Resposta: Em ambas as latitudes os animais apresentaram LC com tamanhos semelhantes. (t = 1,5429; p = 0,1254; gl = 1185) Outros (n) valores
  20. 20. . . Amostragem de dados não paramétricos • Teste t-Student (independência). • Programa mostra: “variâncias desiguais" (p ≤ 0,05) • Aplicação da estatística não-paramétrica. Teste Mann Whitney (Teste U) - Os valores de “U” calculados pelo teste avaliam o grau de entrelaçamento dos dados dos dois grupos após a ordenação. • Determinada população tende a ter valores “extremos”. • Distribuições não normais (mistura de distribuições normais). Resposta: Existe diferença na densidade populacional das duas latitudes. A diferença mediana de Uca leptodactylus é maior em Aracaju do que em Bertioga. ( Mann-Whitney: U = 582; p<0,0001). Outros (n) valores
  21. 21. . . ANOVA (Análise de Variância) – Teste F • Visa fundamentalmente verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. Dessa forma, permite que vários grupos sejam comparados a um só tempo (fatores podem ser de origem qualitativa ou quantitativa), porém a variável dependente deverá necessariamente ser contínua*. *Qualquer valor numérico em um determinado intervalo ou coleção de intervalos. Ex: Lançamento de um disco – distância classificatória máxima de 50m e distância classificatória mínima de 20m. Tem-se que 20 ≥ X ≤ 50. Esse intervalo permite infinitas interpretações. O disco poderia cair, por exemplo em 49 metros, 52 centímetros e 20 milímetros. • Teste paramétrico (variável de interesse deve ter distribuição normal) e os grupos devem ser independentes.
  22. 22. . . ANOVA (Análise de Variância) • Compara várias médias ao mesmo tempo - variável contínua x variável categórica. • Nos diz se existe diferença entre pelo menos um par de médias das categorias de exposição (diferentes tratamentos). Diferença entre Teste t-Student x Análise de Variância (ANOVA) • Se H0 não for rejeitada, não é preciso fazer mais nada. • Se H0 for rejeitada, testamos dentro dos subgrupos de médias se há alguma que seja diferente das demais. Pressupostos para a realização da ANOVA • Distribuição aproximadamente normal • Variância dos dados é semelhante para todos os grupos comparados • Observações são independentes (Infinitas interpretações) (Salinidade e temperatura)
  23. 23. One-way ANOVA (1 entrada) Ex 1: Quantificação de plasmídeos internalizados por espermatozóides bovinos sexados e não sexados utilizando DNA circular e linear. *Unsorted – Indiferenciados; *X-Clasificados; Y-Classificados.
  24. 24. Two-way ANOVA (2 entradas) Ex: Avaliação da expressão do gene KRAS de células tumorais tratadas com diferentes concentrações (1, 10, 100) dos compostos X,Y,Z.
  25. 25. Factorial ANOVA (2 ou mais entradas) • Comparação de médias com dois fatores ou mais. Ex: Avaliação da expressão gênica de células tumorais A549 tratadas com diferentes compostos antitumorais, com diferentes concentrações em tempos diferentes.
  26. 26. Testes post-hoc (“a posteriori”) [ANOVA] • São realizados apenas se houver diferenças significativas entre as médias (p < 0,05) • Identificam onde está a diferença e quais são os grupos que diferem. • Existem diversos testes post-hoc. Ex: • Tukey [mais usado e mais exigente] • SNK (Student-Newman-Keuls) •Distribuição aproximadamente normal (SIMÉTRICA) • Variância dos dados é semelhante para todos os grupos comparados • Observações são independentes
  27. 27. Teste deTukey (Teste de comparação de médias) (1) É um dos testes de comparação de média mais utilizados, por ser bastante rigoroso e de fácil aplicação; (2) Não permite comparar grupos de tratamentos (“grupos de médias”) entre si; (3) É utilizado para testar toda e qualquer diferença entre duas médias de tratamento; (4) É aplicado quando o teste “F” para tratamentos de análise de variância for significativo. (5) Base – A Diferença Mínima Significativa (D.M.S.)
  28. 28. Teste deTukey
  29. 29. One-way ANOVA (1 entrada) Ex 2: Em seu TCC, Murilo resolveu avaliar o impacto de um determinado detergente sobre a abundância de Nematodas em praias. Para isso ele escolheu duas praias que não recebiam resíduos do detergente (praias 1 e 2) e outras duas praias que sim (praias 3 e 4). As quatro praias tinham características muito parecidas e a contaminação era o principal fator variável. Qual a conclusão que o pesquisador chegou com os dados coletados? Descreva, em um pequeno texto, o resultado encontrado e o teste utilizado. Represente graficamente. Resposta: Foi realizado primeiramente a ANOVA (1 critério) (ANOVA (F): 6,0696; p = 0,0015), pois tratam-se de 4 amostras independentes, e a posteriori o teste Tukey. Este demonstrou que as médias das praias 1 e 2 não apresentaram diferenças significativas, dessa forma receberam a letra (a), e a média das praias 3 e 4 também não tiveram diferenças significativas, recebendo a letra (b). Já as médias entre as praias 1 e 3; 1 e 4; 2 e 3, 2 e 4 foram diferentes (p< 0,05). Através da análise da Figura 1, infere-se que a abundância de nematodas nas praias é inversamente proporcional quanto ao despejo dos resíduos de detergente, sendo assim conclui-se que o impacto nas praias 3 e 4 é considerável.
  30. 30. Teste SNK (Student-Newman-Keuls) • Procura contornar os inconvenientes do teste t-Student, quando mais de dois tratamentos estão envolvidos no experimento. • O teste procura ajustar o valor de “t” de acordo com as distâncias entre as médias ordenadas dos tratamentos. Definição: Uma relação decrescente de “t” médias (n médias), duas delas (y1 e y2) possuem significância se o valor calculado em módulo para tsnk for maior ou igual ao valor tabelado para o nível de significância α (costuma ser α = 0,05) com graus de liberdade* para resíduo e uma distância i entre as médias (i = p + 2). [p = número de médias existentes entre as duas médias [+2] comparadas na relação decrescente. Definições para grau de liberdade: * Graus de liberdade (gl): Número de classes de resultados menos o número de informações da amostra que é necessário para o cálculo dos valores esperados em cada classe (número de classes – 1). Ex : Qual o grau de liberdade de uma herança genética onde existem duas características (uma recessiva e outra dominante)? [Resposta: gl = n-1, portanto gl = 2-1 = 1]
  31. 31. ** No caso de dados tabelados, deve-se considerar apenas a área dos dados, dessa forma gl = (número de linhas -1 x número de colunas -1) *** Em estatística usa-se gl = n-2 (dois refere-se a linha + coluna) Ex: Qual o grau de liberdade de um n = 272? [Resposta: gl = 272-2 = 270] • Observação: Usa-se o valor de “gl” para encontrar o valor do “t” tabelado em análises estatísticas de regressão múltipla. Com o valor do “t” calculado + o valor do “t” tabelado vemos quais hipóteses (nula ou alternativa) validar. NÃO CONFUNDIR ‘Teste t-Student ‘ de ‘Teste t’ usado em análise de regressão.
  32. 32. Amostragem de dados não paramétricos • ANOVA • Programa mostra que a distribuição não é normal (assimétrica). • Aplicação da estatística não-paramétrica. Teste Kruskal Wallis (One-Way ANOVA) [Teste H] – Usado para testar a hipótese nula de que todas as populações possuem funções de distribuição iguais contra a hipótese alternativa de que ao menos duas populações possuem funções de distribuição diferentes. • Usado quando não há distribuição normal. • Não coloca nenhuma restrição (ex: amostras independentes e normalmente distribuídas) sobre a comparação. • Quando o teste conduz a resultados significativos, pelo menos uma das amostras é diferente das restantes. • O teste não identifica onde ocorrem e quantas são as diferenças.
  33. 33. Teste Kruskal Wallis (One-Way ANOVA) [Teste H] O teste não identifica onde ocorrem e quantas são as diferenças. Ex: • Validou a hipótese alternativa (H1) •Ao menos duas populações possuem funções de distribuição diferentes.
  34. 34. EXTRA: ‘Teste t’ usado em análise de regressão. * LC – Largura cefalotorácica * CC – Comprimento cefalot. • Constantes alométricas: *b = Constante alométrica • Isometria – A variável dependente e a variável independente crescem na mesma proporção, mas não com um mesmo valor. (b = 1) • Alometria positiva – A variável dependente cresce mais que a variável independente. (b > 1) • Alometria negativa – A variável dependente cresce menos que variável independente. (b < 1) Variável Independente (eixo X) Variável Dependente (eixo Y)
  35. 35. Testando o valor da constante alométrica Hipóteses estatísticas: • Hipótese nula (H0) – Isometria [b=1] • Hipótese alternativa (H1) – Alometria [b#1] o Alometria positiva [b>1] o Alometria negativa [b<1] EXTRA: ‘Teste t’ usado em análise de regressão. Outros (n) valores
  36. 36. EXTRA: ‘Teste t’ usado em análise de regressão. Ex: Programa Statistica - Plotar dados (logaritimizados) - Clicar em "Statistics" - "Multiple Regression" - Definir variáveis independentes e dependentes - "Regression results“. Dados fornecidos pelo programa: • b = 1,12553421203224 • Sb (Erro padrão do b) = 0,122114039797593 Realização do ‘Teste t’ •  – constante alométrica ( = 1) • b – valor calculado para constante alométrica • Sb – erro padrão da constante alométrica • Grau de liberdade (gl = n-2)
  37. 37. EXTRA: ‘Teste t’ usado em análise de regressão. Realização do ‘Teste t’ ‘t’calculado > ‘t’ tabelado Valida hipótese alternativa – H1 [crescimento alométrico] ‘t’ calculado < ‘t’ tabelado Valida a hipótese nula – H0 [crescimento isométrico]
  38. 38. EXTRA: ‘Teste t’ usado em análise de regressão. Realização do ‘Teste t’  = 1 b = 1,12553421203224 Sb = 0,122114039797593 ‘t‘ calculado = -1,02801 • n amostral – 26 • gl (n-2) – gl = 26 – 2 = 24 • Nível de significância adotado (α = 0,05) • ‘t’ tabelado = 2,064 Resposta: Validamos H0 - Isometria 2,064-2,064 -1,02801

×