Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística
 
SEMANA N o  AULA DATA ASSUNTO PROFESSOR 7 1 13/04/09 Estatística Descritiva Introdução Variáveis Banco de dados Organização de dados, freqüências Medidas de tendência central e de posição Medidas de dispersão Apresentação de resultados ( Tabelas, Figuras) Paulo Rocha 8 2 20/04/09 Bases da Estatística Inferencial - I Distribuições de frequências Erro padrão Inferência sobre uma média ( Teste z) Teste de hipóteses: o valor- p Paulo Rocha 9 3 27/04/09 Bases da Estatística Inferencial – II Erro tipo I, tipo II, poder Intervalo de confiança Inferência sobre duas médias ( Testes z, t, t´) Inferência sobre duas proporções ( X 2 , Fisher) Paulo Rocha 10 4 4/05/09 Técnicas de Amostragem e cálculo de tamanho amostral Paulo Rocha 11 5 11/05/09 ANOVA de uma via Neto 12 6 18/05/09 Outros testes não-paramétricos - Wilcoxon, Mann Whitney, Kruskal Wallis Neto 13 7 25/05/09 Correlação e regressão linear Neto 14 8 1/06/09 Análise de regressão logística – I Neto 15 9 8/06/09 Análise de regressão logística – II  Neto 16 10 15/06/09 Análise de sobrevida Neto 17 11 22/06/09 Avaliação final Paulo Rocha
Curso de Bioestatística Último dia de aulas 5-7-10  Provas finais 12 a 17-7-10
Bibliografia Sugerida Bioestatística sem segredos. Neto AMS. 1a Ed. Bahia, 2008. Bioestatística para profissionais de saúde. Guedes MLS, Guedes JS, Rio de Janeiro, Ao livro técnico, 1988. Intuitive Biostatistics. Motulsky HM. 1a Ed, Oxford University Press, New York, 1995 Fundamentals of Biostatistics. Hosner B. 5a Ed, Pacific Grove, Duxbury, 2000. Biostatistics: a foundation for analysis in the health sciences. Daniel WW. 7a Ed, New York: John Wiley, 1999 Nonparametric statistics for the behavioral sciences. Siegel S e Castellan Jr NJ. 2a Ed, New York, McGraw-Hill, 1988 Applied logistic regression. Hosmer DW e Lemeshow S, 2a Ed, New York, John Wiley, 2000
Pesquisa:  Software  Essencial Banco de dados SPSS, MS Excel, MS Access Análise estatística SPSS, MS Excel Figuras SPSS, MS Excel, MS Power Point, Adobe Photoshop Editor de texto MS Word: texto, tabelas Gerenciador de Referências Reference Manager , End Notes
Curso para “consumidores” de estatística. Objetivos: Entender artigos científicos Construir banco de dados e utilizar SPSS Dominar estatística descritiva Apresentar dados sob forma de gráficos, figuras, tabelas  Compreender estatística inferencial Realizar análises mais simples Dialogar com estatísticos (sem ajuda de intérprete!)
Porque precisamos de estatística ? Variabilidade biológica e/ou falta de precisão experimental dificultam a distinção entre diferenças reais e aleatórias Tendência à generalização “ A 3-year-old girl recently told her buddy: You can’t become a doctor; only girls can become doctors”  HM Motulsky. Intuitive Biostatistics. 1995
Podemos fazer pesquisa sem estatística (inferencial) ? Exemplo 1: Ciência básica Variabilidade biológica controlada (animais ou células geneticamente idênticos) Interesse em grandes diferenças Aforismas: “ If you need statistics to interpret your results, you have done the wrong experiment” “ If the data speak for themselves, don’t interrupt!” “ Researchers use statistics like a drunkard uses a lamp post: more for support than illumination” Norman & Streiner. PDQ Statistics. 1986 HM Motulsky. Intuitive Biostatistics. 1995
Podemos fazer pesquisa sem estatística (inferencial) ? Exemplo 2: Pesquisa clínica Enorme variabilidade biológica  Impossibilidade de controlar todas as variáveis relevantes Imprecisão de instrumentos de medida Interesse em efeitos pequenos (digamos, uma mudança de 20%) Difícil separar o sinal (efeito esperado) do ruído (variabilidade biológica e imprecisão)  HM Motulsky. Intuitive Biostatistics. 1995
Sobre a estatística CAPAZ DE FAZER INCAPAZ DE FAZER Conclusões gerais a partir de dados mais limitados AMOSTRA->POPULAÇÃO Controle de qualidade Pesquisas políticas Ensaios clínicos Controlar o erro aleatório Corrigir o erro sistemático Erros de amostragem Erros de medida
Etapas de um estudo do ponto de vista estatístico 1. Definir a população de interesse 2. Selecionar uma amostra da população 3. Coleta de dados 4. Estatística descritiva e analítica 5. Estatística inferencial
Neto, AMS 2008. Bioestatística Sem Segredos A Estatística pode ser dividida em três partes: Estatística Descritiva Descreve Caracterização dos indivíduos estudados Estatística Analítica Analisa Investigação das relações entre as características estudadas Estatística Inferencial Infere Avaliação da possibilidade de generalização
Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA DESCRITIVA Cálculo de freqüências simples, simples acumulada, relativa e relativa acumulada Cálculo de medidas de tendência central (moda, média aritmética, média ponderada, mediana) Cálculo de medidas de dispersão (amplitude, desvio médio, variância, desvio padrão, coeficiente de variação) Cálculo de medidas de posição (porcentis) Elaboração de tabelas univariáveis Elaboração de gráficos Avaliação da forma como as frequencias de uma variável se distribuem
Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA ANALÍTICA Elaboração de diagramas considerando mais de uma variável (ex. diagramas de dispersão) Elaboração de tabelas de contingência bivariáveis ou multivariáveis Cálculo de medidas de associação entre variáveis (razão ou diferença entre prevalências, entre incidências ou risco relativo ou atribuível, entre chances, coeficientes de correlação, coeficientes de regressão)  Análise estratificada Análise multivariável
Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA INFERENCIAL Teste Z para uma ou duas médias Cálculo do índice capa (Teste Z) Teste t para uma ou duas médias Análise de regressão linear (Testes F ou Z) Teste t para amostras emparelhadas Teste exato de Fisher Teste Z para uma ou duas proporções Teste do sinal Teste X 2  para duas ou mais proporções Teste de Wilcoxon Teste X 2  de Mantel e Haenszel Teste da mediana Teste para uma variância Teste de Mann-Whitney Teste F para duas variâncias Teste de Kruskal-Wallis Análise de variância (Teste F) Teste de Friedman Análise de correlação intraclasse (Teste F) Análise de correlação de Spearman Análise de correlação de Pearson (Teste t) Teste de McNemar Cálculo do alfa de Cronbach (Teste F) Elaboração do diagrama de barra de erro
Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS ESTATÍSTICAS NÃO ABORDADAS Técnicas de análise exploratória de dados Análise de regressão de Weibull Cálculo de medidas de associação (RR, RC, etc...) Análise de regressão de Poisson Cálculo do índice de concordância capa Análise de regressão binomial negativa Cálculo do alfa de Cronbach Análise de regressão log-linear Teste qui-quadrado de Mantel e Haenszel Análise de regressão hierárquica Teste para uma variância Análise discriminante Análise de variância  / An álise de correlação intra-classe Análise de variância multinomial (MANOVA) Teste do sinal Análise de correlação de Kendall Teste de Wilcoxon Análise de contingência Teste da mediana Análise de correlação canônica Teste de Mann-Whitney Análise de correlação parcial múltipla Teste de Kruskal-Wallis Análise de escala multidimensional Teste de Friedman Análise de componentes principais Teste de McNemar Análise de fator Análise de correlação de Spearman Análise de correspondência Análise de correlação de Pearson Análise de homogeneidade Análise de regressão linear Análise de agrupamento (“cluster analysis”) Análise de regressão logística Análise por redes neurais artificiais Análise de regressão de Cox
Variáveis: Características que variam entre os indivíduos estudados
CLASSIFICAÇÃO DE VARIÁVEIS Quanto à natureza Quanto à continuidade entre seus possíveis valores Quanto ao número de categorias Quanto ao seu grau de expressão quantitativa Quanto à posição no quadro de hipóteses
CLASSIFICAÇÃO DE VARIÁVEIS  I. Quanto à natureza: Qualitativa (ou categórica): raça, sexo Quantitativa: peso, altura, idade, glicemia
CLASSIFICAÇÃO DE VARIÁVEIS  II. Quanto à continuidade: Discreta: raça, sexo, estado civil, n ° filhos Contínua: peso, altura, idade, glicemia
CLASSIFICAÇÃO DE VARIÁVEIS   III. Quanto ao número de categorias: Dicotômica Ex: sexo, hábito de fumar (respostas sim / não) Policotômica Ex: grau de instrução, raça, religião, estado civil, inserção no processo produtivo Podem ser dicotomizadas para análise Neto, AMS 2008. Bioestatística Sem Segredos
CLASSIFICAÇÃO DE VARIÁVEIS   IV. Quanto ao grau de expressão quantitativa: Nominal:  não há critérios para ordenamento Ex: sexo, raça, CEP  Ordinal:  é possível ordenar, mas não há intervalos regulares Ex: grau de instrução Intervalar:  é possível ordenar, há intervalos regulares, valor ZERO não indica ausência do fenômeno Ex: temperatura. Outros exemplos são raros. De razão:  é possível ordenar, há intervalos regulares, valor ZERO indica ausência do fenômeno Ex: idade, peso, altura, número de filhos ou gestações Neto, AMS 2008. Bioestatística Sem Segredos
Misturando as classificações... NATUREZA CONTINUIDADE CATEGORIAS ESCALA Quantitativa Contínua Discreta Intervalar De razão Qualitativa (categórica) Discreta Dicotômica Policotômica Nominal Ordinal
CLASSIFICAÇÃO DE VARIÁVEIS   V. Quanto à posição no quadro de hipóteses: Variável independente principal Variável independente secundária Variável  dependente associação principal Variável  interveniente Neto, AMS 2008. Bioestatística Sem Segredos
Neto, AMS 2008. Bioestatística Sem Segredos CLASSIFICAÇÃO DAS VARIÁVEIS QUANTO À POSIÇÃO NO QUADRO DE HIPÓTESES Dependente Supõe-se que sua ocorrência depende da influência das variáveis independentes Independente Principal Variável de interesse do estudo Secundárias Podem influenciar a associação principal Interveniente Encontra-se no caminho causal entre a variável independente principal e a variável dependente do estudo
CLASSIFICAÇÃO DE VARIÁVEIS   VI. Quanto à fixação prévia das frequências: Fixa Igual número de casos e controles Presença ou ausência da doença (variável dependente) seria FIXA Aleatória Hábito de fumar (variável independente) seria ALEATÓRIA Neto, AMS 2008. Bioestatística Sem Segredos
CLASSIFICAÇÃO DE VARIÁVEIS  VII. Quanto à individualização da informação: Individualizada Ex: sexo (M ou F), hábito de fumar (S ou N) Agregada Ex: sexo (%M, %F), hábito de fumar (%S, %N) Ambiental Ex: nível de poluição do ar, de radioatividade Global Ex: Grau de industrialização, densidade populacional Neto, AMS 2008. Bioestatística Sem Segredos
Descrever para compreender.
Acute Renal Failure after Lung Transplantation:  Incidence, Predictors and Impact on Perioperative  Morbidity and Mortality. Rocha et al.  American Journal of Transplantation 2005; 5: 1469–1476
Tipos de dados estatísticos:  Frequências Medidas de tendência central, medidas de posição, medidas de dispersão Apresentação de resultados  Texto, quadros, tabelas, gráficos
TIPOS DE DADOS ESTATÍSTICOS Contagens Medições
Contagens Sexo, raça, etc... Codificação para banco de dados: Branco = 1  Negro = 2 Mulato = 3 Asiático = 4 Recodificação Branco = 1 Não-branco = 2 Medições Glicemia, TA, colesterol, etc... Transformação de medições em contagens: Categorização de variáveis contínuas
Neto, AMS 2008. Bioestatística Sem Segredos Banco de dados contendo 75 pacientes: variável idade
Banco de dados contendo 75 pacientes: variável idade Neto, AMS 2008. Bioestatística Sem Segredos
TIPOS DE FREQUENCIAS Simples Simples acumulada Relativa Relativa acumulada
Idade Frequência simples Frequência simples acumulada Frequência relativa  (%) Frequência relativa acumulada (%) 25 1 1 4,0 4,0 31 1 2 4,0 8,0 32 2 4 8,0 16,0 34 3 7 12,0 28,0 36 2 9 8,0 36,0 38 2 11 8,0 44,0 39 1 12 4,0 48,0 40 3 15 12,0 60,0 41 4 19 16,0 76,0 45 1 20 4,0 80,0 46 2 22 8,0 88,0 47 1 23 4,0 92,0 51 1 24 4,0 96,0 52 1 25 4,0 100,0
Histograma contendo a distribuição de frequências de idades dos 75 pacientes do banco Neto, AMS 2008. Bioestatística Sem Segredos
Objetivo: resumir os dados de variáveis contínuas, apresentar resultados de forma compreensível MEDIDAS DE TENDÊNCIA CENTRAL Moda Média Mediana
Moda Valor mais frequente Bimodal, trimodal, etc.. Média Aritmética Ponderada Geométrica – média aritmética de variáveis expressas em escala logarítmica Harmônica – pós-teste de ANOVA Mediana Número impar de observações: posição central Número par de observações: média aritmética dos dois valores centrais Posição: (n+1) / 2
VANTAGENS Simplicidade de cálculo Não é afetada por valores extremos Pode resumir variável nominal DESVANTAGENS Pode não ser única
População: (parâmetro) Amostra: (estatística)
População: (parâmetro) Amostra: (estatística)
VANTAGENS Simplicidade de cálculo Singularidade Muitas técnicas disponíveis para seu uso DESVANTAGENS Muito influenciada por valores extremos Não pode resumir variável nominal
Para o cálculo da mediana: Ordenar os valores em ordem crescente e encontrar o valor central (P 50 ) quando n é ímpar Quando n é par: média aritmética dos valores centrais
VANTAGENS Simplicidade de cálculo Singularidade Não é influenciada por valores extremos DESVANTAGENS Menos técnicas disponíveis para seu uso Não pode resumir variável nominal
* Não esquecer de checar a veracidade de valores extremos Dica: além das medidas de tendência central, checar máx. e mín. QUANDO UTILIZAR MODA, MÉDIA, MEDIANA MODA Série é unimodal MÉDIA Variável é contínua Série não contém valores extremos MEDIANA Variável é discreta e  n  é ímpar Série contém valores extremos*
MEDIDAS DE POSIÇÃO Média Mediana Porcentil
Separa os valores de uma série de observações em duas ou mais partes, delimitando um certo porcentual de valores abaixo, acima ou entre eles.  Ex: quartis Q1, P25 Q2, P50 (= mediana) Q3, P75 Aplicações: pediatria (peso, altura), academia (notas), categorização de variáveis contínuas (criação de intervalos de classe ou pontos de corte), amplitude interquartil, inferência estatística (P95, P 97,5)
Criação de intervalos de classe Qual o número ideal de intervalos de classe ? Depende... Dados da literatura: ex: DRC Fórmula de Sturges: k = 1 + 3,222 x log n k = número de intervalos de classe n = tamanho da amostra
 
Cálculo do Primeiro Quartil (Q1)
Desorganizado Ordem Crescente
MEDIDAS DE DISPERSÃO Amplitude Amplitude interquartil Desvio médio Variância Desvio-padrão Coeficiente de variação
 
Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94 Número da criança na pesquisa Valores de altura (metros) 2 0,86 5 0,94 1 1,14 4 1,17 3 1,24
VANTAGENS Simplicidade DESVANTAGENS Considera apenas mínimo e máximo Menos técnicas estatísticas que a utilizam Influenciada por valores extremos * Deve ser usada como medida complementar
Utilização de porcentis para cálculo de uma medida de dispersão Distância entre o primeiro e o terceiro quartis AIQ = Q3 – Q1
 
Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
VANTAGENS Leva em conta todos os valores da série Ao somar os módulos dos desvios, expressa o total de variabilidade em torno da média DESVANTAGENS Cálculo menos simples que a amplitude Os desvios maiores não influenciam bem mais seu resultado do que os menores Menos técnicas estatísticas que o utilizam (comparado ao DP) Influenciado por valores extremos
População: (parâmetro) Amostra: (estatística)
Porque o denominador é 4 (n-1) e não 5? Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
Graus de liberdade Ao calcular a média, perdemos 1 grau de liberdade  Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94
Graus de liberdade: Cálculo Graus de liberdade =  n – r n = número de observações (em nosso exemplo, quantidade de números a serem selecionados, ou seja,  n  = 2) r = número de condições a serem atendidas por esses números
População: (parâmetro) Amostra: (estatística)
Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
VANTAGENS Levam em conta todos os valores da série Ao somar os quadrados dos desvios, expressam o total de variabilidade em torno da média Os desvios maiores influenciam bem mais seu resultado do que os menores Muitas técnicas estatísticas os utilizam DESVANTAGENS Cálculos menos simples que a amplitude Influenciados por valores extremos Variância é expressa em escala quadrática, à qual estamos menos acostumados
Permite comparar variações em dimensões diferentes (ex. peso, altura) Permite comparar variações em trechos distintos da escala de variação de uma variável Precisão de testes diagnósticos
Número da criança na pesquisa Valores de altura (metros) Valores de peso (kg) 1 1,14 20,70 2 0,86 15,40 3 1,24 21,40 4 1,17 21,10 5 0,94 17,45 Média 1,07 19,21 Desvio-padrão 0,17 2,66 Coeficiente de variação 15,89% 13,85%
Embora as medidas de dispersão consigam captar o desvio em torno do centro, não conseguem perceber o formato deste desvio. Se o desvio for igual para os dois lados da distribuição, diz-se que a distribuição é simétrica. As distribuições também podem ser mais alongadas ou mais achatadas. Assimetria: deve ser entre -1 a +1  Curtose: deve ser próxima de zero
Comparando-se a média com a mediana.  Pelo valor da medida de assimetria (skewness). Se o valor for negativo, a distribuição está desviada para a esquerda. Se o valor for positivo, está desviada para a direita. Uma distribuição razoavelmente simétrica tem coeficiente de assimetria variando entre –1 e +1. Visualmente no gráfico (histograma ou box plot, onde se verifica a presença de valores extremos “outliers”) e se pode verificar o formato da distribuição, identificando-se assimetria ou curtose. Por um teste que avalie a normalidade da distribuição (Kolmogorov-Smirnov ou Shapiro Wilk). Quando, nestes testes, o valor de  p  < 0.05 a distribuição não é normal.
Classificação de variáveis Estatística descritiva Medidas de tendência central Moda, Média, Mediana Medidas de posição Média, mediana, porcentis Medidas de dispersão Amplitude, Desvio-médio, Variância, DP, CV Medidas de Forma Assimetria e Curtose

Estatística Descritiva

  • 1.
    Paulo Novis RochaNefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística
  • 2.
  • 3.
    SEMANA N o AULA DATA ASSUNTO PROFESSOR 7 1 13/04/09 Estatística Descritiva Introdução Variáveis Banco de dados Organização de dados, freqüências Medidas de tendência central e de posição Medidas de dispersão Apresentação de resultados ( Tabelas, Figuras) Paulo Rocha 8 2 20/04/09 Bases da Estatística Inferencial - I Distribuições de frequências Erro padrão Inferência sobre uma média ( Teste z) Teste de hipóteses: o valor- p Paulo Rocha 9 3 27/04/09 Bases da Estatística Inferencial – II Erro tipo I, tipo II, poder Intervalo de confiança Inferência sobre duas médias ( Testes z, t, t´) Inferência sobre duas proporções ( X 2 , Fisher) Paulo Rocha 10 4 4/05/09 Técnicas de Amostragem e cálculo de tamanho amostral Paulo Rocha 11 5 11/05/09 ANOVA de uma via Neto 12 6 18/05/09 Outros testes não-paramétricos - Wilcoxon, Mann Whitney, Kruskal Wallis Neto 13 7 25/05/09 Correlação e regressão linear Neto 14 8 1/06/09 Análise de regressão logística – I Neto 15 9 8/06/09 Análise de regressão logística – II Neto 16 10 15/06/09 Análise de sobrevida Neto 17 11 22/06/09 Avaliação final Paulo Rocha
  • 4.
    Curso de BioestatísticaÚltimo dia de aulas 5-7-10 Provas finais 12 a 17-7-10
  • 5.
    Bibliografia Sugerida Bioestatísticasem segredos. Neto AMS. 1a Ed. Bahia, 2008. Bioestatística para profissionais de saúde. Guedes MLS, Guedes JS, Rio de Janeiro, Ao livro técnico, 1988. Intuitive Biostatistics. Motulsky HM. 1a Ed, Oxford University Press, New York, 1995 Fundamentals of Biostatistics. Hosner B. 5a Ed, Pacific Grove, Duxbury, 2000. Biostatistics: a foundation for analysis in the health sciences. Daniel WW. 7a Ed, New York: John Wiley, 1999 Nonparametric statistics for the behavioral sciences. Siegel S e Castellan Jr NJ. 2a Ed, New York, McGraw-Hill, 1988 Applied logistic regression. Hosmer DW e Lemeshow S, 2a Ed, New York, John Wiley, 2000
  • 6.
    Pesquisa: Software Essencial Banco de dados SPSS, MS Excel, MS Access Análise estatística SPSS, MS Excel Figuras SPSS, MS Excel, MS Power Point, Adobe Photoshop Editor de texto MS Word: texto, tabelas Gerenciador de Referências Reference Manager , End Notes
  • 7.
    Curso para “consumidores”de estatística. Objetivos: Entender artigos científicos Construir banco de dados e utilizar SPSS Dominar estatística descritiva Apresentar dados sob forma de gráficos, figuras, tabelas Compreender estatística inferencial Realizar análises mais simples Dialogar com estatísticos (sem ajuda de intérprete!)
  • 8.
    Porque precisamos deestatística ? Variabilidade biológica e/ou falta de precisão experimental dificultam a distinção entre diferenças reais e aleatórias Tendência à generalização “ A 3-year-old girl recently told her buddy: You can’t become a doctor; only girls can become doctors” HM Motulsky. Intuitive Biostatistics. 1995
  • 9.
    Podemos fazer pesquisasem estatística (inferencial) ? Exemplo 1: Ciência básica Variabilidade biológica controlada (animais ou células geneticamente idênticos) Interesse em grandes diferenças Aforismas: “ If you need statistics to interpret your results, you have done the wrong experiment” “ If the data speak for themselves, don’t interrupt!” “ Researchers use statistics like a drunkard uses a lamp post: more for support than illumination” Norman & Streiner. PDQ Statistics. 1986 HM Motulsky. Intuitive Biostatistics. 1995
  • 10.
    Podemos fazer pesquisasem estatística (inferencial) ? Exemplo 2: Pesquisa clínica Enorme variabilidade biológica Impossibilidade de controlar todas as variáveis relevantes Imprecisão de instrumentos de medida Interesse em efeitos pequenos (digamos, uma mudança de 20%) Difícil separar o sinal (efeito esperado) do ruído (variabilidade biológica e imprecisão) HM Motulsky. Intuitive Biostatistics. 1995
  • 11.
    Sobre a estatísticaCAPAZ DE FAZER INCAPAZ DE FAZER Conclusões gerais a partir de dados mais limitados AMOSTRA->POPULAÇÃO Controle de qualidade Pesquisas políticas Ensaios clínicos Controlar o erro aleatório Corrigir o erro sistemático Erros de amostragem Erros de medida
  • 12.
    Etapas de umestudo do ponto de vista estatístico 1. Definir a população de interesse 2. Selecionar uma amostra da população 3. Coleta de dados 4. Estatística descritiva e analítica 5. Estatística inferencial
  • 13.
    Neto, AMS 2008.Bioestatística Sem Segredos A Estatística pode ser dividida em três partes: Estatística Descritiva Descreve Caracterização dos indivíduos estudados Estatística Analítica Analisa Investigação das relações entre as características estudadas Estatística Inferencial Infere Avaliação da possibilidade de generalização
  • 14.
    Neto, AMS 2008.Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA DESCRITIVA Cálculo de freqüências simples, simples acumulada, relativa e relativa acumulada Cálculo de medidas de tendência central (moda, média aritmética, média ponderada, mediana) Cálculo de medidas de dispersão (amplitude, desvio médio, variância, desvio padrão, coeficiente de variação) Cálculo de medidas de posição (porcentis) Elaboração de tabelas univariáveis Elaboração de gráficos Avaliação da forma como as frequencias de uma variável se distribuem
  • 15.
    Neto, AMS 2008.Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA ANALÍTICA Elaboração de diagramas considerando mais de uma variável (ex. diagramas de dispersão) Elaboração de tabelas de contingência bivariáveis ou multivariáveis Cálculo de medidas de associação entre variáveis (razão ou diferença entre prevalências, entre incidências ou risco relativo ou atribuível, entre chances, coeficientes de correlação, coeficientes de regressão) Análise estratificada Análise multivariável
  • 16.
    Neto, AMS 2008.Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA INFERENCIAL Teste Z para uma ou duas médias Cálculo do índice capa (Teste Z) Teste t para uma ou duas médias Análise de regressão linear (Testes F ou Z) Teste t para amostras emparelhadas Teste exato de Fisher Teste Z para uma ou duas proporções Teste do sinal Teste X 2 para duas ou mais proporções Teste de Wilcoxon Teste X 2 de Mantel e Haenszel Teste da mediana Teste para uma variância Teste de Mann-Whitney Teste F para duas variâncias Teste de Kruskal-Wallis Análise de variância (Teste F) Teste de Friedman Análise de correlação intraclasse (Teste F) Análise de correlação de Spearman Análise de correlação de Pearson (Teste t) Teste de McNemar Cálculo do alfa de Cronbach (Teste F) Elaboração do diagrama de barra de erro
  • 17.
    Neto, AMS 2008.Bioestatística Sem Segredos TÉCNICAS ESTATÍSTICAS NÃO ABORDADAS Técnicas de análise exploratória de dados Análise de regressão de Weibull Cálculo de medidas de associação (RR, RC, etc...) Análise de regressão de Poisson Cálculo do índice de concordância capa Análise de regressão binomial negativa Cálculo do alfa de Cronbach Análise de regressão log-linear Teste qui-quadrado de Mantel e Haenszel Análise de regressão hierárquica Teste para uma variância Análise discriminante Análise de variância / An álise de correlação intra-classe Análise de variância multinomial (MANOVA) Teste do sinal Análise de correlação de Kendall Teste de Wilcoxon Análise de contingência Teste da mediana Análise de correlação canônica Teste de Mann-Whitney Análise de correlação parcial múltipla Teste de Kruskal-Wallis Análise de escala multidimensional Teste de Friedman Análise de componentes principais Teste de McNemar Análise de fator Análise de correlação de Spearman Análise de correspondência Análise de correlação de Pearson Análise de homogeneidade Análise de regressão linear Análise de agrupamento (“cluster analysis”) Análise de regressão logística Análise por redes neurais artificiais Análise de regressão de Cox
  • 18.
    Variáveis: Características quevariam entre os indivíduos estudados
  • 19.
    CLASSIFICAÇÃO DE VARIÁVEISQuanto à natureza Quanto à continuidade entre seus possíveis valores Quanto ao número de categorias Quanto ao seu grau de expressão quantitativa Quanto à posição no quadro de hipóteses
  • 20.
    CLASSIFICAÇÃO DE VARIÁVEIS I. Quanto à natureza: Qualitativa (ou categórica): raça, sexo Quantitativa: peso, altura, idade, glicemia
  • 21.
    CLASSIFICAÇÃO DE VARIÁVEIS II. Quanto à continuidade: Discreta: raça, sexo, estado civil, n ° filhos Contínua: peso, altura, idade, glicemia
  • 22.
    CLASSIFICAÇÃO DE VARIÁVEIS III. Quanto ao número de categorias: Dicotômica Ex: sexo, hábito de fumar (respostas sim / não) Policotômica Ex: grau de instrução, raça, religião, estado civil, inserção no processo produtivo Podem ser dicotomizadas para análise Neto, AMS 2008. Bioestatística Sem Segredos
  • 23.
    CLASSIFICAÇÃO DE VARIÁVEIS IV. Quanto ao grau de expressão quantitativa: Nominal: não há critérios para ordenamento Ex: sexo, raça, CEP Ordinal: é possível ordenar, mas não há intervalos regulares Ex: grau de instrução Intervalar: é possível ordenar, há intervalos regulares, valor ZERO não indica ausência do fenômeno Ex: temperatura. Outros exemplos são raros. De razão: é possível ordenar, há intervalos regulares, valor ZERO indica ausência do fenômeno Ex: idade, peso, altura, número de filhos ou gestações Neto, AMS 2008. Bioestatística Sem Segredos
  • 24.
    Misturando as classificações...NATUREZA CONTINUIDADE CATEGORIAS ESCALA Quantitativa Contínua Discreta Intervalar De razão Qualitativa (categórica) Discreta Dicotômica Policotômica Nominal Ordinal
  • 25.
    CLASSIFICAÇÃO DE VARIÁVEIS V. Quanto à posição no quadro de hipóteses: Variável independente principal Variável independente secundária Variável dependente associação principal Variável interveniente Neto, AMS 2008. Bioestatística Sem Segredos
  • 26.
    Neto, AMS 2008.Bioestatística Sem Segredos CLASSIFICAÇÃO DAS VARIÁVEIS QUANTO À POSIÇÃO NO QUADRO DE HIPÓTESES Dependente Supõe-se que sua ocorrência depende da influência das variáveis independentes Independente Principal Variável de interesse do estudo Secundárias Podem influenciar a associação principal Interveniente Encontra-se no caminho causal entre a variável independente principal e a variável dependente do estudo
  • 27.
    CLASSIFICAÇÃO DE VARIÁVEIS VI. Quanto à fixação prévia das frequências: Fixa Igual número de casos e controles Presença ou ausência da doença (variável dependente) seria FIXA Aleatória Hábito de fumar (variável independente) seria ALEATÓRIA Neto, AMS 2008. Bioestatística Sem Segredos
  • 28.
    CLASSIFICAÇÃO DE VARIÁVEIS VII. Quanto à individualização da informação: Individualizada Ex: sexo (M ou F), hábito de fumar (S ou N) Agregada Ex: sexo (%M, %F), hábito de fumar (%S, %N) Ambiental Ex: nível de poluição do ar, de radioatividade Global Ex: Grau de industrialização, densidade populacional Neto, AMS 2008. Bioestatística Sem Segredos
  • 29.
  • 30.
    Acute Renal Failureafter Lung Transplantation: Incidence, Predictors and Impact on Perioperative Morbidity and Mortality. Rocha et al. American Journal of Transplantation 2005; 5: 1469–1476
  • 31.
    Tipos de dadosestatísticos: Frequências Medidas de tendência central, medidas de posição, medidas de dispersão Apresentação de resultados Texto, quadros, tabelas, gráficos
  • 32.
    TIPOS DE DADOSESTATÍSTICOS Contagens Medições
  • 33.
    Contagens Sexo, raça,etc... Codificação para banco de dados: Branco = 1 Negro = 2 Mulato = 3 Asiático = 4 Recodificação Branco = 1 Não-branco = 2 Medições Glicemia, TA, colesterol, etc... Transformação de medições em contagens: Categorização de variáveis contínuas
  • 34.
    Neto, AMS 2008.Bioestatística Sem Segredos Banco de dados contendo 75 pacientes: variável idade
  • 35.
    Banco de dadoscontendo 75 pacientes: variável idade Neto, AMS 2008. Bioestatística Sem Segredos
  • 36.
    TIPOS DE FREQUENCIASSimples Simples acumulada Relativa Relativa acumulada
  • 37.
    Idade Frequência simplesFrequência simples acumulada Frequência relativa (%) Frequência relativa acumulada (%) 25 1 1 4,0 4,0 31 1 2 4,0 8,0 32 2 4 8,0 16,0 34 3 7 12,0 28,0 36 2 9 8,0 36,0 38 2 11 8,0 44,0 39 1 12 4,0 48,0 40 3 15 12,0 60,0 41 4 19 16,0 76,0 45 1 20 4,0 80,0 46 2 22 8,0 88,0 47 1 23 4,0 92,0 51 1 24 4,0 96,0 52 1 25 4,0 100,0
  • 38.
    Histograma contendo adistribuição de frequências de idades dos 75 pacientes do banco Neto, AMS 2008. Bioestatística Sem Segredos
  • 39.
    Objetivo: resumir osdados de variáveis contínuas, apresentar resultados de forma compreensível MEDIDAS DE TENDÊNCIA CENTRAL Moda Média Mediana
  • 40.
    Moda Valor maisfrequente Bimodal, trimodal, etc.. Média Aritmética Ponderada Geométrica – média aritmética de variáveis expressas em escala logarítmica Harmônica – pós-teste de ANOVA Mediana Número impar de observações: posição central Número par de observações: média aritmética dos dois valores centrais Posição: (n+1) / 2
  • 41.
    VANTAGENS Simplicidade decálculo Não é afetada por valores extremos Pode resumir variável nominal DESVANTAGENS Pode não ser única
  • 42.
  • 43.
  • 44.
    VANTAGENS Simplicidade decálculo Singularidade Muitas técnicas disponíveis para seu uso DESVANTAGENS Muito influenciada por valores extremos Não pode resumir variável nominal
  • 45.
    Para o cálculoda mediana: Ordenar os valores em ordem crescente e encontrar o valor central (P 50 ) quando n é ímpar Quando n é par: média aritmética dos valores centrais
  • 46.
    VANTAGENS Simplicidade decálculo Singularidade Não é influenciada por valores extremos DESVANTAGENS Menos técnicas disponíveis para seu uso Não pode resumir variável nominal
  • 47.
    * Não esquecerde checar a veracidade de valores extremos Dica: além das medidas de tendência central, checar máx. e mín. QUANDO UTILIZAR MODA, MÉDIA, MEDIANA MODA Série é unimodal MÉDIA Variável é contínua Série não contém valores extremos MEDIANA Variável é discreta e n é ímpar Série contém valores extremos*
  • 48.
    MEDIDAS DE POSIÇÃOMédia Mediana Porcentil
  • 49.
    Separa os valoresde uma série de observações em duas ou mais partes, delimitando um certo porcentual de valores abaixo, acima ou entre eles. Ex: quartis Q1, P25 Q2, P50 (= mediana) Q3, P75 Aplicações: pediatria (peso, altura), academia (notas), categorização de variáveis contínuas (criação de intervalos de classe ou pontos de corte), amplitude interquartil, inferência estatística (P95, P 97,5)
  • 50.
    Criação de intervalosde classe Qual o número ideal de intervalos de classe ? Depende... Dados da literatura: ex: DRC Fórmula de Sturges: k = 1 + 3,222 x log n k = número de intervalos de classe n = tamanho da amostra
  • 51.
  • 52.
  • 53.
  • 54.
    MEDIDAS DE DISPERSÃOAmplitude Amplitude interquartil Desvio médio Variância Desvio-padrão Coeficiente de variação
  • 55.
  • 56.
    Número da criançana pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94 Número da criança na pesquisa Valores de altura (metros) 2 0,86 5 0,94 1 1,14 4 1,17 3 1,24
  • 57.
    VANTAGENS Simplicidade DESVANTAGENSConsidera apenas mínimo e máximo Menos técnicas estatísticas que a utilizam Influenciada por valores extremos * Deve ser usada como medida complementar
  • 58.
    Utilização de porcentispara cálculo de uma medida de dispersão Distância entre o primeiro e o terceiro quartis AIQ = Q3 – Q1
  • 59.
  • 60.
    Número da criançana pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
  • 61.
    VANTAGENS Leva emconta todos os valores da série Ao somar os módulos dos desvios, expressa o total de variabilidade em torno da média DESVANTAGENS Cálculo menos simples que a amplitude Os desvios maiores não influenciam bem mais seu resultado do que os menores Menos técnicas estatísticas que o utilizam (comparado ao DP) Influenciado por valores extremos
  • 62.
  • 63.
    Porque o denominadoré 4 (n-1) e não 5? Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
  • 64.
    Graus de liberdadeAo calcular a média, perdemos 1 grau de liberdade Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94
  • 65.
    Graus de liberdade:Cálculo Graus de liberdade = n – r n = número de observações (em nosso exemplo, quantidade de números a serem selecionados, ou seja, n = 2) r = número de condições a serem atendidas por esses números
  • 66.
  • 67.
    Número da criançana pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13
  • 68.
    VANTAGENS Levam emconta todos os valores da série Ao somar os quadrados dos desvios, expressam o total de variabilidade em torno da média Os desvios maiores influenciam bem mais seu resultado do que os menores Muitas técnicas estatísticas os utilizam DESVANTAGENS Cálculos menos simples que a amplitude Influenciados por valores extremos Variância é expressa em escala quadrática, à qual estamos menos acostumados
  • 69.
    Permite comparar variaçõesem dimensões diferentes (ex. peso, altura) Permite comparar variações em trechos distintos da escala de variação de uma variável Precisão de testes diagnósticos
  • 70.
    Número da criançana pesquisa Valores de altura (metros) Valores de peso (kg) 1 1,14 20,70 2 0,86 15,40 3 1,24 21,40 4 1,17 21,10 5 0,94 17,45 Média 1,07 19,21 Desvio-padrão 0,17 2,66 Coeficiente de variação 15,89% 13,85%
  • 71.
    Embora as medidasde dispersão consigam captar o desvio em torno do centro, não conseguem perceber o formato deste desvio. Se o desvio for igual para os dois lados da distribuição, diz-se que a distribuição é simétrica. As distribuições também podem ser mais alongadas ou mais achatadas. Assimetria: deve ser entre -1 a +1 Curtose: deve ser próxima de zero
  • 72.
    Comparando-se a médiacom a mediana. Pelo valor da medida de assimetria (skewness). Se o valor for negativo, a distribuição está desviada para a esquerda. Se o valor for positivo, está desviada para a direita. Uma distribuição razoavelmente simétrica tem coeficiente de assimetria variando entre –1 e +1. Visualmente no gráfico (histograma ou box plot, onde se verifica a presença de valores extremos “outliers”) e se pode verificar o formato da distribuição, identificando-se assimetria ou curtose. Por um teste que avalie a normalidade da distribuição (Kolmogorov-Smirnov ou Shapiro Wilk). Quando, nestes testes, o valor de p < 0.05 a distribuição não é normal.
  • 73.
    Classificação de variáveisEstatística descritiva Medidas de tendência central Moda, Média, Mediana Medidas de posição Média, mediana, porcentis Medidas de dispersão Amplitude, Desvio-médio, Variância, DP, CV Medidas de Forma Assimetria e Curtose

Notas do Editor

  • #5 Alternativas: Prova I após aula de amostragem Prova I junta com Prova II Prova I em outra data à combinar
  • #24 SPSS Level of measurement: scale (intervalar, ratio), ordinal, nominal
  • #25 Qualitativa: sempre discretas Dicotômica nominal: sexo Policotômica nominal: orientação sexual Policotômica ordinal: grau de instrução Quantitativa: contínua ou discreta Contínua discreta: temperatura Contínua de razão: peso, altura, idade, glicemia Discreta de razão: número de filhos, número de gestações
  • #26 Ex 1: Hipótese: fumar leva a câncer de pulmão Variável dependente = câncer de pulmão Variável independente principal = hábito de fumar Variável independente secundária = idade Ex 2: Hipótese: condição social se associa a maior mortalidade por pneumonia em crianças Variável dependente = mortalidade por pneumonia Variável independente principal = condição social da família Variável interveniente = peso ao nascer Outros exemplos: Sepse  IRA Pneumonia  Ventilação mecânica
  • #37 568 720
  • #44 Média Ponderada: peso 6x(média das 3 avaliações) + peso 4x(nota prova final); dividi-se este resultado pela soma dos pesos (10).
  • #50 O quartil 2, ou porcentil 50 = mediana Cálculo: ¼ ou ½ ou ¾ (n +1). Revelará a posição onde se encontram estes quartis. Em seguida, determinar o valor.
  • #55 Séries podem ser diferentes, mas ter a mesma média (e ou mediana). Dispersão = variabilidade Amplitude = valor máximo – valor mínimo Amplitude interquartil Desvio médio, variância e desvio padrão medem o quanto, em média, os valores da série afastam-se da média aritmética dos valores. Variância é o quadrado do desvio-padrão.
  • #59 Mede a amplitude de variação dos valores mais centrais da série (enquanto a AMPLITUDE mede os extremos)
  • #62 Mede-se o quanto cada valor se desviou da média Soma-se o módulo destes valores Divide-se pelo número de indivíduos da série (deveria ser n-1, mas, como não é utilizado para inferência estatística, isso tem pouca importância)
  • #64 Além de anular o sinal, elevar ao quadrado aumenta a influência dos desvios maiores.
  • #68 Além de anular o sinal, elevar ao quadrado aumenta a influência dos desvios maiores.
  • #69 Mede-se o quanto cada valor se desviou da média Soma-se o quadrado destes valores Divide-se pelo número de indivíduos da série MENOS 1 (n-1): 1 indivíduo (ou valor) não teve a chance (liberdade) de variar. Em notações populacionais, pode dividir apenas por N (pois, se a população for muito grande, a subtração de 1 não vai alterar o resultado) O desvio-padrão é a raiz quadrada da variância
  • #72 COEFICIENTE DE ASSIMETRIA: mede a assimetria de uma distribuição. Se a distribuição for razoavelmente simétrica assumirá um valor entre –1 e +1. Se a distribuição for assimétrica à esquerda, a cauda é mais longa deste lado. Neste caso o coeficiente terá um valor negativo. A assimetria à direita é positiva. CURTOSE: mede o achatamento de uma distribuição. Quanto menor o valor da curtose, mais curta, mais achatada é a distribuição (platicúrtica). Se a curtose for positiva, significa que a distribuição é mais alongada (leptocúrtica). Se a distribuição não for nem chata nem alongada sua curtose será igual a zero (mesocúrtica).