O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

LIVRO_ GRAFICOS NA BIOESTATITICA.pdf

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Introdução
à Interpretação de
Gráficos e Análises
Estatísticas
Arleu Barbosa
Viana Junior
0%
50%
100%
01 02 03 04 05 06
10...
PREFÁCIO
Os gráficos estão presentes na vida de todos, principal-
mente no cotidiano de estudantes de diversas áreas do con...
Gráficos são representações visuais que contem infor-
mação numérica ou espacial. Um gráfico tem a função de facilitar
a int...
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
LIVRO_UNICO.pdf
LIVRO_UNICO.pdf
Carregando em…3
×

Confira estes a seguir

1 de 30 Anúncio

Mais Conteúdo rRelacionado

Semelhante a LIVRO_ GRAFICOS NA BIOESTATITICA.pdf (20)

Mais recentes (20)

Anúncio

LIVRO_ GRAFICOS NA BIOESTATITICA.pdf

  1. 1. Introdução à Interpretação de Gráficos e Análises Estatísticas Arleu Barbosa Viana Junior 0% 50% 100% 01 02 03 04 05 06 100% 0% 100% 0% 100% 0% 100% 0% 100% 0% www.biologiadaconservacao.com.br
  2. 2. PREFÁCIO Os gráficos estão presentes na vida de todos, principal- mente no cotidiano de estudantes de diversas áreas do conheci- mento. É extremamente comum ver esses alunos de diversos níveis acadêmicos se deparando com gráficos - seja em sala de aula, artigos, apresentações de trabalhos em congressos, livros, ou até em meios cientificamente não convencionais como programas de televisão, embalagens de alimentos, revistas, entre outros – e tendo dificuldade na sua interpretação. Isso ocorre especialmente quando nos deparamos com os meios de comunicação acadêmica, onde a leitura dos gráficos pode se tornar uma tarefa conflituosa! Nas ciências biológicas, em especial na ecologia, contamos diariamente com o avanço tecnológico da computação e as melho- rias de modelos matemáticos. Aliado a isso, devemos ter a capaci- dade de analisar grandes conjuntos de dados, como por exemplo, as diversas variáveis necessárias para tentar compreender as mu- danças climáticas e suas consequências na biodiversidade. Temos que ter o cuidado de passar as informações da maneira mais clara e objetiva nos nossos trabalhos — Os gráficos são uma ótima ferramenta para isso! Página 2
  3. 3. Gráficos são representações visuais que contem infor- mação numérica ou espacial. Um gráfico tem a função de facilitar a interpretação de resultados de testes estatísticos mais compli- cados, ou sumarizar as informações gigantescas que uma tabela pode ter. Porém, a depender da informação que está sendo colo- cada ali, ler e interpretar um gráfico pode ser uma frustração para o biólogo. Fazendo uma rápida pesquisa com alguns amigos de diversos lugares do Brasil – pessoas com distintas formações acadêmicas — sobre quais são seus maiores medos em relação ao domínio em estatística, alguns me responderam com a seguin- te frase: “Uai, meu medo em não saber estatística é não saber interpretar meus próprios dados”... [dá pra perceber pelo pala- vreado que foi um mineiro(a) que respondeu a essa pergunta ]. Outros disseram “Então, acho que as atribuições das variáveis. Receio de escolher elas de forma errada e, na maiorias das vezes, errar a interpretação dos gráficos”. E mais um chegou a dizer que “O meu maior medo é fazer uma interpretação incorreta dos dados”. Você percebe que o verbo INTERPRETAR apa- receu em todas as respostas? Parece que não só a forma de interpretar os resultados analíticos é um medo para os estudantes de biologia e de áreas afins de diversos graus acadêmicos. Interpretar os gráficos é também um fator limitante. Página 3
  4. 4. E tanto interpretar resultados analíticos quanto interpre- tar gráficos são dois atributos bastante interligados em análises de dados biológicos. Realmente, se essas duas coisas não estiver- em bem conectadas, sua capacidade em compreender uma informação estará prejudicada. Vamos pensar em um exemplo bem rápido! É muito comum você encontrar em um artigo científico essa sintaxe de linguagem estatística: O que cada letra e número querem dizer? Quais infor- mações podemos tirar disso? Podemos ter a capacidade de imagi- nar quantas unidades amostrais independentes foram obtidas nesse trabalho? Será que podemos saber qual o possível tipo de gráfico que um resultado como esse pode gerar? Bem, a resposta da última pergunta é SIM! Novamente, se a sintaxe agora for essa será que podemos ter uma ideia de que gráfico pode sair? A res- posta também é SIM! Agora vamos tentar fazer o inverso. Observando os gráfi- cos abaixo, podemos ter uma ideia de que análise foi feita? (F3, 36 = 4.56; p < 0.05) (F1, 58 = 5.1; p < 0.05), Página 4
  5. 5. A B C D 85 90 95 100 105 110 115 Áreas de Coleta Abundância 20 30 40 50 2 4 6 8 10 12 14 Umidade (%) Riqueza ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● Você consegue saber quais possíveis análises foram feitas para gerar esses gráficos? Novamente a resposta é: SIM! Eu tenho certeza que olhando esses gráficos, com um pouco de prática em análise de dados e conhecimento biológico, você saberá facilmente interpretar esses gráficos e até dar um palpite certeiro de quais análises foram utilizadas para gerar esses gráficos. Respondendo... Quem chutou uma ANOVA ou GLM para o gráfico da esquerda, acertou. Quem falou em REGRESSÃO e CORRELAÇÃO para o gráfi- co da direita, acertou. Porém nem todo artigo tem gráficos tão intuitivos e simplificados como os desses exemplos. Veja as seguir gráficos que mostram várias informações: Página 5
  6. 6. 0.3 0.6 0.9 1.2 1.5 −1.0 −0.5 0.0 0.5 Meanrange size of birds High Low Ant species richness per tansect a b c Land-use class PFU PFL PFLB SEF REF PAS AGR Solar et al. 2016 Barlow et al. 2016 Petsch et al. 2015 Você saberia acertar que análise estatística foi feita para um gráfico como esses abaixo? OBS.: Esses gráficos foram tirados de artigos científicos, dos quais estão referenciados. Acho que agora deve ter ficado um pouco mais complicado! Sendo assim, criamos esse e-book com o objetivo de compi- lar várias imagens gráficas, de diversos tipos e formas, para que você tenha o mínimo de condição de compreender algumas formas de representação gráfica e tenha capacidade e confiança na interpretação de análises estatísticas. ENTÃO VAMOS LÁ!!! NMDS NMDS -1.0 -0.5 0.0 0.5 -0.5 0.0 0.5 1.0 1.0 1.5 RDA2 RDA1 14 12 10 8 6 4 2 0 -2 -4 -6 -8 14 12 10 8 6 4 2 0 -2 -4 -6 Lentics Lotics O.M. Mud Depth M.S. pH Gra. Temp. Cond. P. americana C.S. V.C.S. N. bonettoi A. pigweti Página 6
  7. 7. introdução Antes de olhar para um gráfico e compreender a infor- mação que ele quer transmitir, é muito importante que você tenha a noção dos tipos de variáveis utilizadas a priori. A ideia do gráfico é perceber relações - ou a falta delas - ou ilustrar o tamanho do efeito de uma predição biológica. Em geral, em um gráfico sempre são plotadas infor- mações de dados em dois eixos cartesianos: vertical/horizontal, ordenadas/abcissas, y/x, dependente/independente, resposta/- explicativa. Então, para entender a forma do gráfico é preciso ter a capacidade de identificar qual tipo de variável está associada ao eixo Y (conhecido como eixo da variável resposta ou de- pendente) e ao eixo X (conhecida como eixo da variável ex- plicativa ou independente). Abcissas Horizontal Ordenadas Vertical X Independente Explicativa Y Dependente Resposta Página 7
  8. 8. Existem dois tipos de variáveis: categórica/qualitativa e numérica/quantitativa. A natureza quanto ao tipo de dado não só influenciará na forma gráfica, como também na análise estatísti- ca. Variáveis categóricas são aquelas que possuem qualidade, ou como o próprio nome já diz, categorias: macho/fêmea; juve- nil/jovem/adulto; dia/noite; seco/chuvoso; inicial/intermediário/- tardio. Essas categorias inclusive podem ser variadas, como cores por exemplo: vermelho, laranja, amarelo, verde, azul, anil, e viole- ta. As cores do arco-íris podem ser consideradas classes de uma categoria. As variáveis numéricas podem ser divididas em dois tipos: i) variável onde os números são contínuos (representado por casas decimais). Ex: peso, altura, volume, distância; ou ii) variável onde os números são discretos (representados por números naturais). Ex. número de indivíduos de uma população (não existe 1 indivíduo e meio: ou é 1 ou são 2). Página 8
  9. 9. BOX PLOT É um dos gráficos mais clássicos, porém não tão utilizado em artigos científicos. No entanto , nos dias de hoje, no meio acadêmico se sugere usar com mais frequência esse tipo de gráfi- co, pois ele demonstra com maior fidelidade a dispersão das observações (Krzywinski and Altman, 2014). A B 0 10 20 30 { 1 2 3 Tipo de Variável Y – numérica X - categórica Tipo de Análises Teste-t Teste U de Mann-Whitney Anova one-way GLM 1 – O quadrado central representa 50% da cobertura central dos dados, também conhecida como IQR (InterQuartile Range). Seus limites inferiores e superiores representam 25º e 75º percentil, também podendo ser o 1º quartil e o 3º quartil. A faixa escura do meio é o 2º quartil ou a mediana. A mediana é o valor do meio, dentro de um conjunto de dados. Ex.: Se temos o conjunto de dados 1, 2, 3, 4, e 5, o valor 3 é a mediana. O 1º e 3º quartis, que nesse nosso exemplo são representados pelos valores 2 e 4 respectivamente, representam a mediana entre o valor mínimo e máximo e o 2º quartil. Página 9
  10. 10. 1 2 3 4 5 3º quartil 2º quartil ou mediana 1º quartil }IQR 2 – As extremidades são conhecidas como bigodes (tradução literal do inglês Whiskers). Elas representam a extensão máxima de 1.5 x IQR além da caixa. 3 – Os pontos são representados pelos outliers, que são pontos mais isolados da maior con- centração dos dados. Para se ter uma melhor ideia das distribuições dos pontos pelo gráfico de caixa, abaixo vai uma comparação de dois boxplots. A B 0 10 20 30 ● ● ● ● ● ● ● ● A B 0 10 20 30 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● Página 10
  11. 11. Perceba que na caixa que representa o lado B há uma maior concentração dos pontos próximo em zero, e essa frequên- cia vai diminuindo com o aumento do eixo Y. Abaixo mais um exemplo de como os boxplots representam melhor a dispersão em relação a um outro gráfico que iremos falar na próxima sessão. Página 11
  12. 12. Bar PLOT É um tipo de gráfico muito utilizado para representar médias e desvios. Um dos tipos de gráfico mais comum em artigos científicos e de interpretação simples e intuitiva. A B 0 10 20 30 * 2 }1 1 – Sempre quando trabalhamos com amostras, nossa intenção é coletar uma pequena parte de uma determinada população para que possamos fazer inferências sobre ela como todo. Uma das principais medidas de posição gerada para descrever a população através de uma amostragem é a média, representada pela parte superior da barra. Como a população varia dentro dessa média, existe uma medida da dispersão desses dados em relação a essa média, representada pelo numeral 1 no gráfico. Essas medidas de dispersão podem ser representadas pela amplitude máxima e mínima, variância, desvio padrão, erro padrão ou intervalo de confiança e o tipo de medida você está usando deve ser informada no rótulo do eixo Y. Para saber mais sobre barras de erro, sugiro ler o artigo do Cumming e colaboradores (2007). Página 12
  13. 13. 2 – O asterisco entre as barras é geralmente inserido no gráfico para representar a significância do teste estatístico utilizado. Como queremos comparar valores e saber se as médias diferem estatisticamente, quando o resultado analítico fica abaixo do nosso nível de significância (geralmente é α < 0.05), essa é a forma que representamos esse resultado no gráfico. Mas atenção, isso só é útil quando temos apenas duas barras ou “trata- mentos”! Mais que duas, mostrarei para você como representamos da maneira corre- ta. Bem, ainda tá fácil, mas é o cientista que escolhe o gráfico para representar seus resultados da melhor forma possível. Veja abaixo uma prancha com diferentes formas gráficas que podemos escolher para representar o mesmo conjunto de dados. A B 0 10 20 30 40 * ● ● A B 0 5 10 15 20 25 30 35 * A B −60 −40 −20 0 20 40 60 * A B −60 −40 −20 0 20 40 60 * Página 13
  14. 14. A B C Áreas de Coleta Riqueza de Aves (Média ± EP) 0 5 10 15 20 25 a a b 1 A B −60 −40 −20 0 20 40 60 * A B −60 −40 −20 0 20 40 60 t1$y ● ● * Ainda na sessão de barplots podemos encontrar outras variações de gráfico. Nesse exemplo a seguir, a interpretação é a mesma. Mas mudaremos as análises estatísticas utilizadas, além de um detalhe na forma de representação. Página 14
  15. 15. 1 – As letras em cima de cada erro padrão no gráfico representam um teste de comparação múltipla de médias, denominado Teste de Tukey. Se todos os pressupostos para realizar uma análise de variância (ANOVA) forem aceitos, é preciso realizar um teste a posteriori, caso você tenha mais de 2 níveis para sua variável X categórica. Nesse nosso exemplo, temos 3 níveis da variável Área. Caso a ANOVA gere um resultado abaixo do nível de significância esta- belecido, a única interpretação que você pode fazer é que no mínimo um dos níveis é difer- ente dos outros. Aí vem a seguinte pergunta: Quem é diferente de quem? Dessa forma, precisamos realizar um teste a posteriori, que nesse nosso caso foi o Teste de Tukey. Após interpretar o resultado, letras devem ser colocadas em cima de cada barra. Quando colo- camos letras iguais, não existe diferença estatística entre as médias; letras diferentes indica a existência de diferença. Página 15
  16. 16. scatter PLOT Saindo dos gráficos de barras, os scatter plots ou gráficos de dispersão, são extremamente importantes quando queremos demonstrar a relação entre variáveis numéricas, seja ilustrando uma relação de causa e efeito ou uma relação de associação entre variáveis. Esses tipos de gráficos são importantes para verificar padrões ecológicos, diferente dos gráficos de barras que repre- sentam tamanho de efeito. ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 26 28 30 32 34 36 38 40 0 5 10 15 20 Temperatura (ºC) Abundância de Morcegos y = −17.4905 + 0.8156*x R² = 0. 48 Tipo de Variável Y - numérica X - numérica Tipo de Análises Regressão Correlação GLM Página 16
  17. 17. ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y R² = 1 ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 R² = 0.86 ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y R² = 0.65 ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y R² = 0.27 1 – Esses valores podem vir diretamente no texto ou na legenda do gráfico. Essa equação representa a fórmula na qual foi calculada a estimativa da linha reta (geralmente presente somente em resultados significativos). Lembrando lá do ensino médio, neste caso é apenas uma equação do primeiro grau Y = a + bx. Porém, vamos entender o que isso significa. O “a”, representado no gráfico pelo valor 27.8, representa o ponto que a reta começa em Y, levando em consideração que o X é zero. Perceba que no nosso gráfico o eixo X inicia em 10. Esse “a” é conhecido como o intercepto da reta. O “b” representa o coeficiente angular e ele demonstra a inclinação da reta e a relação que a variável Y tem com o X. Ou seja, o quanto cada unidade de X variando que vai influenciar na variável Y. 2 – Esse valor é conhecido como coeficiente de determinação. Esse valor varia entre 0 e 1 e geralmente é o valor do poder de explicação que a variável X tem em relação a variável Y. Quanto mais próximo de 1, mais próximos os pontos estão da reta; quanto mais distante, mais dispersos em relação a reta os pontos estão. Veja os exemplos abaixo. x y Página 17
  18. 18. Até agora, acho que ainda continua tranquilo. Assim como nos gráficos de barras, que permite variadas maneiras de representação, no scatter plot você tem formas de melhorar a reta se ajustando ao padrão que é observado. Segue abaixo algumas variações das retas de regressão e suas formas de escrever as equações. ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y y = 0.3333 + 0.9394*x ● ● ● ● ● ● ● ● ● ● 0 2 4 6 8 10 0 1 2 3 4 5 x y y = 1.24 + 1.13*log(x) ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y y = exp(−064 + 0.27*x) ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 2 4 6 8 10 x y y = 4.75 + 1.71*x − 0.22*x² Página 18
  19. 19. Depois de explicar para você um pouco sobre gráficos de barra, que são para variáveis categóricas, e gráficos de dis- persão, que são para variáveis numéricas, será que temos uma maneira de, em um mesmo gráfico, colocar variáveis categóricas e numéricas? A resposta você já sabe! É claro que tem. Agora as coisas talvez comecem a complicar um pouco, mas não tem tanto segredo. Imagine em um caso hipotético que vamos coletar insetos em duas áreas, sitio A e sitio B. Só que vamos coletar todo mês durante dois longos anos. Além de coletar os insetos nas duas áreas, vamos lá medir também a temperatura. A depender do grupo taxonômico e do ambiente no qual estamos coletando, a temperatura influencia na quantidade de inse- tos, e geralmente essa influência é positiva. Dessa forma, parece que temos duas variáveis: sitio de amostragem e temperatura. Uma categórica e outra contínua. E agora?! Como será um gráfico e uma análise quando temos uma variável qualitativa e uma quantitativa ao mesmo tempo? Página 19
  20. 20. ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 26 28 30 32 34 36 38 40 0 5 10 15 20 Temperatura (ºC) Abundância de Morcegos ● ● A B 1 – O ponto de interseção entre as retas é representado pela interação entre os dois parâmetros analisados. Vamos pensar um pouco! [eu sei, foi plágio...]. Eu poderia analisar as duas variáveis de forma separada, fazendo um gráfico de barras para saber a diferença das medias entre as áreas, e outro gráfico de dispersão para verificar a relação entre quan- tidade de morcegos e a temperatura. Mas eu iria gastar mais espaço na folha do meu artigo ou relatório e ainda iria perder uma informação preciosa que é a INTERAÇÃO. Sabemos que na natureza não um único fator não possui a capacidade de explicar todos os padrões que conseguimos enxergar. Na verdade são muitas as variáveis explicativas possíveis, às vezes variáveis que nem conseguimos medir ou observar. No entanto essas variáveis não agem sozinhas e isoladas, mas interagem entre si para gerar as maravilhas do nosso siste- ma natural. Esse gráfico nos dá esse exemplo. Essa imagem é a mesma imagem do nosso primeiro exemplo de SCATTER PLOT, no entanto conseguimos colocar mais uma infor- mação que foram as áreas de coleta (sítio A e sítio B). Tipo de Variável Y – numérica X - categórico + numérica Tipo de Análises ANCOVA GLM 1 Página 20
  21. 21. Esquecendo a existência das duas cores, é evidente observar que os pontos da área B estão há uma maior media de indivíduos de morcegos que a área A (olhando a distribuição dos pontos em relação ao eixo Y) e que a temperatura influencia positiva- mente nessa abundância. Porém, não é sempre que a área B tem mais morcegos que a área A. A temperatura age de maneira distinta nas duas áreas de estudo. Se pudéssemos coletar em uma maior amplitude de temperatura na área A, a quantidade de morcegos nessa área iria ser superior que na área B. Isso mostra que o efeito da temperatura na quantidade de indivíduos de morcegos é diferente a depender da área, e caso fizéssemos um gráfico de dispersão ou um gráfico de barras, essa informação não poderia ser capaz de visualizar. Então cabe a você como pesquisador ou profissional da conservação a tarefa de compreender e explicar quais são os processos e mecanismos que estão associados às áreas para explicar como o efeito da temperatura difere. Ok, agora grande parte dos gráficos comumente apre- sentados em artigos de ecologia e conservação foram explana- dos. O que muda a partir daí é a abordagem, a criatividade, o rigor que o redator do trabalho dá à sua apresentação e análise. Como falei no início do e-book, compreender os tipos de variáveis asso- ciadas aos eixos é fundamental para saber qual tipo de gráfico de- vemos gerar e qual(ais) análise(s) devemos fazer. A partir de agora vamos falar de algumas variações gráficas referentes às análises estatísticas. Página 21
  22. 22. ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● 0 50 100 150 Rainfall (mm) Likelihood of flight event 0.0 0.5 1.0 jun.06 3 fev.07 3 may.07 2 mar.07 18 mar.06 4 jun.07 1 jul.07 2 Esse tipo de gráfico é gerado quando temos uma variável resposta binária. Mas como seria isso Arleu? Seria assim: Uma variável resposta binária é quando estamos verificando um evento de forma dual (p. ex. acontece ou não acontece, tem ou não tem, homem ou mulher...). Estritamente a variável explicativa tem que ser uma variável continua. Essa análise verifica a probabilidade de um determinado fator observacional, ou seja, nossa variável de interesse, acontecer ou não acontecer dado a mudança da variável explicativa. Vamos ao nosso exemplo! Eu estava verificando mensalmente durante o ano todo, vários ninhos de cupins para saber o período em que aconteceriam revoadas. Telei os ninhos com tecido e verificava se em cada vistoria havia buracos abertos, alados mortos ou presos, asas caídas, qualquer característica que pudesse diagnosticar o evento de revoada. Então minha variável resposta era a presença ou ausência de revoada em determinado mês. Depois de finalizar todas as campanhas de campo, eu tinha também dados de precipitação daquele mês. Esta seria minha variável explicativa. Então realizando modelos estatísticos com esses dados eu cheguei a esse gráfico. Página 22
  23. 23. 0 1 2 3 4 5 6 7 8 9 10 0.0 0.2 0.4 0.6 0.8 1.0 Tempo (dias) Sobrevivência (%) ● ● Somente Cupins Controle Fungo Mas o que ele me diz Arleu!? Como falei anteriormente, ele nos informa a probabilidade do evento acontecer ou não acontecer. Se levarmos em consideração que no 50% (no eixo Y está com o numero 0.5) é o momento onde há a probabilidade do evento mudar de “não acontecer”, para “acontecer” (ou vice-versa, dependendo da sua variável), qual ponto do eixo X esse fenômeno ocorre? Olhando para o gráfico, mais ou menos quando atingimos 50 mm de chuva ocorre essa probabilidade de revoada. É assim que interpretamos este gráfico baseado nesta análise. Assim, a partir daí, eu preciso explicar quais mecanismos estão por trás dessa influência da chuva na probabilidade de revoada por cupins. Agora vamos falar de uma análise que é muito impor- tante quando queremos verificar algumas questões, como fitness (valor adaptativo) por exemplo. Tipo de Variável Y – tempo X - categórica Tipo de Análises Analise de sobrevivência Página 23
  24. 24. Temos agora um exemplo bastante peculiar de gráfico. Olhando o padrão da curva se assemelha bastante ao exemplo anterior, porém com uma relação invertida. Mesmo com toda essa semelhança, essa análise traz informações bem mais complexas e interessantes. Estamos falando da análise de sobrevivência. Essa análise é bem usada pelo pessoal da agronomia quando querem ver o tempo de germinação de uma espécie de planta em relação à diferentes tratamentos, como tipos de substrato. Mas sem delongas... Vamos interpretar esse gráfico! A análise de sobrevivência é uma análise vulgarmente conheci- da como “análise de tempo até o evento”. Para entender o que isto significa, para realizar uma análise de sobrevivência é preciso, a priori, estabelecer um evento muito evidente, que não deixe dúvida do que seja. Esse evento tem que ser binário. Lembra muito a regressão logística, não é? No entanto essa analise verifica a probabilidade desse evento acontecer (ou não) no tempo. Como disse anteriormente na caixinha do gráfico, não foi colocado que a variável resposta pode ser contínua ou categórica. Disse que o TEMPO é a nossa variável de interesse. Um pouco confuso, não é? Mas vamos tentar trabalhar com o gráfico. Neste experimento, queria verificar o efeito de diferentes recursos na mortalidade de cupins [CUPINS DE NOVO, ARLEU! Foi mal, este é o grupo que eu trabalho ]. Então, inseri em uma placa de petri 25 indivíduos de uma mesma colônia em contato com difer- entes recursos, separados em três tratamentos: i) papel filtro contaminado com fungos; ii) papel filtro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram alocadas em um ambiente controlado sob os mesmo efeitos externos. Diariamente veri- ficávamos a taxa de sobrevivência dos indivíduos e anotávamos quanto tempo demorava desde o tempo zero (primeiro dia do experimento) até o dia em que todos os indivíduos morressem. Agora acho que ficou mais fácil de entender... Nosso evento era a morte de todos os indivíduos. É um evento claro, sem a mínima condição de dúvida. Neste caso, nossa variável resposta era o dia de morte e nossa variável explicativa eram os nossos tratamentos. Logo, fazendo modelos estatísticos para verificar o tempo de morte desses indivíduos frente a um determinado tipo de recurso, chegamos ao resultado apresentado neste gráfico. Percebam que a longevidade dos cupins aumenta quando estão em contato com um recurso contaminado com fungo se comparamos com a falta de recurso ou quando estão com um recurso úmido. O que isso quer dizer então Arleu? Página 24
  25. 25. É simples! Parece que fungos auxiliam na sobrevivência dessa espécie de cupim, aumentando seu tempo de vida. A partir daí cabe a nós explicar quais benefícios os cupins têm quando associados aos fungos. 10 15 20 25 30 0 20 40 60 80 100 Days Percent germinated 5 10 15 20 0 5 Então meu (minha) caro(a) amigo(a), este e-book que pre- parei para você é só um passo inicial para que você tenha uma noção de como observar e interpretar algumas formas gráficas e a quais análises elas podem está associadas. Há muito ainda pela frente, não só na maneira de apresentar um resultado, como também de compreender algumas análises. A estatística multivari- ada, as famosas análises de séries temporais, ou até estatísticas mais complexas - como modelos bayesianos ou modelagens espa- ciais - podem ser exemplos do que almejar no mundo da estatísti- ca. 5 10 15 20 0 1 2 3 4 ) s y a d ( t –log(–log(S(t))) Site 2 Site 3 Site 1 Male–female Male–male Single male Searching rate 1 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 Time elapsed until nest establishment (h) Página 25
  26. 26. Este e-book pode ser o primeiro passo para você se tornar um pouco mais autônomo na sua forma de ver e interpre- tar um gráfico em um artigo ou relatório. Em um segundo mo- mento podemos trabalhar com você coisas sobre gráficos multi- variados, erros mais comuns e sugestões de como elaborar um bom gráfico. Páginas do próximo capítulo... Por enquanto, espero que este conteúdo abordado lhe traga um bom desempenho! Abaixo, deixo para você links relacionados à gráficos e alguns sites onde você pode brincar de estatística. Coisa simples, mas vale a pena dar uma olhada: 1. Esses dois sites são um compilado de exemplos de plots de diversas formas, com excelente qualidade para análise de dados, ciência, publicação, apresentações, entre outras coisas. Todos os exemplos gráficos destes sites utilizam uma linguagem baseada no software R, um dos melhores e mais completos pro- gramas estatísticos da atualidade. O software é gratuito e pode ser baixado no link https://cran.r-project.org/. Nos sites, eles dis- ponibilizam códigos de scripts (que são tipo receitas, verdadeiros passo-a-passo de como elaborar esses gráficos) para que você possa fazer sozinho(a). R graph gallery: http://rgraphgallery.blogspot.com.br/ R graph catalog: http://shiny.stat.ubc.ca/r-graph-catalog/ Página 26
  27. 27. OBRIGADO 2. Os próximos dois links são uma forma divertida de você brin- car dando palpites de coeficientes de correlação, conhecido em tra- balhos como r (errezinho). O coeficiente de correlação é muito semel- hante ao coeficiente de determinação (R²) da regressão. A diferença é que o r é uma medida de associação e ela varia entre -1 e 1. Utilizando a mesma lógica do R², quanto mais dispersos os pontos estão da reta, mais próximos de zero vão estar. A diferença é que como essa métrica varia de -1 a 1, ela informa a direção da associação realizada. Se encon- trarmos valores entre -1 e 0, teremos uma associação negativa (reta de- crescente). Se for entre 0 e 1, é uma associação positiva (reta ascenden- te). http://guessthecorrelation.com/ http://www.istics.net/Correlations/ Então é isso! Divirta-se e dê um bom palpite. Até a próxima. Página 27
  28. 28. MSc. Arleu Barbosa Viana-Junior Possuo graduação em Ciências Biológicas – Licenciatura Plena pela Universidade Tiradentes/SE (UNIT) e sou mestre em Eco- logia e Conservação pela Universidade Federal de Sergipe (UFS). Atualmente sou doutorando do programa de Ecologia, Conservação e Manejo da Vida Silvestre pela Universidade Federal de Minas Gerais. Possuo experiência em entomologia, com ênfase em térmitas (cupins), e tenho um grande apreço por análises de dados ecológicos e uso do software R. Já ministrei mais de 10 cursos (for- mais e informais) abordando temas como introdução ao método científico, bases para o delineamento experimental e analises de dados. Página 28
  29. 29. RECOMENDAÇÕES DE LEITURA Cohen J. (1990). Thing I have learned (so far). American Psy- chologist. 45: 1304-1312. Cumming G. et al. (2007). Error bars in experiments biology. The Journal of Cell Biology. 177: 7-11. Krzywinski M. and Altman N. (2013). Error bars. Nature Meth- ods. 10: 921-922. Krzywinski M. and Altman N. (2014). Visualizing sample with box plots. Nature Methods. 11: 119-120. Streit M. and Gehlenborg N. (2014). Bar charts and box plots. Nature Methods. 11: 117. Weissgerber T. L. et al. (2015). Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. Plos One. 13: 1-10 Página 29
  30. 30. AGRADECIMENTO Este E-BOOK foi elaborado em 2016 após anos de estudo dentro da minha jornada acadêmica em ciências biológi- cas da qual gostaria de agradecer os professores doutores Lean- dro Sousa-Souto (UFS), Frederico Neves (UFMG), Ricardo Solar (UFMG), Ronaldo Reis (Unimontes), Og de Souza (UFV) que até hoje são minhas referencias em analises de dados e estudo das técnicas com o software R. Não poderia deixar de agradecer também os amigos do Laboratório de Entomologia da UFS e da Vila Parentoni (UFMG) que enriquecem meus conhecimentos dentro da biologia e analises de dados. Agradeço a Renata Muylaert por todas as conversas e aprendizados sobre R e pela revisão realizada nesse e-book. Agradeço também a Bocaina – Biologia da Conservação pela oportunidade de parceria com os diretores (Lucas Perillo e Felipe Fonseca). Design: Tiago Bruno - (31) 991776719 tiago211287@gmail.com Alguns desenhos foram projetados por Freepik Página 30

×