Análise multivarida e correlacões no Genes

3.577 visualizações

Publicada em

Publicada em: Dados e análise
0 comentários
11 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
3.577
No SlideShare
0
A partir de incorporações
0
Número de incorporações
19
Ações
Compartilhamentos
0
Downloads
284
Comentários
0
Gostaram
11
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise multivarida e correlacões no Genes

  1. 1. Correlações e Análises Multivariadas Cristiano Lemes
  2. 2. Análises que serão abordadas • Análise de Variância: – Correlações Fenotípica, Genotípica e Residual • Correlações: – Simples ou de Pearson; – Teste Mantel – Correlações de Spearman – Dispersão Gráfica • Análises de Trilha – Análise de trilha simples – Análise de trilha com colinearidade
  3. 3. Análises que serão abordadas • Métodos de Agrupamento: – Variáveis Canônicas – Componentes Principais – Tocher (método de otimização) – Correlação cofenética – Transformar matriz de similaridade em dissimilaridade • Dissimilaridade: – Distância Euclidiana (baseada no arquivo de medias) – Distância Mahalabonis (considera as repetições) • Bootstrap e ponto de corte em dendogramas. • Dissimilaridade através de marcadores: – morfológicos – moleculares – Analise combinada (morfológico+molecular).
  4. 4. Análise de Variância Tem o objetivo de avaliar se as diferenças observadas entre as médias das amostras são estatisticamente significantes. - Tabular os dados no Excel; - Usar PONTO no lugar de VÍRGULA para separar as casas decimais (Ctrl + L ou em configurações locais); - De preferência organizar as análises em planilhas do mesmo arquivo;
  5. 5. Clicar em “Entrada de dados”
  6. 6. Clicar em “NOVO”
  7. 7. Colar o conjuto de dados aqui Posteriormente salvar isso clicando no local indicado pela seta
  8. 8. Seguir os passos conforme esta inlustrado acima
  9. 9. Clicar aqui para abrir o arquivo a ser analisado
  10. 10. Clicar em “Abrir”
  11. 11. Abrir o arquivo Depois de abrir, clicar em Sair
  12. 12. O próximo passo e clicar em “Declaração de Parâmetros” Completar os itens solicitados conforme os dados do experimento a ser analisado Em seguida clicar em retornar Nomear as variaveis a serem analisadas
  13. 13. Criar um novo arquivo com o nome das variáveis
  14. 14. Clicar em “Nome das Variáveis” e seguir os passos acima ate encontrar o arquivo com o nome das mesmas criado anteriormente
  15. 15. Localizar o arquivo Posteriormente clicar em finalizar
  16. 16. Clicar em “ANOVA” para rodar a análise
  17. 17. Exportar análise para o Excel
  18. 18. Ao final dessa saída da ANOVA encontram-se as matrizes de correlação Fenotípica, Genotípica e Residual Recomenda-se colar essa análise em um nova planilha do arquivo original dos dados
  19. 19. - Em seguida voltar ao Genes e clicar em “Finalizar” análise - Salvar as matrizes de interesse que estao disponíveis para serem usada em análises posteriores - Clicar em “Processar”
  20. 20. Pode-se também solicitar apenas o “Resumo” da Anova
  21. 21. Correlações Permite avaliar a magnitude e o sentido das relações entre caracteres. - Correlações rfe, rge e rre; - Correlações Simples (Pearson): feita a partir do arquivo de medias, (DAD.med); -Teste Mantel: permite testar a significâncias de associações em várias simulações; - Correlação de Spearman: para dados não paramétricos Dispersão Gráfica: permite a visualização das associações entre caracteres baseado nas correlações simples dos mesmos
  22. 22. Abrir arquivo de médias
  23. 23. - Declarar Parâmetros - Dar um nome para o arquivo de saída - O campo “Código para Valores Perdidos” não precisa ser preenchido - Retornar - Nomear as variáveis
  24. 24. Na sequência clicar em “Processar” Clicar em “OK” na janela que aparece depois
  25. 25. Encontrar o menor valor de correlação significativo para o nível de sgnificância adotado.
  26. 26. - Encontrar o arquivo de Saída - Exportá-lo para o Excel
  27. 27. Teste Mantel Usar o mesmo arquivo de médias para rodar o teste Mantel
  28. 28. - Nomear um arquivo de saída -Definir um número de simulações - Processar
  29. 29. Correlação de Spearman - Usar o mesmo arquivo de médias - Renomear o arquivo de saída
  30. 30. - Localizar o arquivo de saida e exportá-lo para o Excel
  31. 31. - Formatar os dados - Identificar cada coluna com suas respectivas variáveis
  32. 32. Spearman Pearson
  33. 33. Dispersão Gráfica Usar o mesmo arquivo de médias para visualizar a dispersão gráfica
  34. 34. Análise de Trilha Analisa o efeito direto de uma variável independente (x) sobre uma variável dependente (y) após a remoção da influência de todas as outras variáveis independentes (xi) incluídas na análise.
  35. 35. Abrir o arquivo de correlações fenotípicas “rfe.dat”
  36. 36. -Declarar Parâmetros - Informar o número variáveis do arquivo “rfe.dat” - Nomear as variáveis
  37. 37. -Clicar em “Processar” - Informar as Variáveis e em seguida clicar em “Prosseguir”
  38. 38. - Analisar o arquivo de saída - Exportá-lo para o Excel
  39. 39. Análise de Trilha com Colineariedade
  40. 40. Abrir o arquivo de correlações fenotípicas “rfe.dat”
  41. 41. -Declarar Parâmetros - Informar o número variáveis do arquivo “rfe.dat” - Nomear as variáveis
  42. 42. Deve-se escolher o menor valor de “K” para o qual a maioria dos coeficientes de trilha, associados aos vários caracteres esteje estabilizado.
  43. 43. Variáveis Canônicas - Técnica de Dispersão Gráfica - exige experimento com delineamento experimental (repetições) - Para serem representativos as 2 primeiras variáveis devem explicar pelo menos 80% da variação original dos dados;
  44. 44. - Abrir arquivo de médias - Em “Dispersão” completar com o “cre” - Declarar o número de variáveis - Nomear variáveis
  45. 45. Nesse caso as 2 primeiras variáveis explicam mais de 80% da variação original dos dados
  46. 46. Componentes Principais - Técnica de Dispersão Gráfica - Permitem a identificação da divergência genética - Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias) - Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da variação original dos dados.
  47. 47. Nesse caso os 2 primeiros componentes explicam mais de 80% da variação original dos dados
  48. 48. Tocher - Método de Agrupamento - A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo - Não permite comparar acessos dentro do mesmo do mesmo grupo
  49. 49. Dissimilaridade - Distância de Euclidiana - Experimentos que não contemplam delineamento - Análise feita apartir do arquivo de médias - Matriz de Distância Genética ou dendogramas
  50. 50. - Saída do Dendograma - Desvantagem do Genes, ausência de mecanismos de formatação
  51. 51. Dissimilaridade - Distância de Mahalanobis - Leva em conta as variâncias e covariâncias e correlações residuais entre os caracteres aferidos. - Considera as repetições experimentais
  52. 52. -Nomear as Variáveis - Gerar Matriz -Processar Agrupamento -Fazer Bootstrap -Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulações
  53. 53. Contribuição Relativa dos Caracteres – Singh 1981 Identificação dos caracteres que mais contribuíram para a dissimilaridade genética
  54. 54. Dendograma gerado a partir da matriz de distância de Mahalanobis
  55. 55. Correlação Cofenética Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma. Muito importante quando são realizadas inferências com base no dendrograma
  56. 56. Abrir a “matriz de distância genética” que se deseja analisar
  57. 57. Cosntruindo dendogramas no Ntsys - Abrir a “matriz de distância genética” no Genes - Exportá-lo para o Excel - Formatá-lo conforme o modelo ao lado
  58. 58. - No NTSYS, em clustering, clicar em SAHN, e no Imput file abrir a matriz de dissimilaridade (Excel) -
  59. 59. No output tree file, digitar um nome de saída (exemplo DE = dendrograma) Em Clustering methods deixar UPGMA; aí pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser fechada, e após deves buscar no canto inferior esquerdo da janela uma figura pequena em forma de dendrograma: Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo salva formato metafile.
  60. 60. Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os dendogramas da mais adequada a cada situação
  61. 61. Dendograma feito no Ntsys
  62. 62. Matriz Mahalanobis - Ntsys Idem passos anteriores para construção do dendograma a partir da matriz de Distância Euclidiana
  63. 63. CCC no Ntsys Lembrar do arquivo de saída que foi salvo anteriormente
  64. 64. - Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras. - Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (COEF de cofenético). - Feito isso clicar em “Compute”.
  65. 65. -Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input file 2 (X), abrir a matriz cofenética de nome salvo (COEF). - No Input file 3 (X) não vai nada. No Number of permutations, digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.
  66. 66. Cálculo de Similaridade Genética a partir de Marcadores Moleculares - Juntar todos os marcadores polimórficos em única planilha do Excel - Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)
  67. 67. - No NTSYS: entrar em Similarity, depois em quantitative date e no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores. - Deixar clicado X em By rows, Coefficient clicar em DICE, e em Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior. - Rodar a análise (compute)
  68. 68. Transformá-la em dissimilaridade genética (1 menos os valores de similaridade que abrirem Após, sem números em formato de fórmula, inserir uma coluna e duas linhas, colocando o nome dos genótipos em forma de matriz, porém, nas primeiras três células da linha digitar os códigos: 2=indica cálculo de dissimilaridade, 10 e 10= indicam a dimensão da matriz.

×