Análises agrupamento e dissimilaridade no Genes

7.278 visualizações

Publicada em

Publicada em: Educação
5 comentários
5 gostaram
Estatísticas
Notas
Sem downloads
Visualizações
Visualizações totais
7.278
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
362
Comentários
5
Gostaram
5
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análises agrupamento e dissimilaridade no Genes

  1. 1. ANÁLISES DEAGRUPAMENTO EDISSIMILARIDADE Mestrando: Cristiano Lemes Prof: Giovani Benin Teoria da Seleção - 2012
  2. 2. ANÁLISES QUE SERÃOABORDADAS Métodos de Agrupamento:  Variáveis Canônicas  Componentes Principais  Transformar matriz de similaridade em dissimilaridade Dissimilaridade:  Distância Euclidiana (baseada no arquivo de médias)  Distância Mahalabonis (considera as repetições)  Correlação cofenética e Ponto de corte Bootstrap e ponto de corte em dendogramas Dissimilaridade através de marcadores:  morfológicos  Moleculares
  3. 3. TÉCNICAS DE AGRUPAMENTO Os métodos de agrupamento têm por finalidade separar um grupo original de observações em vários subgrupos, de forma a obter homogeneidade dentro e heterogeneidade entre os subgrupos. Dentre estes métodos, os hierárquicos e os de otimização são empregados em grande escala pelos melhoristas de plantas.
  4. 4. Principais análises1 - Estimativa de uma medida de distância Distancia Euclidiana Distancia generalizada de Mahalanobis 2 - Adoção de uma técnica de agrupamento Variáveis canônicas Dispersão gráfica Componentes principais Agrupamento de Tocher Agrupamento (Vizinho mais próximo, mais distante e distância média)
  5. 5. FINALIDADE: Reunir os genitores em grupos Segundo critérios de similaridade ou dissimilaridade OBJETIV Homogeneidade dentro de grupos OS: Heterogeneidade entre gruposEtapas: 1 – Estimativa das distâncias 2 – Adoção de uma técnica de agrupamento Identificação do par de genitores mais similares Avalia a possibilidade de inclusão de novos genitores
  6. 6. VARIÁVEIS CANÔNICAS- Técnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem explicar pelo menos 80% da variação original dos dados;
  7. 7. - Abrir arquivo de médias- Em “Dispersão” completar com o “cre”- Declarar o número de variáveis- Nomear variáveis
  8. 8. Nesse caso as 2 primeiras variáveis explicammais de 80% davariação original dos dados
  9. 9. COMPONENTES PRINCIPAIS- Técnica de Dispersão Gráfica- Permitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da variação original dos dados.
  10. 10. Nesse caso os 2 primeiros componentes explicammais de 80% davariação original dos dados
  11. 11. C. PRINCIPAIS VS V. CANÔNICAS SEMELHANÇAS:  Permitem a identificação da divergência genética;  Possibilidade de resumir o conjunto de variáveis originais em poucos componentes, o que significará ter uma boa aproximação do comportamento dos indivíduos de um espaço dimensional em um espaço bi ou tri dimensional;  Para serem representativos os 2 primeiros componentes devem explicar pelo menos 80% da variação original dos dados;  Os componentes são independentes entre si;  Ambas utilizam dados padronizados.
  12. 12. TOCHER- Método de Agrupamento- A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo- Não permite comparar acessos dentro do mesmo do mesmo grupo
  13. 13. DISSIMILARIDADE - DISTÂNCIA DE EUCLIDIANAObservações individuais Experimentos que não contemplam delineamento Deve ser Experimentos com delineamento - Médias das repetições evitado Menor precisão em relação a distancia generalizada de Mahalanobis
  14. 14. - Saída do Dendograma- Desvantagem do Genes: - Pouca possibilidade para editar e formatar as figuras
  15. 15. Dissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuaisentre os caracteres aferidos.-Considera as repetições experimentais-é possível destacar a distância generalizada de Mahalanobis D 2- Leva em consideração a existência de correlações entre os caracteresanalisados, Necessita de ensaios experimentais com repetições
  16. 16. -Nomear as Variáveis- Gerar Matriz-Processar Agrupamento-Bootstrap -Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulações
  17. 17. CONTRIBUIÇÃO RELATIVA DOS CARACTERES– SINGH 1981 Identificação dos caracteres que mais contribuíram para a dissimilaridade genética entre os genótipos avaliados
  18. 18. Dendograma gerado a partir da matriz de distância de Mahalanobis
  19. 19. CORRELAÇÃO COFENÉTICA (CCC)Mede a correlação (ajuste) entre a matriz de distância original e as distânciasapresentadas no dendrograma.Muito importante quando são realizadas inferências com base nodendrogramaValores de CCC acima de 0,70 indicam uma representação confiável entre amatriz de distância original e as distâncias gráficas
  20. 20. Abrir a “matriz de distância genética” que se deseja analisar
  21. 21. CONSTRUINDO DENDOGRAMAS NO NTSYS- Abrir a “matriz de distância genética” no Genes- Exportá-lo para o Excel- Formatá-lo conforme o modelo ao lado
  22. 22. - NoNTSYS, em clustering, clicarem SAHN, e no Imput file abrir a matriz de dissimilaridade (Excel) -
  23. 23. No output tree file, digitar um nome de saída (exemplo DE = dendrograma)Em Clustering methods deixar UPGMA; aípedir para rodar (Compute), Com isso vaiabrir uma janela de escritas que pode ser fechada, e após deves buscar no canto inferior esquerdo da janela uma figura pequena em forma de dendrograma:Clicando nela aparece a FIGURA que podeser formatada conforme interesse, sendo salva formato metafile.
  24. 24. Conforme exposto acima, o programa Ntsys possui váriosmecanismos que podem ser ajustados para formatar os dendogramas da mais adequada a cada situação
  25. 25. Dendograma feito no Ntsys
  26. 26. MATRIZ MAHALANOBIS - NTSYS Idem passos anteriores para construção do dendograma a partir da matriz de Distância Euclidiana
  27. 27. CCC NO NTSYS Lembrar do arquivo de saída que foi salvo anteriormente
  28. 28. - Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (CCC). - Após isso clicar em “Compute”.
  29. 29. -Depois, clicar em Graphics, em seguida em Matrix comprison plot, e noInput file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, eno Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).- No Input file 3 (X) não vai nada. No Number of permutations, digitar1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechadoaparece uma janela de escritas, e em uma delas aparece o valor da correlaçãoentre as matrizes e que é o valor cofenético.
  30. 30. CÁLCULO DE SIMILARIDADE GENÉTICA APARTIR DE MARCADORES MOLECULARES - Juntar todos os marcadores polimórficos em única planilha do Excel - Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)
  31. 31. - No NTSYS: entrar em Similarity, depois em quantitative datee no Input file one buscar a planilha de dados do Excel com oscódigos, genótipos e marcadores.- Deixar clicado X em By rows, Coefficient clicar em DICE, eem Output file escrever qualquer nome de saída do arquivo desimilaridade (só escrever o nome que ele salva no mesmo lugar quefoi buscada a planilha de dados anterior.- Rodar a análise (compute) e depois editar o dendograma
  32. 32. Transformá-la em dissimilaridade genética (1 menos os valores de similaridade que abrirem Após, sem números emformato de fórmula, inserir umacoluna e duas linhas, colocandoo nome dos genótipos em formade matriz, porém, nas primeiras três células da linha digitar os códigos: 2=indica cálculo de dissimilaridade, 10 e 10= indicam a dimensão da matriz.
  33. 33. OBRIGADO cristianolemes.utfpr@gmail.com

×