ANÁLISES DE
AGRUPAMENTO E
DISSIMILARIDADE

                    Mestrando: Cristiano Lemes
                             Prof: Giovani Benin




  Teoria da Seleção - 2012
ANÁLISES QUE SERÃO
ABORDADAS

   Métodos de Agrupamento:
     Variáveis Canônicas
     Componentes Principais
     Transformar matriz de similaridade em dissimilaridade


   Dissimilaridade:
      Distância Euclidiana (baseada no arquivo de médias)
      Distância Mahalabonis (considera as repetições)
      Correlação cofenética e Ponto de corte

   Bootstrap e ponto de corte em dendogramas


   Dissimilaridade através de marcadores:
      morfológicos
      Moleculares
TÉCNICAS DE AGRUPAMENTO

   Os métodos de agrupamento têm por finalidade separar um
    grupo original de observações em vários subgrupos, de forma a
    obter homogeneidade dentro e heterogeneidade entre os
    subgrupos.

   Dentre estes métodos, os hierárquicos e os de otimização são
    empregados em grande escala pelos melhoristas de plantas.
Principais análises

1 - Estimativa de uma medida de distância


        Distancia Euclidiana
        Distancia generalizada de Mahalanobis


 2 - Adoção de uma técnica de agrupamento

        Variáveis canônicas                       Dispersão gráfica
        Componentes principais
        Agrupamento de Tocher
        Agrupamento (Vizinho mais próximo, mais distante e distância
        média)
FINALIDADE:

    Reunir os genitores em grupos


             Segundo critérios de similaridade ou dissimilaridade

                   OBJETIV
                                        Homogeneidade dentro de grupos
                   OS:
                                        Heterogeneidade entre grupos

Etapas:
              1 – Estimativa das distâncias
              2 – Adoção de uma técnica de agrupamento

  Identificação do par de genitores mais similares
  Avalia a possibilidade de inclusão de novos genitores
VARIÁVEIS CANÔNICAS
-   Técnica de Dispersão Gráfica
-   exige experimento com delineamento experimental (repetições)
-    Para serem representativos as 2 primeiras variáveis devem
    explicar pelo menos 80% da variação original dos dados;
-   Abrir arquivo de médias
-   Em “Dispersão” completar com o “cre”
-   Declarar o número de variáveis
-   Nomear variáveis
Nesse caso as 2
    primeiras
    variáveis
    explicam
mais de 80% da
variação original
   dos dados
COMPONENTES PRINCIPAIS
-   Técnica de Dispersão Gráfica
-   Permitem a identificação da divergência genética
-   Não exige experimentos com delineamento experimental (usa-se apenas
    o arquivo de médias)
-   Para ser representativo os 2 primeiros componentes devem explicar
    pelo menos 80% da variação original dos dados.
Nesse caso os 2
    primeiros
 componentes
    explicam
mais de 80% da
variação original
   dos dados
C. PRINCIPAIS VS V. CANÔNICAS

   SEMELHANÇAS:
       Permitem a identificação da divergência genética;

        Possibilidade de resumir o conjunto de variáveis
        originais em poucos componentes, o que significará ter
        uma boa aproximação do comportamento dos indivíduos
        de um espaço dimensional em um espaço bi ou tri
        dimensional;

     Para   serem representativos os 2 primeiros componentes
        devem explicar pelo menos 80% da variação original dos
        dados;

       Os componentes são independentes entre si;

       Ambas utilizam dados padronizados.
TOCHER
-   Método de Agrupamento
-   A média das medidas de distância dentro de cada grupo deve ser
    menor do que as distâncias médias entre quaisquer grupo
-   Não permite comparar acessos dentro do mesmo do mesmo grupo
DISSIMILARIDADE - DISTÂNCIA DE
 EUCLIDIANA
Observações individuais


   Experimentos que não contemplam delineamento
                                                            Deve ser
   Experimentos com delineamento - Médias das repetições
                                                            evitado
   Menor precisão em relação a distancia generalizada de Mahalanobis
-   Saída do Dendograma

-   Desvantagem do Genes:

    -   Pouca possibilidade para editar e formatar as figuras
Dissimilaridade - Distância de Mahalanobis
- Leva em conta as variâncias e covariâncias e correlações residuais
entre os caracteres aferidos.
-Considera as repetições experimentais
-é possível destacar a distância generalizada de Mahalanobis D 2
- Leva em consideração a existência de correlações entre os caracteres
analisados,
 Necessita de ensaios experimentais com repetições
-Nomear as Variáveis
- Gerar Matriz
-Processar Agrupamento

-Bootstrap
    -Testa a consistência das bifurcações em porcentagem a partir de um
    número determinado de simulações
CONTRIBUIÇÃO RELATIVA DOS CARACTERES
– SINGH 1981

  Identificação dos caracteres que mais contribuíram para
   a dissimilaridade genética entre os genótipos avaliados
Dendograma gerado a partir da matriz de distância de
 Mahalanobis
CORRELAÇÃO COFENÉTICA (CCC)
Mede a correlação (ajuste) entre a matriz de distância original e as distâncias
apresentadas no dendrograma.
Muito importante quando são realizadas inferências com base no
dendrograma
Valores de CCC acima de 0,70 indicam uma representação confiável entre a
matriz de distância original e as distâncias gráficas
Abrir a “matriz de distância genética” que se deseja analisar
CONSTRUINDO DENDOGRAMAS
    NO NTSYS




- Abrir a “matriz de
   distância genética” no
   Genes

-   Exportá-lo para o Excel

-   Formatá-lo conforme o
    modelo ao lado
- NoNTSYS, em clustering, clicar
em SAHN, e no Imput file abrir a
 matriz de dissimilaridade (Excel)
                -
No output tree file, digitar
                                               um nome de saída
                                                 (exemplo DE =
                                                 dendrograma)




Em Clustering methods deixar UPGMA; aí
pedir para rodar (Compute), Com isso vai
abrir uma janela de escritas que pode ser
  fechada, e após deves buscar no canto
  inferior esquerdo da janela uma figura
   pequena em forma de dendrograma:
Clicando nela aparece a FIGURA que pode
ser formatada conforme interesse, sendo
          salva formato metafile.
Conforme exposto acima, o programa Ntsys possui vários
mecanismos que podem ser ajustados para formatar os
    dendogramas da mais adequada a cada situação
Dendograma feito no Ntsys
MATRIZ MAHALANOBIS - NTSYS

                   Idem passos anteriores para
                construção do dendograma a partir
                 da matriz de Distância Euclidiana
CCC NO NTSYS



                Lembrar do arquivo
               de saída que foi salvo
                   anteriormente
- Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys,
      substituindo o nome dos genótipos por letras.

- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é
      feito no mesmo local clustering, clicar em Cophenetic values, e em
      Imput tree file abrir o DE e na Output Coph file, colocar um nome de
      saída (CCC).

      - Após isso clicar em “Compute”.
-Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no
Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e
no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).

- No Input file 3 (X) não vai nada. No Number of permutations, digitar
1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado
aparece uma janela de escritas, e em uma delas aparece o valor da correlação
entre as matrizes e que é o valor cofenético.
CÁLCULO DE SIMILARIDADE GENÉTICA A
PARTIR DE MARCADORES MOLECULARES




 - Juntar todos os marcadores polimórficos em única planilha do
    Excel

 - Colocar nome dos genótipos e números de códigos (exemplo
    1=cálculo da similaridade; 10=número de genótipos;
    182=número de marcadores utilizados)
- No NTSYS: entrar em Similarity, depois em quantitative date
e no Input file one buscar a planilha de dados do Excel com os
códigos, genótipos e marcadores.
- Deixar clicado X em By rows, Coefficient clicar em DICE, e
em Output file escrever qualquer nome de saída do arquivo de
similaridade (só escrever o nome que ele salva no mesmo lugar que
foi buscada a planilha de dados anterior.
- Rodar a análise (compute) e depois editar o dendograma
Transformá-la em
                                        dissimilaridade
                                     genética (1 menos os
                                           valores de
                                       similaridade que
                                            abrirem


       Após, sem números em
formato de fórmula, inserir uma
coluna e duas linhas, colocando
o nome dos genótipos em forma
de matriz, porém, nas primeiras
  três células da linha digitar os
   códigos: 2=indica cálculo de
     dissimilaridade, 10 e 10=
 indicam a dimensão da matriz.
OBRIGADO



   cristianolemes.utfpr@gmail.com

Análises agrupamento e dissimilaridade no Genes

  • 1.
    ANÁLISES DE AGRUPAMENTO E DISSIMILARIDADE Mestrando: Cristiano Lemes Prof: Giovani Benin Teoria da Seleção - 2012
  • 2.
    ANÁLISES QUE SERÃO ABORDADAS  Métodos de Agrupamento:  Variáveis Canônicas  Componentes Principais  Transformar matriz de similaridade em dissimilaridade  Dissimilaridade:  Distância Euclidiana (baseada no arquivo de médias)  Distância Mahalabonis (considera as repetições)  Correlação cofenética e Ponto de corte  Bootstrap e ponto de corte em dendogramas  Dissimilaridade através de marcadores:  morfológicos  Moleculares
  • 3.
    TÉCNICAS DE AGRUPAMENTO  Os métodos de agrupamento têm por finalidade separar um grupo original de observações em vários subgrupos, de forma a obter homogeneidade dentro e heterogeneidade entre os subgrupos.  Dentre estes métodos, os hierárquicos e os de otimização são empregados em grande escala pelos melhoristas de plantas.
  • 4.
    Principais análises 1 -Estimativa de uma medida de distância Distancia Euclidiana Distancia generalizada de Mahalanobis 2 - Adoção de uma técnica de agrupamento Variáveis canônicas Dispersão gráfica Componentes principais Agrupamento de Tocher Agrupamento (Vizinho mais próximo, mais distante e distância média)
  • 5.
    FINALIDADE: Reunir os genitores em grupos Segundo critérios de similaridade ou dissimilaridade OBJETIV Homogeneidade dentro de grupos OS: Heterogeneidade entre grupos Etapas: 1 – Estimativa das distâncias 2 – Adoção de uma técnica de agrupamento Identificação do par de genitores mais similares Avalia a possibilidade de inclusão de novos genitores
  • 6.
    VARIÁVEIS CANÔNICAS - Técnica de Dispersão Gráfica - exige experimento com delineamento experimental (repetições) - Para serem representativos as 2 primeiras variáveis devem explicar pelo menos 80% da variação original dos dados;
  • 7.
    - Abrir arquivo de médias - Em “Dispersão” completar com o “cre” - Declarar o número de variáveis - Nomear variáveis
  • 8.
    Nesse caso as2 primeiras variáveis explicam mais de 80% da variação original dos dados
  • 10.
    COMPONENTES PRINCIPAIS - Técnica de Dispersão Gráfica - Permitem a identificação da divergência genética - Não exige experimentos com delineamento experimental (usa-se apenas o arquivo de médias) - Para ser representativo os 2 primeiros componentes devem explicar pelo menos 80% da variação original dos dados.
  • 13.
    Nesse caso os2 primeiros componentes explicam mais de 80% da variação original dos dados
  • 15.
    C. PRINCIPAIS VSV. CANÔNICAS  SEMELHANÇAS:  Permitem a identificação da divergência genética;  Possibilidade de resumir o conjunto de variáveis originais em poucos componentes, o que significará ter uma boa aproximação do comportamento dos indivíduos de um espaço dimensional em um espaço bi ou tri dimensional;   Para serem representativos os 2 primeiros componentes devem explicar pelo menos 80% da variação original dos dados;  Os componentes são independentes entre si;  Ambas utilizam dados padronizados.
  • 16.
    TOCHER - Método de Agrupamento - A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo - Não permite comparar acessos dentro do mesmo do mesmo grupo
  • 20.
    DISSIMILARIDADE - DISTÂNCIADE EUCLIDIANA Observações individuais Experimentos que não contemplam delineamento Deve ser Experimentos com delineamento - Médias das repetições evitado Menor precisão em relação a distancia generalizada de Mahalanobis
  • 26.
    - Saída do Dendograma - Desvantagem do Genes: - Pouca possibilidade para editar e formatar as figuras
  • 28.
    Dissimilaridade - Distânciade Mahalanobis - Leva em conta as variâncias e covariâncias e correlações residuais entre os caracteres aferidos. -Considera as repetições experimentais -é possível destacar a distância generalizada de Mahalanobis D 2 - Leva em consideração a existência de correlações entre os caracteres analisados, Necessita de ensaios experimentais com repetições
  • 30.
    -Nomear as Variáveis -Gerar Matriz -Processar Agrupamento -Bootstrap -Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulações
  • 32.
    CONTRIBUIÇÃO RELATIVA DOSCARACTERES – SINGH 1981 Identificação dos caracteres que mais contribuíram para a dissimilaridade genética entre os genótipos avaliados
  • 34.
    Dendograma gerado apartir da matriz de distância de Mahalanobis
  • 36.
    CORRELAÇÃO COFENÉTICA (CCC) Medea correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma. Muito importante quando são realizadas inferências com base no dendrograma Valores de CCC acima de 0,70 indicam uma representação confiável entre a matriz de distância original e as distâncias gráficas
  • 38.
    Abrir a “matrizde distância genética” que se deseja analisar
  • 40.
    CONSTRUINDO DENDOGRAMAS NO NTSYS - Abrir a “matriz de distância genética” no Genes - Exportá-lo para o Excel - Formatá-lo conforme o modelo ao lado
  • 41.
    - NoNTSYS, emclustering, clicar em SAHN, e no Imput file abrir a matriz de dissimilaridade (Excel) -
  • 42.
    No output treefile, digitar um nome de saída (exemplo DE = dendrograma) Em Clustering methods deixar UPGMA; aí pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser fechada, e após deves buscar no canto inferior esquerdo da janela uma figura pequena em forma de dendrograma: Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo salva formato metafile.
  • 44.
    Conforme exposto acima,o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os dendogramas da mais adequada a cada situação
  • 45.
  • 46.
    MATRIZ MAHALANOBIS -NTSYS Idem passos anteriores para construção do dendograma a partir da matriz de Distância Euclidiana
  • 51.
    CCC NO NTSYS Lembrar do arquivo de saída que foi salvo anteriormente
  • 52.
    - Antes decomeçar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras. - Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (CCC). - Após isso clicar em “Compute”.
  • 53.
    -Depois, clicar emGraphics, em seguida em Matrix comprison plot, e no Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC). - No Input file 3 (X) não vai nada. No Number of permutations, digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.
  • 56.
    CÁLCULO DE SIMILARIDADEGENÉTICA A PARTIR DE MARCADORES MOLECULARES - Juntar todos os marcadores polimórficos em única planilha do Excel - Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)
  • 57.
    - No NTSYS:entrar em Similarity, depois em quantitative date e no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores. - Deixar clicado X em By rows, Coefficient clicar em DICE, e em Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior. - Rodar a análise (compute) e depois editar o dendograma
  • 59.
    Transformá-la em dissimilaridade genética (1 menos os valores de similaridade que abrirem Após, sem números em formato de fórmula, inserir uma coluna e duas linhas, colocando o nome dos genótipos em forma de matriz, porém, nas primeiras três células da linha digitar os códigos: 2=indica cálculo de dissimilaridade, 10 e 10= indicam a dimensão da matriz.
  • 61.
    OBRIGADO  cristianolemes.utfpr@gmail.com