SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
Alignment-free
sequence comparison
     A review (1)
   Seminario di Franco Chiavetta
           sull’articolo (1) di
  Susana Vinga and Jonas Almeida
    per il corso di Bioinformatica
Introduzione
• In biologia, i primi metodi di confronto fra sequenze sono stati
  derivati dai criteri di string-matching utilizzati nella Computer
  Science.

• La nozione di similarità si è fino a poco tempo fa basata
  prevalentemente su metodi per l’allineamento di sequenze,
  tipicamente basati sulla programmazione dinamica.

• Obiettivi di tali metodi sono l’allineamento globale o locale di
  sequenze
Introduzione
• I metodi di allineamento trattano le molecole biologiche come
  sequenze lineari secondo un approccio spesso di tipo
  “linguistico”

• Hanno dei limiti in quanto prescindono da:
     • la natura fisica e chimica di tali molecole,
     • la loro struttura tridimensionale,
     • la loro dinamicità evolutiva.
Introduzione
• La dinamica evolutiva è dovuta a
  – fenomeni su “piccola scala” (o “puntuali”):
     • Mutazioni, inserzioni, delezioni di singoli nucleotidi
         – mutano, scompaiono o compaiono singole basi
  – fenomeni su “media scala”
     • Cambiamenti nella struttura di un gene:
         – comparsa/scomparsa di introni
     • “Fusioni” di geni, o viceversa, divisione di geni in geni più piccoli
  – fenomeni su “larga scala”
     • Riarrangiamenti della sequenza genomica: una o più regioni
       cambiano di posto
     • Duplicazione: si possono duplicare INTERE regioni genomiche
Introduzione

                         Mutazioni (di singoli nucleotidi, spesso)
                       Inserzioni o cancellazioni di più nucleotidi
Scala dei fenomeni




                     Eventi su larga scala: riarrangiamenti, duplicazioni
                         inserzioni, cancellazioni di ampie regioni




                          Eventi “epici”: duplicazioni di interi genomi
Introduzione
• La ricombinazione genetica ed in particolare il
  rimescolamento genetico, sono in contrasto con i
  criteri di confronto di sequenze mediante
  allineamenti i quali presuppongono la conservazione
  della contiguità fra segmenti omologhi e sono
  sensibili solo a modifiche locali
Introduzione
• Per rimediare alle limitazioni dei criteri di confronto
  mediante allineamenti sono stati sviluppati vari
  metodi di confronto alignment-free basati su diversi
  impalcati teorici.
Notazione
• Una sequenza X di lunghezza n, è una successione di n simboli
  presi da un alfabeto finito A con cardinalità r.

• Un segmento di L simboli, con L<=n, viene detto
  L-tupla (o L-word)

• Con WL denotiamo l’insieme di tutte le K possibili L-tuple,
  con K = rL.

             WL = {wL,1, wL,2, … , wL,K}
Notazione
• La ricerca di L-tuple in una sequenza X consiste nel effettuare
  un conteggio delle occorrenze (con overlapping) degli
  elementi di WL

• Si effettua facendo scorrere lungo X una “finestra” di
  larghezza L, dalla posizione 1 alla posizione n – L +1 per
  ricavare il vettore word-count


              CXL = {cXL,1, cXL,2, … , cXL,K}

  dove cXL,i è il numero di occorrenze di wL,i in X
Notazione
• Analogamente, è possibile calcolare il vettore fXL delle
  frequenze delle L-tuple in X
              fXL = {fXL,1, fXL,2, … , fXL,K}
  dove:


• Da fXL si possono poi stimare le probabilità frequentistiche di
  trovare ogni possibile L-tupla in X, ricavando il vettore

                PXL = {pXL,1, pXL,2, … , pXL,K}

  dove pXL,i è la probabilità di wL,i in X
Overlapping
• La valutazione della significatività statistica delle misure di
  similarità, presenta il problema di ricavare formule per la stima
  dei valori attesi per i conteggi, per la varianza e la covarianza
  fra le frequenze di L-tuple, cioè la distribuzione di PXL.

• Per una corretta stima delle covarianze di PXL è necessario che
  tali misure prevedano la cosidetta “overlapping capability”,
  ossia la capacità conteggiare correttamente L-tuple che si
  susseguono condividendo prefissi e suffissi.

• Tali problema si ha ad esempio nelle metriche basate sulla
  distanza di Mahalanobis.
Esempio per sequenze di DNA
•   A = {A, T, G, C}                    : r=4
•   X = ATATAC                          : n=6
•   Consideriamo “trinucleotidi”        : L=3
•   Calcoliamo le frequenze di tutti i possibili trinucleotidi
    ottenibili facendo scorrere una finestra larga 3 per
    n – L + 1 = 6 - 3 + 1 = 4 volte:

    W3 = {ATA, TAT, TAC, AAA,…}
    CX3 = {2, 1, 1, 0, …}
    fX3 = {0.5, 0.25, 0.25, 0, …}

    dove i vettori CX3 e fX3 hanno lunghezza K = rL = 43 = 64
Confronti alignment-free
• In letteratura sono stati presentati:
   – metodi basati sul conteggio/frequenza di L-tuple
     ad una specifica risoluzione (scale dependent)
      • metriche definite nello spazio dei vettori word-count come la
        distanza Euclidea e l’entropia relativa della distribuzione delle
        frequenze
   – metodi non basati sul conteggio/frequenza di L-tuple
     a lunghezza fissa (scale independent)
      • rappresentazioni scale-indipendent delle sequenze mediante teoria
        della complessità di Kolmogorov, e mappe iterative.
Distanza euclidea
• Il primo articolo in cui viene sistematizzato l’uso dei conteggi
  delle L-tuple per il confronto tra sequenze è dovuto a Blaisdell
  (1986)

• Nell’articolo le sequenze sono modellate come catene di
  Markov, e la differenza tra due sequenze viene vista come la
  distanza quadratica euclidea tra le rispettive matrici di
  transizione.

• Il fatto che la matrice di transizione di una catena di Markov
  potesse essere identificata con la frequenza delle possibili L-
  tuple, portò l’autore a formulare ulteriori metodi di confronto
  in articoli seguenti.
Distanza euclidea
• Per una data possibile “risoluzione“ o “lunghezza di parola”
  L, la distanza quadratica euclidea tra due sequenze X e Y è
  data da:
Distanza euclidea
• Tale metrica è stata validata applicandola al confronto di
  lunghe sequenze relative ad organismi in relazione filogenetica
  ampiamente documentata.

• Inoltre, è stata usata per effettuare il riconoscimento di
  relazioni filogenetiche tra coppie di sequenze supportando i
  risultati ottenuti con metodi convenzionali basati
  sull’allineamento totale

• E’ stato osservato che i valori di dissimilarità ottenuti con tale
  metrica hanno andamento direttamente proporzionale al
  conteggio dei mismatch dei metodi di allineamento
  convenzionali.
Distanza euclidea
• Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su
  alcune caratteristiche statistiche quali: il valore atteso per la
  distanza e la varianza per confronti mediante L-tuple.

• Le proprietà statistiche della distanza quadratica Euclidea
  sono state documentate ampiamente attraverso l’uso di test
  statistici sulla non unformità delle corrispondenti distribuzioni
  (Zharkikh and Rzhetsky, 1993).
Distanza euclidea
• Interessanti lavori hanno studiato le relazioni di dipendenza tra
  le misurazioni della distanza quadratica euclidea a diverse
  scale o risoluzioni (i.e. al variare di L)
   – i.e. come il conteggio delle 3-tuple dipende da quello delle
     2-tuple.
Distanza euclidea pesata
• Gli studi sulle sequenze biologiche dimostrano che alcuni
  segmenti (L-tuple) sono normalmente più frequenti di altri.

• Ciò ha quindi un impatto sul calcolo della d.e.

• Per tenere conto di tale fatti oggettivi, sono state proposte
  metriche pesate che tenessero dessero maggiore “peso” al
  conteggio di determinate parole piuttosto che ad altre.
Distanza euclidea pesata
• La metrica pesata d2 proposta da Torney et al. 1990, utilizza
  pesi ρi per ogni possibile parola e combina inoltre diverse
  risoluzioni da l ad u.
Distanza euclidea pesata
• La metrica d2 si è dimostrata abbastanza efficace ed
  implementabile efficientemente.
• I confronti su sequenze omologhe mescolate o con
  inserzioni/delezioni danno valori di distanza comunque bassi.
• Per tali proprietà tale metrica è stata inclusa in package come
  STACK (Sequence Tag Alignment and Consensus
  Knowledgebase)
• Le metriche euclidee sono spesso usate come filtro di
  preprocessing per isolare da larghi database le migliori
  sequenze candidate per l’applicazione successiva di algoritmi
  FASTA/BLAST
Distanze basate su
              coefficienti statistici
• Covarianza
   – In teoria della probabilità la covarianza di due variabili aleatorie è un
     numero Cov(X,Y) che fornisce una misura di quanto le due varino
     assieme, ovvero della loro dipendenza.

   – La covarianza di due variabili aleatorie X e Y è il valore atteso dei
     prodotti delle loro distanze dalla media:

                      Cov(X,Y)=E[(X - E(X)) * (Y - E(Y)]

   – La covarianza di X e Y può anche essere espressa come la differenza tra
     il valore atteso del loro prodotto e il prodotto dei loro valori attesi

                         Cov(X,Y)=E[XY] – E[X]E[Y]
Distanze basate su
               coefficienti statistici
• Correlazione
   – In statistica per correlazione si intende una relazione tra due variabili
     casuali tale che a ciascun valore della prima variabile corrisponda con
     una certa regolarità un valore della seconda.

    – Il grado di correlazione fra due variabili viene espresso mediante i
      cosiddetti indici di correlazione.
        • Questi assumono valori compresi tra - 1 (variabili inversamente correlate)
          e + 1 (correlazione assoluta cioè quando alla variazione di una variabile
          corrisponde una variazione rigidamente dipendente dall'altra)
        • Un indice di correlazione pari a 0 indica un'assenza di correlazione.
             – Due variabili indipendenti hanno sicuramente un indice di correlazione pari a
               0, ma al contrario un valore pari a 0 non implica necessariamente che le due
               variabili siano indipendenti.
Distanze basate su
               coefficienti statistici
• Indice di correlazione di Pearson
   – Date due variabili statistiche X e Y è definito come la loro covarianza divisa
     per il prodotto delle deviazioni standard delle due variabili:

        ρXY = σXY/(σX * σY )

      dove
       • σXY , è la covarianza tra X e Y
       • σX e σY , sono le due deviazioni standard
Distanza basata sulla
                 correlazione
• Alcune metriche alignment free si basano sul calcolo del vettore delle
  frequenze delle L-tuple in X e Y

           fXL = {fXL,1, fXL,2, … , fXL,K}
           fYL = {fYL,1, fYL,2, … , fYL,K}

 e sul successivo calcolo dei coefficienti di correlazione lineare (LCC)
Distanza basata sulla
               correlazione
• Il formalismo adottato è quello dell’
  indice di correlazione di Pearson
Distanza basata sulla
                   correlazione
• Il formalismo adottato è quello dell’   Covarianza
  indice di correlazione di Pearson       tra f XL e f YL




 Deviazione
 standard di
 f XL


Deviazione
standard di
f YL
Distanza basata sulla
               correlazione
• Tale metrica è stata usata per queries su database di sequenze
  lunghe e di strutture proteiche (Petrilli and Tonukari,1997).

• L’applicazione di tale metrica ha permesso di ricavare
  conclusioni semplificative di grande utilità pratica, come il
  fatto che per classificare correttamente famiglie di proteine
  sono necessarie solo le frequenze di 25 peptidi su 400 possibili
  (Solovyev and Makarova, 1993)
Distanze basata sulla covarianza
• Questi metodi si basano sull’uso
   – della matrice di covarianza,
   – della distanza di Mahalanobis
   – o della distanza Euclidea standardizzata
Distanze basata sulla covarianza
• Distanza di Mahalanobis




• S = [sij] rappresenta la matrice di covarianza dei
  vettori word-count CXL e CYL
• S-1 è l’inversa di S (con K × K elementi)
Distanze basata sulla covarianza
• Distanza Euclidea Standard




• Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le
  stesse parole, considerando solo la varianza delle parole.

• Si riduce alla distanza quadratica Euclidea se si considera sii =
  1, per i =1,…,K
Distanze basata sulla covarianza
• In un articolo del 1997, Wu ha proposto sia la dLM che
  la dLSE per il confronto fra sequenze
• Nello stesso articolo si proponeva inoltre di
  combinare misure a diverse risoluzioni
Distanze basata sulla covarianza
• Tali metriche hanno problemi implementativi in quanto S ha
  determinante normalmente prossimo a zero (matrice quasi
  singolare) ed è quindi di difficile inversione.

• Diventano comunque inefficienti per risoluzioni L>4

• Hanno avuto qualche successo nelle ricerche in database di
  lipoproteine lipasi umane.

• In tali metriche è di particolare rilievo l’overlapping capability
Misure basate sulla
          teoria dell’informazione
• L’Information Theory si basa sui lavori di C. Shannon (1948),
  sulla trasmissione delle informazioni su canali disturbati.

• Solomon Kullback, l’ha reinquadrata rigorosamente
  nell’ambito della Statistica (1968)

• Tra i concetti più importanti della I.T. vi sono il concetto di
  entropia e di entropia relativa e di mutua informazione.

• Le metriche basate sull’I.T. sono applicate, come le precedenti,
  al conteggio/frequenza di L-tuple viste come variabili casuali.
Misure basate sulla
         teoria dell’informazione
• Il criterio utilizzato per il confronto tra sequenze si basa sul
  concetto di informazione mutua, una quantità che misura la
  mutua dipendenza delle due variabili.

• Intuitivamente, l'informazione mutua misura l'informazione
  che X e Y condividono: essa misura quanto la conoscenza di
  una di queste variabili riduce la nostra incertezza riguardo
  all'altra …
Misure basate sulla
         teoria dell’informazione
• Ad esempio, se X e Y sono indipendenti, allora la conoscenza
  di X non dà alcuna informazione riguardo a Y e viceversa,
  perciò la loro mutua informazione è zero.

• All'altro estremo, se X e Y sono identiche allora tutte le
  informazioni trasmesse da X sono condivise con Y: la
  conoscenza di X determina il valore di Y e viceversa.

• Come risultato, nel caso di identità, l'informazione mutua è la
  stessa contenuta in un una sola delle due (Y o X), vale a dire
  l'entropia di X (o di Y), perchè chiaramente se X e Y sono
  identiche, hanno identica entropia.
Misure basate sulla
         teoria dell’informazione
• Formalmente, l'informazione mutua di due variabili casuali
  discrete X e Y può essere definita come:




  dove p(x,y) è ora la funzione di "densità" di probabilità
  congiunta di X e Y, e p1(x) e p2(y) sono le funzioni di densità di
  probabilità marginale rispettivamente di X e Y.
Misure basate sulla
           teoria dell’informazione
• Tale concetto può essere applicato quindi per misurare la
  dissimilarità tra due sequenze biologiche come proposto nei
  lavori di Wu et al. (2001).
• In questo caso la mutua informazione è stata formulata in
  termini di “divergenza di Kullback-Leibler”, computandola dai
  vettori delle frequenze delle L-tuple.




   – Per evitare valori infiniti quando fXL,1 è 0 l’autore ha riformulato l’espressione
     aggiungendo 1 a numeratore e denominatore nel rapporto
Confronti
• Nei lavori di Wu si è riscontrato che:

   – in termini di sensibilità, selettività, la migliore metrica è la
     dLM , seguita da dLSE ed infine dalla dLKL

   viceversa,

   – in termini di efficienza computazionale la migliore metrica
     è dLKL , seguita da dLSE ed infine dalla dLM
Metrica basata sugli angoli
• In un report del 2002, Stuart et al. propongono una funzione
  distanza fra due sequenze X e Y considerando il coseno
  dell’angolo formato dai due vettori word-count.
Metrica basata sugli angoli
• Poiché tali vettori sono considerati in un spazio ad un elevato
  numero di dimensioni (K = rL), viene applicato un algoritmo di
  tipo SVD prima del calcolo del coseno, utilizzando solo le
  dimensioni corrispondenti agli autovalori più alti (Truncated
  SVD) (dimensionality reduction).

• L’uso della SVD viene visto dagli autori come un modo per
  portare la misurazione in uno spazio di caratteristiche
  differenti da quello delle L-tuple.
Metrica basata sugli angoli
• Tale metrica è insensibile ai pattern “ricorrenti”:
   – la distanza tra X ed XX risulta = 0 in quanto i due vector
     count su X e XX risultano avere norma diversa ma uguale
     direzione poiché CXX = 2CX.

• Questa proprietà è fondamentale in quanto “filtra”
  automaticamente le ripetizioni, distinquendo le sequenze solo
  per il diverso bilanciamento del “contenuto” in L-tuple.

• dCOS presenta inoltre similarità con la ”correlation distance”
  dLCC .
Metrica basata sugli angoli
• Nello stesso report, Stuart et al, ricorrono alla misura degli
  angoli per proporre una funzione per misurare la
  distanza evolutiva tra due sequenze.




• La dLEVOL è stata usata nello studio del genoma mitocondriale
  e le distanze evolutive osservate sono risultate in
  corrispondenza con valori ottenuti in precedenza con altri
  metodi.
Metodi resolution-free
• Le metriche precedenti si basano sull’uso di L-tuple a
  risoluzioni fissate, o su combinazioni di misurazioni a diverse
  risoluzioni
• Esistono però altri metodi di misurazione che non sono
  dipendenti dalla scala/risoluzione e che risultano quindi
  assolutamente indipendenti dall’assunzione della
  conservazione di contiguità.
• Tale obiettivo viene raggiunto in due modi:
   – Mediante uso di algoritmi di compressione delle sequenze,
   – Mediante uso di mappe iterative
Kolmogorov Complexity
• Ci si basa sul concetto di “complessità algoritmica” delle
  sequenze.
• La complessità algoritmica, o di Kolmogorov, di una sequenza
  X, indicata con K(X), rappresenta la lunghezza del più piccolo
  programma P in grado di generarla, vedendo quindi P come
  descrizione della sequenza X in un certo linguaggio di
  programmazione L
• Si dimostra che, se K1(X) e K2(X) sono le complessità relative
  a due dati linguaggi L1 ed L2, esiste una costante c tale che
               ∀X     |K1(X) - K2(X)| ≤ c
Kolmogorov Complexity
• La distanza proposta in Li and Vitanyi (1997) si basa sul
  concetto di complessità di Kolmogorov,




  dove K(X|Y) è la complessità condizionale, e K(XY) è la
  complessità della concatenazione delle due sequenze XY.
• La complessità condizionale K(X|Y) di due stringhe X e Y è la
  lunghezza del più breve programma P che calcola X dato in
  input Y.
• K(X|Y) rappresenta quindi la quantità minima di informazioni
  necessarie per generare X da qualsiasi calcolo effettivo
  quando Y è dato come input per il calcolo
Kolmogorov Complexity
• Esiste un teorema che dimostra che K(X) non è una funzione
  computabile nel senso di Turing.

• Dal punto di vista pratico, ci si basa quindi su una
  approssimazione del suo limite superiore alla lunghezza
   |C(X)| della versione “compressa” di X, ottenuta mediante un
  opportuno algoritmo di compressione C, come ad es.
  Lempel-Ziv LZ77.
• |C(XY)| approssima analogamente K(X|Y)

 dKC(X,Y) = max{|C(XY) | - |C(X)|, |C(YX) | - |C(Y)|} / max{|C(X)|, |C(Y)|}
Kolmogorov Complexity
• Li and Vitanyi (1997) dimostrano che dKC è effettivamente una
  funzione distanza

• E’ stata testata sul genoma mitocondriale di mammiferi e le
  distanze ottenute sono risultate consistenti con le relazioni
  filogenetiche note.

• Le sue caratteristiche ne consentono l’applicabilità anche a
  sequenze su alfabeti di ordine più elevato, come le sequenze
  proteiche.
Chaos Theory
• L’idea di fondo è che ad ogni sequenza biologica si può far
  corrispondere biettivamente una rappresentazione sotto forma
  di traiettoria in uno spazio di coordinate continuo
  multidimensionale, mantenendo le proprietà statistiche delle
  sequenze originali.

• La corrispondenza biunivoca (mapping) è ottenuta mediante
  funzioni iterative caotiche,

• Il mapping ha la proprietà di portare sequenze simili su
  traiettorie “vicine” (la metrica si sposta nello spazio
  multidimensionale), permettendo l’analisi di sequenze di
  lunghezza arbitraria in modo scale-indipendent
Chaos Theory
• Nel 1990 Jeffrey propose sistemi
  di funzioni iterative chiamate
  Chaos Game Representation
  (CGR) per mappare sequenze
  nucleotidiche su uno spazio
  continuo bidimensionale
  corrispondente ad un quadrato
  unitario.



 Recentemente Almeida and Vinga hanno proposto una estensione di questo
 metodo, chiamato Universal Sequence Maps (USM), che fornisce una
 tecnica scale-independent per rappresentare e confrontare qualsiasi sequenza di
 unità discrete, come sequenze genomiche, proteomiche, e anche testi.
USM Algorithm
• Mapping of a sequence X into a continuous space
• Extension of Chaos Game Representation (CGR) procedure for higher
  order alphabets using a n-dimensional hypercube → all CGR properties are
  maintained.
• Dimension needed for a m-symbol alphabet: log2(m) .
     Sequence X, length k, from m-symbol alphabet A


       Each symbol s is represented by a unique binary number u
   corresponding to a corner of the n-hypercube.
USM Algorithm
USM construction is based on a Iterative Function, where USMi is the point
in the USM map after ith iteration and ui are the coordinates of the vertex of
the ith symbol in the sequence.
USM Algorithm
Fine

Mais conteúdo relacionado

Destaque

Performance Management - 1.La Gestione delle Performance in Azienda
Performance Management - 1.La Gestione delle Performance in AziendaPerformance Management - 1.La Gestione delle Performance in Azienda
Performance Management - 1.La Gestione delle Performance in AziendaManager.it
 
VUOI ESSERE GIOVANE PIU' A LUNGO ? Y.E.S. by Jeunesse Global
VUOI ESSERE GIOVANE PIU' A LUNGO ?  Y.E.S.  by Jeunesse GlobalVUOI ESSERE GIOVANE PIU' A LUNGO ?  Y.E.S.  by Jeunesse Global
VUOI ESSERE GIOVANE PIU' A LUNGO ? Y.E.S. by Jeunesse GlobalMauro Favaron
 
Foto testimonianze Jeunesse
Foto testimonianze JeunesseFoto testimonianze Jeunesse
Foto testimonianze JeunesseJeunesseItalia
 
Presentazione Active121 (Per Il Web 2007)
Presentazione Active121 (Per Il Web 2007)Presentazione Active121 (Per Il Web 2007)
Presentazione Active121 (Per Il Web 2007)guest6a36da
 
01 Goal Setting Sanypet
01 Goal Setting Sanypet01 Goal Setting Sanypet
01 Goal Setting SanypetLuigi Mengato
 
Come costruire una presentazione efficace
Come costruire una presentazione efficaceCome costruire una presentazione efficace
Come costruire una presentazione efficaceRubicom Partners
 
JEUNESSE AGELESS
JEUNESSE AGELESSJEUNESSE AGELESS
JEUNESSE AGELESSChrys Raggi
 
Corso Organizzazione aziendale lezione 12 - mintzberg
Corso Organizzazione aziendale  lezione 12 - mintzbergCorso Organizzazione aziendale  lezione 12 - mintzberg
Corso Organizzazione aziendale lezione 12 - mintzbergAntongiulio Bua
 

Destaque (12)

Gamification pills ijf14
Gamification pills ijf14Gamification pills ijf14
Gamification pills ijf14
 
Performance Management - 1.La Gestione delle Performance in Azienda
Performance Management - 1.La Gestione delle Performance in AziendaPerformance Management - 1.La Gestione delle Performance in Azienda
Performance Management - 1.La Gestione delle Performance in Azienda
 
VUOI ESSERE GIOVANE PIU' A LUNGO ? Y.E.S. by Jeunesse Global
VUOI ESSERE GIOVANE PIU' A LUNGO ?  Y.E.S.  by Jeunesse GlobalVUOI ESSERE GIOVANE PIU' A LUNGO ?  Y.E.S.  by Jeunesse Global
VUOI ESSERE GIOVANE PIU' A LUNGO ? Y.E.S. by Jeunesse Global
 
Foto testimonianze Jeunesse
Foto testimonianze JeunesseFoto testimonianze Jeunesse
Foto testimonianze Jeunesse
 
Presentazione Active121 (Per Il Web 2007)
Presentazione Active121 (Per Il Web 2007)Presentazione Active121 (Per Il Web 2007)
Presentazione Active121 (Per Il Web 2007)
 
01 Goal Setting Sanypet
01 Goal Setting Sanypet01 Goal Setting Sanypet
01 Goal Setting Sanypet
 
Mep Performance Management
Mep Performance ManagementMep Performance Management
Mep Performance Management
 
Come costruire una presentazione efficace
Come costruire una presentazione efficaceCome costruire una presentazione efficace
Come costruire una presentazione efficace
 
JEUNESSE AGELESS
JEUNESSE AGELESSJEUNESSE AGELESS
JEUNESSE AGELESS
 
Welcome to Jeunesse
Welcome to JeunesseWelcome to Jeunesse
Welcome to Jeunesse
 
Corso Organizzazione aziendale lezione 12 - mintzberg
Corso Organizzazione aziendale  lezione 12 - mintzbergCorso Organizzazione aziendale  lezione 12 - mintzberg
Corso Organizzazione aziendale lezione 12 - mintzberg
 
Visioning the vision
Visioning the visionVisioning the vision
Visioning the vision
 

Semelhante a Alignment free sequence comparison—a review

Introduzione v
Introduzione vIntroduzione v
Introduzione vimartini
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariatiVispo Srl
 
Tesi Corretta (16_10_14)
Tesi Corretta (16_10_14)Tesi Corretta (16_10_14)
Tesi Corretta (16_10_14)Eugenio Liaci
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Marco D'Alessandro
 
Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9stefano_s
 
Accesso iniziale nei sistemi a onde millimetriche
Accesso iniziale nei sistemi a onde millimetricheAccesso iniziale nei sistemi a onde millimetriche
Accesso iniziale nei sistemi a onde millimetricheNicolLaMura
 
Dispersion centrality
Dispersion centralityDispersion centrality
Dispersion centralitySimone Romano
 

Semelhante a Alignment free sequence comparison—a review (13)

Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
Appunti di teoria dell informazione
Appunti di teoria dell informazioneAppunti di teoria dell informazione
Appunti di teoria dell informazione
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
 
Genpop9coal e abc
Genpop9coal e abcGenpop9coal e abc
Genpop9coal e abc
 
Tesi Corretta (16_10_14)
Tesi Corretta (16_10_14)Tesi Corretta (16_10_14)
Tesi Corretta (16_10_14)
 
TesiM
TesiMTesiM
TesiM
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Genpop10coal e abc
Genpop10coal e abcGenpop10coal e abc
Genpop10coal e abc
 
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
 
Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9
 
Accesso iniziale nei sistemi a onde millimetriche
Accesso iniziale nei sistemi a onde millimetricheAccesso iniziale nei sistemi a onde millimetriche
Accesso iniziale nei sistemi a onde millimetriche
 
Dispersion centrality
Dispersion centralityDispersion centrality
Dispersion centrality
 

Último

Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Associazione Digital Days
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Associazione Digital Days
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Associazione Digital Days
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIinfogdgmi
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Associazione Digital Days
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Associazione Digital Days
 

Último (6)

Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
 
ScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AIScrapeGraphAI: a new way to scrape context with AI
ScrapeGraphAI: a new way to scrape context with AI
 
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
 

Alignment free sequence comparison—a review

  • 1. Alignment-free sequence comparison A review (1) Seminario di Franco Chiavetta sull’articolo (1) di Susana Vinga and Jonas Almeida per il corso di Bioinformatica
  • 2. Introduzione • In biologia, i primi metodi di confronto fra sequenze sono stati derivati dai criteri di string-matching utilizzati nella Computer Science. • La nozione di similarità si è fino a poco tempo fa basata prevalentemente su metodi per l’allineamento di sequenze, tipicamente basati sulla programmazione dinamica. • Obiettivi di tali metodi sono l’allineamento globale o locale di sequenze
  • 3. Introduzione • I metodi di allineamento trattano le molecole biologiche come sequenze lineari secondo un approccio spesso di tipo “linguistico” • Hanno dei limiti in quanto prescindono da: • la natura fisica e chimica di tali molecole, • la loro struttura tridimensionale, • la loro dinamicità evolutiva.
  • 4. Introduzione • La dinamica evolutiva è dovuta a – fenomeni su “piccola scala” (o “puntuali”): • Mutazioni, inserzioni, delezioni di singoli nucleotidi – mutano, scompaiono o compaiono singole basi – fenomeni su “media scala” • Cambiamenti nella struttura di un gene: – comparsa/scomparsa di introni • “Fusioni” di geni, o viceversa, divisione di geni in geni più piccoli – fenomeni su “larga scala” • Riarrangiamenti della sequenza genomica: una o più regioni cambiano di posto • Duplicazione: si possono duplicare INTERE regioni genomiche
  • 5. Introduzione Mutazioni (di singoli nucleotidi, spesso) Inserzioni o cancellazioni di più nucleotidi Scala dei fenomeni Eventi su larga scala: riarrangiamenti, duplicazioni inserzioni, cancellazioni di ampie regioni Eventi “epici”: duplicazioni di interi genomi
  • 6. Introduzione • La ricombinazione genetica ed in particolare il rimescolamento genetico, sono in contrasto con i criteri di confronto di sequenze mediante allineamenti i quali presuppongono la conservazione della contiguità fra segmenti omologhi e sono sensibili solo a modifiche locali
  • 7. Introduzione • Per rimediare alle limitazioni dei criteri di confronto mediante allineamenti sono stati sviluppati vari metodi di confronto alignment-free basati su diversi impalcati teorici.
  • 8. Notazione • Una sequenza X di lunghezza n, è una successione di n simboli presi da un alfabeto finito A con cardinalità r. • Un segmento di L simboli, con L<=n, viene detto L-tupla (o L-word) • Con WL denotiamo l’insieme di tutte le K possibili L-tuple, con K = rL. WL = {wL,1, wL,2, … , wL,K}
  • 9. Notazione • La ricerca di L-tuple in una sequenza X consiste nel effettuare un conteggio delle occorrenze (con overlapping) degli elementi di WL • Si effettua facendo scorrere lungo X una “finestra” di larghezza L, dalla posizione 1 alla posizione n – L +1 per ricavare il vettore word-count CXL = {cXL,1, cXL,2, … , cXL,K} dove cXL,i è il numero di occorrenze di wL,i in X
  • 10. Notazione • Analogamente, è possibile calcolare il vettore fXL delle frequenze delle L-tuple in X fXL = {fXL,1, fXL,2, … , fXL,K} dove: • Da fXL si possono poi stimare le probabilità frequentistiche di trovare ogni possibile L-tupla in X, ricavando il vettore PXL = {pXL,1, pXL,2, … , pXL,K} dove pXL,i è la probabilità di wL,i in X
  • 11. Overlapping • La valutazione della significatività statistica delle misure di similarità, presenta il problema di ricavare formule per la stima dei valori attesi per i conteggi, per la varianza e la covarianza fra le frequenze di L-tuple, cioè la distribuzione di PXL. • Per una corretta stima delle covarianze di PXL è necessario che tali misure prevedano la cosidetta “overlapping capability”, ossia la capacità conteggiare correttamente L-tuple che si susseguono condividendo prefissi e suffissi. • Tali problema si ha ad esempio nelle metriche basate sulla distanza di Mahalanobis.
  • 12. Esempio per sequenze di DNA • A = {A, T, G, C} : r=4 • X = ATATAC : n=6 • Consideriamo “trinucleotidi” : L=3 • Calcoliamo le frequenze di tutti i possibili trinucleotidi ottenibili facendo scorrere una finestra larga 3 per n – L + 1 = 6 - 3 + 1 = 4 volte: W3 = {ATA, TAT, TAC, AAA,…} CX3 = {2, 1, 1, 0, …} fX3 = {0.5, 0.25, 0.25, 0, …} dove i vettori CX3 e fX3 hanno lunghezza K = rL = 43 = 64
  • 13. Confronti alignment-free • In letteratura sono stati presentati: – metodi basati sul conteggio/frequenza di L-tuple ad una specifica risoluzione (scale dependent) • metriche definite nello spazio dei vettori word-count come la distanza Euclidea e l’entropia relativa della distribuzione delle frequenze – metodi non basati sul conteggio/frequenza di L-tuple a lunghezza fissa (scale independent) • rappresentazioni scale-indipendent delle sequenze mediante teoria della complessità di Kolmogorov, e mappe iterative.
  • 14. Distanza euclidea • Il primo articolo in cui viene sistematizzato l’uso dei conteggi delle L-tuple per il confronto tra sequenze è dovuto a Blaisdell (1986) • Nell’articolo le sequenze sono modellate come catene di Markov, e la differenza tra due sequenze viene vista come la distanza quadratica euclidea tra le rispettive matrici di transizione. • Il fatto che la matrice di transizione di una catena di Markov potesse essere identificata con la frequenza delle possibili L- tuple, portò l’autore a formulare ulteriori metodi di confronto in articoli seguenti.
  • 15. Distanza euclidea • Per una data possibile “risoluzione“ o “lunghezza di parola” L, la distanza quadratica euclidea tra due sequenze X e Y è data da:
  • 16. Distanza euclidea • Tale metrica è stata validata applicandola al confronto di lunghe sequenze relative ad organismi in relazione filogenetica ampiamente documentata. • Inoltre, è stata usata per effettuare il riconoscimento di relazioni filogenetiche tra coppie di sequenze supportando i risultati ottenuti con metodi convenzionali basati sull’allineamento totale • E’ stato osservato che i valori di dissimilarità ottenuti con tale metrica hanno andamento direttamente proporzionale al conteggio dei mismatch dei metodi di allineamento convenzionali.
  • 17. Distanza euclidea • Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su alcune caratteristiche statistiche quali: il valore atteso per la distanza e la varianza per confronti mediante L-tuple. • Le proprietà statistiche della distanza quadratica Euclidea sono state documentate ampiamente attraverso l’uso di test statistici sulla non unformità delle corrispondenti distribuzioni (Zharkikh and Rzhetsky, 1993).
  • 18. Distanza euclidea • Interessanti lavori hanno studiato le relazioni di dipendenza tra le misurazioni della distanza quadratica euclidea a diverse scale o risoluzioni (i.e. al variare di L) – i.e. come il conteggio delle 3-tuple dipende da quello delle 2-tuple.
  • 19. Distanza euclidea pesata • Gli studi sulle sequenze biologiche dimostrano che alcuni segmenti (L-tuple) sono normalmente più frequenti di altri. • Ciò ha quindi un impatto sul calcolo della d.e. • Per tenere conto di tale fatti oggettivi, sono state proposte metriche pesate che tenessero dessero maggiore “peso” al conteggio di determinate parole piuttosto che ad altre.
  • 20. Distanza euclidea pesata • La metrica pesata d2 proposta da Torney et al. 1990, utilizza pesi ρi per ogni possibile parola e combina inoltre diverse risoluzioni da l ad u.
  • 21. Distanza euclidea pesata • La metrica d2 si è dimostrata abbastanza efficace ed implementabile efficientemente. • I confronti su sequenze omologhe mescolate o con inserzioni/delezioni danno valori di distanza comunque bassi. • Per tali proprietà tale metrica è stata inclusa in package come STACK (Sequence Tag Alignment and Consensus Knowledgebase) • Le metriche euclidee sono spesso usate come filtro di preprocessing per isolare da larghi database le migliori sequenze candidate per l’applicazione successiva di algoritmi FASTA/BLAST
  • 22. Distanze basate su coefficienti statistici • Covarianza – In teoria della probabilità la covarianza di due variabili aleatorie è un numero Cov(X,Y) che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. – La covarianza di due variabili aleatorie X e Y è il valore atteso dei prodotti delle loro distanze dalla media: Cov(X,Y)=E[(X - E(X)) * (Y - E(Y)] – La covarianza di X e Y può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi Cov(X,Y)=E[XY] – E[X]E[Y]
  • 23. Distanze basate su coefficienti statistici • Correlazione – In statistica per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. – Il grado di correlazione fra due variabili viene espresso mediante i cosiddetti indici di correlazione. • Questi assumono valori compresi tra - 1 (variabili inversamente correlate) e + 1 (correlazione assoluta cioè quando alla variazione di una variabile corrisponde una variazione rigidamente dipendente dall'altra) • Un indice di correlazione pari a 0 indica un'assenza di correlazione. – Due variabili indipendenti hanno sicuramente un indice di correlazione pari a 0, ma al contrario un valore pari a 0 non implica necessariamente che le due variabili siano indipendenti.
  • 24. Distanze basate su coefficienti statistici • Indice di correlazione di Pearson – Date due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: ρXY = σXY/(σX * σY ) dove • σXY , è la covarianza tra X e Y • σX e σY , sono le due deviazioni standard
  • 25. Distanza basata sulla correlazione • Alcune metriche alignment free si basano sul calcolo del vettore delle frequenze delle L-tuple in X e Y fXL = {fXL,1, fXL,2, … , fXL,K} fYL = {fYL,1, fYL,2, … , fYL,K} e sul successivo calcolo dei coefficienti di correlazione lineare (LCC)
  • 26. Distanza basata sulla correlazione • Il formalismo adottato è quello dell’ indice di correlazione di Pearson
  • 27. Distanza basata sulla correlazione • Il formalismo adottato è quello dell’ Covarianza indice di correlazione di Pearson tra f XL e f YL Deviazione standard di f XL Deviazione standard di f YL
  • 28. Distanza basata sulla correlazione • Tale metrica è stata usata per queries su database di sequenze lunghe e di strutture proteiche (Petrilli and Tonukari,1997). • L’applicazione di tale metrica ha permesso di ricavare conclusioni semplificative di grande utilità pratica, come il fatto che per classificare correttamente famiglie di proteine sono necessarie solo le frequenze di 25 peptidi su 400 possibili (Solovyev and Makarova, 1993)
  • 29. Distanze basata sulla covarianza • Questi metodi si basano sull’uso – della matrice di covarianza, – della distanza di Mahalanobis – o della distanza Euclidea standardizzata
  • 30. Distanze basata sulla covarianza • Distanza di Mahalanobis • S = [sij] rappresenta la matrice di covarianza dei vettori word-count CXL e CYL • S-1 è l’inversa di S (con K × K elementi)
  • 31. Distanze basata sulla covarianza • Distanza Euclidea Standard • Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le stesse parole, considerando solo la varianza delle parole. • Si riduce alla distanza quadratica Euclidea se si considera sii = 1, per i =1,…,K
  • 32. Distanze basata sulla covarianza • In un articolo del 1997, Wu ha proposto sia la dLM che la dLSE per il confronto fra sequenze • Nello stesso articolo si proponeva inoltre di combinare misure a diverse risoluzioni
  • 33. Distanze basata sulla covarianza • Tali metriche hanno problemi implementativi in quanto S ha determinante normalmente prossimo a zero (matrice quasi singolare) ed è quindi di difficile inversione. • Diventano comunque inefficienti per risoluzioni L>4 • Hanno avuto qualche successo nelle ricerche in database di lipoproteine lipasi umane. • In tali metriche è di particolare rilievo l’overlapping capability
  • 34. Misure basate sulla teoria dell’informazione • L’Information Theory si basa sui lavori di C. Shannon (1948), sulla trasmissione delle informazioni su canali disturbati. • Solomon Kullback, l’ha reinquadrata rigorosamente nell’ambito della Statistica (1968) • Tra i concetti più importanti della I.T. vi sono il concetto di entropia e di entropia relativa e di mutua informazione. • Le metriche basate sull’I.T. sono applicate, come le precedenti, al conteggio/frequenza di L-tuple viste come variabili casuali.
  • 35. Misure basate sulla teoria dell’informazione • Il criterio utilizzato per il confronto tra sequenze si basa sul concetto di informazione mutua, una quantità che misura la mutua dipendenza delle due variabili. • Intuitivamente, l'informazione mutua misura l'informazione che X e Y condividono: essa misura quanto la conoscenza di una di queste variabili riduce la nostra incertezza riguardo all'altra …
  • 36. Misure basate sulla teoria dell’informazione • Ad esempio, se X e Y sono indipendenti, allora la conoscenza di X non dà alcuna informazione riguardo a Y e viceversa, perciò la loro mutua informazione è zero. • All'altro estremo, se X e Y sono identiche allora tutte le informazioni trasmesse da X sono condivise con Y: la conoscenza di X determina il valore di Y e viceversa. • Come risultato, nel caso di identità, l'informazione mutua è la stessa contenuta in un una sola delle due (Y o X), vale a dire l'entropia di X (o di Y), perchè chiaramente se X e Y sono identiche, hanno identica entropia.
  • 37. Misure basate sulla teoria dell’informazione • Formalmente, l'informazione mutua di due variabili casuali discrete X e Y può essere definita come: dove p(x,y) è ora la funzione di "densità" di probabilità congiunta di X e Y, e p1(x) e p2(y) sono le funzioni di densità di probabilità marginale rispettivamente di X e Y.
  • 38. Misure basate sulla teoria dell’informazione • Tale concetto può essere applicato quindi per misurare la dissimilarità tra due sequenze biologiche come proposto nei lavori di Wu et al. (2001). • In questo caso la mutua informazione è stata formulata in termini di “divergenza di Kullback-Leibler”, computandola dai vettori delle frequenze delle L-tuple. – Per evitare valori infiniti quando fXL,1 è 0 l’autore ha riformulato l’espressione aggiungendo 1 a numeratore e denominatore nel rapporto
  • 39. Confronti • Nei lavori di Wu si è riscontrato che: – in termini di sensibilità, selettività, la migliore metrica è la dLM , seguita da dLSE ed infine dalla dLKL viceversa, – in termini di efficienza computazionale la migliore metrica è dLKL , seguita da dLSE ed infine dalla dLM
  • 40. Metrica basata sugli angoli • In un report del 2002, Stuart et al. propongono una funzione distanza fra due sequenze X e Y considerando il coseno dell’angolo formato dai due vettori word-count.
  • 41. Metrica basata sugli angoli • Poiché tali vettori sono considerati in un spazio ad un elevato numero di dimensioni (K = rL), viene applicato un algoritmo di tipo SVD prima del calcolo del coseno, utilizzando solo le dimensioni corrispondenti agli autovalori più alti (Truncated SVD) (dimensionality reduction). • L’uso della SVD viene visto dagli autori come un modo per portare la misurazione in uno spazio di caratteristiche differenti da quello delle L-tuple.
  • 42. Metrica basata sugli angoli • Tale metrica è insensibile ai pattern “ricorrenti”: – la distanza tra X ed XX risulta = 0 in quanto i due vector count su X e XX risultano avere norma diversa ma uguale direzione poiché CXX = 2CX. • Questa proprietà è fondamentale in quanto “filtra” automaticamente le ripetizioni, distinquendo le sequenze solo per il diverso bilanciamento del “contenuto” in L-tuple. • dCOS presenta inoltre similarità con la ”correlation distance” dLCC .
  • 43. Metrica basata sugli angoli • Nello stesso report, Stuart et al, ricorrono alla misura degli angoli per proporre una funzione per misurare la distanza evolutiva tra due sequenze. • La dLEVOL è stata usata nello studio del genoma mitocondriale e le distanze evolutive osservate sono risultate in corrispondenza con valori ottenuti in precedenza con altri metodi.
  • 44. Metodi resolution-free • Le metriche precedenti si basano sull’uso di L-tuple a risoluzioni fissate, o su combinazioni di misurazioni a diverse risoluzioni • Esistono però altri metodi di misurazione che non sono dipendenti dalla scala/risoluzione e che risultano quindi assolutamente indipendenti dall’assunzione della conservazione di contiguità. • Tale obiettivo viene raggiunto in due modi: – Mediante uso di algoritmi di compressione delle sequenze, – Mediante uso di mappe iterative
  • 45. Kolmogorov Complexity • Ci si basa sul concetto di “complessità algoritmica” delle sequenze. • La complessità algoritmica, o di Kolmogorov, di una sequenza X, indicata con K(X), rappresenta la lunghezza del più piccolo programma P in grado di generarla, vedendo quindi P come descrizione della sequenza X in un certo linguaggio di programmazione L • Si dimostra che, se K1(X) e K2(X) sono le complessità relative a due dati linguaggi L1 ed L2, esiste una costante c tale che ∀X |K1(X) - K2(X)| ≤ c
  • 46. Kolmogorov Complexity • La distanza proposta in Li and Vitanyi (1997) si basa sul concetto di complessità di Kolmogorov, dove K(X|Y) è la complessità condizionale, e K(XY) è la complessità della concatenazione delle due sequenze XY. • La complessità condizionale K(X|Y) di due stringhe X e Y è la lunghezza del più breve programma P che calcola X dato in input Y. • K(X|Y) rappresenta quindi la quantità minima di informazioni necessarie per generare X da qualsiasi calcolo effettivo quando Y è dato come input per il calcolo
  • 47. Kolmogorov Complexity • Esiste un teorema che dimostra che K(X) non è una funzione computabile nel senso di Turing. • Dal punto di vista pratico, ci si basa quindi su una approssimazione del suo limite superiore alla lunghezza |C(X)| della versione “compressa” di X, ottenuta mediante un opportuno algoritmo di compressione C, come ad es. Lempel-Ziv LZ77. • |C(XY)| approssima analogamente K(X|Y) dKC(X,Y) = max{|C(XY) | - |C(X)|, |C(YX) | - |C(Y)|} / max{|C(X)|, |C(Y)|}
  • 48. Kolmogorov Complexity • Li and Vitanyi (1997) dimostrano che dKC è effettivamente una funzione distanza • E’ stata testata sul genoma mitocondriale di mammiferi e le distanze ottenute sono risultate consistenti con le relazioni filogenetiche note. • Le sue caratteristiche ne consentono l’applicabilità anche a sequenze su alfabeti di ordine più elevato, come le sequenze proteiche.
  • 49. Chaos Theory • L’idea di fondo è che ad ogni sequenza biologica si può far corrispondere biettivamente una rappresentazione sotto forma di traiettoria in uno spazio di coordinate continuo multidimensionale, mantenendo le proprietà statistiche delle sequenze originali. • La corrispondenza biunivoca (mapping) è ottenuta mediante funzioni iterative caotiche, • Il mapping ha la proprietà di portare sequenze simili su traiettorie “vicine” (la metrica si sposta nello spazio multidimensionale), permettendo l’analisi di sequenze di lunghezza arbitraria in modo scale-indipendent
  • 50. Chaos Theory • Nel 1990 Jeffrey propose sistemi di funzioni iterative chiamate Chaos Game Representation (CGR) per mappare sequenze nucleotidiche su uno spazio continuo bidimensionale corrispondente ad un quadrato unitario. Recentemente Almeida and Vinga hanno proposto una estensione di questo metodo, chiamato Universal Sequence Maps (USM), che fornisce una tecnica scale-independent per rappresentare e confrontare qualsiasi sequenza di unità discrete, come sequenze genomiche, proteomiche, e anche testi.
  • 51. USM Algorithm • Mapping of a sequence X into a continuous space • Extension of Chaos Game Representation (CGR) procedure for higher order alphabets using a n-dimensional hypercube → all CGR properties are maintained. • Dimension needed for a m-symbol alphabet: log2(m) . Sequence X, length k, from m-symbol alphabet A Each symbol s is represented by a unique binary number u corresponding to a corner of the n-hypercube.
  • 52. USM Algorithm USM construction is based on a Iterative Function, where USMi is the point in the USM map after ith iteration and ui are the coordinates of the vertex of the ith symbol in the sequence.
  • 54. Fine