Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Alignment free sequence comparison—a review
1. Alignment-free
sequence comparison
A review (1)
Seminario di Franco Chiavetta
sull’articolo (1) di
Susana Vinga and Jonas Almeida
per il corso di Bioinformatica
2. Introduzione
• In biologia, i primi metodi di confronto fra sequenze sono stati
derivati dai criteri di string-matching utilizzati nella Computer
Science.
• La nozione di similarità si è fino a poco tempo fa basata
prevalentemente su metodi per l’allineamento di sequenze,
tipicamente basati sulla programmazione dinamica.
• Obiettivi di tali metodi sono l’allineamento globale o locale di
sequenze
3. Introduzione
• I metodi di allineamento trattano le molecole biologiche come
sequenze lineari secondo un approccio spesso di tipo
“linguistico”
• Hanno dei limiti in quanto prescindono da:
• la natura fisica e chimica di tali molecole,
• la loro struttura tridimensionale,
• la loro dinamicità evolutiva.
4. Introduzione
• La dinamica evolutiva è dovuta a
– fenomeni su “piccola scala” (o “puntuali”):
• Mutazioni, inserzioni, delezioni di singoli nucleotidi
– mutano, scompaiono o compaiono singole basi
– fenomeni su “media scala”
• Cambiamenti nella struttura di un gene:
– comparsa/scomparsa di introni
• “Fusioni” di geni, o viceversa, divisione di geni in geni più piccoli
– fenomeni su “larga scala”
• Riarrangiamenti della sequenza genomica: una o più regioni
cambiano di posto
• Duplicazione: si possono duplicare INTERE regioni genomiche
5. Introduzione
Mutazioni (di singoli nucleotidi, spesso)
Inserzioni o cancellazioni di più nucleotidi
Scala dei fenomeni
Eventi su larga scala: riarrangiamenti, duplicazioni
inserzioni, cancellazioni di ampie regioni
Eventi “epici”: duplicazioni di interi genomi
6. Introduzione
• La ricombinazione genetica ed in particolare il
rimescolamento genetico, sono in contrasto con i
criteri di confronto di sequenze mediante
allineamenti i quali presuppongono la conservazione
della contiguità fra segmenti omologhi e sono
sensibili solo a modifiche locali
7. Introduzione
• Per rimediare alle limitazioni dei criteri di confronto
mediante allineamenti sono stati sviluppati vari
metodi di confronto alignment-free basati su diversi
impalcati teorici.
8. Notazione
• Una sequenza X di lunghezza n, è una successione di n simboli
presi da un alfabeto finito A con cardinalità r.
• Un segmento di L simboli, con L<=n, viene detto
L-tupla (o L-word)
• Con WL denotiamo l’insieme di tutte le K possibili L-tuple,
con K = rL.
WL = {wL,1, wL,2, … , wL,K}
9. Notazione
• La ricerca di L-tuple in una sequenza X consiste nel effettuare
un conteggio delle occorrenze (con overlapping) degli
elementi di WL
• Si effettua facendo scorrere lungo X una “finestra” di
larghezza L, dalla posizione 1 alla posizione n – L +1 per
ricavare il vettore word-count
CXL = {cXL,1, cXL,2, … , cXL,K}
dove cXL,i è il numero di occorrenze di wL,i in X
10. Notazione
• Analogamente, è possibile calcolare il vettore fXL delle
frequenze delle L-tuple in X
fXL = {fXL,1, fXL,2, … , fXL,K}
dove:
• Da fXL si possono poi stimare le probabilità frequentistiche di
trovare ogni possibile L-tupla in X, ricavando il vettore
PXL = {pXL,1, pXL,2, … , pXL,K}
dove pXL,i è la probabilità di wL,i in X
11. Overlapping
• La valutazione della significatività statistica delle misure di
similarità, presenta il problema di ricavare formule per la stima
dei valori attesi per i conteggi, per la varianza e la covarianza
fra le frequenze di L-tuple, cioè la distribuzione di PXL.
• Per una corretta stima delle covarianze di PXL è necessario che
tali misure prevedano la cosidetta “overlapping capability”,
ossia la capacità conteggiare correttamente L-tuple che si
susseguono condividendo prefissi e suffissi.
• Tali problema si ha ad esempio nelle metriche basate sulla
distanza di Mahalanobis.
12. Esempio per sequenze di DNA
• A = {A, T, G, C} : r=4
• X = ATATAC : n=6
• Consideriamo “trinucleotidi” : L=3
• Calcoliamo le frequenze di tutti i possibili trinucleotidi
ottenibili facendo scorrere una finestra larga 3 per
n – L + 1 = 6 - 3 + 1 = 4 volte:
W3 = {ATA, TAT, TAC, AAA,…}
CX3 = {2, 1, 1, 0, …}
fX3 = {0.5, 0.25, 0.25, 0, …}
dove i vettori CX3 e fX3 hanno lunghezza K = rL = 43 = 64
13. Confronti alignment-free
• In letteratura sono stati presentati:
– metodi basati sul conteggio/frequenza di L-tuple
ad una specifica risoluzione (scale dependent)
• metriche definite nello spazio dei vettori word-count come la
distanza Euclidea e l’entropia relativa della distribuzione delle
frequenze
– metodi non basati sul conteggio/frequenza di L-tuple
a lunghezza fissa (scale independent)
• rappresentazioni scale-indipendent delle sequenze mediante teoria
della complessità di Kolmogorov, e mappe iterative.
14. Distanza euclidea
• Il primo articolo in cui viene sistematizzato l’uso dei conteggi
delle L-tuple per il confronto tra sequenze è dovuto a Blaisdell
(1986)
• Nell’articolo le sequenze sono modellate come catene di
Markov, e la differenza tra due sequenze viene vista come la
distanza quadratica euclidea tra le rispettive matrici di
transizione.
• Il fatto che la matrice di transizione di una catena di Markov
potesse essere identificata con la frequenza delle possibili L-
tuple, portò l’autore a formulare ulteriori metodi di confronto
in articoli seguenti.
15. Distanza euclidea
• Per una data possibile “risoluzione“ o “lunghezza di parola”
L, la distanza quadratica euclidea tra due sequenze X e Y è
data da:
16. Distanza euclidea
• Tale metrica è stata validata applicandola al confronto di
lunghe sequenze relative ad organismi in relazione filogenetica
ampiamente documentata.
• Inoltre, è stata usata per effettuare il riconoscimento di
relazioni filogenetiche tra coppie di sequenze supportando i
risultati ottenuti con metodi convenzionali basati
sull’allineamento totale
• E’ stato osservato che i valori di dissimilarità ottenuti con tale
metrica hanno andamento direttamente proporzionale al
conteggio dei mismatch dei metodi di allineamento
convenzionali.
17. Distanza euclidea
• Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su
alcune caratteristiche statistiche quali: il valore atteso per la
distanza e la varianza per confronti mediante L-tuple.
• Le proprietà statistiche della distanza quadratica Euclidea
sono state documentate ampiamente attraverso l’uso di test
statistici sulla non unformità delle corrispondenti distribuzioni
(Zharkikh and Rzhetsky, 1993).
18. Distanza euclidea
• Interessanti lavori hanno studiato le relazioni di dipendenza tra
le misurazioni della distanza quadratica euclidea a diverse
scale o risoluzioni (i.e. al variare di L)
– i.e. come il conteggio delle 3-tuple dipende da quello delle
2-tuple.
19. Distanza euclidea pesata
• Gli studi sulle sequenze biologiche dimostrano che alcuni
segmenti (L-tuple) sono normalmente più frequenti di altri.
• Ciò ha quindi un impatto sul calcolo della d.e.
• Per tenere conto di tale fatti oggettivi, sono state proposte
metriche pesate che tenessero dessero maggiore “peso” al
conteggio di determinate parole piuttosto che ad altre.
20. Distanza euclidea pesata
• La metrica pesata d2 proposta da Torney et al. 1990, utilizza
pesi ρi per ogni possibile parola e combina inoltre diverse
risoluzioni da l ad u.
21. Distanza euclidea pesata
• La metrica d2 si è dimostrata abbastanza efficace ed
implementabile efficientemente.
• I confronti su sequenze omologhe mescolate o con
inserzioni/delezioni danno valori di distanza comunque bassi.
• Per tali proprietà tale metrica è stata inclusa in package come
STACK (Sequence Tag Alignment and Consensus
Knowledgebase)
• Le metriche euclidee sono spesso usate come filtro di
preprocessing per isolare da larghi database le migliori
sequenze candidate per l’applicazione successiva di algoritmi
FASTA/BLAST
22. Distanze basate su
coefficienti statistici
• Covarianza
– In teoria della probabilità la covarianza di due variabili aleatorie è un
numero Cov(X,Y) che fornisce una misura di quanto le due varino
assieme, ovvero della loro dipendenza.
– La covarianza di due variabili aleatorie X e Y è il valore atteso dei
prodotti delle loro distanze dalla media:
Cov(X,Y)=E[(X - E(X)) * (Y - E(Y)]
– La covarianza di X e Y può anche essere espressa come la differenza tra
il valore atteso del loro prodotto e il prodotto dei loro valori attesi
Cov(X,Y)=E[XY] – E[X]E[Y]
23. Distanze basate su
coefficienti statistici
• Correlazione
– In statistica per correlazione si intende una relazione tra due variabili
casuali tale che a ciascun valore della prima variabile corrisponda con
una certa regolarità un valore della seconda.
– Il grado di correlazione fra due variabili viene espresso mediante i
cosiddetti indici di correlazione.
• Questi assumono valori compresi tra - 1 (variabili inversamente correlate)
e + 1 (correlazione assoluta cioè quando alla variazione di una variabile
corrisponde una variazione rigidamente dipendente dall'altra)
• Un indice di correlazione pari a 0 indica un'assenza di correlazione.
– Due variabili indipendenti hanno sicuramente un indice di correlazione pari a
0, ma al contrario un valore pari a 0 non implica necessariamente che le due
variabili siano indipendenti.
24. Distanze basate su
coefficienti statistici
• Indice di correlazione di Pearson
– Date due variabili statistiche X e Y è definito come la loro covarianza divisa
per il prodotto delle deviazioni standard delle due variabili:
ρXY = σXY/(σX * σY )
dove
• σXY , è la covarianza tra X e Y
• σX e σY , sono le due deviazioni standard
25. Distanza basata sulla
correlazione
• Alcune metriche alignment free si basano sul calcolo del vettore delle
frequenze delle L-tuple in X e Y
fXL = {fXL,1, fXL,2, … , fXL,K}
fYL = {fYL,1, fYL,2, … , fYL,K}
e sul successivo calcolo dei coefficienti di correlazione lineare (LCC)
26. Distanza basata sulla
correlazione
• Il formalismo adottato è quello dell’
indice di correlazione di Pearson
27. Distanza basata sulla
correlazione
• Il formalismo adottato è quello dell’ Covarianza
indice di correlazione di Pearson tra f XL e f YL
Deviazione
standard di
f XL
Deviazione
standard di
f YL
28. Distanza basata sulla
correlazione
• Tale metrica è stata usata per queries su database di sequenze
lunghe e di strutture proteiche (Petrilli and Tonukari,1997).
• L’applicazione di tale metrica ha permesso di ricavare
conclusioni semplificative di grande utilità pratica, come il
fatto che per classificare correttamente famiglie di proteine
sono necessarie solo le frequenze di 25 peptidi su 400 possibili
(Solovyev and Makarova, 1993)
29. Distanze basata sulla covarianza
• Questi metodi si basano sull’uso
– della matrice di covarianza,
– della distanza di Mahalanobis
– o della distanza Euclidea standardizzata
30. Distanze basata sulla covarianza
• Distanza di Mahalanobis
• S = [sij] rappresenta la matrice di covarianza dei
vettori word-count CXL e CYL
• S-1 è l’inversa di S (con K × K elementi)
31. Distanze basata sulla covarianza
• Distanza Euclidea Standard
• Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le
stesse parole, considerando solo la varianza delle parole.
• Si riduce alla distanza quadratica Euclidea se si considera sii =
1, per i =1,…,K
32. Distanze basata sulla covarianza
• In un articolo del 1997, Wu ha proposto sia la dLM che
la dLSE per il confronto fra sequenze
• Nello stesso articolo si proponeva inoltre di
combinare misure a diverse risoluzioni
33. Distanze basata sulla covarianza
• Tali metriche hanno problemi implementativi in quanto S ha
determinante normalmente prossimo a zero (matrice quasi
singolare) ed è quindi di difficile inversione.
• Diventano comunque inefficienti per risoluzioni L>4
• Hanno avuto qualche successo nelle ricerche in database di
lipoproteine lipasi umane.
• In tali metriche è di particolare rilievo l’overlapping capability
34. Misure basate sulla
teoria dell’informazione
• L’Information Theory si basa sui lavori di C. Shannon (1948),
sulla trasmissione delle informazioni su canali disturbati.
• Solomon Kullback, l’ha reinquadrata rigorosamente
nell’ambito della Statistica (1968)
• Tra i concetti più importanti della I.T. vi sono il concetto di
entropia e di entropia relativa e di mutua informazione.
• Le metriche basate sull’I.T. sono applicate, come le precedenti,
al conteggio/frequenza di L-tuple viste come variabili casuali.
35. Misure basate sulla
teoria dell’informazione
• Il criterio utilizzato per il confronto tra sequenze si basa sul
concetto di informazione mutua, una quantità che misura la
mutua dipendenza delle due variabili.
• Intuitivamente, l'informazione mutua misura l'informazione
che X e Y condividono: essa misura quanto la conoscenza di
una di queste variabili riduce la nostra incertezza riguardo
all'altra …
36. Misure basate sulla
teoria dell’informazione
• Ad esempio, se X e Y sono indipendenti, allora la conoscenza
di X non dà alcuna informazione riguardo a Y e viceversa,
perciò la loro mutua informazione è zero.
• All'altro estremo, se X e Y sono identiche allora tutte le
informazioni trasmesse da X sono condivise con Y: la
conoscenza di X determina il valore di Y e viceversa.
• Come risultato, nel caso di identità, l'informazione mutua è la
stessa contenuta in un una sola delle due (Y o X), vale a dire
l'entropia di X (o di Y), perchè chiaramente se X e Y sono
identiche, hanno identica entropia.
37. Misure basate sulla
teoria dell’informazione
• Formalmente, l'informazione mutua di due variabili casuali
discrete X e Y può essere definita come:
dove p(x,y) è ora la funzione di "densità" di probabilità
congiunta di X e Y, e p1(x) e p2(y) sono le funzioni di densità di
probabilità marginale rispettivamente di X e Y.
38. Misure basate sulla
teoria dell’informazione
• Tale concetto può essere applicato quindi per misurare la
dissimilarità tra due sequenze biologiche come proposto nei
lavori di Wu et al. (2001).
• In questo caso la mutua informazione è stata formulata in
termini di “divergenza di Kullback-Leibler”, computandola dai
vettori delle frequenze delle L-tuple.
– Per evitare valori infiniti quando fXL,1 è 0 l’autore ha riformulato l’espressione
aggiungendo 1 a numeratore e denominatore nel rapporto
39. Confronti
• Nei lavori di Wu si è riscontrato che:
– in termini di sensibilità, selettività, la migliore metrica è la
dLM , seguita da dLSE ed infine dalla dLKL
viceversa,
– in termini di efficienza computazionale la migliore metrica
è dLKL , seguita da dLSE ed infine dalla dLM
40. Metrica basata sugli angoli
• In un report del 2002, Stuart et al. propongono una funzione
distanza fra due sequenze X e Y considerando il coseno
dell’angolo formato dai due vettori word-count.
41. Metrica basata sugli angoli
• Poiché tali vettori sono considerati in un spazio ad un elevato
numero di dimensioni (K = rL), viene applicato un algoritmo di
tipo SVD prima del calcolo del coseno, utilizzando solo le
dimensioni corrispondenti agli autovalori più alti (Truncated
SVD) (dimensionality reduction).
• L’uso della SVD viene visto dagli autori come un modo per
portare la misurazione in uno spazio di caratteristiche
differenti da quello delle L-tuple.
42. Metrica basata sugli angoli
• Tale metrica è insensibile ai pattern “ricorrenti”:
– la distanza tra X ed XX risulta = 0 in quanto i due vector
count su X e XX risultano avere norma diversa ma uguale
direzione poiché CXX = 2CX.
• Questa proprietà è fondamentale in quanto “filtra”
automaticamente le ripetizioni, distinquendo le sequenze solo
per il diverso bilanciamento del “contenuto” in L-tuple.
• dCOS presenta inoltre similarità con la ”correlation distance”
dLCC .
43. Metrica basata sugli angoli
• Nello stesso report, Stuart et al, ricorrono alla misura degli
angoli per proporre una funzione per misurare la
distanza evolutiva tra due sequenze.
• La dLEVOL è stata usata nello studio del genoma mitocondriale
e le distanze evolutive osservate sono risultate in
corrispondenza con valori ottenuti in precedenza con altri
metodi.
44. Metodi resolution-free
• Le metriche precedenti si basano sull’uso di L-tuple a
risoluzioni fissate, o su combinazioni di misurazioni a diverse
risoluzioni
• Esistono però altri metodi di misurazione che non sono
dipendenti dalla scala/risoluzione e che risultano quindi
assolutamente indipendenti dall’assunzione della
conservazione di contiguità.
• Tale obiettivo viene raggiunto in due modi:
– Mediante uso di algoritmi di compressione delle sequenze,
– Mediante uso di mappe iterative
45. Kolmogorov Complexity
• Ci si basa sul concetto di “complessità algoritmica” delle
sequenze.
• La complessità algoritmica, o di Kolmogorov, di una sequenza
X, indicata con K(X), rappresenta la lunghezza del più piccolo
programma P in grado di generarla, vedendo quindi P come
descrizione della sequenza X in un certo linguaggio di
programmazione L
• Si dimostra che, se K1(X) e K2(X) sono le complessità relative
a due dati linguaggi L1 ed L2, esiste una costante c tale che
∀X |K1(X) - K2(X)| ≤ c
46. Kolmogorov Complexity
• La distanza proposta in Li and Vitanyi (1997) si basa sul
concetto di complessità di Kolmogorov,
dove K(X|Y) è la complessità condizionale, e K(XY) è la
complessità della concatenazione delle due sequenze XY.
• La complessità condizionale K(X|Y) di due stringhe X e Y è la
lunghezza del più breve programma P che calcola X dato in
input Y.
• K(X|Y) rappresenta quindi la quantità minima di informazioni
necessarie per generare X da qualsiasi calcolo effettivo
quando Y è dato come input per il calcolo
47. Kolmogorov Complexity
• Esiste un teorema che dimostra che K(X) non è una funzione
computabile nel senso di Turing.
• Dal punto di vista pratico, ci si basa quindi su una
approssimazione del suo limite superiore alla lunghezza
|C(X)| della versione “compressa” di X, ottenuta mediante un
opportuno algoritmo di compressione C, come ad es.
Lempel-Ziv LZ77.
• |C(XY)| approssima analogamente K(X|Y)
dKC(X,Y) = max{|C(XY) | - |C(X)|, |C(YX) | - |C(Y)|} / max{|C(X)|, |C(Y)|}
48. Kolmogorov Complexity
• Li and Vitanyi (1997) dimostrano che dKC è effettivamente una
funzione distanza
• E’ stata testata sul genoma mitocondriale di mammiferi e le
distanze ottenute sono risultate consistenti con le relazioni
filogenetiche note.
• Le sue caratteristiche ne consentono l’applicabilità anche a
sequenze su alfabeti di ordine più elevato, come le sequenze
proteiche.
49. Chaos Theory
• L’idea di fondo è che ad ogni sequenza biologica si può far
corrispondere biettivamente una rappresentazione sotto forma
di traiettoria in uno spazio di coordinate continuo
multidimensionale, mantenendo le proprietà statistiche delle
sequenze originali.
• La corrispondenza biunivoca (mapping) è ottenuta mediante
funzioni iterative caotiche,
• Il mapping ha la proprietà di portare sequenze simili su
traiettorie “vicine” (la metrica si sposta nello spazio
multidimensionale), permettendo l’analisi di sequenze di
lunghezza arbitraria in modo scale-indipendent
50. Chaos Theory
• Nel 1990 Jeffrey propose sistemi
di funzioni iterative chiamate
Chaos Game Representation
(CGR) per mappare sequenze
nucleotidiche su uno spazio
continuo bidimensionale
corrispondente ad un quadrato
unitario.
Recentemente Almeida and Vinga hanno proposto una estensione di questo
metodo, chiamato Universal Sequence Maps (USM), che fornisce una
tecnica scale-independent per rappresentare e confrontare qualsiasi sequenza di
unità discrete, come sequenze genomiche, proteomiche, e anche testi.
51. USM Algorithm
• Mapping of a sequence X into a continuous space
• Extension of Chaos Game Representation (CGR) procedure for higher
order alphabets using a n-dimensional hypercube → all CGR properties are
maintained.
• Dimension needed for a m-symbol alphabet: log2(m) .
Sequence X, length k, from m-symbol alphabet A
Each symbol s is represented by a unique binary number u
corresponding to a corner of the n-hypercube.
52. USM Algorithm
USM construction is based on a Iterative Function, where USMi is the point
in the USM map after ith iteration and ui are the coordinates of the vertex of
the ith symbol in the sequence.