Next: Allineamento tra due sequenze
Up: Allineamento di sequenze
Previous: Introduzione
  Indice
Siccome stiamo trattando sequenze biologiche, il problema può essere
approciato utilizzando due diversi punti vista,
che di fatto conducono allo stesso risultato.
Si dice infatti che si cerca:
- la minima distanza tra le due sequenze
- la massima similarità tra le due sequenze
Nel primo caso si fa riferimento al processo evolutivo, per cui noi diciamo che
se due sequenze ortologhe, per esempio una di topo ed una di rana, hanno avuto
evoluzioni separate da un certo punto nel tempo in poi, ci si aspetta che
le differenze tra le due sequenze ci diano una indicazione della loro
divergenza. Nel secondo caso, si fa riferimento più direttamente
alla ricerca di zone simili, per poterne derivare delle relazioni strutturali
e funzionali.
Per questo motivo, nella letteratura scientifica spesso si usano in maniera
intercambiabile minima distanza oppure massima similarità
tra due sequenze.
Volendo procedere al calcolo della distanza tra due sequenze, bisogna definire
come misuriamo tale distanza. Questo è vero in tutti i settori
in cui si vuole definire una misura di distanza. Per esempio, se vogliamo
sapere qual'è la distanza tra Roma e Milano, otteniamo diverse
risposte a seconda di ciò che definiamo come misura di distanza, esempio:
- per uno studente con cartina e righello:
la distanza in linea d'aria su una cartina planare
- per un autista : la distanza stradale
- per un capostazione: la distanza sulla linea ferroviaria
è chiaro che a seconda del tipo di misura (metrica) che si utilizza
si possono ottenere diversi valori. Se per esempio due città A e B,
sono separate da un fiume, il cui ponte passa solo tramite la città C,
le distanze in linea d'aria (ld) o su connessione stradale (ds) possono essere
diverse e dare risultati diversi, es
- ld(A,B) = 1 Km; ld(A,C) = 3 Km; ld(B,C) = 4 Km
- ds(A,B) = 7 Km; ld(A,C) = 3 Km; ld(B,C) = 4 Km
ciò rimane vero anche quando utilizzo programmi per il confronto tra
biosequenze.
Una semplice misura di distanza, è quella di considerare tutti
i simboli diversi equidistanti, e quelli uguali a distanza nulla.
Questa misura utilizzata per le stringhe diviene per esempio
|
|
|
(8.1) |
|
|
|
(8.2) |
Questa distanza è anche nota come Hamming distance.
Possiamo per esempio calcolare la distanza di Hamming tra le due
sequenze ACGTA e ACTA
1) ACGTA Distanza 0+0+1+1+1
||
ACTA
2) ACGTA Distanza 1+1+1+0+0
||
ACTA
3) ACGTA Distanza 0+0+?+0+0
|| ||
AC-TA
Come si può verificare, nel caso 1), la distanza vale 3, nel caso 2)
vale ancora 3, mentre nel terzo caso, abbiamo proceduto ad introdurre
una operazione sulla sequenza, per cui abbiamo che la distanza calcolata
nel caso 3) è uguale al costo dell'operazione di inserimento di un gap (-).
Se si pesa questa operazione (come se fosse un diverso carattere),
allora la distanza nel caso 3) equivale ad 1.
Next: Allineamento tra due sequenze
Up: Allineamento di sequenze
Previous: Introduzione
  Indice
2004-11-02