SlideShare uma empresa Scribd logo
1 de 108
sp1_human x egr1_human October 10, 2001 10:50 ..
. . . . .
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | .: : | :: | : : :. | |:| |||::|| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374
. . . . .
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622
: |.||| | | ||||||| ||| | ::| ||| :| | | ..|
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
. . .
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | |. || . |.
425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457
Bestfit Output
SP1 at swissprot
EGR1 at swissprot
Вывод
• Оба белка имеют «общей» только небольшую зону
похожих последовательностей. Поэтому
использование bestfit больше подходит для
построения локального выравнивания.
• Мы нашли такое локальное выравнивание, которое
соответствует возможному структурному
выравниванию.
• Структурная «похожесть» может свидетельствовать
о domain/function similarity.
Bl2Seq at NCBI
Bl2seq results
Bl2seq оценка
• Bits score – оценка выравнивания в
соответствии с количеством совпадений,
«похожести» и т.д.
• Expected-score (E) – Вероятность
случайности выравнивания. Чем ближе к 0,
тем больше вероятность, что наше
выравнивание верно.
Оптимизация времени вычислений
при парном выравнивании
Алгоритм FASTA
Нахождение оптимального выравнивания требует значительных
затрат времени
k – длина
диагоналей
b – фактор
отступа от
диагонали
• Basic Local Alignment Search Tool
• Чувствителен также, как FastA, но намного
быстрее.
• Также, как FASTA, требует параметр k (длина
слова).
– Белки k= 3 letter words
– ДНК k= 11 letter words.
Алгоритм BLAST
1. Поиск идентичныхпохожих участков
2. Попытка «удлинить» эти участки насколько
возможно (т.е. пока score растёт)
В результате: High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN
Алгоритм BLAST (шаг 1)
Попытка соединить соседние HSPs путем
выравнивания последовательностей
между ними:
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST (шаг 2)
Blast
• Blast – это семейство программ: BlastN, BlastP,
BlastX, tBlastN
• BlastN - ДНК vs ДНК
• BlastP – белок vs белок
• BlastX - translated ДНК vs белок
• tBlastN - белок vs translated ДНК
Query: ДНК Белок
Database: ДНК Белок
Поиск гомологов
По ДНК или по белку?
Какой поиск предпочтительней?
ДНК или белок?
Какая последовательность более
постоянна в эволюционном плане?
UCAUAC
Or
Serine -Tyrosine
ДНК
O
O=P-O
O
Фосфатная группаФосфатная группа
N
Азотистое основаниеАзотистое основание
(A, G, C, or T)(A, G, C, or T)
CH2
O
C1
C4
C3
C2
5
СахарСахар
(дезоксирибоза)(дезоксирибоза)
ДНК
ДНК
ДНК состоит из двух цепей нуклеотидов,ДНК состоит из двух цепей нуклеотидов,
соединённых попарносоединённых попарно::
ADENINEADENINE –– THYMINETHYMINE
CYTOSINECYTOSINE -- GUANINEGUANINE
Правило комплементарностиПравило комплементарности
Двойная спиральДвойная спираль
P
P
P
O
O
O
1
2
3
4
5
5
3
3
5
P
P
P
O
O
O
1
2 3
4
5
5
3
5
3
G C
T A
ДНК, дальнейшая упаковка.
ДНК
Функции ДНК — наследственность и
изменчивость.
Репликация ДНК
Репликация ДНК
• Генетический код избыточен – почти все
аминокислоты кодируются более, чем 1 кодоном
(тройка нуклеотидов)
• Последовательность ДНК может меняться, в то
время, как последовательность белка остается
постоянной.
Ser-Tyr….
UCAUAC UCUUAC UCGUAC U……
Поиск гомологов
• Нуклеотиды – 4-х буквенный алфавит.
• Аминокислоты – 20-и буквенный алфавит
Две случайные последовательности ДНК будут
идентичны ~ 25%.
Две случайные белковые последовательности будут
идентичны ~ 5%.
Поиск гомологов
Матрицы для сравнения белков более
чувствительны, чем матрицы для ДНК.
Базы данных ДНК намного больше белковых
→ будут случайные совпадения.
Поиск гомологов
Использование белковых
последовательностей более
предпочтительно при поиске гомологов
Поиск гомологов
Множественное выравнивание
последовательностей (MSA)
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWYQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
LSLTCTVSGTSFDD--YYSTWVRQPPG
PEVTCVVVDVSHEDPQVKFNWYVDG--
ATLVCLISDFYPGA--VTVAWKADS--
AALGCLVKDYFPEP--VTVSWNSG---
VSLTCLVKGFYPSD--IAVEWWSNG--
Основные предположения
• Гены фиксированы, сохранены у очень
широкого круга биологических видов, у
совершенно различных представителей
«древа жизни».
• Фиксированный генетический код для
белков вероятно несёт похожие, зачастую
идентичные функции.
Например:
• Гистоны: небольшие белки,
присутствуют у всех
эукариот.
Демонстрируют выраженное
постоянство последовательности в
MSA
Постоянство структуры и
функции (упаковка DNA)
Почему множественное выравнивание?
Позволяет дать характеристику семействам
белков, найти общие участки, гомологов.
Например: семейство Serine protease:
семейство, отвечающее за катализ,
гидролиз пептидных связей.
• Одинаковые активные центры ?
• Общие участка последовательности?
• MSA – это первый, предварительный шаг к
анализу в области молекулярной эволюции и
построения эволюционных деревьев.
• База для филогенеза – данные молекулярной
биологии или морфологические данные
Подходы в MSA
2 разных подхода:
– 1D sequence based – сравнение
последовательностей.
– 2D-3D based – выравнивание, базирующееся на
структуре
MSA algorithm
• Попарное выравнивание всех последовательностей
(pairwise alignment).
• Кластерный анализ данных парного выравнивания
для получения иерархии выравниваний (guide tree).
• Построение множественного выравнивания (MSA)
пошагово в соответствии с guide tree; сначала
выравнивают наиболее похожие пары, затем
добавляют остальные и т.д.
Multiple Alignment - алгоритм
(1) Парное выравнивание (подготовка guide tree)
6 pairwise alignments
then cluster analysis
(2) Множественное выравнивание, следуя древу из п. 1.
successive alignments
Комментарии
• Парное выравнивание - оптимальный алгоритм.
• Множественное выравнивание не является
оптимальным алгоритмом. Вполне могут
существовать и лучшие выравнивания!
• Редакторы выравниваний могут быть полезны для
корректировки
GCG
Pileup: глобальный MSA.
pileup @[list of sequence names]
pileup @hemoglobin_list
1. The @ sign means that the file contains a list of names.
2. The list can include names from the user’s directory or code names
(accession numbers) from the GCG databases.
GCG
Пример входного файла
..
sw:hbb_human
sw:hbb_rat
sw:hbb_mouse
Hemoglobin_Alpha
Hemoglobin_Gamma
Hemogolibin_Delta
Syntax: the file starts with “..”
Sequences from the
databases
Sequences from the
user’s directory
GCG
PileUp creates a multiple sequence alignment from a group of related
sequences using progressive, pairwise alignments. It can also plot a
tree showing the clustering relationships used to create the alignment.
1 IPNS_STRJU 329 aa
2 IPNS_STRCL 329 aa
3 IPNS_CEPAC 338 aa
4 IPNS_NOCLA 328 aa
What is the gap creation penalty (* 8 *) ?
What is the gap extension penalty (* 2 *) ?
This program can display the clustering relationships graphically.
Do you want to:
A) Plot to a FIGURE file called "pileup.figure"
B) Plot graphics on HP7550 attached to /dev/tty15
C) Suppress the plot
Please choose one (* A *): c
What should I call the output file name (* ipns.msf *) ?
Determining pairwise similarity scores...
1 x 2 4.43
1 x 3 3.12
1 x 4 4.12
2 x 3 2.94
2 x 4 4.05
3 x 4 3.09
Aligning...
Total sequences: 4
Alignment length: 338
CPU time: 00.21
Output file:/data/users/racheli/others/racheli/ipns.msf
Regular GCG syntax:
Default parameters,
output file, etc
GCG
!!AA_MULTIPLE_ALIGNMENT 1.0
PileUp of: @ipns.fil
Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 1102
GapWeight: 8
GapLengthWeight: 2
ipns.msf MSF: 338 Type: P March 14, 2002 09:29 Check: 7631 ..
Name: IPNS_STRJU Len: 338 Check: 6344 Weight: 1.00
Name: IPNS_STRCL Len: 338 Check: 4249 Weight: 1.00
Name: IPNS_NOCLA Len: 338 Check: 7020 Weight: 1.00
Name: IPNS_CEPAC Len: 338 Check: 18 Weight: 1.00
//
1 50
IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHG
IPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHG
IPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHG
IPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG
51 100
IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDN.PHVRN GYYKAIKGKK
IPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDN.PHVRN GYYKAVPGRK
IPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNN.SHVRN GYYMAIEGKK
IPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK
Output file:
msf format
GCG
Prettybox: генерирует графический файл из
файла MSA
prettybox [MSA file]{*}
prettybox hemoglobins.msf{*}
1. The “{*}” is a syntax sign meaning all the sequences in
the MSA file.
2. Can also calculate the consensus sequence.
GCG
ClustalW
• Очень известная и широко распространённая
программа: UNIX, Internet, Windows.
• Выполняет MSA; может строить филогенетические
деревья.
• Входной файл – формат multi-fasta.
ClustalW
• tofasta @list
>IPNS_STRJU P18286
MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN
EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE
TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT
LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI
PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA
AGTVKNPTTSYGEYLQHGLRALIVKNGQT
>IPNS_STRCL P10621
MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN
EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG
TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS
LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI
PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA
SEEVRNEALSYGDYLQHGLRALIVKNGQT
input file:
Multi-fasta
Making the file in unix
ClustalW
CLUSTAL W (1.7) multiple sequence alignment
IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV
IPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV
IPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT
IPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT
IPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET
*.** **:* * *.: . * :* *: *.* :***** :**:*: *. .
IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK
IPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR
IPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK
IPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ
IPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK
.:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *:
Выходной файл: aln format
http://www.ebi.ac.uk/help/formats.html
форматы
ClustalW на EMBL
ClustalW на EMBL - результат
ClustalW at EMBL - Jalview
Conservation
Consensus Sequence
Мы можем вывести consensus sequence из
результатов MSA.
The consensus sequence содержит наиболее
часто встречающийся символ в кажной
колонке выравнивания.
A T C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Ещё пара терминов……
Профиль (Profile)
Также возможно вывести статистическую модель,
описывающую MSA. Профиль содержит
информацию о символах в каждом столбце
выравнивания.
A T C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 1 0.67 0 0 . .
T 0 0.33 1 1 . .
C 0 0 0 0 . .
G 0 0 0 0 . .
Profile vs. Consensus
Consensus: каждая позиция отражает
наиболее часто встречающийся символ.
Profile: каждая позиция отражает частоту
символа в данной позиции.
Profile vs. Consensus
Данный MSA будет иметь одинаковый
consensus
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
A A C T T G T
Profile vs. Consensus
Но разный профиль
A A C T T G C
A A G T C G T
C A C T T C T
A A C T T G T
A A C T T G T
A A C T T C T
1 2 3 4 5 6
A 0.66 1 0 0 . .
T 0 0 0 1 . .
C 0.33 0 0.66 0 . .
G 0 0 0.33 0 . .
1 2 3 4 5 6
A 1 1 0 0 . .
T 0 0 0 1 . .
C 0 0 1 0 . .
G 0 0 0 0 . .
Psi Blast (NCBI)
Position Specific Iterated –
автоматизированный поиск по профилю
Regular blast
Construct profile from
blast results
Blast profile search
Final results
PSI-Blast
Psi-Blast вывод
Проблема формулировки выводов при
использовании МSA:
1. Сайт выглядит общим (фиксированным)
из-за того, что это – близкородственные
последовательности?
2. Сайт выглядит общим из-за того, что это
– исключительно, жизненно важный
сайт?
Филогенез
Эволюция – случайный
процесс с неслучайным
результатом
Цели филогенетического исследования
• Реконструкция корректных генеалогических связей
между биологическими объектами
• Оценка времени расхождения организмов
• Определение порядка эволюционных событий в процессе
эволюции
Формат Newick
((A,(B,C)),(D,E))
Типы данных ?
Molecular (DNA, RNA, proteins)
Morphological (soft tissue, hard tissue,
extant, extinct)
Преимущества молекулярных данных
• Наследуемость.
• Недвусмысленность в описании молекулярных характеристик
• Поддаются количественному анализу
• Оценка гомологии легче, чем морфологические исследования
• Данных много
Древо видов и генов
• Древо видов – эволюционные взаимосвязи
между видами (видообразование).
• Древо генов.
Page, R.D.M. and Cotton, J.C. (2000) GeneTree: a tool for exploring gene family
evolution. In D. Sankoff, and J. Nadeau, (eds.), Comparative Genomics: Empirical
and Analytical Approaches to Gene Order Dynamics, Map Alignment, and the
Evolution of Gene Families. Kluwer Academic Publishers, Dordrecht, pp. 525-536.
Figure 2: (a) Incongruent gene and
species trees. This incongruence can
be explained by hypothesizing a gene
duplication (h) at the base of the gene
tree (b).
The presence of only a single gene (a-
d) extant in each of the present-day
species
(1-4) requires postulating three gene
losses. (c) The corresponding
reconciled tree.
Ортологи и паралоги
• Гены-паралоги –
событие дупликация
(α and β)
• Гены-ортологи –
событие
видообразования (α in
the two species and β in
the two species)
α
βα
βαβα
Duplication
Speciation
Species a Species b
Шаги реконструирования филогенетического
древа
1. Выбор последовательностей и поиск
гомологов
2. MSA
3. Матрица белков
4. Филогенетическое дерево
Филогенетическое дерево
Филогения - раздел биологии, изучающий
родственные взаимоотношения разных
групп живых организмов. Филогению
отображается обычно в виде
"эволюционных древ" или систематических
названий.
Зачем нужны филогенетические
деревья?
Биологические задачи:
 сравнение 3-х и более объектов
(кто на кого более похож .... )
 реконструкция эволюции
(кто от кого, как и когда произошел…)
Терминология
Узел (node) — точка разделения предковой последовательности
(вида, популяции) на две независимо эволюционирующие.
Соответствует внутренней вершине графа, изображающего
эволюцию.
Лист (leaf, OTU – оперативная таксономическая единица) —
реальный (современный) объект; внешняя вершина графа.
Ветвь (branch) — связь между узлами или между узлом и
листом; ребро графа.
Корень (root) — общий предок.
Клада (clade) - группа двух или
более таксонов или последователь-
ностей ДНК, которая включает как
своего общего предка, так и всех его
потомков.
OTU
HTU (hypotetical taxonomic unit)
Какие бывают деревья?
Бинарное (разрешённое)
(в один момент времени может
произойти только одно событие )
Небинарное (неразрешённое)
(может ли в один момент времени
произойти два события? )
Время
Какие бывают деревья?
Укорененное дерево (rooted tree)
отражает направление эволюции
Неукорененное (бескорневое) дерево
(unrooted tree) показывает
только связи между узлами
Время
Если число листьев равно n, существует (2n-3)!!
разных бинарных укоренных деревьев.
По определению, (2n-3)!! = 1·3 ·... ·(2n-3)
Существует (2n-5)!! разных бескорневых
деревьев с n листьями
Rooting
A C B B C AA B C
3 OTUs3 OTUs ⇒⇒ 1 неукорененное дерево1 неукорененное дерево
3 укорененных деревьев3 укорененных деревьев
A
B
C
D
CA
B
4 OTUs4 OTUs ⇒⇒ 33 неукорененных филогенетическихнеукорененных филогенетических
деревьевдеревьев
D
BA
C C
BA
D
4 OTUs ⇒
15 укорененных
деревьев
Количество Количество Количество
OTU укорененных неукорененных
2 1 1
3 3 1
4 15 3
5 105 15
6 954 105
7 10,395954
8 135,135 10,395
9 2,027,025 135,135
10 34,459,425 2,027,025
11 654,729,075 34,459,425
12 13,749,310,575 654,729,075
Количество возможных деревьев
Рутинная процедура, или как строят деревья?
Составление выборки последовательностей
Множественное выравнивание
Построение дерева
фрагмент записи в виде скобочной формулы:
Визуализация и редактура дерева
(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,
max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
EC PurR
YPO2387
REO04849
RPQ00833
HI1635
PM0547RAB00351VC1721
RVFI01332
SYG CAEEL
SYG HUMAN
SYG BOMMO
SYG METTH
SYG METJA
CAF29768
tr|Q97EB8
tr|Q81XT3
SYG STAAM
tr|Q8R5S1
sp|P36929|RSMB ECOLI
tr|Q8YYM8
tr|O29405
tr|Q8TGZ6
NOL1 HUMAN
tr|Q9FG73
sp|P40991|NOP2 YEAST
tr|Q8U1F1
GCGGCTCA TCAGGTAGTT GGTG-G Spinach
GCGGCCCA TCAGGTAGTT GGTG-G Rice
GCGTTCCA TC--CTGGTT GGTGTG Mosquito
GCGTCCCA TCAGCTAGTT GTTG-G Monkey
GCGGCGCA TTAGCTAGTT GGTG-A Human
*** ** * * *** * **
Множественное выравнивание
Matches
GCGGCTCA TCAGGTAGTT GGTG-G Spinach
GCGGCCCA TCAGGTAGTT GGTG-G Rice
GCGTTCCA TC--CTGGTT GGTGTG Mosquito
GCGTCCCA TCAGCTAGTT GTTG-G Monkey
GCGGCGCA TTAGCTAGTT GGTG-A Human
*** ** * * *** * **
Multiple Alignment
Matches
Mismatches
GCGGCTCA TCAGGTAGTT GGTG-G Spinach
GCGGCCCA TCAGGTAGTT GGTG-G Rice
GCGTTCCA TC--CTGGTT GGTGTG Mosquito
GCGTCCCA TCAGCTAGTT GTTG-G Monkey
GCGGCGCA TTAGCTAGTT GGTG-A Human
*** ** * * *** * **
Multiple Alignment
Matches
Mismatches
Gaps
Seq 1 A G C G A GSeq 1 A G C G A G
Seq 2 G C G G A CSeq 2 G C G G A C
Шаг 3. Перевод количества расхождений в
индексы замен
Distance Matrix*
** Units: количество замен нуклеотидов на 1000
Spinach Rice Mosquito Monkey Human
Spinach 0.0 9 106 91 86
Rice 0.0 118 122 122
Mosquito 0.0 55 51
Monkey 0.0 3
Human 0.0
Шаг 4: построение филогенетического дерева
Spinach Rice Mosquito Monkey Human
Spinach 0.0 9 106 91 86
Rice 0.0 118 122 122
Mosquito 0.0 55 51
Monkey 0.0 3
Human 0.0
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Дистанция между человеком и обезьяной минимальна. Эти
группы объединяются в Monkey-Human, а все остальные
дистанции пересчитываются
Dist[Spinach, MonHum] = (Dist[Spinach, Monkey] +
Dist[Spinach, Human])/2 = (91 + 86)/2 = 88.5
Spinach Rice Mosquito Mon-Hum
Spinach 0.0 9 106 88.5
Rice 0.0 118 122
Mosquito 0.0 53
Mon-Hum 0.0
Редуцированная матрица дистанций
Mon-Hum
MonkeyHumanSpinachMosquito Rice
Spi-Ric
HumanMosquito
Mon-Hum
MonkeySpinachRice
Mos-Mon-Hum
Spi-Ric
Mos-Mon-Hum-Spi-Ric
Как выбирать последовательности для дерева?
 Кроме случаев очень близких последовательностей,
проще работать с белками (а не с ДНК)
 Придерживайтесь небольшой выборки (< 50
последовательностей)
 Избегайте:
– фрагментов;
– Ксенологов (горизонтальный перенос генов);
– рекомбинантных последовательностей;
– многодоменных белков и повторов
 Используйте outgroup (последовательность,
ответвившаяся от общего предка заведомо (но
минимально!) раньше разделения интересующих групп-
клад)
Самое главное – хорошее
выравнивание!
Максимальный вклад в финальное дерево:
нельзя построить хорошее дерево по
плохому выравниванию
Блоки, содержащие много гэпов, плохо
выровненные N- и C- концы можно просто
вырезать.
Основные алгоритмы построения
филогенетических деревьев
Методы, основанные на
оценке
расстояний (матричные
методы):
• UPGMA (кластеризация)
• Neighbor-joining
• Минимальная
эволюция
Наибольшего
правдоподобия,
Maximal likelihood, ML
Используется модель эволюции
и строится дерево, которое наиболее
правдоподобно при данной модели
Максимальной экономии
(бережливости),
maximal parsimony, MP
Выбирается дерево с минимальным количеством
мутаций, необходимых для объяснения данных
Пример матрицы расстояний
1 2 3 4 5 6 7 8
0.00 10.53 9.77 12.78 12.03 16.54 13.53 25.00 HUMAN 1
0.00 9.02 12.03 9.77 15.79 9.02 27.27 HORSE 2
0.00 9.77 9.02 16.54 12.03 24.24 RABIT 3
0.00 2.26 17.29 10.53 25.76 MOUSE 4
0.00 15.79 8.27 25.76 RAT 5
0.00 10.53 29.55 BOVIN 6
0.00 25.00 PIG 7
0.00 CHICK 8
Расстояние (уровень дивергенции) между
соответствующими последовательностями из
геномов мыши и свиньи
Как понимать расстояние между объектами?
• Как время, в течение которого они эволюционировали
• Как число «эволюционных событий» (мутаций)
В первом случае объекты образуют
ультраметрическое пространство
(если все объекты наблюдаются в одно время, что, как правило, верно)
Но время непосредственно измерить невозможно
Гипотеза «молекулярных часов»
(E.Zuckerkandl, L.Pauling, 1962)
За равное время во всех ветвях эволюции
данного генабелка накапливается равное
число мутацийЕсли гипотеза молекулярных часов
принимается, число различий между
выровненными
последовательностями можно
считать примерно
пропорциональным времени.
Отклонения от
ультраметричности можно считать
случайными. Эволюция
реконструируется в виде
ультраметрического дерева.
Укоренённое дерево называется
ультраметрическим, если
расстояние от корня до любого из
листьев одинаково.
UPGMA
Unweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее
арифметическое всевозможных расстояний между
последовательностями из кластеров
Недостатки UPGMA
Алгоритм строит ультраметрическое дерево – скорость эволюции
предполагается одинаковой для всех ветвей дерева. Использовать
этот алгоритм имеет смысл только в случае ультраметрических
данных (справедливости «молекулярных часов»).
Реальное дерево UPGMA
Метод ближайших соседей
(Neighbor-joining, NJ)
 Строит неукоренённое дерево
 Может работать с большим количеством данных
 Достаточно быстрый
 Если есть недвусмысленное с точки зрения
эксперта дерево, то оно будет построено.
Метод Neighbor-joining
Рисуем «звездное» дерево и будем «отщипывать» от него по паре
листьев
Пусть ui = Σk Mik/(n-2) — среднее расстояние от листа i до других
листьев
1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с
минимальным значением величины
Mij – ui –uj
т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех
остальных.
Метод ближайших соседей (Neighbor-joining, NJ)
2. Кластер (i, j) – новый узел дерева
Расстояние от i или от j до узла (i,j):
D(i, (i,j)) = 0,5·(Mij + ui – uj)
D(j, (i,j)) = 0,5· (Mij + uj – ui)
т.е. длина ветви зависит от среднего расстояния
до других вершин
3. Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk – Mij
2
5. В матрице М убираем i и j и добавляем (i, j).
Повторяем, пока не останутся 3 узла ...
Input:
MSA для n последовательностей,
одна последовательность для каждого
вида.
AAAAATC
AAAAAAG
CCCCCCG
AAAAATC
AAAAAAG
CCCCCCG
Длинная ветвь –
непохоже на правду
Длинная ветвь -
Похоже на правду
Методы, основанные на последовательностях:
Maximum Likelihood (ML), Maximum Parsimony (MP)
Как изобразить дерево?
Топология дерева
Топология дерева — только листья, узлы, (корень)
и связывающие их ветви
(топология не зависит от способа изображения дерева)
A
B
C
D
E A BC D E
Два изображения одной и той же топологии
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Bacterium 1
Bacterium 3
Bacterium 2
Eukaryote 1
Eukaryote 4
Eukaryote 3
Eukaryote 2
Филограммы – длины ветвей
пропорциональны
эволюционному расстоянию.
Кладограммы и филограммы
Кладограммы – только
топологя. Длины ветвей не
учитываются
6
3
1
2
4
6
2
4
5
3
Как можно нарисовать построенное дерево?
Какие on-line программы строят
деревья?
ClustalW. “Tree type” – nj, phylip: строит
только методом NJ, но результат – в
разных форматах, no bootstraps
Phylip (Felsenstein, 1993) – пакет программ
для построения филогенетических
деревьев (stand-alone)
On-line (partly): например,
http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html
 PAUP (Phylogenetic Analysis Using Parsimony)
MEGA: филогенетический анализ
последовательностей
http://www.megasoftware.net/
Эволюция – исторический процесс.
Из 8,200,794,532,637,891,559,375 деревьев для 20 OTUs, 1
является верным и 8,200,794,532,637,891,559,374
неверны.
Truth is one, falsehoods are many.
Какое из 8,200,794,532,637,891,559,375
деревьев истинно?
Мы не знаем. Можно применить иные критетии:
Например, “похожесть=родство»
GCG
• Строковый поиск: простой текстовый
поиск по локальной базе данных.
• Поиск в определениях или в аннотациях.
• Определения содержат минимальное
количество информации для каждой
статьи: доступ, имя организма, имя гена,
длина последовательности, дата.

Mais conteúdo relacionado

Semelhante a Vvedenie v bioinformatiku_2

JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
Доклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУДоклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУFedor Tsarev
 
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Mikhail Kurnosov
 
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...Ontico
 
OpenSource SQL Databases Enter Millions Queries per Second Era
OpenSource SQL Databases Enter Millions Queries per Second EraOpenSource SQL Databases Enter Millions Queries per Second Era
OpenSource SQL Databases Enter Millions Queries per Second EraSveta Smirnova
 
ТФРВС - весна 2014 - лекция 9
 ТФРВС - весна 2014 - лекция 9 ТФРВС - весна 2014 - лекция 9
ТФРВС - весна 2014 - лекция 9Alexey Paznikov
 
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC MeetupYurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC MeetupProvectus
 
Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.bifurcafe
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...JSC “Arcadia Inc”
 
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...Ontico
 
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...Mail.ru Group
 
Масштабируемость в распределенных in-memory системах
Масштабируемость в распределенных in-memory системахМасштабируемость в распределенных in-memory системах
Масштабируемость в распределенных in-memory системахVladimir Ozerov
 
Методы поиска уязвимостей
Методы поиска уязвимостейМетоды поиска уязвимостей
Методы поиска уязвимостейsolertia
 
Методы поиска уязвимостей в программах
Методы поиска уязвимостей в программахМетоды поиска уязвимостей в программах
Методы поиска уязвимостей в программахVasiliy Shapovalov
 
Лекция 10. Apache Mahout
Лекция 10. Apache MahoutЛекция 10. Apache Mahout
Лекция 10. Apache MahoutTechnopark
 

Semelhante a Vvedenie v bioinformatiku_2 (19)

Ngs 1
Ngs 1Ngs 1
Ngs 1
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Доклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУДоклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУ
 
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
 
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...
Open Source SQL-базы данных вступили в эру миллионов запросов в секунду / Фед...
 
OpenSource SQL Databases Enter Millions Queries per Second Era
OpenSource SQL Databases Enter Millions Queries per Second EraOpenSource SQL Databases Enter Millions Queries per Second Era
OpenSource SQL Databases Enter Millions Queries per Second Era
 
ТФРВС - весна 2014 - лекция 9
 ТФРВС - весна 2014 - лекция 9 ТФРВС - весна 2014 - лекция 9
ТФРВС - весна 2014 - лекция 9
 
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC MeetupYurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
 
Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...
 
Vvedenie v bioinformatiku_5_3
Vvedenie v bioinformatiku_5_3Vvedenie v bioinformatiku_5_3
Vvedenie v bioinformatiku_5_3
 
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...
Стекаем и Блендим. Разбор популярных библиотек Python, Дмитрий Буслов. 22 июн...
 
Pre - Diploma Work
Pre - Diploma WorkPre - Diploma Work
Pre - Diploma Work
 
Масштабируемость в распределенных in-memory системах
Масштабируемость в распределенных in-memory системахМасштабируемость в распределенных in-memory системах
Масштабируемость в распределенных in-memory системах
 
Методы поиска уязвимостей
Методы поиска уязвимостейМетоды поиска уязвимостей
Методы поиска уязвимостей
 
Методы поиска уязвимостей в программах
Методы поиска уязвимостей в программахМетоды поиска уязвимостей в программах
Методы поиска уязвимостей в программах
 
Efficiency vvv
Efficiency vvvEfficiency vvv
Efficiency vvv
 
Лекция 10. Apache Mahout
Лекция 10. Apache MahoutЛекция 10. Apache Mahout
Лекция 10. Apache Mahout
 

Mais de BioinformaticsInstitute

Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsBioinformaticsInstitute
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкBioinformaticsInstitute
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр ПредеусBioinformaticsInstitute
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...BioinformaticsInstitute
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)BioinformaticsInstitute
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...BioinformaticsInstitute
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)BioinformaticsInstitute
 

Mais de BioinformaticsInstitute (20)

Graph genome
Graph genome Graph genome
Graph genome
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
A superglue for string comparison
A superglue for string comparisonA superglue for string comparison
A superglue for string comparison
 
Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphs
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днк
 
Knime &amp; bioinformatics
Knime &amp; bioinformaticsKnime &amp; bioinformatics
Knime &amp; bioinformatics
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
 
Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Biodb 2011-05
Biodb 2011-05Biodb 2011-05
Biodb 2011-05
 
Biodb 2011-04
Biodb 2011-04Biodb 2011-04
Biodb 2011-04
 
Biodb 2011-03
Biodb 2011-03Biodb 2011-03
Biodb 2011-03
 
Biodb 2011-01
Biodb 2011-01Biodb 2011-01
Biodb 2011-01
 
Biodb 2011-02
Biodb 2011-02Biodb 2011-02
Biodb 2011-02
 
Ngs 3 1
Ngs 3 1Ngs 3 1
Ngs 3 1
 

Vvedenie v bioinformatiku_2

  • 1. sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457 Bestfit Output
  • 4. Вывод • Оба белка имеют «общей» только небольшую зону похожих последовательностей. Поэтому использование bestfit больше подходит для построения локального выравнивания. • Мы нашли такое локальное выравнивание, которое соответствует возможному структурному выравниванию. • Структурная «похожесть» может свидетельствовать о domain/function similarity.
  • 7. Bl2seq оценка • Bits score – оценка выравнивания в соответствии с количеством совпадений, «похожести» и т.д. • Expected-score (E) – Вероятность случайности выравнивания. Чем ближе к 0, тем больше вероятность, что наше выравнивание верно.
  • 8. Оптимизация времени вычислений при парном выравнивании Алгоритм FASTA Нахождение оптимального выравнивания требует значительных затрат времени k – длина диагоналей b – фактор отступа от диагонали
  • 9. • Basic Local Alignment Search Tool • Чувствителен также, как FastA, но намного быстрее. • Также, как FASTA, требует параметр k (длина слова). – Белки k= 3 letter words – ДНК k= 11 letter words. Алгоритм BLAST
  • 10. 1. Поиск идентичныхпохожих участков 2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score растёт) В результате: High-scoring Segment Pairs (HSPs) THEFIRSTLINIHAVEADREAMESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEWASNINETEEN Алгоритм BLAST (шаг 1)
  • 11. Попытка соединить соседние HSPs путем выравнивания последовательностей между ними: THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEEN Алгоритм BLAST (шаг 2)
  • 12. Blast • Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN • BlastN - ДНК vs ДНК • BlastP – белок vs белок • BlastX - translated ДНК vs белок • tBlastN - белок vs translated ДНК Query: ДНК Белок Database: ДНК Белок
  • 13. Поиск гомологов По ДНК или по белку? Какой поиск предпочтительней?
  • 14. ДНК или белок? Какая последовательность более постоянна в эволюционном плане? UCAUAC Or Serine -Tyrosine
  • 16. O O=P-O O Фосфатная группаФосфатная группа N Азотистое основаниеАзотистое основание (A, G, C, or T)(A, G, C, or T) CH2 O C1 C4 C3 C2 5 СахарСахар (дезоксирибоза)(дезоксирибоза) ДНК
  • 17. ДНК ДНК состоит из двух цепей нуклеотидов,ДНК состоит из двух цепей нуклеотидов, соединённых попарносоединённых попарно:: ADENINEADENINE –– THYMINETHYMINE CYTOSINECYTOSINE -- GUANINEGUANINE Правило комплементарностиПравило комплементарности
  • 20. ДНК Функции ДНК — наследственность и изменчивость.
  • 22. • Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка нуклеотидов) • Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной. Ser-Tyr…. UCAUAC UCUUAC UCGUAC U…… Поиск гомологов
  • 23. • Нуклеотиды – 4-х буквенный алфавит. • Аминокислоты – 20-и буквенный алфавит Две случайные последовательности ДНК будут идентичны ~ 25%. Две случайные белковые последовательности будут идентичны ~ 5%. Поиск гомологов
  • 24. Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы данных ДНК намного больше белковых → будут случайные совпадения. Поиск гомологов
  • 28. Основные предположения • Гены фиксированы, сохранены у очень широкого круга биологических видов, у совершенно различных представителей «древа жизни». • Фиксированный генетический код для белков вероятно несёт похожие, зачастую идентичные функции.
  • 29. Например: • Гистоны: небольшие белки, присутствуют у всех эукариот. Демонстрируют выраженное постоянство последовательности в MSA Постоянство структуры и функции (упаковка DNA)
  • 30. Почему множественное выравнивание? Позволяет дать характеристику семействам белков, найти общие участки, гомологов. Например: семейство Serine protease: семейство, отвечающее за катализ, гидролиз пептидных связей. • Одинаковые активные центры ? • Общие участка последовательности?
  • 31. • MSA – это первый, предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев. • База для филогенеза – данные молекулярной биологии или морфологические данные
  • 32. Подходы в MSA 2 разных подхода: – 1D sequence based – сравнение последовательностей. – 2D-3D based – выравнивание, базирующееся на структуре
  • 33. MSA algorithm • Попарное выравнивание всех последовательностей (pairwise alignment). • Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree). • Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree; сначала выравнивают наиболее похожие пары, затем добавляют остальные и т.д.
  • 34. Multiple Alignment - алгоритм (1) Парное выравнивание (подготовка guide tree) 6 pairwise alignments then cluster analysis (2) Множественное выравнивание, следуя древу из п. 1. successive alignments
  • 35. Комментарии • Парное выравнивание - оптимальный алгоритм. • Множественное выравнивание не является оптимальным алгоритмом. Вполне могут существовать и лучшие выравнивания! • Редакторы выравниваний могут быть полезны для корректировки
  • 36. GCG Pileup: глобальный MSA. pileup @[list of sequence names] pileup @hemoglobin_list 1. The @ sign means that the file contains a list of names. 2. The list can include names from the user’s directory or code names (accession numbers) from the GCG databases.
  • 37. GCG Пример входного файла .. sw:hbb_human sw:hbb_rat sw:hbb_mouse Hemoglobin_Alpha Hemoglobin_Gamma Hemogolibin_Delta Syntax: the file starts with “..” Sequences from the databases Sequences from the user’s directory
  • 38. GCG PileUp creates a multiple sequence alignment from a group of related sequences using progressive, pairwise alignments. It can also plot a tree showing the clustering relationships used to create the alignment. 1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? This program can display the clustering relationships graphically. Do you want to: A) Plot to a FIGURE file called "pileup.figure" B) Plot graphics on HP7550 attached to /dev/tty15 C) Suppress the plot Please choose one (* A *): c What should I call the output file name (* ipns.msf *) ? Determining pairwise similarity scores... 1 x 2 4.43 1 x 3 3.12 1 x 4 4.12 2 x 3 2.94 2 x 4 4.05 3 x 4 3.09 Aligning... Total sequences: 4 Alignment length: 338 CPU time: 00.21 Output file:/data/users/racheli/others/racheli/ipns.msf Regular GCG syntax: Default parameters, output file, etc
  • 39. GCG !!AA_MULTIPLE_ALIGNMENT 1.0 PileUp of: @ipns.fil Symbol comparison table: GenRunData:blosum62.cmp CompCheck: 1102 GapWeight: 8 GapLengthWeight: 2 ipns.msf MSF: 338 Type: P March 14, 2002 09:29 Check: 7631 .. Name: IPNS_STRJU Len: 338 Check: 6344 Weight: 1.00 Name: IPNS_STRCL Len: 338 Check: 4249 Weight: 1.00 Name: IPNS_NOCLA Len: 338 Check: 7020 Weight: 1.00 Name: IPNS_CEPAC Len: 338 Check: 18 Weight: 1.00 // 1 50 IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHG IPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHG IPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHG IPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG 51 100 IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDN.PHVRN GYYKAIKGKK IPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDN.PHVRN GYYKAVPGRK IPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNN.SHVRN GYYMAIEGKK IPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK Output file: msf format
  • 40. GCG Prettybox: генерирует графический файл из файла MSA prettybox [MSA file]{*} prettybox hemoglobins.msf{*} 1. The “{*}” is a syntax sign meaning all the sequences in the MSA file. 2. Can also calculate the consensus sequence.
  • 41. GCG
  • 42. ClustalW • Очень известная и широко распространённая программа: UNIX, Internet, Windows. • Выполняет MSA; может строить филогенетические деревья. • Входной файл – формат multi-fasta.
  • 43. ClustalW • tofasta @list >IPNS_STRJU P18286 MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA AGTVKNPTTSYGEYLQHGLRALIVKNGQT >IPNS_STRCL P10621 MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA SEEVRNEALSYGDYLQHGLRALIVKNGQT input file: Multi-fasta Making the file in unix
  • 44. ClustalW CLUSTAL W (1.7) multiple sequence alignment IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV IPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV IPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT IPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT IPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET *.** **:* * *.: . * :* *: *.* :***** :**:*: *. . IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK IPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR IPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK IPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ IPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK .:* :: :** :***.*** : : * *** .: *** **:*****.*. **. *: Выходной файл: aln format http://www.ebi.ac.uk/help/formats.html форматы
  • 46. ClustalW на EMBL - результат
  • 47. ClustalW at EMBL - Jalview Conservation
  • 48. Consensus Sequence Мы можем вывести consensus sequence из результатов MSA. The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания. A T C T T G T A A C T T G T A A C T T C T A A C T T G T Ещё пара терминов……
  • 49. Профиль (Profile) Также возможно вывести статистическую модель, описывающую MSA. Профиль содержит информацию о символах в каждом столбце выравнивания. A T C T T G T A A C T T G T A A C T T C T 1 2 3 4 5 6 A 1 0.67 0 0 . . T 0 0.33 1 1 . . C 0 0 0 0 . . G 0 0 0 0 . .
  • 50. Profile vs. Consensus Consensus: каждая позиция отражает наиболее часто встречающийся символ. Profile: каждая позиция отражает частоту символа в данной позиции.
  • 51. Profile vs. Consensus Данный MSA будет иметь одинаковый consensus A A C T T G C A A G T C G T C A C T T C T A A C T T G T A A C T T G T A A C T T C T A A C T T G T
  • 52. Profile vs. Consensus Но разный профиль A A C T T G C A A G T C G T C A C T T C T A A C T T G T A A C T T G T A A C T T C T 1 2 3 4 5 6 A 0.66 1 0 0 . . T 0 0 0 1 . . C 0.33 0 0.66 0 . . G 0 0 0.33 0 . . 1 2 3 4 5 6 A 1 1 0 0 . . T 0 0 0 1 . . C 0 0 1 0 . . G 0 0 0 0 . .
  • 53. Psi Blast (NCBI) Position Specific Iterated – автоматизированный поиск по профилю Regular blast Construct profile from blast results Blast profile search Final results
  • 56. Проблема формулировки выводов при использовании МSA: 1. Сайт выглядит общим (фиксированным) из-за того, что это – близкородственные последовательности? 2. Сайт выглядит общим из-за того, что это – исключительно, жизненно важный сайт?
  • 57. Филогенез Эволюция – случайный процесс с неслучайным результатом
  • 58. Цели филогенетического исследования • Реконструкция корректных генеалогических связей между биологическими объектами • Оценка времени расхождения организмов • Определение порядка эволюционных событий в процессе эволюции
  • 60. Типы данных ? Molecular (DNA, RNA, proteins) Morphological (soft tissue, hard tissue, extant, extinct)
  • 61. Преимущества молекулярных данных • Наследуемость. • Недвусмысленность в описании молекулярных характеристик • Поддаются количественному анализу • Оценка гомологии легче, чем морфологические исследования • Данных много
  • 62. Древо видов и генов • Древо видов – эволюционные взаимосвязи между видами (видообразование). • Древо генов. Page, R.D.M. and Cotton, J.C. (2000) GeneTree: a tool for exploring gene family evolution. In D. Sankoff, and J. Nadeau, (eds.), Comparative Genomics: Empirical and Analytical Approaches to Gene Order Dynamics, Map Alignment, and the Evolution of Gene Families. Kluwer Academic Publishers, Dordrecht, pp. 525-536. Figure 2: (a) Incongruent gene and species trees. This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b). The presence of only a single gene (a- d) extant in each of the present-day species (1-4) requires postulating three gene losses. (c) The corresponding reconciled tree.
  • 63. Ортологи и паралоги • Гены-паралоги – событие дупликация (α and β) • Гены-ортологи – событие видообразования (α in the two species and β in the two species) α βα βαβα Duplication Speciation Species a Species b
  • 64. Шаги реконструирования филогенетического древа 1. Выбор последовательностей и поиск гомологов 2. MSA 3. Матрица белков 4. Филогенетическое дерево
  • 65. Филогенетическое дерево Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий.
  • 66. Зачем нужны филогенетические деревья? Биологические задачи:  сравнение 3-х и более объектов (кто на кого более похож .... )  реконструкция эволюции (кто от кого, как и когда произошел…)
  • 67. Терминология Узел (node) — точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа. Корень (root) — общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.
  • 69. Какие бывают деревья? Бинарное (разрешённое) (в один момент времени может произойти только одно событие ) Небинарное (неразрешённое) (может ли в один момент времени произойти два события? ) Время
  • 70. Какие бывают деревья? Укорененное дерево (rooted tree) отражает направление эволюции Неукорененное (бескорневое) дерево (unrooted tree) показывает только связи между узлами Время Если число листьев равно n, существует (2n-3)!! разных бинарных укоренных деревьев. По определению, (2n-3)!! = 1·3 ·... ·(2n-3) Существует (2n-5)!! разных бескорневых деревьев с n листьями
  • 72. A C B B C AA B C 3 OTUs3 OTUs ⇒⇒ 1 неукорененное дерево1 неукорененное дерево 3 укорененных деревьев3 укорененных деревьев A B C
  • 73. D CA B 4 OTUs4 OTUs ⇒⇒ 33 неукорененных филогенетическихнеукорененных филогенетических деревьевдеревьев D BA C C BA D
  • 74.
  • 75.
  • 76. 4 OTUs ⇒ 15 укорененных деревьев
  • 77. Количество Количество Количество OTU укорененных неукорененных 2 1 1 3 3 1 4 15 3 5 105 15 6 954 105 7 10,395954 8 135,135 10,395 9 2,027,025 135,135 10 34,459,425 2,027,025 11 654,729,075 34,459,425 12 13,749,310,575 654,729,075 Количество возможных деревьев
  • 78. Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145, EC PurR YPO2387 REO04849 RPQ00833 HI1635 PM0547RAB00351VC1721 RVFI01332 SYG CAEEL SYG HUMAN SYG BOMMO SYG METTH SYG METJA CAF29768 tr|Q97EB8 tr|Q81XT3 SYG STAAM tr|Q8R5S1 sp|P36929|RSMB ECOLI tr|Q8YYM8 tr|O29405 tr|Q8TGZ6 NOL1 HUMAN tr|Q9FG73 sp|P40991|NOP2 YEAST tr|Q8U1F1
  • 79. GCGGCTCA TCAGGTAGTT GGTG-G Spinach GCGGCCCA TCAGGTAGTT GGTG-G Rice GCGTTCCA TC--CTGGTT GGTGTG Mosquito GCGTCCCA TCAGCTAGTT GTTG-G Monkey GCGGCGCA TTAGCTAGTT GGTG-A Human *** ** * * *** * ** Множественное выравнивание Matches
  • 80. GCGGCTCA TCAGGTAGTT GGTG-G Spinach GCGGCCCA TCAGGTAGTT GGTG-G Rice GCGTTCCA TC--CTGGTT GGTGTG Mosquito GCGTCCCA TCAGCTAGTT GTTG-G Monkey GCGGCGCA TTAGCTAGTT GGTG-A Human *** ** * * *** * ** Multiple Alignment Matches Mismatches
  • 81. GCGGCTCA TCAGGTAGTT GGTG-G Spinach GCGGCCCA TCAGGTAGTT GGTG-G Rice GCGTTCCA TC--CTGGTT GGTGTG Mosquito GCGTCCCA TCAGCTAGTT GTTG-G Monkey GCGGCGCA TTAGCTAGTT GGTG-A Human *** ** * * *** * ** Multiple Alignment Matches Mismatches Gaps
  • 82. Seq 1 A G C G A GSeq 1 A G C G A G Seq 2 G C G G A CSeq 2 G C G G A C Шаг 3. Перевод количества расхождений в индексы замен
  • 83. Distance Matrix* ** Units: количество замен нуклеотидов на 1000 Spinach Rice Mosquito Monkey Human Spinach 0.0 9 106 91 86 Rice 0.0 118 122 122 Mosquito 0.0 55 51 Monkey 0.0 3 Human 0.0
  • 84. Шаг 4: построение филогенетического дерева
  • 85. Spinach Rice Mosquito Monkey Human Spinach 0.0 9 106 91 86 Rice 0.0 118 122 122 Mosquito 0.0 55 51 Monkey 0.0 3 Human 0.0
  • 86. Mon-Hum MonkeyHumanSpinachMosquito Rice Дистанция между человеком и обезьяной минимальна. Эти группы объединяются в Monkey-Human, а все остальные дистанции пересчитываются Dist[Spinach, MonHum] = (Dist[Spinach, Monkey] + Dist[Spinach, Human])/2 = (91 + 86)/2 = 88.5
  • 87. Spinach Rice Mosquito Mon-Hum Spinach 0.0 9 106 88.5 Rice 0.0 118 122 Mosquito 0.0 53 Mon-Hum 0.0 Редуцированная матрица дистанций
  • 90. Как выбирать последовательности для дерева?  Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)  Придерживайтесь небольшой выборки (< 50 последовательностей)  Избегайте: – фрагментов; – Ксенологов (горизонтальный перенос генов); – рекомбинантных последовательностей; – многодоменных белков и повторов  Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп- клад)
  • 91. Самое главное – хорошее выравнивание! Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
  • 92. Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): • UPGMA (кластеризация) • Neighbor-joining • Минимальная эволюция Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных
  • 93. Пример матрицы расстояний 1 2 3 4 5 6 7 8 0.00 10.53 9.77 12.78 12.03 16.54 13.53 25.00 HUMAN 1 0.00 9.02 12.03 9.77 15.79 9.02 27.27 HORSE 2 0.00 9.77 9.02 16.54 12.03 24.24 RABIT 3 0.00 2.26 17.29 10.53 25.76 MOUSE 4 0.00 15.79 8.27 25.76 RAT 5 0.00 10.53 29.55 BOVIN 6 0.00 25.00 PIG 7 0.00 CHICK 8 Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
  • 94. Как понимать расстояние между объектами? • Как время, в течение которого они эволюционировали • Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно
  • 95. Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962) За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов принимается, число различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева. Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково.
  • 96. UPGMA Unweighted Pair Group Method with Arithmetic Mean разновидность кластерного метода Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
  • 97. Недостатки UPGMA Алгоритм строит ультраметрическое дерево – скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости «молекулярных часов»). Реальное дерево UPGMA
  • 98. Метод ближайших соседей (Neighbor-joining, NJ)  Строит неукоренённое дерево  Может работать с большим количеством данных  Достаточно быстрый  Если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено.
  • 99. Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре листьев Пусть ui = Σk Mik/(n-2) — среднее расстояние от листа i до других листьев 1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины Mij – ui –uj т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных.
  • 100. Метод ближайших соседей (Neighbor-joining, NJ) 2. Кластер (i, j) – новый узел дерева Расстояние от i или от j до узла (i,j): D(i, (i,j)) = 0,5·(Mij + ui – uj) D(j, (i,j)) = 0,5· (Mij + uj – ui) т.е. длина ветви зависит от среднего расстояния до других вершин 3. Вычисляем расстояние от нового кластера до всех других M(ij)k = Mik+Mjk – Mij 2 5. В матрице М убираем i и j и добавляем (i, j). Повторяем, пока не останутся 3 узла ...
  • 101. Input: MSA для n последовательностей, одна последовательность для каждого вида. AAAAATC AAAAAAG CCCCCCG AAAAATC AAAAAAG CCCCCCG Длинная ветвь – непохоже на правду Длинная ветвь - Похоже на правду Методы, основанные на последовательностях: Maximum Likelihood (ML), Maximum Parsimony (MP)
  • 102. Как изобразить дерево? Топология дерева Топология дерева — только листья, узлы, (корень) и связывающие их ветви (топология не зависит от способа изображения дерева) A B C D E A BC D E Два изображения одной и той же топологии
  • 103. Bacterium 1 Bacterium 3 Bacterium 2 Eukaryote 1 Eukaryote 4 Eukaryote 3 Eukaryote 2 Bacterium 1 Bacterium 3 Bacterium 2 Eukaryote 1 Eukaryote 4 Eukaryote 3 Eukaryote 2 Филограммы – длины ветвей пропорциональны эволюционному расстоянию. Кладограммы и филограммы Кладограммы – только топологя. Длины ветвей не учитываются 6 3 1 2 4 6 2 4 5 3 Как можно нарисовать построенное дерево?
  • 104. Какие on-line программы строят деревья? ClustalW. “Tree type” – nj, phylip: строит только методом NJ, но результат – в разных форматах, no bootstraps Phylip (Felsenstein, 1993) – пакет программ для построения филогенетических деревьев (stand-alone) On-line (partly): например, http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html  PAUP (Phylogenetic Analysis Using Parsimony)
  • 106. Эволюция – исторический процесс. Из 8,200,794,532,637,891,559,375 деревьев для 20 OTUs, 1 является верным и 8,200,794,532,637,891,559,374 неверны. Truth is one, falsehoods are many.
  • 107. Какое из 8,200,794,532,637,891,559,375 деревьев истинно? Мы не знаем. Можно применить иные критетии: Например, “похожесть=родство»
  • 108. GCG • Строковый поиск: простой текстовый поиск по локальной базе данных. • Поиск в определениях или в аннотациях. • Определения содержат минимальное количество информации для каждой статьи: доступ, имя организма, имя гена, длина последовательности, дата.

Notas do Editor

  1. מיהו ה true tree ?