SlideShare uma empresa Scribd logo
1 de 95
Baixar para ler offline
Введение в биоинформатику.
Современное положение.
Задачи и методы их решения.
Порозов Юрий.
porozov@sns.it porozov@ifc.cnr.it
План курса
• Введение в биоинформатику, цели, задачи и методы. Основные понятия. Аминокислоты, протеины и нуклеиновые кислоты. Способы
представления информации о последовательностях – форматы записи Fasta, Genbank, PDB и способы визуализации. Источники
информации, базы данных и Интернет для биоинформатики. Протеины, пространственное строение, функции.
• Молекула ДНК – хранилище генетической информации. Строение ДНК. Упаковка молекулы. Комплементарность. Гены, регуляторные
последовательности, сайты связывания. Кодирование информации при помощи нуклеотидов. Репликация (удвоение молекулы). Анализ
последовательностей. Парное выравнивание. Алгоритмы выравнивания. Множественное выравнивание. Применение выравнивания в
биоинформатике, примеры.
• Строение белков. Первичная структура белка. Вторичная структура. Третичная и четвертичная структура белка. Мотивы и домены. α-
структуры, β-структуры и их комбинации. Функции белков. Связь между структурой и функцией белков. Главная цепь. Боковые цепи.
Геометрия главной цепи. Конформации белка. Конформации боковых цепей. Диаграмма Рамачандран и библиотеки ротамеров.
• Предсказание трехмерной структуры белка. Фолдинг (сворачивание) белка. Парадокс Левенталя. Методы определения пространственной
структуры белков. X-ray-дифракция. Метод ЯМР. Потенциальная энергия молекулы. Предсказание вторичной структуры. Предсказание
третичной структуры: AB-initio. Моделирование гомологов. Threading (распознавание фолда). Структурное выравнивание.
• Биологические базы данных и серверы. NCBI и сервисы. PDB. OCA. SRS. SRS-3D. PredictProtein. Swiss-Model. ExPASy. UniProt. Серверы
EMBL. ENCODE. Инструменты: Swiss-PDBviewer, VMD, Accelrys Discovery Studio. Актуальные проблемы, требующие решения:
аннотация генома, поиск генов, поиск сайтов репликации у человека. Сворачивание белков, предсказание структуры белка — CASP,
предсказание функции и клеточной локализации белков. Предсказание подвижности белков и классификация протеинов по принципу
подвижности.
• Моделирование подвижности белков. Молекулярная динамика и компьютерная графика. Maya, VMD. Моделирование на основе
геометрии.
Биоинформатика - наука, занимающаяся анализом
экспериментальных данных молекулярной биологии:
секвенированных последовательностей биополимеров,
экспериментально определенных пространственных
структур биологических макромолекул, данных об
экспрессии генов и т.д. Методами биоинформатики являются
методы организации информации, широко понимаемые
компьютерные методы, методы вычислительной математики
и статистики. (М.С. Гельфанд et al)
Европейский Биоинформационный Институт:
биоинформатика – это применение компьютерных
технологий для администрирования и анализа биологических
данных.
Биоинформатика
Structural Genomics
Pharmaco-Genomics
Functional Genomics
Proteomics
Genomics
Bioinformatics
Задачи биоинформатики
• Функциональная аннотация биополимеров
• Структурная аннотация биополимеров
• Эволюция
• Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) –
обеспечивающих хранение, передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
}
Протеины (белки)
Последовательность (sequence, первичная структура)– цепь из
мономеров (нуклеотиды или аминокислоты), составляющих ДНК, РНК
или белок.
Последовательности ДНК – от 10-20 нуклеотидов (праймеры для ПЦР) до
нескольких миллионов (хромосомная ДНК).
Последовательности белков – десятки-тысячи аминокислот.
Биополимеры – ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J. Watson и F. Crick. Фото из
архива Photo Researchers inc.
Биополимеры - белки
Аминокислоты - органические соединения, в молекуле
которых одновременно содержатся карбоксильные и
аминные группы.
Последовательность, цепь аминокислот составляет белок.
Биополимеры - белки
Форматы файлов, используемых в
биоинформатике
FASTA
>roa1_drome Rea guano receptor type III >> 0.1
MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV
VVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK
KLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQK
QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW
NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG
GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN
NQGFNNGGNNRRY
>roa2_drome Rea guano ligand
MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV
VVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK
KLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQK
QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW
NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG
GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN
NQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999
DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION U49845
VERSION U49845.1 GI:1293613
KEYWORDS .
SOURCE Saccharomyces cerevisiae (baker's yeast)
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
JOURNAL Yeast 10 (11), 1503-1509 (1994)
PUBMED 7871890
REFERENCE 2 (bases 1 to 5028)
AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
JOURNAL Genes Dev. 10 (7), 777-793 (1996)
PUBMED 8846915
REFERENCE 3 (bases 1 to 5028)
AUTHORS Roemer,T.
TITLE Direct Submission
JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
Haven, CT, USA
FEATURES Location/Qualifiers
source 1..5028
/organism="Saccharomyces cerevisiae"
/db_xref="taxon:4932"
/chromosome="IX"
/map="9"
CDS <1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
gene 687..3158
/gene="AXL2"
CDS 687..3158
/gene="AXL2"
/note="plasma membrane glycoprotein"
/codon_start=1
/function="required for axial budding pattern of S.
cerevisiae"
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
------------------------------------------//---------------------------------------------------------
YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
VDFSNKSNVNVGQVKDIHGRIPEML"
gene complement(3300..4037)
/gene="REV7"
CDS complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
LISGDDKILNGVYSQYEEGESIFGSLF"
ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
------------------------------------------//----------------------------------------------
4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc
4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct
4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta
4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac
4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct
4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct
4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
//
PDB – Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX
TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN
COMPND MOL_ID: 1;
COMPND 2 MOLECULE: SIGF1-GFP FUSION PROTEIN;
COMPND 3 CHAIN: A;
COMPND 4 ENGINEERED: YES;
COMPND 5 OTHER_DETAILS: CONTAINS 3-FLUORO-TYROSINE
SOURCE MOL_ID: 1;
SOURCE 2 ORGANISM_SCIENTIFIC: AEQUOREA VICTORIA;
SOURCE 3 ORGANISM_COMMON: FUNGI;
SOURCE 4 EXPRESSION_SYSTEM: ESCHERICHIA COLI;
SOURCE 5 EXPRESSION_SYSTEM_COMMON: BACTERIA;
SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID
KEYWDS BETA-BARREL, EGFP, NON-CANONICAL AMINO ACID, CHROMOPHORE
KEYWDS 2 ISOMERISATION
EXPDTA X-RAY DIFFRACTION
AUTHOR J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA
REVDAT 1 08-JUN-04 1RRX 0
JRNL AUTH J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA
JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC
JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN.
JRNL REF CHEMBIOCHEM V. 5 720 2004
JRNL REF 2 EUROP.J.CHEM.BIOL.
JRNL REFN GE ISSN 1439-4227
REMARK 1
REMARK 2
REMARK 2 RESOLUTION. 2.10 ANGSTROMS.
REMARK 3
REMARK 3 REFINEMENT.
--------------------------------------------//-----------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3
REMARK 500 LEU A 44 CA - CB - CG ANGL. DEV. = 13.7 DEGREES
REMARK 500 LEU A 64 N - CA - C ANGL. DEV. =-16.6 DEGREES
REMARK 500 LEU A 64 CA - C - O ANGL. DEV. =-16.0 DEGREES
REMARK 500 LEU A 64 CA - C - N ANGL. DEV. = 31.6 DEGREES
REMARK 500 LEU A 64 O - C - N ANGL. DEV. =-15.9 DEGREES
REMARK 500 THR A 97 N - CA - C ANGL. DEV. =-14.0 DEGREES
REMARK 500 GLU A 115 N - CA - C ANGL. DEV. =-13.1 DEGREES
REMARK 900
REMARK 900 RELATED ENTRIES
REMARK 900 RELATED ID: 1EMG RELATED DB: PDB
REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517
SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE
SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE
SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE
SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE
SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE
SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE
SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE
SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE
SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE
SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE
SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE
SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE
SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE
SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE
SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY
SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU
SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL
SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS
SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN
SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS
SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL
SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP
SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN
SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN
SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU
SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN
SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN
SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO
SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL
SEQRES 18 A 226 THR ALA ALA GLY ILE
MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE
MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE
HELIX 1 1 GLU A 5 THR A 9 5 5
HELIX 2 2 ALA A 37 YOF A 39 5 3
HELIX 3 3 PRO A 56 VAL A 61 5 6
HELIX 4 4 VAL A 68 SER A 72 5 5
HELIX 5 5 PRO A 75 HIS A 81 5 7
HELIX 6 6 ASP A 82 ALA A 87 1 6
SHEET 1 A12 VAL A 12 VAL A 22 0
SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16
SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34
SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44
SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225
SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199
SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155
SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169
SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184
SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98
SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107
SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127
CISPEP 1 MET A 88 PRO A 89 0 0.50
CRYST1 51.003 62.430 70.931 90.00 90.00 90.00 P 21 21 21 4
ORIGX1 1.000000 0.000000 0.000000 0.00000
ORIGX2 0.000000 1.000000 0.000000 0.00000
ORIGX3 0.000000 0.000000 1.000000 0.00000
SCALE1 0.019607 0.000000 0.000000 0.00000
SCALE2 0.000000 0.016018 0.000000 0.00000
SCALE3 0.000000 0.000000 0.014098 0.00000
ATOM 1 N SER A 2 28.277 8.150 50.951 1.00 57.00 N
ATOM 2 CA SER A 2 27.454 9.223 51.584 1.00 55.40 C
ATOM 3 C SER A 2 25.972 8.992 51.295 1.00 55.44 C
ATOM 4 O SER A 2 25.576 7.932 50.799 1.00 54.37 O
ATOM 5 CB SER A 2 27.883 10.601 51.046 1.00 70.82 C
ATOM 6 OG SER A 2 27.150 11.676 51.622 1.00 71.45 O
ATOM 7 N LYS A 3 25.157 9.993 51.619 1.00141.28 N
ATOM 8 CA LYS A 3 23.716 9.932 51.398 1.00140.16 C
-----------------------------------//----------------------------------------------------------------
ATOM 47 CA PHE A 8 26.551 11.090 41.294 1.00 19.27 C
ATOM 48 C PHE A 8 27.751 10.357 40.676 1.00 21.43 C
ATOM 49 O PHE A 8 28.562 10.924 39.938 1.00 21.44 O
ATOM 50 CB PHE A 8 27.022 12.362 41.991 1.00 21.68 C
ATOM 51 CG PHE A 8 25.909 13.297 42.288 1.00 17.60 C
ATOM 52 CD1 PHE A 8 25.488 14.212 41.321 1.00 14.95 C
ATOM 495 CA VAL A 68 23.860 22.610 40.452 1.00 14.12 C
ATOM 496 C VAL A 68 25.259 22.196 40.854 1.00 13.41 C
ATOM 1164 CA SER A 147 37.123 31.083 35.325 1.00 21.88 C
ATOM 1819 CD1 ILE A 229 38.888 21.450 53.055 1.00 29.11 C
ATOM 1820 OXT ILE A 229 43.220 19.637 50.148 1.00 25.25 O
TER 1821 ILE A 229
HETATM 1822 O HOH 1 30.450 20.682 37.367 1.00 15.75 O
HETATM 1823 O HOH 2 26.443 24.175 38.999 1.00 18.82 O
---------------------------------//------------------------------------------------
HETATM 1831 O HOH 10 29.132 18.648 45.101 1.00 13.77 O
HETATM 1832 O HOH 11 24.076 46.248 42.794 1.00 22.62 O
HETATM 1833 O HOH 12 31.870 32.426 52.146 1.00 36.77 O
HETATM 1880 O HOH 59 37.243 14.571 53.463 1.00 31.12 O
HETATM 1881 O HOH 60 40.360 20.483 56.144 1.00 32.74 O
HETATM 1882 O HOH 61 13.483 49.374 33.179 1.00 30.77 O
CONECT 267 268
CONECT 268 267 269 271
CONECT 819 820
CONECT 1594 1592 1596 1598
CONECT 1595 1593 1596
CONECT 1596 1594 1595 1597
CONECT 1597 1596
CONECT 1598 1594
MASTER 259 0 10 6 12 0 0 6 1881 1 140 18
END
GCG
Способы визуализации
Определение структуры (координат атомов) белка:
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1. Получение упорядоченных кристаллов белка.
2. Определение дифракции x-ray.
X-ray кристаллография
3. Анализ дифракционной картины даёт представление об
электронных плотностях.
4. «Нанизывание» известной аминокислотной
последовательности на карту электронных плотностей.
Tyrosine
ЯМР (NMR)
1. Nuclear Magnetic Resonance - регистрация
релаксации ядер тяжёлых атомов в
магнитном поле.
а) Выравнивание ядер тяжелых атомов в сильном постоянном или
импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в
импульсном поле) атомных ядер.
2. Измерение дистанций между атомами в
протеине.
ЯМР
3. Использует данные тысяч измерений
дистанций для построения модели
протеина с учётом ограничений.
Источники информации и базы
данных в Интернете
Типы баз данных
• Всеобъемлющие базы данных
• Организмоспецифические
• Молекулярноспецифические
• Дополнительные базы данных
Проблемы
• Биологические базы данных росли последние 20 лет:
1. Избыточность: множественные записи.
2. Неверные последовательности и записи.
• Открытость (данные добавляются пользователями):
1. Изменения вносятся владельцами записей.
2. Старые последовательности.
3. Неверные последовательности.
4. Неполные аннотации.
Пример GenBank
• GenBank, база данных последовательностей NCBI.
В 1982 году:
700,000 bp,
700 последовательностей.
В 2002 году :
29,000,000,000
22,000,000 последовательностей
В 2009 году:
145,959,997,864 bp
49,063,546 последовательностей
Полные базы данных
Большие базы данных ДНК, РНК и белков.
Примеры: GenBank, EMBL, swissprot.
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exp’ profiles
NCBI - GenBank
• GenBank: открытая база данных нуклеотидных и
аминокислотных последовательностей
• Источники информации:
1. Прямая подача от исследователей.
2. Литература.
3. Центры исследований последовательностей (Sanger, TIgr)
4. Обмен с другими базами (swiss-prot, PDB).
NCBI - GenBank
GenBank поделён на подбазы:
1. Organism specific (Human, Bacteria, etc).
2. Molecule specific (DNA, RNA, protein).
3. Sequence specific (Genome, mRNA, ESTs etc).
EMBL
Параллельная GenBank база данных.
Swiss prot
База данных белков:
1. Очень хорошо аннотированная.
2. Отсутствует избыточность.
3. Имеются перекрёстные ссылки.
4. ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
• Базы даных, ориентированные на группы молекул
GtRDB: The Genomic tRNA Database
PDB – Protein Data Bank
• Главная база данных 3D
структур белков
• Включает порядка 23,000
белковых структур.
• Белки организованы в группы,
семейства и т.д.
• Имеет порядка 5600 точных
структур.
SCOP - Structural Classification
Of Proteins
• Организована в соответствии со
структурными семействами белков.
• Иерархическая система.
NCBI - Entrez
• Entrez - поисковая машина для баз NCBI.
• Поиск начинается с выбора адекватной области для
поикса (Nucleotide, белки).
• Можно использовать определители полей, логические
операторы, условия и т.д.
NCBI - Entrez
Ограничения:
SRS (Sequence Retrieval System).
• Исталлирована на множестве серверов.
• Имеет связи со многими базами данных.
• Предоставляет множество инструментов и служб для анализа.
• Позволяет сохранить результаты работы и анализа и
продолжить работу локально.
SRS
Рабочая среда
Выбор базы
данных
Заполнение
формы запроса
Страница
результатов
Парное выравнивание
Гомологи
Все живое произошло от одного общего предка,
следовательно, все последовательности являются
«гомологами».
На самом деле гомологи – только те
последовательности, похожесть которых можно
подтвердить существующими методами с
определенной чувствительностью:
Белок в двух различных организмах выполняет
сходную функцию и это можно подтвердить
экспериментально.
5 млн.лет
120 млн.лет
1500 млн.лет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) – сравнение двух
(парный) или нескольких (множественный)
последовательностей. Поиск серий идентичных
символов в последовательностях
Какие задачи решает парное
выравнивание?
• Нуклеотиды
– Изучение эволюционных связей
– Поиск генов, доменов, сигналов …
• Белки
– Изучение эволюционных связей
– Классификация белковых семейств по функции или
структуре
– Идентификация общих доменов по функции или
структуре.
Точечный график
• Наиболее интуитивный метод для сравнения
последовательностей.
• Использование слов вместо символов позволяет
уменьшить шум.
Парное выравнивание
Человеческий гемоглобин (HH):
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM):
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности: 36.000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| . | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести: 40.000 (| и .)
Процент идентичности: 36.000 ( только |)
Парное выравнивание – вставка
промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
 .      
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
• Gap Weight: 4
• Gaps: 2
• Процент похожести: 54.167
• Процент идентичности: 45.833
Парное выравнивание – вставка
промежутков
AKWTNLK----WAKV-ADVAGH-G
       
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания – это сумма сумма
положительных очков и штрафных очков:
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| . | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score:
(V,V) + (L,L) + (S,S) + (D,E) + …
- (penalty for gap insertion)*(number of gaps)
- (penalty for gap extension)*(extension length)
Парное выравнивание
• Алгоритмы парного выравнивания пробуют
все возможные варианты выравнивания.
• Результат – выравнивание с наивысшей
оценкой.
• Различные системы оценки дают разные
лучшие выравнивания!!!
Система оценки - белки
• Идентичность: подсчитывается количество совпадений и
делится на длину выравниваемого региона
• Similarity: Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть: Положительная оценка для выравниваемых
аминокислот из одной и той же группы.
Парное выравнивание
• Матрицы для оценки – PAM и BLOSUM
• Системы оценки выравнивания различны
для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц, которые отражают
вероятность замены одной аминокислоты
на другую во время эволюции.
PAM матрица
• PAM матрица базируется на
последовательностях с 85% идентичности.
У близких белков функции не должны
сильно различаться
PAM матрица
• PAM единицы отображают
эволюционную дистанцию.
• 1 PAM единица – вероятность 1
точечной мутации на 100 аминокислот.
• Умножение PAM 1 на себя даёт более высокие
матрицы, применимые для сравнения белков,
удалённых эволюционно.
PAM 1
PAM 250
Парное выравнивание – методы
сравнения
• Глобальное выравнивание – находит лучшее
решение для целых последовательностей.
• Локальное выравнивание – находит похожие
районы в двух последовательностях.
Глобальное Локальное
_____ _______ __ ____
__ ____ ____ __ ____
PAM матрицы
Evolutionary distance
(PAM)
Observed %
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matrices
• Blocks Substitution Matrices.
Матрицы PAM обладают ограниченными
возможностями, так как их «рейтинги замен» были
получены из выравниваний последовательностей с
как минимум 85% идентичности.
• Henikoff and Henikoff (1992) разработали сет матриц,
базирующийся на большем количестве данных
(dataset of alignments).
BLOSUM учитывает значительно больше замен, чем
PAM, даже для редких пар.
BLOSUM
• Блоки – короткие стабильные образы «шаблоны»
по 3-60 aa длиной.
• Белки могут быть поделены на семейства по
наличию тех или иных блоков (семейство X
содержит блоки a,b,c,d).
Blosum использует ~500 семейств и ~2000 блоков.
• Различные матрицы Blosum выведены из блоков с
различной степенью идентичности: blosum62
получена из выравнивания последовательностей с
по меньшей мере 62% идентичности.
Параметры по умолчанию
• Параметры для открытияпродления
промежутков индивидуальны для каждой
матрицы
• PAM30: open=9, extension=1
• PAM250: open=14, extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при
использовании различных параметров для
промежутков.
Для каждой матрицы параметры по умолчанию
генерируют оптимальное выравнивание.
Матрицы были тестированы с разными параметрами
до тех пор, пока не был получено «правильное
выравнивание».
Параметры по умолчанию
Мы можем использовать выравнвание
последовательностей, базирующееся на структурном
выравнивании. В этом случае структурное
выравнивание является «правильным» для наших
целей
Матрицы оценки DNA
• Похожесть нуклеотидов DNA
определить невозможно.
• Основания делятся на 2 группы: пурины
(A,G) и пиримидины (C,T)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и
превращения (transversions).
Transitions – пурин на пурин, пиримидин на
пиримидин (4 варианта).
Transversions – пурин на пиримидин или
пиримидин на пурин (8 вариантов).
By chance transversions должны происходить в 2
раза чаще, чем transitions.
Матрицы оценки DNA
• De-facto transitions происходят чаще.
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов:
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов:
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
• Алгоритм Needleman and Wunsch (1970)
• Находит выравнивание двух полных
последовательностей:
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано: 2 последовательности x[1…n] и y[1…m]
При выравниванииПри выравнивании x[1...i] ии y[1…j] есть 3 вариантаесть 3 варианта:
Совпадение x[1…i-1] и y[1…j-1]: x[i]=y[j]
Совпадение x[1…i] и y[1…j-1] и совпадение пропуска в x и y[j]
Совпадение x[1…i-1] и y[1…j] и совпадение x[i] и пропуска в y
x[1…i-1] i
y[1…j-1] j
x[1… i ] -
y[1…j-1] j
x[1…i-1] i
y[1… j ] -
Динамическое программирование.
Глобальное выравнивание
Recursive Relation
Scoring matrix s(a,b), s(−, x) = s(x,−) = −d
Fij – лучшая score-функция выравнивания x[1…i] and y[1…j]
for 1 <= i <= n, 1 <= j <= m
Fi-1,j-1 + s(xi,yj)
Fij = max Fi,j-1 - d
Fi-1,j - d
Needleman-Wunsch 1970
Scoring scheme: s(a, a) = 1, s(a, b) = −1, if a ≠
b, and s(−, a) = s(a,−) =−2.
x : C T T A G A
y : G − T A − A,
x : C T T A G A
y : G T − A − A,
x : C T T A G A
y : − G T A − A
x = CTTAGA, y = GTAA
Расчет элементов матрицы:
Si,1=Si-1,1+d, S1,j= S1,j-1+d
Все остальные элементы: Si,j=max{Si-1,j+d, Si,j-1+d, Si-1,j-1+t} где t – либо совпадение
(1) либо замена (-1)
Локальное выравнивание
• Алгоритм Smith and Waterman (1981).
• Выполняет оптимальное выравнивание наиболее
идентичногопохожего сегмента двух последовательностей.
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relations
Интересует выравнивание подстрок (последовательных сегментов).
Подстрока последовательности x1x2 . . . xn имеет вид xixi+1 . . . xi+k для 1 ≤ i ≤ n and k ≤ n − i.
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками):
Матрица (n + 1) х (m + 1) , также, как и в алгоритме Needleman-Wunsch.
Формула скоринга несколько другая:
0
Fij = max Fi-1,j-1 + s(xi,yj)
Fi,j-1 - d
Fi-1,j - d
Где 0 – начало нового выравнивания, если предыдущее выравнивание
дало отрицательный скоринг и продолжать дальше смысла нет.
Важно:
Выравнивание может не только окончиться, но и начаться в
любом месте матрицы.
Таким образом, вместо того, чтобы выбирать
стартовую точку F(n,m) в правом нижнем углу,
выбирают элементы с максимальным скорингом
в матрице.
Данные
• Пара последовательностей.
• Локальное или глобальное
• Штрафы за вставкупродление промежутков
• Матрицы
Оценка
• Как можно оценить достоверность
выравнивания?
• Какое выравнивание лучше ?
A T C G C
A T - G C
A A C A A
A A - A A
?
Откуда взялись очки (оценка) : из порядка следования нуклеотидов
или из набора?
Оценка – подход bootstrap
Данные с тем же набором, но с разным
порядком:
1. Перемешивание одной последовательности.
2. Повтор выравнивания и его оценка.
3. Повторение 1) и 2) много раз.
4. Посчёт среднего и SD оценки выравнивания
перемешанной последовательности.
Оценка - bootstrap
Shuffle one of
the sequences
Align with the
second sequence
Calculate mean and
standard deviation of
shuffled alignments
Compare alignment
score with mean of
shuffled alignments
Оценка качества выравнивания
Сравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных
последовательностей.
Правило:
If:
original alignment >>average score + 6*SD
Then:
the alignment is statistically significant.
Program output:
Gap Weight: 12 Average Match: 2.912
Length Weight: 4 Average Mismatch: -2.003
Quality: 1239 Length: 356
Ratio: 3.480 Gaps: 0
Percent Similarity: 69.663 Percent Identity: 65.730
Average quality based on 100 randomizations: 34.9 +/- 4.7
Is it significant?
34.9 + 6 * 4.7 = 63.1 << 1239
GCG
Gap : Глобальное выравнивание.
Bestfit: Локальное выравнивание.
Обе программы работают с одинаковым
набором данных (последовательности,
scoring matrix, etc)
Пример: Gap or Bestfit?
2 человеческих
transcription factors:
1. SP1 factor, binds to
GC rich areas.
2. EGR-1 factor, active
at differentiation
stage
Gap
gap sw:egr1_human sw:sp1_human –ran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps.
Begin (* 1 *) ?
End (* 543 *) ?
Begin (* 1 *) ?
End (* 696 *) ?
What is the gap creation penalty (* 8 *) ?
What is the gap extension penalty (* 2 *) ?
What should I call the paired output display file (* egr1_human.pair *) ?
Gap Output
GAP of: egr1_human check: 6989 from: 1 to: 543
to: sp1_human check: 4284 from: 1 to: 696
Symbol comparison table:
/gcg10disk/gcg/gcgcore/data/rundata/blosum62.cmp
CompCheck: 1102
Gap Weight: 8 Average Match: 2.778
Length Weight: 2 Average Mismatch: -2.248
Quality: 162 Length: 783
Ratio: 0.298 Gaps: 23
Percent Similarity: 32.675 Percent Identity: 26.974
Average quality based on 100 randomizations: 14.6 +/- 7.0
Gap Output
1 ................................MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
. . | | | . |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
. . . . . .
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
: | ..|. |: | . | . .
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
. . . . . .
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| :| : : | . ||. |: ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
. . . . . .
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
: | .| || . .| | . . . .| |. .. : |
361 IIRTPTVG.PNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
. . . . . .
209 FPTP.NTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | . || | .| | : . | | :
420 ASIPAGTVTVNAAQLSSMPGLQTINL........SALGTSGIQVHPIQGLPLA...IANA 468
. . . . . .
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || . . .| | . : : |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRT..RREACTCPYCKDSEGR 526
. . . . . .
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICMRNFSRSDHLTT 385
| | .: : | :: | : : :. | |:| |||::|| | | : |.||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
. . . . . .
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | ::| ||| :| | | .| | . | .
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDS.GAGSEG 645
. . . . . .
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
|. || . |. | : .| . . . | | .
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF......... 696
bestfit sw:sp1_human sw:egr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов,
используя local homology algorithm (Smith and Waterman).
Begin (* 1 *) ?
End (* 696 *) ?
Begin (* 1 *) ?
End (* 543 *) ?
What is the gap creation penalty (* 8 *) ?
What is the gap extension penalty (* 2 *) ?
What should I call the paired output display file (* sp1_human.pair
*) ?
Bestfit
BESTFIT of: sp1_human check: 4284 from: 1 to: 696
to: egr1_human check: 6989 from: 1 to: 543
Symbol comparison table: /gcg10disk/gcg/gcgcore/data/rundata/blosum62.cmp
CompCheck: 1102
Gap Weight: 8 Average Match: 2.778
Length Weight: 2 Average Mismatch: -2.248
Quality: 233 Length: 135
Ratio: 1.779 Gaps: 3
Percent Similarity: 50.000 Percent Identity: 39.063
Average quality based on 100 randomizations: 50.6 +/- 7.3
Bestfit Output
sp1_human x egr1_human October 10, 2001 10:50 ..
. . . . .
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | .: : | :: | : : :. | |:| |||::|| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374
. . . . .
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622
: |.||| | | ||||||| ||| | ::| ||| :| | | ..|
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
. . .
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | |. || . |.
425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457
Bestfit Output

Mais conteúdo relacionado

Semelhante a Vvedenie v bioinformatiku_1

Biodb 2011-01-everything
Biodb 2011-01-everythingBiodb 2011-01-everything
Biodb 2011-01-everythingNikolay Vyahhi
 
Как программисты могут спасти мир
Как программисты могут спасти мирКак программисты могут спасти мир
Как программисты могут спасти мирVitebsk Miniq
 
Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Ildus Fatkhutdinov
 
Современные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийСовременные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийИгорь Шадеркин
 
Нанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийНанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийValerija Pride (Udalova)
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxssuser0527111
 
Генная инженерия лекция.pptx
Генная инженерия лекция.pptxГенная инженерия лекция.pptx
Генная инженерия лекция.pptxssuser59bb22
 
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...Иван Иванов
 
Центральна догма молекулярної біології 2014
Центральна догма молекулярної біології 2014Центральна догма молекулярної біології 2014
Центральна догма молекулярної біології 2014Vasyl Mykytyuk
 
биосинтез белков
биосинтез белковбиосинтез белков
биосинтез белковssobxdoc
 
3микробиология
3микробиология3микробиология
3микробиологияGalina Mishina
 
Сравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияСравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияIlya Klabukov
 
П.П. Гаряев Волновой геном
П.П. Гаряев Волновой геномП.П. Гаряев Волновой геном
П.П. Гаряев Волновой геномAloha Bulgaria Ltd
 
Biotech 2011-11-epigenetic regulation-of_human_development
Biotech 2011-11-epigenetic regulation-of_human_developmentBiotech 2011-11-epigenetic regulation-of_human_development
Biotech 2011-11-epigenetic regulation-of_human_developmentNikolay Vyahhi
 
кр метаболизм
кр метаболизмкр метаболизм
кр метаболизмMila Islamowa
 
морфологические структуры клетки и их взаимосвязь
морфологические структуры клетки и их взаимосвязьморфологические структуры клетки и их взаимосвязь
морфологические структуры клетки и их взаимосвязьЕвгения Брокарева
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийIlya Klabukov
 
приоритетные направления развития НИР
приоритетные направления развития НИРприоритетные направления развития НИР
приоритетные направления развития НИРOksana Sulaieva
 

Semelhante a Vvedenie v bioinformatiku_1 (20)

Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Biodb 2011-01-everything
Biodb 2011-01-everythingBiodb 2011-01-everything
Biodb 2011-01-everything
 
Как программисты могут спасти мир
Как программисты могут спасти мирКак программисты могут спасти мир
Как программисты могут спасти мир
 
Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.Инструменты и методы системной биологии. Биоинформатика.
Инструменты и методы системной биологии. Биоинформатика.
 
Современные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерийСовременные возможности молекулярного типирования нейссерий
Современные возможности молекулярного типирования нейссерий
 
Нанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследованийНанотоксикология – новое направление для исследований
Нанотоксикология – новое направление для исследований
 
11 колчанов
11 колчанов11 колчанов
11 колчанов
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptx
 
Генная инженерия лекция.pptx
Генная инженерия лекция.pptxГенная инженерия лекция.pptx
Генная инженерия лекция.pptx
 
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...
454.взаимодействия генов при внутривидовой и отдаленной гибридизации и трансг...
 
Центральна догма молекулярної біології 2014
Центральна догма молекулярної біології 2014Центральна догма молекулярної біології 2014
Центральна догма молекулярної біології 2014
 
биосинтез белков
биосинтез белковбиосинтез белков
биосинтез белков
 
3микробиология
3микробиология3микробиология
3микробиология
 
Сравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкцияСравнительная геномика и метаболическая реконструкция
Сравнительная геномика и метаболическая реконструкция
 
П.П. Гаряев Волновой геном
П.П. Гаряев Волновой геномП.П. Гаряев Волновой геном
П.П. Гаряев Волновой геном
 
Biotech 2011-11-epigenetic regulation-of_human_development
Biotech 2011-11-epigenetic regulation-of_human_developmentBiotech 2011-11-epigenetic regulation-of_human_development
Biotech 2011-11-epigenetic regulation-of_human_development
 
кр метаболизм
кр метаболизмкр метаболизм
кр метаболизм
 
морфологические структуры клетки и их взаимосвязь
морфологические структуры клетки и их взаимосвязьморфологические структуры клетки и их взаимосвязь
морфологические структуры клетки и их взаимосвязь
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растений
 
приоритетные направления развития НИР
приоритетные направления развития НИРприоритетные направления развития НИР
приоритетные направления развития НИР
 

Mais de BioinformaticsInstitute

Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsBioinformaticsInstitute
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкBioinformaticsInstitute
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр ПредеусBioinformaticsInstitute
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...BioinformaticsInstitute
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)BioinformaticsInstitute
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...BioinformaticsInstitute
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)BioinformaticsInstitute
 

Mais de BioinformaticsInstitute (20)

Graph genome
Graph genome Graph genome
Graph genome
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
A superglue for string comparison
A superglue for string comparisonA superglue for string comparison
A superglue for string comparison
 
Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphs
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днк
 
Knime &amp; bioinformatics
Knime &amp; bioinformaticsKnime &amp; bioinformatics
Knime &amp; bioinformatics
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
 
Biodb 2011-05
Biodb 2011-05Biodb 2011-05
Biodb 2011-05
 
Biodb 2011-04
Biodb 2011-04Biodb 2011-04
Biodb 2011-04
 
Biodb 2011-03
Biodb 2011-03Biodb 2011-03
Biodb 2011-03
 
Biodb 2011-02
Biodb 2011-02Biodb 2011-02
Biodb 2011-02
 
Ngs 3 1
Ngs 3 1Ngs 3 1
Ngs 3 1
 
Ngs 1 0_0
Ngs 1 0_0Ngs 1 0_0
Ngs 1 0_0
 
Ngs 2 0_0
Ngs 2 0_0Ngs 2 0_0
Ngs 2 0_0
 

Vvedenie v bioinformatiku_1

  • 1. Введение в биоинформатику. Современное положение. Задачи и методы их решения. Порозов Юрий. porozov@sns.it porozov@ifc.cnr.it
  • 2. План курса • Введение в биоинформатику, цели, задачи и методы. Основные понятия. Аминокислоты, протеины и нуклеиновые кислоты. Способы представления информации о последовательностях – форматы записи Fasta, Genbank, PDB и способы визуализации. Источники информации, базы данных и Интернет для биоинформатики. Протеины, пространственное строение, функции. • Молекула ДНК – хранилище генетической информации. Строение ДНК. Упаковка молекулы. Комплементарность. Гены, регуляторные последовательности, сайты связывания. Кодирование информации при помощи нуклеотидов. Репликация (удвоение молекулы). Анализ последовательностей. Парное выравнивание. Алгоритмы выравнивания. Множественное выравнивание. Применение выравнивания в биоинформатике, примеры. • Строение белков. Первичная структура белка. Вторичная структура. Третичная и четвертичная структура белка. Мотивы и домены. α- структуры, β-структуры и их комбинации. Функции белков. Связь между структурой и функцией белков. Главная цепь. Боковые цепи. Геометрия главной цепи. Конформации белка. Конформации боковых цепей. Диаграмма Рамачандран и библиотеки ротамеров. • Предсказание трехмерной структуры белка. Фолдинг (сворачивание) белка. Парадокс Левенталя. Методы определения пространственной структуры белков. X-ray-дифракция. Метод ЯМР. Потенциальная энергия молекулы. Предсказание вторичной структуры. Предсказание третичной структуры: AB-initio. Моделирование гомологов. Threading (распознавание фолда). Структурное выравнивание. • Биологические базы данных и серверы. NCBI и сервисы. PDB. OCA. SRS. SRS-3D. PredictProtein. Swiss-Model. ExPASy. UniProt. Серверы EMBL. ENCODE. Инструменты: Swiss-PDBviewer, VMD, Accelrys Discovery Studio. Актуальные проблемы, требующие решения: аннотация генома, поиск генов, поиск сайтов репликации у человека. Сворачивание белков, предсказание структуры белка — CASP, предсказание функции и клеточной локализации белков. Предсказание подвижности белков и классификация протеинов по принципу подвижности. • Моделирование подвижности белков. Молекулярная динамика и компьютерная графика. Maya, VMD. Моделирование на основе геометрии.
  • 3. Биоинформатика - наука, занимающаяся анализом экспериментальных данных молекулярной биологии: секвенированных последовательностей биополимеров, экспериментально определенных пространственных структур биологических макромолекул, данных об экспрессии генов и т.д. Методами биоинформатики являются методы организации информации, широко понимаемые компьютерные методы, методы вычислительной математики и статистики. (М.С. Гельфанд et al) Европейский Биоинформационный Институт: биоинформатика – это применение компьютерных технологий для администрирования и анализа биологических данных.
  • 5. Задачи биоинформатики • Функциональная аннотация биополимеров • Структурная аннотация биополимеров • Эволюция • Геномика и протеомика
  • 6. Биополимеры ДНК РНК (дезоксирибонуклеиновые и рибонуклеиновые кислоты) – обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов } Протеины (белки)
  • 7. Последовательность (sequence, первичная структура)– цепь из мономеров (нуклеотиды или аминокислоты), составляющих ДНК, РНК или белок. Последовательности ДНК – от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК). Последовательности белков – десятки-тысячи аминокислот.
  • 8. Биополимеры – ДНК Аденин Гуанин ЦитозинТимин Аденозинфосфат Пурины Пиримидины
  • 9. Биополимеры - ДНК J. Watson и F. Crick. Фото из архива Photo Researchers inc.
  • 10. Биополимеры - белки Аминокислоты - органические соединения, в молекуле которых одновременно содержатся карбоксильные и аминные группы. Последовательность, цепь аминокислот составляет белок.
  • 12. Форматы файлов, используемых в биоинформатике FASTA >roa1_drome Rea guano receptor type III >> 0.1 MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV VVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK KLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQK QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN NQGFNNGGNNRRY >roa2_drome Rea guano ligand MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV VVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK KLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQK QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN NQGFNNGGNNRRY
  • 13. GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN ------------------------------------------//--------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML" gene complement(3300..4037) /gene="REV7" CDS complement(3300..4037) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA98667.1" /db_xref="GI:1293616" /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ------------------------------------------//---------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //
  • 14. PDB – Protein Data Bank HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3- TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: SIGF1-GFP FUSION PROTEIN; COMPND 3 CHAIN: A; COMPND 4 ENGINEERED: YES; COMPND 5 OTHER_DETAILS: CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: AEQUOREA VICTORIA; SOURCE 3 ORGANISM_COMMON: FUNGI; SOURCE 4 EXPRESSION_SYSTEM: ESCHERICHIA COLI; SOURCE 5 EXPRESSION_SYSTEM_COMMON: BACTERIA; SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID KEYWDS BETA-BARREL, EGFP, NON-CANONICAL AMINO ACID, CHROMOPHORE KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT JRNL TITL 3 PROTEIN. JRNL REF CHEMBIOCHEM V. 5 720 2004 JRNL REF 2 EUROP.J.CHEM.BIOL. JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 2.10 ANGSTROMS. REMARK 3 REMARK 3 REFINEMENT. --------------------------------------------//----------------------------------------------------------- REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL. DEV. = 13.7 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL. DEV. =-16.6 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL. DEV. =-16.0 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL. DEV. = 31.6 DEGREES REMARK 500 LEU A 64 O - C - N ANGL. DEV. =-15.9 DEGREES REMARK 500 THR A 97 N - CA - C ANGL. DEV. =-14.0 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL. DEV. =-13.1 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID: 1EMG RELATED DB: PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID- REMARK 900 CONTAINING GFP DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE
  • 15. HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 0.50 CRYST1 51.003 62.430 70.931 90.00 90.00 90.00 P 21 21 21 4 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 0.019607 0.000000 0.000000 0.00000 SCALE2 0.000000 0.016018 0.000000 0.00000 SCALE3 0.000000 0.000000 0.014098 0.00000 ATOM 1 N SER A 2 28.277 8.150 50.951 1.00 57.00 N ATOM 2 CA SER A 2 27.454 9.223 51.584 1.00 55.40 C ATOM 3 C SER A 2 25.972 8.992 51.295 1.00 55.44 C ATOM 4 O SER A 2 25.576 7.932 50.799 1.00 54.37 O ATOM 5 CB SER A 2 27.883 10.601 51.046 1.00 70.82 C ATOM 6 OG SER A 2 27.150 11.676 51.622 1.00 71.45 O ATOM 7 N LYS A 3 25.157 9.993 51.619 1.00141.28 N ATOM 8 CA LYS A 3 23.716 9.932 51.398 1.00140.16 C -----------------------------------//---------------------------------------------------------------- ATOM 47 CA PHE A 8 26.551 11.090 41.294 1.00 19.27 C ATOM 48 C PHE A 8 27.751 10.357 40.676 1.00 21.43 C ATOM 49 O PHE A 8 28.562 10.924 39.938 1.00 21.44 O ATOM 50 CB PHE A 8 27.022 12.362 41.991 1.00 21.68 C ATOM 51 CG PHE A 8 25.909 13.297 42.288 1.00 17.60 C ATOM 52 CD1 PHE A 8 25.488 14.212 41.321 1.00 14.95 C ATOM 495 CA VAL A 68 23.860 22.610 40.452 1.00 14.12 C ATOM 496 C VAL A 68 25.259 22.196 40.854 1.00 13.41 C ATOM 1164 CA SER A 147 37.123 31.083 35.325 1.00 21.88 C ATOM 1819 CD1 ILE A 229 38.888 21.450 53.055 1.00 29.11 C ATOM 1820 OXT ILE A 229 43.220 19.637 50.148 1.00 25.25 O TER 1821 ILE A 229 HETATM 1822 O HOH 1 30.450 20.682 37.367 1.00 15.75 O HETATM 1823 O HOH 2 26.443 24.175 38.999 1.00 18.82 O ---------------------------------//------------------------------------------------ HETATM 1831 O HOH 10 29.132 18.648 45.101 1.00 13.77 O HETATM 1832 O HOH 11 24.076 46.248 42.794 1.00 22.62 O HETATM 1833 O HOH 12 31.870 32.426 52.146 1.00 36.77 O HETATM 1880 O HOH 59 37.243 14.571 53.463 1.00 31.12 O HETATM 1881 O HOH 60 40.360 20.483 56.144 1.00 32.74 O HETATM 1882 O HOH 61 13.483 49.374 33.179 1.00 30.77 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
  • 16. GCG
  • 17. Способы визуализации Определение структуры (координат атомов) белка: 1) Х-Ray кристаллография 2) Ядерно-магнитный резонанс (NMR) Эти методы довольно трудоёмки и дороги 3) Предсказание структуры белка
  • 18. X-ray кристаллография 1. Получение упорядоченных кристаллов белка. 2. Определение дифракции x-ray.
  • 19. X-ray кристаллография 3. Анализ дифракционной картины даёт представление об электронных плотностях. 4. «Нанизывание» известной аминокислотной последовательности на карту электронных плотностей. Tyrosine
  • 20. ЯМР (NMR) 1. Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле. а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер. 2. Измерение дистанций между атомами в протеине.
  • 21. ЯМР 3. Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений.
  • 22. Источники информации и базы данных в Интернете
  • 23. Типы баз данных • Всеобъемлющие базы данных • Организмоспецифические • Молекулярноспецифические • Дополнительные базы данных
  • 24. Проблемы • Биологические базы данных росли последние 20 лет: 1. Избыточность: множественные записи. 2. Неверные последовательности и записи. • Открытость (данные добавляются пользователями): 1. Изменения вносятся владельцами записей. 2. Старые последовательности. 3. Неверные последовательности. 4. Неполные аннотации.
  • 25. Пример GenBank • GenBank, база данных последовательностей NCBI. В 1982 году: 700,000 bp, 700 последовательностей. В 2002 году : 29,000,000,000 22,000,000 последовательностей В 2009 году: 145,959,997,864 bp 49,063,546 последовательностей
  • 26. Полные базы данных Большие базы данных ДНК, РНК и белков. Примеры: GenBank, EMBL, swissprot. Имеется обмен информацией между базами
  • 27. NCBI (National center for biotechnology information) NCBI PubMed Books OMIM Nucleotides Proteins GenomesTaxonomy Structure Domains Exp’ profiles
  • 28. NCBI - GenBank • GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей • Источники информации: 1. Прямая подача от исследователей. 2. Литература. 3. Центры исследований последовательностей (Sanger, TIgr) 4. Обмен с другими базами (swiss-prot, PDB).
  • 29. NCBI - GenBank GenBank поделён на подбазы: 1. Organism specific (Human, Bacteria, etc). 2. Molecule specific (DNA, RNA, protein). 3. Sequence specific (Genome, mRNA, ESTs etc).
  • 31. Swiss prot База данных белков: 1. Очень хорошо аннотированная. 2. Отсутствует избыточность. 3. Имеются перекрёстные ссылки. 4. ID для нескольких связанных файлов белков
  • 33. Молекулоспецифические базы • Базы даных, ориентированные на группы молекул GtRDB: The Genomic tRNA Database
  • 34. PDB – Protein Data Bank • Главная база данных 3D структур белков • Включает порядка 23,000 белковых структур. • Белки организованы в группы, семейства и т.д. • Имеет порядка 5600 точных структур.
  • 35. SCOP - Structural Classification Of Proteins • Организована в соответствии со структурными семействами белков. • Иерархическая система.
  • 36. NCBI - Entrez • Entrez - поисковая машина для баз NCBI. • Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки). • Можно использовать определители полей, логические операторы, условия и т.д.
  • 38. SRS (Sequence Retrieval System). • Исталлирована на множестве серверов. • Имеет связи со многими базами данных. • Предоставляет множество инструментов и служб для анализа. • Позволяет сохранить результаты работы и анализа и продолжить работу локально.
  • 41. Гомологи Все живое произошло от одного общего предка, следовательно, все последовательности являются «гомологами». На самом деле гомологи – только те последовательности, похожесть которых можно подтвердить существующими методами с определенной чувствительностью: Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально. 5 млн.лет 120 млн.лет 1500 млн.лет
  • 42. Определение VLSPADKTNVKAAWAKVGAHAAGHG ||| | | |||| | |||| VLSEAEWQLVLHVWAKVEADVAGHG Выравнивание (alignment) – сравнение двух (парный) или нескольких (множественный) последовательностей. Поиск серий идентичных символов в последовательностях
  • 43. Какие задачи решает парное выравнивание? • Нуклеотиды – Изучение эволюционных связей – Поиск генов, доменов, сигналов … • Белки – Изучение эволюционных связей – Классификация белковых семейств по функции или структуре – Идентификация общих доменов по функции или структуре.
  • 44. Точечный график • Наиболее интуитивный метод для сравнения последовательностей. • Использование слов вместо символов позволяет уменьшить шум.
  • 45. Парное выравнивание Человеческий гемоглобин (HH): VLSPADKTNVKAAWGKVGAHAGYEG Миоглобин кашалота (SWM): VLSEGEWQLVLHVWAKVEADVAGHG
  • 46. Парное выравнивание - идентичность (HH) VLSPADKTNVKAAWGKVGAHAGYEG ||| | | || | | (SWM) VLSEGEWQLVLHVWAKVEADVAGHG Процент идентичности: 36.000 (| only)
  • 47. Парное выравнивание - похожесть (HH) VLSPADKTNVKAAWGKVGAHAGYEG ||| . | | || | | (SWM) VLSEGEWQLVLHVWAKVEADVAGHG Процент похожести: 40.000 (| и .) Процент идентичности: 36.000 ( только |)
  • 48. Парное выравнивание – вставка промежутков (gaps) (HH) VLSPADKTNVKAAWGKVGAH-AGYEG  .       (SWM) VLSEGEWQLVLHVWAKVEADVAGH-G • Gap Weight: 4 • Gaps: 2 • Процент похожести: 54.167 • Процент идентичности: 45.833
  • 49. Парное выравнивание – вставка промежутков AKWTNLK----WAKV-ADVAGH-G         AK-TNVKAKLPWGKVGAHVAGEYG - вставкаудаление промежутка - продление промежутка
  • 50. Парное выравнивание - подсчёт Финальная оценка выравнивания – это сумма сумма положительных очков и штрафных очков: + Количество идентичных + Количество похожих - Количество вставленных промежутков - Количество удлиненных промежутков Оценка выравнивания
  • 51. Парное выравнивание - Scoring (HH) VLSPADKTNVKAAWGKVGAH-AGYEG ||| . | | || || | (SWM) VLSEGEWQLVLHVWAKVEADVAGH-G Final score: (V,V) + (L,L) + (S,S) + (D,E) + … - (penalty for gap insertion)*(number of gaps) - (penalty for gap extension)*(extension length)
  • 52. Парное выравнивание • Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания. • Результат – выравнивание с наивысшей оценкой. • Различные системы оценки дают разные лучшие выравнивания!!!
  • 53. Система оценки - белки • Идентичность: подсчитывается количество совпадений и делится на длину выравниваемого региона • Similarity: Менее формализованная величина Category Amino Acid Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q) Основания His (H) Lys (K) Arg (R) Ароматические Phe (F) Tyr (Y) Trp (W) Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T) Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
  • 54. Система оценки - белки Похожесть: Положительная оценка для выравниваемых аминокислот из одной и той же группы.
  • 55. Парное выравнивание • Матрицы для оценки – PAM и BLOSUM • Системы оценки выравнивания различны для белков и для ДНКРНК
  • 56. Матрицы сравнения белков Семейство матриц, которые отражают вероятность замены одной аминокислоты на другую во время эволюции.
  • 57.
  • 58. PAM матрица • PAM матрица базируется на последовательностях с 85% идентичности. У близких белков функции не должны сильно различаться
  • 59. PAM матрица • PAM единицы отображают эволюционную дистанцию. • 1 PAM единица – вероятность 1 точечной мутации на 100 аминокислот. • Умножение PAM 1 на себя даёт более высокие матрицы, применимые для сравнения белков, удалённых эволюционно.
  • 60. PAM 1
  • 62. Парное выравнивание – методы сравнения • Глобальное выравнивание – находит лучшее решение для целых последовательностей. • Локальное выравнивание – находит похожие районы в двух последовательностях. Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
  • 63. PAM матрицы Evolutionary distance (PAM) Observed % difference 1 1 11 10 23 20 38 30 56 40 80 50 120 60 159 70 250 80
  • 64. BLOSUM Matrices • Blocks Substitution Matrices. Матрицы PAM обладают ограниченными возможностями, так как их «рейтинги замен» были получены из выравниваний последовательностей с как минимум 85% идентичности. • Henikoff and Henikoff (1992) разработали сет матриц, базирующийся на большем количестве данных (dataset of alignments). BLOSUM учитывает значительно больше замен, чем PAM, даже для редких пар.
  • 65. BLOSUM • Блоки – короткие стабильные образы «шаблоны» по 3-60 aa длиной. • Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки a,b,c,d). Blosum использует ~500 семейств и ~2000 блоков. • Различные матрицы Blosum выведены из блоков с различной степенью идентичности: blosum62 получена из выравнивания последовательностей с по меньшей мере 62% идентичности.
  • 66. Параметры по умолчанию • Параметры для открытияпродления промежутков индивидуальны для каждой матрицы • PAM30: open=9, extension=1 • PAM250: open=14, extension=2
  • 67. Параметры по умолчанию Выравнивания будут сильно отличаться при использовании различных параметров для промежутков. Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание. Матрицы были тестированы с разными параметрами до тех пор, пока не был получено «правильное выравнивание».
  • 68. Параметры по умолчанию Мы можем использовать выравнвание последовательностей, базирующееся на структурном выравнивании. В этом случае структурное выравнивание является «правильным» для наших целей
  • 69. Матрицы оценки DNA • Похожесть нуклеотидов DNA определить невозможно. • Основания делятся на 2 группы: пурины (A,G) и пиримидины (C,T)
  • 70. Матрицы оценки DNA Мутации делятся на переходы (transitions) и превращения (transversions). Transitions – пурин на пурин, пиримидин на пиримидин (4 варианта). Transversions – пурин на пиримидин или пиримидин на пурин (8 вариантов). By chance transversions должны происходить в 2 раза чаще, чем transitions.
  • 71. Матрицы оценки DNA • De-facto transitions происходят чаще.
  • 72. Матрицы оценки DNA Унифицированная матрица подстановок нуклеотидов: From To A G C T A 2 G -6 2 C -6 -6 2 T -6 -6 -6 2 MatchMismatch
  • 73. Матрицы оценки DNA Неунифицированная матрица подстановок нуклеотидов: From To A G C T A 2 G -4 2 C -6 -6 2 T -6 -6 -4 2 MatchMismatchMismatch
  • 74. Глобальное выравнивание • Алгоритм Needleman and Wunsch (1970) • Находит выравнивание двух полных последовательностей: ADLGAVFALCDRYFQ |||| |||| | ADLGRTQN-CDRYYQ
  • 75. Дано: 2 последовательности x[1…n] и y[1…m] При выравниванииПри выравнивании x[1...i] ии y[1…j] есть 3 вариантаесть 3 варианта: Совпадение x[1…i-1] и y[1…j-1]: x[i]=y[j] Совпадение x[1…i] и y[1…j-1] и совпадение пропуска в x и y[j] Совпадение x[1…i-1] и y[1…j] и совпадение x[i] и пропуска в y x[1…i-1] i y[1…j-1] j x[1… i ] - y[1…j-1] j x[1…i-1] i y[1… j ] - Динамическое программирование. Глобальное выравнивание
  • 76. Recursive Relation Scoring matrix s(a,b), s(−, x) = s(x,−) = −d Fij – лучшая score-функция выравнивания x[1…i] and y[1…j] for 1 <= i <= n, 1 <= j <= m Fi-1,j-1 + s(xi,yj) Fij = max Fi,j-1 - d Fi-1,j - d Needleman-Wunsch 1970
  • 77. Scoring scheme: s(a, a) = 1, s(a, b) = −1, if a ≠ b, and s(−, a) = s(a,−) =−2. x : C T T A G A y : G − T A − A, x : C T T A G A y : G T − A − A, x : C T T A G A y : − G T A − A x = CTTAGA, y = GTAA Расчет элементов матрицы: Si,1=Si-1,1+d, S1,j= S1,j-1+d Все остальные элементы: Si,j=max{Si-1,j+d, Si,j-1+d, Si-1,j-1+t} где t – либо совпадение (1) либо замена (-1)
  • 78.
  • 79. Локальное выравнивание • Алгоритм Smith and Waterman (1981). • Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей. ADLG CDRYFQ |||| |||| | ADLG CDRYYQ
  • 80. Recursive relations Интересует выравнивание подстрок (последовательных сегментов). Подстрока последовательности x1x2 . . . xn имеет вид xixi+1 . . . xi+k для 1 ≤ i ≤ n and k ≤ n − i. Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками): Матрица (n + 1) х (m + 1) , также, как и в алгоритме Needleman-Wunsch. Формула скоринга несколько другая: 0 Fij = max Fi-1,j-1 + s(xi,yj) Fi,j-1 - d Fi-1,j - d Где 0 – начало нового выравнивания, если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет.
  • 81. Важно: Выравнивание может не только окончиться, но и начаться в любом месте матрицы. Таким образом, вместо того, чтобы выбирать стартовую точку F(n,m) в правом нижнем углу, выбирают элементы с максимальным скорингом в матрице.
  • 82. Данные • Пара последовательностей. • Локальное или глобальное • Штрафы за вставкупродление промежутков • Матрицы
  • 83. Оценка • Как можно оценить достоверность выравнивания? • Какое выравнивание лучше ? A T C G C A T - G C A A C A A A A - A A ? Откуда взялись очки (оценка) : из порядка следования нуклеотидов или из набора?
  • 84. Оценка – подход bootstrap Данные с тем же набором, но с разным порядком: 1. Перемешивание одной последовательности. 2. Повтор выравнивания и его оценка. 3. Повторение 1) и 2) много раз. 4. Посчёт среднего и SD оценки выравнивания перемешанной последовательности.
  • 85. Оценка - bootstrap Shuffle one of the sequences Align with the second sequence Calculate mean and standard deviation of shuffled alignments Compare alignment score with mean of shuffled alignments
  • 86. Оценка качества выравнивания Сравниваем результат (оценку) нашего выравнивания со средней оценкой выравнивания перемешанных последовательностей. Правило: If: original alignment >>average score + 6*SD Then: the alignment is statistically significant.
  • 87. Program output: Gap Weight: 12 Average Match: 2.912 Length Weight: 4 Average Mismatch: -2.003 Quality: 1239 Length: 356 Ratio: 3.480 Gaps: 0 Percent Similarity: 69.663 Percent Identity: 65.730 Average quality based on 100 randomizations: 34.9 +/- 4.7 Is it significant? 34.9 + 6 * 4.7 = 63.1 << 1239
  • 88. GCG Gap : Глобальное выравнивание. Bestfit: Локальное выравнивание. Обе программы работают с одинаковым набором данных (последовательности, scoring matrix, etc)
  • 89. Пример: Gap or Bestfit? 2 человеческих transcription factors: 1. SP1 factor, binds to GC rich areas. 2. EGR-1 factor, active at differentiation stage
  • 90. Gap gap sw:egr1_human sw:sp1_human –ran=100 Gap uses the algorithm of Needleman and Wunsch to find the alignment of two complete sequences that maximizes the number of matches and minimizes the number of gaps. Begin (* 1 *) ? End (* 543 *) ? Begin (* 1 *) ? End (* 696 *) ? What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? What should I call the paired output display file (* egr1_human.pair *) ?
  • 91. Gap Output GAP of: egr1_human check: 6989 from: 1 to: 543 to: sp1_human check: 4284 from: 1 to: 696 Symbol comparison table: /gcg10disk/gcg/gcgcore/data/rundata/blosum62.cmp CompCheck: 1102 Gap Weight: 8 Average Match: 2.778 Length Weight: 2 Average Mismatch: -2.248 Quality: 162 Length: 783 Ratio: 0.298 Gaps: 23 Percent Similarity: 32.675 Percent Identity: 26.974 Average quality based on 100 randomizations: 14.6 +/- 7.0
  • 92. Gap Output 1 ................................MAAAKAEMQLMSPLQISDPFGSFPHSPT 28 . . | | | . | 181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240 . . . . . . 29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88 : | ..|. |: | . | . . 241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300 . . . . . . 89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148 | :| : : | . ||. |: |||| 301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360 . . . . . . 149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208 : | .| || . .| | . . . .| |. .. : | 361 IIRTPTVG.PNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419 . . . . . . 209 FPTP.NTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267 | | | . || | .| | : . | | : 420 ASIPAGTVTVNAAQLSSMPGLQTINL........SALGTSGIQVHPIQGLPLA...IANA 468 . . . . . . 268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327 | || . . .| | . : : | 469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRT..RREACTCPYCKDSEGR 526 . . . . . . 328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICMRNFSRSDHLTT 385 | | .: : | :: | : : :. | |:| |||::|| | | : |.||| | 527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586 . . . . . . 386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445 | ||||||| ||| | ::| ||| :| | | .| | . | . 587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDS.GAGSEG 645 . . . . . . 446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505 |. || . |. | : .| . . . | | . 646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF......... 696
  • 93. bestfit sw:sp1_human sw:egr1_human -ran=100 BestFit выполняет локальное выравнивание наиболее похожих сегментов, используя local homology algorithm (Smith and Waterman). Begin (* 1 *) ? End (* 696 *) ? Begin (* 1 *) ? End (* 543 *) ? What is the gap creation penalty (* 8 *) ? What is the gap extension penalty (* 2 *) ? What should I call the paired output display file (* sp1_human.pair *) ? Bestfit
  • 94. BESTFIT of: sp1_human check: 4284 from: 1 to: 696 to: egr1_human check: 6989 from: 1 to: 543 Symbol comparison table: /gcg10disk/gcg/gcgcore/data/rundata/blosum62.cmp CompCheck: 1102 Gap Weight: 8 Average Match: 2.778 Length Weight: 2 Average Mismatch: -2.248 Quality: 233 Length: 135 Ratio: 1.779 Gaps: 3 Percent Similarity: 50.000 Percent Identity: 39.063 Average quality based on 100 randomizations: 50.6 +/- 7.3 Bestfit Output
  • 95. sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC..RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457 Bestfit Output