SlideShare una empresa de Scribd logo
1 de 67
Fuentes de información para genes y proteínas Felipe Riveroll Aguirre Departamento de Bioquimica Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional Plantel Zacatenco friveroll@cinvestav.mx
From Information Design, Nathan Shedroff
friveroll@cinvestav.mx
Información biológica Cientos de miles de especies. Millones de artículos en revistas científicas Información genética Nombre de genes Fenotipo de mutantes Ubicación de los genes/mutaciones en cromosomas Linkage (distancia entre genes) friveroll@cinvestav.mx
In 1981 the EMBL NucleotideSequence Data Library iscreated. Version 2 wascomposed of 811 secuences, around 1 million bases introducedbyhand.
¿Qué es una base de datos? Una colección de datos: Estructurada Que puede explorarse (indexada)	->Tabla de contenidos Periódicamente actualizada	->nueva edición Referencias cruzadas		->links con otras db Incluye también herramientas asociadas (software) necesarias para el acceso/búsqueda, actualización, inserción de información, borrado de información. friveroll@cinvestav.mx
¿Porqué bases de datos biológicas? Crecimiento exponencial de los datos biológicos. Datos (secuencias de ácidos nucléicos (ADN, ARN), estructuras 3D, geles 2D, analisis MS, microarreglos, interaccion proteína-proteína...) ya no son publicados de forma convencional, pero son mandados a db. Herramientas convencionales, para la investigación biológica. friveroll@cinvestav.mx
friveroll@cinvestav.mx Estadísticas de Genebank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
friveroll@cinvestav.mx
Las 10 bases de datos más importantes* GenBank/DDJB/EMBL www.ncbi.nlm.nih.govNucleotidesequences Ensemblwww.ensembl.orgHuman/mouse genome PubMedwww.ncbi.nlm.nih.govLiteraturereferences NR (entrez protein) www.ncbi.nlm.nih.govProteinsequences Swiss-Protwww.expasy.orgProteinsequences InterProwww.ebi.ac.ukProteindomains OMIM www.ncbi.nlm.nih.govGeneticdiseases Enzymeswww.expasy.orgEnzymes PDB www.rcsb.org/pdb/Proteinstructures KEGG www.genome.ad.jpMetabolicpathways friveroll@cinvestav.mx *De acuerdo a “Bioinformatics for Dummies”
Tipos de bases de datos biológicas Primarias (all-inclusive): Contienen resultados experimentales de las secuencias (nucleótidos o proteínas), junto anotaciones (información relativa a su función, bibliografía, referencias cruzadas a otras bases de datos, etc.).  Secundarias o bases de datos de familias de proteínas: Resumen los resultados de análisis de bases de datos primarias para proveer información adicional no presente en las fuentes primarias. friveroll@cinvestav.mx
Bases de datos primarias
Contenido mínimo ideal para la entrada de una secuencia en una DB Secuencias Número de acceso (AC) (identificador único) Datos taxonómicos Referencias ANNOTATION/CURATION Palabras clave Referencias cruzadas Documentación
¿Quéesunasecuencia? Secuencia de ADN, de doblecadena, antiparalela Escritaconvencionalmente de 5’ a 3’ 5’-ATGAGTACCG CTAAATTAGT TAAATCAAAA-3’  3’-TACTCATGGC GATTTAATCA ATTTAGTTTT-5’ Secuencia de ARN, una sola cadena, U en vez de T 5’-AUGAGUACCG CUAAAUUAGU UAAAUCAAAA-3’  Secuencia de proteína Escritaconvencionalmente de N-terminal a C-terminal  Código de 3 letras: Met Ser Thr Ala Lys Leu Código de 1 letra: MSTAKLVKSKATN Las secuenciasusualmente son escritas en tipografías de anchofijo, tales como Courier. Times		Courier AGCGGGCGG	AGCGGGCGG ATCGTTCTG		 ATCGTTCTG
friveroll@cinvestav.mx
Número de acceso (AC) Aunque las secuencias primarias son las mismas para las tres bases de datos, cada base de datos es libre de almacenarlas, clasificarlas y presentarlas como mejor le acomode. Para facilitar el intercambio y acceso a las secuencias entre las diferentes bases de datos, la INSDC estableció que cada secuencia tuviera un Número de Acceso único e inmutable. El número de acceso es un identificador único para una secuencia determinada que no cambia y se mantiene entre todas las bases de datos. El número de acceso generalmente está compuesto por una letra y cinco dígitos (A12345) o 2 letras y 6 dígitos (AB123456).
La agitada vida de una secuencia   cDNA's, EST's, genes, genomas, ... EMBL	GeneBank     DDBJ http://www.insdc.org/
EMBL/GenBank/DDBJ Sirven como archivos Contienen todas las secuencias públicas derivadas de: Proyectos genoma Centros de secuenciación Científicos Oficinas de patentes Actualmente 1.6 X 109 secuencias, ~ 2.7 X 1011 Secuencias de >80,000 especies distintas
>80,000 especies, pero... Humano/Ratón/Rata Organismos con mayor redundancia Nuevos proyectos: Secuencias ambientales (sin información taxonómica) http://www.ebi.ac.uk/embl/Services/DBStats/
Formato de las bases de datos de DNA Las secuencias de DNA almacenadas en las tres bases de datos tienen un formato diferente, aunque en general, todas las secuencias se componen de dos partes diferentes:  Comentarios Secuencia propiamente dicha Aunque la información que se ofrece de una secuencia en las tres bases de datos es la misma, la forma en que esta se organiza difiere.
FASTA Diseñado por William Pearson, como un fomatotexto simple, parasecuencias de ADN  y proteínas. El formato FASTA esahora universal paratodaslas bases de datos y software paramanejo de secuencias. El encabezado incluye una línea con “>” precediendo a la descripción de la entrada y las líneas siguientes con la secuencia en particular. >URO1 uro1.seq  Length: 2018  November 9, 2000 11:50  Type: N  Check: 3854  .. CGCAGAAAGAGGAGGCGCTTGCCTTCAGCTTGTGGGAAATCCCGAAGATGGCCAAAGAAACTCAACTGTTCGTTGCTTCCAGGGCCTGCTGATTTTTGGAAATGTGATTATTGGTTGTTGCGGCATTGCCCTGACTGCGGAGTGCATCTTCTTTGTATCTGACCAACACAGCCTCTACCCACTGCTTGAAGCCACCGACAACGATGACATCTATGGGGCTGCCTGGATCGGCATATTTGTGGGCATCTGCCTCTTCTGCCTGTCTGTTCTAGGCATTGTAGGCATCATGAAGTCCAGCAGGAAAATTCTTCTGGCGTATTTCATTCTGATGTTTATAGTATATGCCTTTGAAGTGGCATCTTGTATCACAGCAGCAACACAACAAGACTTTTTCACACCCAACCTCTTCCTGAAGCAGATGCTAGAGAGGTACCAAAACAACAGCCCTCCAAACAATGATGACCAGTGGAAAAACAATG
Campos de un registro de GenBank El formato de GenBank (GBFF) es el formato más ampliamente utilizado para la distribución de las secuencias biológicas, ya que es el formato que se utiliza para el intercambio diario de secuencias entre las tres bases de datos. Además, el formato que ha adoptado el DDBJ es idéntico al de GenBank. Una entrada cualquiera de GenBank/EMBL consta de tres partes bien diferenciadas:  Encabezado ("Header"), que contiene la información (descripción) del contenido del documento  Características ("Features") que describen la localización de las partes más importantes de la secuencia desde el punto de vista biológico  Secuencia propiamente dicha.  friveroll@cinvestav.mx
Encabezado (Header) Es la parte más variable entre los distintos formatos, ya que las bases de datos no están obligadas a contener la misma información, aunque se están haciendo esfuerzos para aunar el contenido de las tres. Todas las entradas del GenBank empiezan con la línea LOCUS. La siguiente línea es DEFINITION, en la que se intenta sumarizar de forma concisa la información sobre el origen biológico de la muestra. Esta es la línea que aparece en las fichas que generan los programas de búsqueda, como FASTA o BLAST, por lo que la información contenida debe ser lo más representativa posible. friveroll@cinvestav.mx
…Encabezado La línea VERSION contiene dos números diferentes, uno similar al número de acceso y otro denominado gi (geninfoidentifier). Con este número se pretende acomodar los cambios o correcciones que se introducen en una secuencia, para poder identificar si se trata de la entrada original o ha sido modificada posteriormente. Si la secuencia cambia (por revisiones posteriores o corrección de errores), el número de acceso permanece igual pero el  gi   cambia para identificar una nueva versión de la misma secuencia.  Además, se añade la VERSION, con el formato siguiente: Acceso.version friveroll@cinvestav.mx
…Encabezado La línea KEYWORDS es una línea histórica, que en muchos casos se usa incorrectamente y en la que se deben incluir palabras clave representativas de la secuencia que ayuden a encontrar nuestra  secuencia cuando se hacen búsquedas en las bases de datos. Sin embargo, la adición de palabras clave a la secuencia en muchas ocasiones es poco útil ya que las palabras clave elegidas por los autores son incorrectas, por lo que poco a poco se tiende a abandonar el uso de esta línea. A continuación encontramos SOURCE/ORGANISM, donde se incluye en nombre común del organismo o su nombre científico, incluyendo la descripción taxonómica completa: friveroll@cinvestav.mx
…Encabezado Más abajo se encuentran una serie de líneas que hacen referencia a la cita bibliográfica donde se ha publicado la información correspondiente a la secuencia (que puede ser enviado para su publicación o sin publicar).  Estas líneas son REFERENCE, AUTHORS, TITLE, JOURNAL y MEDLINE -PUBMED en el caso de que haya sido publicada.  Cada secuencia puede tener más de una entrada bibliográfica completa, y por lo general en la última de ellas se incluye la dirección postal completade la persona o laboratorio responsable del trabajo.  friveroll@cinvestav.mx
…Encabezado La sección de encabezamiento concluye con COMMENT, donde el autor puede incluir todos aquellos comentarios que considere relevantesy no tengan cabida en ninguna de las otras líneas (Los centros de secuenciación genómica incluyen aquí coordenadas del segmento o agradecimientos). friveroll@cinvestav.mx
Tabla de caracteristicas ("features") En este apartado describen con detalle todaslas características de relevancia biológica de la secuencia, como son las regiones codificantes, coordenadas de exones e intrones, secuencias del promotor….   El formato que se utiliza en este apartado es indicar en primer lugar el tipo de característica a la que hace referencia (comenzando con el símbolo / ) seguido bien por un número, bien por dos números separados por dos puntos para indicar un rango de nucleótidos (como 76..876, lo que significa desde 76 hasta 876) o bien por grupos de números separados por comas (join 33..56, 102..223, 345..998) para indicar regiones que se deben unir.  friveroll@cinvestav.mx
Tabla de caracteristicas ("features") A continuación se indican algunas de las características más comunes. Source: es la única característica que debe estar presente en todas las secuencias, ya que todas las secuencias tienen un origen(aunque sea sintético, como en el caso de vectores de clonación) e incluye el organismo (/organism=). Además se pueden añadir una serie de calificativos ("qualifiers") que incluyen posición en el mapa, cromosoma, tejido, clon o información de la librería de origen. RNA features: sirve para indicar los diversos RNAs estructurales que puedan estar presentes en la secuencia, como tRNA, mRNA, rRNA, ya que representan entidades biológicas de gran importancia en la célula friveroll@cinvestav.mx
Tabla de caracteristicas ("features") CDS: en este apartado se incluyen las instrucciones al lector para que pueda identificar las regiones con importancia biológica, o cómo se ensamblan los diferentes exones para dar lugar a la proteína. Las referencias cruzadas a otras bases de datos con información sobre la misma secuencia se indican dentro de CDS con el calificativo /db_xref= o /protein_id= seguido del número de acceso y versión, en la forma /protein_id=AAA12345.1;  /product= para indicar la función del gen si se conoce y finalmente, también se incluye la secuencia de la proteína resultante en el apartado/translation=.  friveroll@cinvestav.mx
CDS: CoDingSequence Alineamiento de un ARNm y ADN genómico
Tabla de caracteristicas ("features") Las características importantes de la secuencia de proteínas pueden ser indicadas utilizando misc_feature e indicando las coordenadas en la secuencia de DNA en las que se localiza dicha región.  friveroll@cinvestav.mx
Tabla de caracteristicas ("features") friveroll@cinvestav.mx
Secuencia friveroll@cinvestav.mx La parte final de cada entrada del GenBank es la secuencia propiamente dicha, que comienza con la línea BASE COUNT, donde se describen el número de cada una de las bases y termina incluyendo la secuencia (con numeración para facilitar la localización de las características descritas en la sección anterior).
Campos de un registro de EMBL Una vez conocido el formato de las entradas de GenBank, vamos a ver la correspondencia de cada una de las líneas con las del EMBL, en que el nombre completo de cada línea es sustituido por dos letras nada más.  En la siguiente tabla encontrarás una correlación entre ambos formatos (si quieres ver una explicación más detallada de cada uno de los campos puedes acudir al documento original de EMBL. friveroll@cinvestav.mx
LOCUS       HUMPRP0A                2420 bpmRNA    linear   PRI 13-JUL-1994 DEFINITION  Human prion protein 27-30 mRNA, complete cds. ACCESSION   M13667 VERSION     M13667.1  GI:190469 KEYWORDS    amyloid; prion protein; sialoglycoprotein. SOURCE      Homo sapiens (human)   ORGANISM  Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE   1  (bases 1 to 2420)   AUTHORS   Liao,Y.C., Lebo,R.V., Clawson,G.A. and Smuckler,E.A.   TITLE     Human prion proteincDNA: molecular cloning, chromosomalmapping,             and biologicalimplications   JOURNAL   Science 233 (4761), 364-367 (1986)    PUBMED   3014653 COMMENT     Original sourcetext: Human, cDNAtomRNA, clones lambda [3,6,7].             A single prion protein gene isfoundonchromosome 20 per haploid genome. FEATURES             Location/Qualifiers source          1..2420                      /organism="Homo sapiens"                      /mol_type="mRNA"                      /db_xref="taxon:9606"      gene            1..2420                      /gene="PRNP" mRNA            <1..2420                      /gene="PRNP"                      /product="PrPmRNA"      CDS             77..814                      /gene="PRNP"                      /note="prion protein"                      /codon_start=1                      /protein_id="AAA19664.1"                      /db_xref="GI:190470"                      /translation="MLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPP                      QGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNM                      KHMAGAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDE                      YSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYY                      QRGSSMVLFSSPPVILLISFLIFLIVG" ORIGIN      171 bpupstream of SmaIsite; chromosome 20.         1 cgagcagccaaggttcgccataatgactgctctcggtcgtgaggagaggagaagctcgcg        61 gcgccgcggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctg       121 caagaagcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcaggg      ...      2341 tgcatgttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaatta      2401 aacgagccaagatgagcacc // GeneBank
EMBL
Otro asunto respecto a las bases de datos de secuencias
Secuencias ambientales (ENV) Propósito Secuenciar todo el ADN presente en una muestra, sin saber de que especie se deriva. Mar del sargasso Fluidos humanos Tierra
Problemas de las BD's de nt Archivo: Muy redundante. La similarida de las secuencias no es obvia. La autoridad de los autores: nivel variable de la calidad de anotación. Nivel variable de la calidad de la secuencia. Calidad de secuenciamiento. Calidad de predicción de genes.
La segunda generación de BD's de nt Gene-centricdatabases. Toda la información de la secuencia es relevante a un gen dado accesibles de inmediato p.eEntrezGene/RefSeq Genom-centricdatabases Información acerca de la secuencia de los genes, su posición relativa, la orientación de la cadena, funciones bioquímicas. Sistemas de manejo de información que son capaces de conectar a la colección especializada de secuencias y herramientas de búsqueda. p.eEnsembl, TIGR
EntrezGene / RefSeq (NCBI) Base de datos con información específica de genes, enfocada en los genomas que han sido secuenciados por completo, que la comunidad científica contribuye activamente para ampliar la información específica de genes. O que son agendadaspara un análisis de secuencia intenso. El contenido de esta base de datos representa el resultado de la curación e integración automática de datos del proyecto NCBI ReferenceSequence (RefSeq) y de la coolabolaboraciónde las bases de datos de organismos modelo, y muchas otras bases de datos disponibles en NCBI. La secuencias correspondientes están disponibles gracias a cross-links a BD's de RefSeq y otras BD's de secuencias
Links a RefSeq Links a todas las secuencias encontradas en EMBL/GenBank/DDBJ Correspondientes a este gen
Entrez Gene está altamente vinculado a RefSeq RefSeq: TheReferenceSequence (RefSeq), esta colección pretende proveer un conjunto de secuencias, comprensivo, integrado y no redundante, incluyendo ADN Genómico, ARN transcrito, y productos protéicos, para los principales organismos de interés. Accessionnumbers for RNA (NM_) forgenomic (NT_) forprotein (NP_)
La agitada vida de una proteína   cDNA's, EST's, genes, genomas, ... Con o sin CDS's anotados EMBLGeneBank      DDBJ Secuencias derivadas de artículos publicados CoDingSequences (authors & gene prediction) CoDingSequences (authors) PFR, PIR TrEMBL Genpept RefSeq PFR Anotadas manualmente Swiss-Prot UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF
En una entrada UniProtKB/Swiss-Prot se puede encontrar: Todos los nombres de una proteína dada (y su gen). Su origen biológico con los links a sus BD's. Una selección de referencias. Un resumen de todo lo que se conoce de la proteína: función, PTM, productos altenativos, expresión en tejidos, enfermedades, etc... Numerosas referencias cruzadas. Palabras clave seleccionadas. Una descripción de las características importantes de la secuencia: Dominios, PTM's, variaciones, etc... Una secuencia de proteína y la descripción de varias. isoformas/variantes.
Calidad de una secuencia - > 1 gen / 1 especie = 1 entrada Swiss-Prot Para humano: ~4.7 distintos reportes independientes / gen ¿Polimorfismos? ¿Mismo gen? ¿Splicingaltenativo? ¿Edición de ARN? ¿Iniciación alternativa? ¿Selenocisteína? ¿Uso de un promotor alternativo? ¿Errores de secuenciación? ¿Fragmento? - > Identificación y anotación de todas las secuencias distintas
«Base de Datos NR», Entrez http://www.ncbi.nlm.nih.gov/sites/entrez?db=Protein
Bases De Datos

Más contenido relacionado

La actualidad más candente

Hongos de importancia agricola
Hongos de importancia agricolaHongos de importancia agricola
Hongos de importancia agricolaLuz Neria
 
Biología: protozoologia
Biología: protozoologiaBiología: protozoologia
Biología: protozoologiaHeylen_G
 
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueas
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueasAlan Gerardo Roldán Blancas: Pared celular de bacterias y arqueas
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueasAlan Gerardo Roldán Blancas
 
Genetica bacteriana
Genetica bacterianaGenetica bacteriana
Genetica bacteriana1231712
 
ANTENA Y CABEZA DE LOS INSECTOS
ANTENA Y CABEZA DE LOS INSECTOSANTENA Y CABEZA DE LOS INSECTOS
ANTENA Y CABEZA DE LOS INSECTOSBryan Bone
 
Medios de cultivo para anaerobios
Medios de cultivo para anaerobiosMedios de cultivo para anaerobios
Medios de cultivo para anaerobiosPatty Moreno
 
Morfologia de flagelados y ciliados
Morfologia de flagelados y ciliadosMorfologia de flagelados y ciliados
Morfologia de flagelados y ciliadosCamilo Beleño
 
Fototeca Parasitos
Fototeca ParasitosFototeca Parasitos
Fototeca Parasitosltudesco
 
Estructura y composición química de las bacterias
Estructura y composición química de las bacteriasEstructura y composición química de las bacterias
Estructura y composición química de las bacteriasDaniela Ramirez
 
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitro
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitroCurso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitro
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitroJuan Carlos Munévar
 
Mapa conceptual de taxonomía bacteriana.pdf
Mapa conceptual de taxonomía bacteriana.pdfMapa conceptual de taxonomía bacteriana.pdf
Mapa conceptual de taxonomía bacteriana.pdfYAREMICRISTELLMEJIAG
 
Protozoarios y mastigoforos (generalidades)-Trichomonas
Protozoarios y mastigoforos (generalidades)-TrichomonasProtozoarios y mastigoforos (generalidades)-Trichomonas
Protozoarios y mastigoforos (generalidades)-TrichomonasEduardo Alvarado
 
Curso de Microbiología cap iii
Curso de Microbiología cap iiiCurso de Microbiología cap iii
Curso de Microbiología cap iiiMijail Kirochka
 

La actualidad más candente (20)

Hongos de importancia agricola
Hongos de importancia agricolaHongos de importancia agricola
Hongos de importancia agricola
 
Biología: protozoologia
Biología: protozoologiaBiología: protozoologia
Biología: protozoologia
 
Diseño primers
Diseño primersDiseño primers
Diseño primers
 
Nemátodos
NemátodosNemátodos
Nemátodos
 
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueas
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueasAlan Gerardo Roldán Blancas: Pared celular de bacterias y arqueas
Alan Gerardo Roldán Blancas: Pared celular de bacterias y arqueas
 
Genetica bacteriana
Genetica bacterianaGenetica bacteriana
Genetica bacteriana
 
ANTENA Y CABEZA DE LOS INSECTOS
ANTENA Y CABEZA DE LOS INSECTOSANTENA Y CABEZA DE LOS INSECTOS
ANTENA Y CABEZA DE LOS INSECTOS
 
Medios de cultivo para anaerobios
Medios de cultivo para anaerobiosMedios de cultivo para anaerobios
Medios de cultivo para anaerobios
 
Adn en cloroplastos,
Adn en cloroplastos,Adn en cloroplastos,
Adn en cloroplastos,
 
2.genoma procariotico y eucariotico
2.genoma procariotico y eucariotico2.genoma procariotico y eucariotico
2.genoma procariotico y eucariotico
 
Morfologia de flagelados y ciliados
Morfologia de flagelados y ciliadosMorfologia de flagelados y ciliados
Morfologia de flagelados y ciliados
 
Fototeca Parasitos
Fototeca ParasitosFototeca Parasitos
Fototeca Parasitos
 
Desarrollo de inóculo
Desarrollo de inóculoDesarrollo de inóculo
Desarrollo de inóculo
 
Estructura y composición química de las bacterias
Estructura y composición química de las bacteriasEstructura y composición química de las bacterias
Estructura y composición química de las bacterias
 
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitro
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitroCurso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitro
Curso de cultivo celular BIOLOGIA DE LAS CELULAS ANIMALES in vitro
 
Medios de cultivo
Medios de cultivoMedios de cultivo
Medios de cultivo
 
Mapa conceptual de taxonomía bacteriana.pdf
Mapa conceptual de taxonomía bacteriana.pdfMapa conceptual de taxonomía bacteriana.pdf
Mapa conceptual de taxonomía bacteriana.pdf
 
Protozoarios y mastigoforos (generalidades)-Trichomonas
Protozoarios y mastigoforos (generalidades)-TrichomonasProtozoarios y mastigoforos (generalidades)-Trichomonas
Protozoarios y mastigoforos (generalidades)-Trichomonas
 
Curso de Microbiología cap iii
Curso de Microbiología cap iiiCurso de Microbiología cap iii
Curso de Microbiología cap iii
 
Medios de cultivo
Medios de cultivoMedios de cultivo
Medios de cultivo
 

Destacado (20)

que es pubmed
que es pubmedque es pubmed
que es pubmed
 
Pub med
Pub medPub med
Pub med
 
Measuring your impact
Measuring your impactMeasuring your impact
Measuring your impact
 
Pubmed: Intro
Pubmed: IntroPubmed: Intro
Pubmed: Intro
 
Pubmed andrea
Pubmed andreaPubmed andrea
Pubmed andrea
 
Temario bi biología
Temario bi biologíaTemario bi biología
Temario bi biología
 
3.celula eucariotica (1)
3.celula eucariotica (1)3.celula eucariotica (1)
3.celula eucariotica (1)
 
Sistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datosSistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datos
 
Teoria celular
Teoria celularTeoria celular
Teoria celular
 
Diseño de bases de datos
Diseño de bases de datosDiseño de bases de datos
Diseño de bases de datos
 
Ingenieria genetica power point
Ingenieria genetica power pointIngenieria genetica power point
Ingenieria genetica power point
 
SEO and Internet Marketing PPT
SEO and Internet Marketing PPTSEO and Internet Marketing PPT
SEO and Internet Marketing PPT
 
P1 s3 d1 baja
P1 s3 d1 bajaP1 s3 d1 baja
P1 s3 d1 baja
 
Big Card Gold - Bigcardgold - Bigcard Gold
Big Card Gold - Bigcardgold - Bigcard GoldBig Card Gold - Bigcardgold - Bigcard Gold
Big Card Gold - Bigcardgold - Bigcard Gold
 
Menino Jesus
Menino JesusMenino Jesus
Menino Jesus
 
Yahoo.com.mx
Yahoo.com.mxYahoo.com.mx
Yahoo.com.mx
 
COELCE
COELCECOELCE
COELCE
 
Poo
PooPoo
Poo
 
Artigo cientifico NBR6022
Artigo cientifico NBR6022Artigo cientifico NBR6022
Artigo cientifico NBR6022
 
Preconceito Na Escola
Preconceito Na EscolaPreconceito Na Escola
Preconceito Na Escola
 

Similar a Bases De Datos

Bioinformatica present
Bioinformatica presentBioinformatica present
Bioinformatica presentvickyaperdomo
 
Python en biología molecular (UNLUX 2008)
Python en biología molecular (UNLUX 2008)Python en biología molecular (UNLUX 2008)
Python en biología molecular (UNLUX 2008)guestadf0d8
 
BIOINFORMATICA (2).pptx
BIOINFORMATICA (2).pptxBIOINFORMATICA (2).pptx
BIOINFORMATICA (2).pptxFernandoGc16
 
Archivos en c
Archivos en cArchivos en c
Archivos en cG1997
 
Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02Javier Alva
 
Base de datos_1
Base de datos_1Base de datos_1
Base de datos_1SaraDevies
 
Base de datos
Base de datosBase de datos
Base de datosdanicerv
 
Tutorial programa de_concordancias
Tutorial programa de_concordanciasTutorial programa de_concordancias
Tutorial programa de_concordanciasEncarna MesaBetancor
 
Base de datos slideshare
Base de datos slideshareBase de datos slideshare
Base de datos slideshareunefacams
 
Practica 1 analisis de secuencias del gen 16 s
Practica 1   analisis de secuencias del gen 16 sPractica 1   analisis de secuencias del gen 16 s
Practica 1 analisis de secuencias del gen 16 sjuancarlos74381
 
Conceptualización sobre informática
Conceptualización sobre informáticaConceptualización sobre informática
Conceptualización sobre informáticaJohan Gamboa Daza
 
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...StefaniBrillyArevalo
 

Similar a Bases De Datos (20)

clase 281021.pptx
clase 281021.pptxclase 281021.pptx
clase 281021.pptx
 
Navbi proteinas
Navbi proteinasNavbi proteinas
Navbi proteinas
 
Bioinformatica present
Bioinformatica presentBioinformatica present
Bioinformatica present
 
Python en biología molecular (UNLUX 2008)
Python en biología molecular (UNLUX 2008)Python en biología molecular (UNLUX 2008)
Python en biología molecular (UNLUX 2008)
 
BIOINFORMATICA (2).pptx
BIOINFORMATICA (2).pptxBIOINFORMATICA (2).pptx
BIOINFORMATICA (2).pptx
 
Tabla de símbolos
Tabla de símbolosTabla de símbolos
Tabla de símbolos
 
Archivos en c
Archivos en cArchivos en c
Archivos en c
 
Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02Tabladesmbolos 101103230525-phpapp02
Tabladesmbolos 101103230525-phpapp02
 
Base de datos_1
Base de datos_1Base de datos_1
Base de datos_1
 
Base de datos
Base de datosBase de datos
Base de datos
 
3752215.ppt
3752215.ppt3752215.ppt
3752215.ppt
 
Tutorial programa de_concordancias
Tutorial programa de_concordanciasTutorial programa de_concordancias
Tutorial programa de_concordancias
 
Practica 11
Practica 11Practica 11
Practica 11
 
Base de datos slideshare
Base de datos slideshareBase de datos slideshare
Base de datos slideshare
 
Genbank +bioedit
Genbank +bioeditGenbank +bioedit
Genbank +bioedit
 
Que son las bases de datos
Que son las bases de datosQue son las bases de datos
Que son las bases de datos
 
Practica 1 analisis de secuencias del gen 16 s
Practica 1   analisis de secuencias del gen 16 sPractica 1   analisis de secuencias del gen 16 s
Practica 1 analisis de secuencias del gen 16 s
 
Conceptualización sobre informática
Conceptualización sobre informáticaConceptualización sobre informática
Conceptualización sobre informática
 
Alineamiento
AlineamientoAlineamiento
Alineamiento
 
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
 

Más de Felipe Riveroll Aguirre (20)

Lctdidacticos
LctdidacticosLctdidacticos
Lctdidacticos
 
Quimica De La Vida
Quimica De La VidaQuimica De La Vida
Quimica De La Vida
 
Ciclo De Krebs
Ciclo De KrebsCiclo De Krebs
Ciclo De Krebs
 
Fosforilacion Oxidativa
Fosforilacion OxidativaFosforilacion Oxidativa
Fosforilacion Oxidativa
 
Metabolismo De Ácidos Grasos
Metabolismo De Ácidos GrasosMetabolismo De Ácidos Grasos
Metabolismo De Ácidos Grasos
 
Charla Bacteriana
Charla BacterianaCharla Bacteriana
Charla Bacteriana
 
Metabolismo de Carbohidratos
Metabolismo de CarbohidratosMetabolismo de Carbohidratos
Metabolismo de Carbohidratos
 
Membranas
MembranasMembranas
Membranas
 
Bioenergética
BioenergéticaBioenergética
Bioenergética
 
Carbohidratos
CarbohidratosCarbohidratos
Carbohidratos
 
Lipidos estructura y función
Lipidos estructura y funciónLipidos estructura y función
Lipidos estructura y función
 
Enzimas
EnzimasEnzimas
Enzimas
 
Proteínas
ProteínasProteínas
Proteínas
 
Aminoácidos
AminoácidosAminoácidos
Aminoácidos
 
Sistema Nervioso Central Parte 3
Sistema Nervioso Central Parte 3Sistema Nervioso Central Parte 3
Sistema Nervioso Central Parte 3
 
Sistema Nervioso Central Parte 2
Sistema Nervioso Central Parte 2Sistema Nervioso Central Parte 2
Sistema Nervioso Central Parte 2
 
Sistema Nervioso Autónomo
Sistema Nervioso AutónomoSistema Nervioso Autónomo
Sistema Nervioso Autónomo
 
Manejo De Animales De Laboratorio
Manejo De Animales De LaboratorioManejo De Animales De Laboratorio
Manejo De Animales De Laboratorio
 
Neuronas y sinapsis
Neuronas y sinapsisNeuronas y sinapsis
Neuronas y sinapsis
 
Osmosis
OsmosisOsmosis
Osmosis
 

Bases De Datos

  • 1. Fuentes de información para genes y proteínas Felipe Riveroll Aguirre Departamento de Bioquimica Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional Plantel Zacatenco friveroll@cinvestav.mx
  • 2. From Information Design, Nathan Shedroff
  • 4. Información biológica Cientos de miles de especies. Millones de artículos en revistas científicas Información genética Nombre de genes Fenotipo de mutantes Ubicación de los genes/mutaciones en cromosomas Linkage (distancia entre genes) friveroll@cinvestav.mx
  • 5. In 1981 the EMBL NucleotideSequence Data Library iscreated. Version 2 wascomposed of 811 secuences, around 1 million bases introducedbyhand.
  • 6. ¿Qué es una base de datos? Una colección de datos: Estructurada Que puede explorarse (indexada) ->Tabla de contenidos Periódicamente actualizada ->nueva edición Referencias cruzadas ->links con otras db Incluye también herramientas asociadas (software) necesarias para el acceso/búsqueda, actualización, inserción de información, borrado de información. friveroll@cinvestav.mx
  • 7. ¿Porqué bases de datos biológicas? Crecimiento exponencial de los datos biológicos. Datos (secuencias de ácidos nucléicos (ADN, ARN), estructuras 3D, geles 2D, analisis MS, microarreglos, interaccion proteína-proteína...) ya no son publicados de forma convencional, pero son mandados a db. Herramientas convencionales, para la investigación biológica. friveroll@cinvestav.mx
  • 8. friveroll@cinvestav.mx Estadísticas de Genebank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
  • 10. Las 10 bases de datos más importantes* GenBank/DDJB/EMBL www.ncbi.nlm.nih.govNucleotidesequences Ensemblwww.ensembl.orgHuman/mouse genome PubMedwww.ncbi.nlm.nih.govLiteraturereferences NR (entrez protein) www.ncbi.nlm.nih.govProteinsequences Swiss-Protwww.expasy.orgProteinsequences InterProwww.ebi.ac.ukProteindomains OMIM www.ncbi.nlm.nih.govGeneticdiseases Enzymeswww.expasy.orgEnzymes PDB www.rcsb.org/pdb/Proteinstructures KEGG www.genome.ad.jpMetabolicpathways friveroll@cinvestav.mx *De acuerdo a “Bioinformatics for Dummies”
  • 11. Tipos de bases de datos biológicas Primarias (all-inclusive): Contienen resultados experimentales de las secuencias (nucleótidos o proteínas), junto anotaciones (información relativa a su función, bibliografía, referencias cruzadas a otras bases de datos, etc.). Secundarias o bases de datos de familias de proteínas: Resumen los resultados de análisis de bases de datos primarias para proveer información adicional no presente en las fuentes primarias. friveroll@cinvestav.mx
  • 12. Bases de datos primarias
  • 13. Contenido mínimo ideal para la entrada de una secuencia en una DB Secuencias Número de acceso (AC) (identificador único) Datos taxonómicos Referencias ANNOTATION/CURATION Palabras clave Referencias cruzadas Documentación
  • 14.
  • 15.
  • 16. ¿Quéesunasecuencia? Secuencia de ADN, de doblecadena, antiparalela Escritaconvencionalmente de 5’ a 3’ 5’-ATGAGTACCG CTAAATTAGT TAAATCAAAA-3’ 3’-TACTCATGGC GATTTAATCA ATTTAGTTTT-5’ Secuencia de ARN, una sola cadena, U en vez de T 5’-AUGAGUACCG CUAAAUUAGU UAAAUCAAAA-3’ Secuencia de proteína Escritaconvencionalmente de N-terminal a C-terminal Código de 3 letras: Met Ser Thr Ala Lys Leu Código de 1 letra: MSTAKLVKSKATN Las secuenciasusualmente son escritas en tipografías de anchofijo, tales como Courier. Times Courier AGCGGGCGG AGCGGGCGG ATCGTTCTG ATCGTTCTG
  • 18. Número de acceso (AC) Aunque las secuencias primarias son las mismas para las tres bases de datos, cada base de datos es libre de almacenarlas, clasificarlas y presentarlas como mejor le acomode. Para facilitar el intercambio y acceso a las secuencias entre las diferentes bases de datos, la INSDC estableció que cada secuencia tuviera un Número de Acceso único e inmutable. El número de acceso es un identificador único para una secuencia determinada que no cambia y se mantiene entre todas las bases de datos. El número de acceso generalmente está compuesto por una letra y cinco dígitos (A12345) o 2 letras y 6 dígitos (AB123456).
  • 19. La agitada vida de una secuencia cDNA's, EST's, genes, genomas, ... EMBL GeneBank DDBJ http://www.insdc.org/
  • 20. EMBL/GenBank/DDBJ Sirven como archivos Contienen todas las secuencias públicas derivadas de: Proyectos genoma Centros de secuenciación Científicos Oficinas de patentes Actualmente 1.6 X 109 secuencias, ~ 2.7 X 1011 Secuencias de >80,000 especies distintas
  • 21. >80,000 especies, pero... Humano/Ratón/Rata Organismos con mayor redundancia Nuevos proyectos: Secuencias ambientales (sin información taxonómica) http://www.ebi.ac.uk/embl/Services/DBStats/
  • 22. Formato de las bases de datos de DNA Las secuencias de DNA almacenadas en las tres bases de datos tienen un formato diferente, aunque en general, todas las secuencias se componen de dos partes diferentes: Comentarios Secuencia propiamente dicha Aunque la información que se ofrece de una secuencia en las tres bases de datos es la misma, la forma en que esta se organiza difiere.
  • 23. FASTA Diseñado por William Pearson, como un fomatotexto simple, parasecuencias de ADN y proteínas. El formato FASTA esahora universal paratodaslas bases de datos y software paramanejo de secuencias. El encabezado incluye una línea con “>” precediendo a la descripción de la entrada y las líneas siguientes con la secuencia en particular. >URO1 uro1.seq Length: 2018 November 9, 2000 11:50 Type: N Check: 3854 .. CGCAGAAAGAGGAGGCGCTTGCCTTCAGCTTGTGGGAAATCCCGAAGATGGCCAAAGAAACTCAACTGTTCGTTGCTTCCAGGGCCTGCTGATTTTTGGAAATGTGATTATTGGTTGTTGCGGCATTGCCCTGACTGCGGAGTGCATCTTCTTTGTATCTGACCAACACAGCCTCTACCCACTGCTTGAAGCCACCGACAACGATGACATCTATGGGGCTGCCTGGATCGGCATATTTGTGGGCATCTGCCTCTTCTGCCTGTCTGTTCTAGGCATTGTAGGCATCATGAAGTCCAGCAGGAAAATTCTTCTGGCGTATTTCATTCTGATGTTTATAGTATATGCCTTTGAAGTGGCATCTTGTATCACAGCAGCAACACAACAAGACTTTTTCACACCCAACCTCTTCCTGAAGCAGATGCTAGAGAGGTACCAAAACAACAGCCCTCCAAACAATGATGACCAGTGGAAAAACAATG
  • 24. Campos de un registro de GenBank El formato de GenBank (GBFF) es el formato más ampliamente utilizado para la distribución de las secuencias biológicas, ya que es el formato que se utiliza para el intercambio diario de secuencias entre las tres bases de datos. Además, el formato que ha adoptado el DDBJ es idéntico al de GenBank. Una entrada cualquiera de GenBank/EMBL consta de tres partes bien diferenciadas: Encabezado ("Header"), que contiene la información (descripción) del contenido del documento Características ("Features") que describen la localización de las partes más importantes de la secuencia desde el punto de vista biológico Secuencia propiamente dicha. friveroll@cinvestav.mx
  • 25. Encabezado (Header) Es la parte más variable entre los distintos formatos, ya que las bases de datos no están obligadas a contener la misma información, aunque se están haciendo esfuerzos para aunar el contenido de las tres. Todas las entradas del GenBank empiezan con la línea LOCUS. La siguiente línea es DEFINITION, en la que se intenta sumarizar de forma concisa la información sobre el origen biológico de la muestra. Esta es la línea que aparece en las fichas que generan los programas de búsqueda, como FASTA o BLAST, por lo que la información contenida debe ser lo más representativa posible. friveroll@cinvestav.mx
  • 26. …Encabezado La línea VERSION contiene dos números diferentes, uno similar al número de acceso y otro denominado gi (geninfoidentifier). Con este número se pretende acomodar los cambios o correcciones que se introducen en una secuencia, para poder identificar si se trata de la entrada original o ha sido modificada posteriormente. Si la secuencia cambia (por revisiones posteriores o corrección de errores), el número de acceso permanece igual pero el  gi   cambia para identificar una nueva versión de la misma secuencia.  Además, se añade la VERSION, con el formato siguiente: Acceso.version friveroll@cinvestav.mx
  • 27. …Encabezado La línea KEYWORDS es una línea histórica, que en muchos casos se usa incorrectamente y en la que se deben incluir palabras clave representativas de la secuencia que ayuden a encontrar nuestra  secuencia cuando se hacen búsquedas en las bases de datos. Sin embargo, la adición de palabras clave a la secuencia en muchas ocasiones es poco útil ya que las palabras clave elegidas por los autores son incorrectas, por lo que poco a poco se tiende a abandonar el uso de esta línea. A continuación encontramos SOURCE/ORGANISM, donde se incluye en nombre común del organismo o su nombre científico, incluyendo la descripción taxonómica completa: friveroll@cinvestav.mx
  • 28. …Encabezado Más abajo se encuentran una serie de líneas que hacen referencia a la cita bibliográfica donde se ha publicado la información correspondiente a la secuencia (que puede ser enviado para su publicación o sin publicar).  Estas líneas son REFERENCE, AUTHORS, TITLE, JOURNAL y MEDLINE -PUBMED en el caso de que haya sido publicada.  Cada secuencia puede tener más de una entrada bibliográfica completa, y por lo general en la última de ellas se incluye la dirección postal completade la persona o laboratorio responsable del trabajo. friveroll@cinvestav.mx
  • 29. …Encabezado La sección de encabezamiento concluye con COMMENT, donde el autor puede incluir todos aquellos comentarios que considere relevantesy no tengan cabida en ninguna de las otras líneas (Los centros de secuenciación genómica incluyen aquí coordenadas del segmento o agradecimientos). friveroll@cinvestav.mx
  • 30. Tabla de caracteristicas ("features") En este apartado describen con detalle todaslas características de relevancia biológica de la secuencia, como son las regiones codificantes, coordenadas de exones e intrones, secuencias del promotor….  El formato que se utiliza en este apartado es indicar en primer lugar el tipo de característica a la que hace referencia (comenzando con el símbolo / ) seguido bien por un número, bien por dos números separados por dos puntos para indicar un rango de nucleótidos (como 76..876, lo que significa desde 76 hasta 876) o bien por grupos de números separados por comas (join 33..56, 102..223, 345..998) para indicar regiones que se deben unir. friveroll@cinvestav.mx
  • 31. Tabla de caracteristicas ("features") A continuación se indican algunas de las características más comunes. Source: es la única característica que debe estar presente en todas las secuencias, ya que todas las secuencias tienen un origen(aunque sea sintético, como en el caso de vectores de clonación) e incluye el organismo (/organism=). Además se pueden añadir una serie de calificativos ("qualifiers") que incluyen posición en el mapa, cromosoma, tejido, clon o información de la librería de origen. RNA features: sirve para indicar los diversos RNAs estructurales que puedan estar presentes en la secuencia, como tRNA, mRNA, rRNA, ya que representan entidades biológicas de gran importancia en la célula friveroll@cinvestav.mx
  • 32. Tabla de caracteristicas ("features") CDS: en este apartado se incluyen las instrucciones al lector para que pueda identificar las regiones con importancia biológica, o cómo se ensamblan los diferentes exones para dar lugar a la proteína. Las referencias cruzadas a otras bases de datos con información sobre la misma secuencia se indican dentro de CDS con el calificativo /db_xref= o /protein_id= seguido del número de acceso y versión, en la forma /protein_id=AAA12345.1;  /product= para indicar la función del gen si se conoce y finalmente, también se incluye la secuencia de la proteína resultante en el apartado/translation=.  friveroll@cinvestav.mx
  • 33. CDS: CoDingSequence Alineamiento de un ARNm y ADN genómico
  • 34. Tabla de caracteristicas ("features") Las características importantes de la secuencia de proteínas pueden ser indicadas utilizando misc_feature e indicando las coordenadas en la secuencia de DNA en las que se localiza dicha región. friveroll@cinvestav.mx
  • 35. Tabla de caracteristicas ("features") friveroll@cinvestav.mx
  • 36. Secuencia friveroll@cinvestav.mx La parte final de cada entrada del GenBank es la secuencia propiamente dicha, que comienza con la línea BASE COUNT, donde se describen el número de cada una de las bases y termina incluyendo la secuencia (con numeración para facilitar la localización de las características descritas en la sección anterior).
  • 37. Campos de un registro de EMBL Una vez conocido el formato de las entradas de GenBank, vamos a ver la correspondencia de cada una de las líneas con las del EMBL, en que el nombre completo de cada línea es sustituido por dos letras nada más. En la siguiente tabla encontrarás una correlación entre ambos formatos (si quieres ver una explicación más detallada de cada uno de los campos puedes acudir al documento original de EMBL. friveroll@cinvestav.mx
  • 38.
  • 39. LOCUS HUMPRP0A 2420 bpmRNA linear PRI 13-JUL-1994 DEFINITION Human prion protein 27-30 mRNA, complete cds. ACCESSION M13667 VERSION M13667.1 GI:190469 KEYWORDS amyloid; prion protein; sialoglycoprotein. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2420) AUTHORS Liao,Y.C., Lebo,R.V., Clawson,G.A. and Smuckler,E.A. TITLE Human prion proteincDNA: molecular cloning, chromosomalmapping, and biologicalimplications JOURNAL Science 233 (4761), 364-367 (1986) PUBMED 3014653 COMMENT Original sourcetext: Human, cDNAtomRNA, clones lambda [3,6,7]. A single prion protein gene isfoundonchromosome 20 per haploid genome. FEATURES Location/Qualifiers source 1..2420 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" gene 1..2420 /gene="PRNP" mRNA <1..2420 /gene="PRNP" /product="PrPmRNA" CDS 77..814 /gene="PRNP" /note="prion protein" /codon_start=1 /protein_id="AAA19664.1" /db_xref="GI:190470" /translation="MLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPP QGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNM KHMAGAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDE YSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYY QRGSSMVLFSSPPVILLISFLIFLIVG" ORIGIN 171 bpupstream of SmaIsite; chromosome 20. 1 cgagcagccaaggttcgccataatgactgctctcggtcgtgaggagaggagaagctcgcg 61 gcgccgcggctgctggatgctggttctctttgtggccacatggagtgacctgggcctctg 121 caagaagcgcccgaagcctggaggatggaacactgggggcagccgatacccggggcaggg ... 2341 tgcatgttcttgttttgttatataaaaaaattgtaaatgtttaatatctgactgaaatta 2401 aacgagccaagatgagcacc // GeneBank
  • 40. EMBL
  • 41.
  • 42.
  • 43. Otro asunto respecto a las bases de datos de secuencias
  • 44. Secuencias ambientales (ENV) Propósito Secuenciar todo el ADN presente en una muestra, sin saber de que especie se deriva. Mar del sargasso Fluidos humanos Tierra
  • 45.
  • 46.
  • 47. Problemas de las BD's de nt Archivo: Muy redundante. La similarida de las secuencias no es obvia. La autoridad de los autores: nivel variable de la calidad de anotación. Nivel variable de la calidad de la secuencia. Calidad de secuenciamiento. Calidad de predicción de genes.
  • 48. La segunda generación de BD's de nt Gene-centricdatabases. Toda la información de la secuencia es relevante a un gen dado accesibles de inmediato p.eEntrezGene/RefSeq Genom-centricdatabases Información acerca de la secuencia de los genes, su posición relativa, la orientación de la cadena, funciones bioquímicas. Sistemas de manejo de información que son capaces de conectar a la colección especializada de secuencias y herramientas de búsqueda. p.eEnsembl, TIGR
  • 49. EntrezGene / RefSeq (NCBI) Base de datos con información específica de genes, enfocada en los genomas que han sido secuenciados por completo, que la comunidad científica contribuye activamente para ampliar la información específica de genes. O que son agendadaspara un análisis de secuencia intenso. El contenido de esta base de datos representa el resultado de la curación e integración automática de datos del proyecto NCBI ReferenceSequence (RefSeq) y de la coolabolaboraciónde las bases de datos de organismos modelo, y muchas otras bases de datos disponibles en NCBI. La secuencias correspondientes están disponibles gracias a cross-links a BD's de RefSeq y otras BD's de secuencias
  • 50.
  • 51.
  • 52.
  • 53.
  • 54.
  • 55. Links a RefSeq Links a todas las secuencias encontradas en EMBL/GenBank/DDBJ Correspondientes a este gen
  • 56. Entrez Gene está altamente vinculado a RefSeq RefSeq: TheReferenceSequence (RefSeq), esta colección pretende proveer un conjunto de secuencias, comprensivo, integrado y no redundante, incluyendo ADN Genómico, ARN transcrito, y productos protéicos, para los principales organismos de interés. Accessionnumbers for RNA (NM_) forgenomic (NT_) forprotein (NP_)
  • 57.
  • 58.
  • 59. La agitada vida de una proteína cDNA's, EST's, genes, genomas, ... Con o sin CDS's anotados EMBLGeneBank DDBJ Secuencias derivadas de artículos publicados CoDingSequences (authors & gene prediction) CoDingSequences (authors) PFR, PIR TrEMBL Genpept RefSeq PFR Anotadas manualmente Swiss-Prot UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF
  • 60.
  • 61.
  • 62. En una entrada UniProtKB/Swiss-Prot se puede encontrar: Todos los nombres de una proteína dada (y su gen). Su origen biológico con los links a sus BD's. Una selección de referencias. Un resumen de todo lo que se conoce de la proteína: función, PTM, productos altenativos, expresión en tejidos, enfermedades, etc... Numerosas referencias cruzadas. Palabras clave seleccionadas. Una descripción de las características importantes de la secuencia: Dominios, PTM's, variaciones, etc... Una secuencia de proteína y la descripción de varias. isoformas/variantes.
  • 63.
  • 64. Calidad de una secuencia - > 1 gen / 1 especie = 1 entrada Swiss-Prot Para humano: ~4.7 distintos reportes independientes / gen ¿Polimorfismos? ¿Mismo gen? ¿Splicingaltenativo? ¿Edición de ARN? ¿Iniciación alternativa? ¿Selenocisteína? ¿Uso de un promotor alternativo? ¿Errores de secuenciación? ¿Fragmento? - > Identificación y anotación de todas las secuencias distintas
  • 65.
  • 66. «Base de Datos NR», Entrez http://www.ncbi.nlm.nih.gov/sites/entrez?db=Protein