SlideShare uma empresa Scribd logo
1 de 47
Base de Données en
Bioinformatique
Karim Mezhoud
kmezhoud@gmail.com
Centre National des Sciences et Technologies Nucléaires
CNTSN
1
Historique: Bases de données en Bioinformatique
• La première fonction qu’a eu la Bioinformatique au cours des années 80 est la gestion des données générer à partir
des expérimentations en biologie, médecine et en pharmacie.
• Les année 80 sont aussi la période où les technologies et les appareillages en biologie ont commencé leurs
développement comme la cristallographie, résonance magnétique nucléaire, spectrométrie de mass…
• A un moment donnée, il a fallu trouver les moyens pour stocker, traiter, organiser et même pour la suite offrir les
outils pour consulter, analyser et interpréter les données.
2Expérimentation
Stockage
Avant le web
• Avant la technologie du WEB (world Wide Web), la communication entre les
ordinateurs était locale.
• C.à.d. il y avait un clavier et consol (écran) reliés par câble au serveur (disque dur)
• Le serveur devrait être équipé de tous les hardwares et softwares nécessaires.
• Les banques de données ne pouvaient pas être consultées à distance.
• Manque de disponibilité des données à la communauté scientifique pour
participer au traitement des données.
• La photo à droite montre un ordinateur des années 80. Il n'y avait pas ni interface
graphique, ni souris.
• Cette photo montre un serveur de capacité 2.5 GB des années 80.
• Aujourd’hui un simple clé USB peut contenir 64 GB.
3
Réseau local
Ordinateur des années 80
Disque dure des années 80 3
Architecture d’un réseau Internet
• L’arrivée des interfaces graphiques des systèmes d'exploita<on et des logiciels
(WYSIWYG : What You See Is What You Get), et du réseau ont profondément
modifié la communica<on dans le monde.
• La Bioinforma<que été l’un des domaines qui a profité de ces technologies pour
se développer.
• En Tunisie, on commence, à peine, à voir conscience de cela.
• Le réseau local est composé de plusieurs ordinateurs reliés par des câbles,
• Ou bien sans fils (wifi, Bluetooth, Infrarouge).
• Aujourd’hui on peut configurer une imprimante sans fil.
• Entre le réseau et le réseau externe il y a ce qu’on appelle le PROXY.
• C’est matériel informa<que qui permet de gérer les flux d’entrée et de sor<e.
• C’est un moyen de sécurité, contrôler, filtrer les informa<ons transmises.
4
Architecture Clients - Serveur
• La navigation sur le web est un système de communication basé sur
l’architecture "client-serveur".
• Un internaute connecté avec son ordinateur et un navigateur web (Firefox,
chrome) joue le rôle d'un « Client » . Alors que les pages demandées sont
fournies par des programmes installés sur un ordinateur lointain jouera le rôle
d'une « Serveur ».
• Le navigateur web est l’application installé chez le client et qui exploite les
services fournis par le serveur.
• La communication entre l'ordinateur "client" et l'ordinateur "serveur" se fait
en général avec le protocole "HTTP" (HyperText Transfer Protocol). C’est la
dernière génération d’échange d’information sous le format HTML (HyperText
Markup Langage), contenant du texte, des images et des liens URL (Uniform
Resource Locator) vers d’autres serveur/services
URL = protocole://adresse IP : port/référence locale
Exemple : HTTP://192.156.43.1:8080/répertoire
Indiquer le port est une option
5
Architecture Clients - Serveur
• Le client émet une requête vers le serveur grâce à son adresse et le port, qui
désigne un service par9culier du serveur.
• C'est toujours le client qui déclenche une demande de service.
• Le serveur reçoit la demande et répond à l'aide de l'adresse de la machine
client et son port.
• Le serveur a@end passivement les requetés des clients (port d’écoute) et peut
traiter plusieurs requêtes en même temps.
• Par exemple, le numéro de port des services:
• FTP : 21,
• SMTP (email) : 25,
• Web : 80 (défaut).
6
Format de fichier
Fichier Texte structuré par des champs spécifiques avec une seule clé index comme entrée.
7
Format plat: simple texte structuré (.txt)
8
Format plat: ASN.1
9
Format plat: XML
10
PPBP GNAZ
Format plat: TAB (Tabulation, Tableau)
11
Format plat: TAB (Tabulation, Tableau) 90%
12
Une base de donnée est une collec1on de un ou plusieurs TABLEAUX
Un tableau est une collec1on d'une ou plusieurs COLONNES
Une colonne est une collec1on d'une ou plusieurs LIGNES
Tableau 2Tableau 1 Tableau 3
Tableaux interconnectés = Format Relationnel = Format Structure
Ce Tableau a une structure à deux colonnes :
• La première contient des DATE
• La seconde contient des NOM de personne
La première colonne est nommé : Discovery_Date
La seconde colonne est nommé : Scientist
Format plat: TAB (Tabula1on, Tableau) 90%
La colonne 1 n'accepte que des dates : type de donnée numérique
La colonne 2 n'accepte que des nom : type de donnée alphabétique
Format plat: TAB (Tabulation, Tableau) 90%
Supposons le tableau Discovery qui contient les détails des découvertes
L'ajout d'une nouvelle colonne nécessite la mise à jour de la structure du tableau
Tableau nommé Discovery
Supposons le tableau Discovery qui contient les détails des découvertes
L'ajout de la nouvelle colonne nécessite la mise à jour de la structure du tableau
Tableau nommé Discovery
Nous avons ajouté deux colonnes : date de naissance et N° Téléphone
Remarques :
Il y a des scientifiques qui ont le même nom de famille : Moorhouse
Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24
Mais si le tableau est plus grand !!
Nous avons ajouté deux colonnes : date de naissance et N° Téléphone
Remarques :
Il y a des scientifiques qui ont le même nom de famille : Moorhouse
Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24
Problèmes :
1. Si un scientifique fait plusieurs découvertes, ces informations personnelles seront introduites
plusieurs fois : Cela en informatique consommes du temps et de mémoire
2. Pour faire la différence entre de scientifique de même nom il faut aller voir leurs dates de
naissances ou bien leurs N° de tél : Cela n'est pas pratique
3. Si un scientifique change de N° de Tél il faut changer cela dans tous les lignes : Corvée
Mais si le tableau est plus grand !!
Il faut que l'iden.fiant d'un scien.fique se trouve dans un seul endroit
Tableau : Discovery
Tableau : Scientists
Résoudre les problèmes d'un seul Tableau
Il faut que l'identifiant d'un scientifique se trouve dans un seul endroit
Tableau : Scientists
Résoudre les problèmes d'un seul Tableau
Cette technique qui relie des données d'un tableau 1 aux données d'un
tableau 2 est la forme moderne des bases de données qui s'appelle :
Relation Database Management Systems (RDBMS)
● Personnel : Access, paradox, FileMaker, dBase
● Entreprise : InterBase, Ongres, DB2, Oracle
● Open source : PostgreSQL, MySQL
Il est distribué sous une double licence GPL et propriétaire.
Il fait par8e des logiciels de ges8on de base de données les plus u8lisés au monde1, autant
par le grand public (applica8ons web principalement) que par des professionnels, en
concurrence avec Oracle, Informix et MicrosoE SQL Server.
Structured Query Language
Les systèmes de base de données
Base de Donnée des Interactions physiques des protéines
The International Molecular Exchange Consortium
PSI-MI XML 2.5
Proteomics Standards Initiative
Molecular Interaction XML/TAB Format
PSI-MI TAB (MITAB25)
http://www.imexconsortium.org/
PSI-MI XML 2.5 Exemple
Make file with cytoscape !
PSI-MI TAB (MITAB25)
• Unique identifier for interactor A : unique Accession from own database
• Unique identifier for interactor B : unique Accession from own database
• Alternative identifier for interactor A : Gene Symbol
• Alternative identifier for interactor B. : Gene Symbol
• Aliases for A : Multiple identifiers separated by "|"
• Aliases for B : Multiple identifiers separated by "|"
• Interaction detection methods
• First author
• Identifier of the publication
• NCBI Taxonomy identifier for interactor A.
• NCBI Taxonomy identifier for interactor B
• Interaction types
• Source databases
• Interaction identifier(s) in the corresponding source database, represented by databaseName:identifier
• Confidence score.
https://code.google.com/archive/p/psimi/wikis/PsimiTabFormat.wiki
25
Base de Donnée des Interac/ons physiques des protéines
http://www.pathguide.org/
KEGG: Kyoto Encyclopedia of Genes and Genomes
KEGG: Kyoto Encyclopedia of Genes and Genomes
h"p://www.wikipathways.org
h"ps://reactome.org
31
Format de Fichier (XML) TAB
GPML (.gpml)
Graphical Pathway Markup Language
KPML (KEGG Markup Language)
BioPAX (.owl)
Web Ontology Language
SBML (.smbl)
System Biology Markup language
SBGL (.sbgl)
Systems Biology Graphical Notation
PSI-MITAB
KEGG X
wikipathway X
Reactome X X X
• GPML est basé sur le format XML. GPML est le format native utilisé par PathVisio et WikiPathways.
• KEGG Markup Language (KGML) est basé sur le format XML. Il est utilisé par KEGG
• Biological Pathway Exchange (BioPAX) est un langage standard pour la représentation graphique des voies de
signalisations
• BioPax est qualitative et statique: Il décrit les interactions sans annotation spécifique au type d’interaction
• SBML est quantitative et dynamique: il détaille le type d’interaction avec des annotations spécifique
Chemical-Protein Interaction Networks
32
Chemical-Protein pathways
33
http://smpdb.ca/
34
Diseasome: Disease Gene Toxique Association
Format
Tableau
The Comparative Toxicogenomics Database: update 2019
35
Diseasome: Disease Gene Associa.on
eDGAR GAD
Format
Tableau
● Chimique - y compris les polluants industriels
● Médicament
● Toxines
● Structure de protéine
36
Base de données des molécules
37
http://pubchem.ncbi.nlm.nih.gov/
Format de fichier
ASN.1
XML
SDF
MOL
SMILE
Chimioinformatique
38
Source: http://link.fyicenter.com/out.php?ID=571
Structure Data Format
39
SMILE FORMAT : C(=O)C1=CC=C(C=C1)S(=O)(=O)NC(=O)NC1CCCCC1
414
Mrv0541 02231214402D
22 23 0 0 0 0 999 V2000
2.4751 0.0000 0.0000 S 0 0 0 0 0 0 0 0 0 0 0 0
3.9041 0.8250 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1.6500 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
3.3001 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
3.1895 -3.7126 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
3.1895 2.0625 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
2.4751 0.8250 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
3.9041 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.9041 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
4.6185 2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
4.6185 3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
5.3330 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
5.3330 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.1895 1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.4751 -0.8250 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.7606 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.1895 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.4751 -2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.7606 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.1895 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.4751 -3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.7606 -3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1 3 2 0 0 0 0
1 4 2 0 0 0 0
1 7 1 0 0 0 0
1 15 1 0 0 0 0
2 14 2 0 0 0 0
5 21 2 0 0 0 0
6 8 1 0 0 0 0
6 14 1 0 0 0 0
7 14 1 0 0 0 0
8 9 1 0 0 0 0
8 10 1 0 0 0 0
9 11 1 0 0 0 0
10 12 1 0 0 0 0
11 13 1 0 0 0 0
12 13 1 0 0 0 0
15 16 2 0 0 0 0
15 17 1 0 0 0 0
16 19 1 0 0 0 0
17 20 2 0 0 0 0
18 19 2 0 0 0 0
18 20 1 0 0 0 0
18 21 1 0 0 0 0
21 22 1 0 0 0 0
MOL Format
Acetohexamide
40
41
42
Seulement médicament
SDF
Structure Data Format
Séquence Protéine
FASTA
Toutes les informations
XML
43
Base de données de toxines animales
44
Essais :
Hépatotoxine
Cardiotoxine
Rénal toxine
….
45
Format : PDB
46
47

Mais conteúdo relacionado

Semelhante a Databases for Bioinformatics

IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...nst2011
 
Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens. Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens. Fabien Gandon
 
Archi reseaux
Archi reseauxArchi reseaux
Archi reseauxMed Labbi
 
Normes standards (numériques)
Normes standards (numériques)Normes standards (numériques)
Normes standards (numériques)Clément Dussarps
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Les (r)évolutions de la planète Web
Les (r)évolutions de la planète WebLes (r)évolutions de la planète Web
Les (r)évolutions de la planète WebFabien Gandon
 

Semelhante a Databases for Bioinformatics (20)

IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
 
Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens. Données liées et Web sémantique : quand le lien fait sens.
Données liées et Web sémantique : quand le lien fait sens.
 
Archi reseaux
Archi reseauxArchi reseaux
Archi reseaux
 
Normes standards (numériques)
Normes standards (numériques)Normes standards (numériques)
Normes standards (numériques)
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
Sem info system_2012
Sem info system_2012Sem info system_2012
Sem info system_2012
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Les (r)évolutions de la planète Web
Les (r)évolutions de la planète WebLes (r)évolutions de la planète Web
Les (r)évolutions de la planète Web
 

Último

Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Technologia Formation
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Coursebenezerngoran
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxrajaakiass01
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...Faga1939
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxShinyaHilalYamanaka
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetJeanYvesMoine
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfssuserc72852
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 

Último (18)

Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 

Databases for Bioinformatics

  • 1. Base de Données en Bioinformatique Karim Mezhoud kmezhoud@gmail.com Centre National des Sciences et Technologies Nucléaires CNTSN 1
  • 2. Historique: Bases de données en Bioinformatique • La première fonction qu’a eu la Bioinformatique au cours des années 80 est la gestion des données générer à partir des expérimentations en biologie, médecine et en pharmacie. • Les année 80 sont aussi la période où les technologies et les appareillages en biologie ont commencé leurs développement comme la cristallographie, résonance magnétique nucléaire, spectrométrie de mass… • A un moment donnée, il a fallu trouver les moyens pour stocker, traiter, organiser et même pour la suite offrir les outils pour consulter, analyser et interpréter les données. 2Expérimentation Stockage
  • 3. Avant le web • Avant la technologie du WEB (world Wide Web), la communication entre les ordinateurs était locale. • C.à.d. il y avait un clavier et consol (écran) reliés par câble au serveur (disque dur) • Le serveur devrait être équipé de tous les hardwares et softwares nécessaires. • Les banques de données ne pouvaient pas être consultées à distance. • Manque de disponibilité des données à la communauté scientifique pour participer au traitement des données. • La photo à droite montre un ordinateur des années 80. Il n'y avait pas ni interface graphique, ni souris. • Cette photo montre un serveur de capacité 2.5 GB des années 80. • Aujourd’hui un simple clé USB peut contenir 64 GB. 3 Réseau local Ordinateur des années 80 Disque dure des années 80 3
  • 4. Architecture d’un réseau Internet • L’arrivée des interfaces graphiques des systèmes d'exploita<on et des logiciels (WYSIWYG : What You See Is What You Get), et du réseau ont profondément modifié la communica<on dans le monde. • La Bioinforma<que été l’un des domaines qui a profité de ces technologies pour se développer. • En Tunisie, on commence, à peine, à voir conscience de cela. • Le réseau local est composé de plusieurs ordinateurs reliés par des câbles, • Ou bien sans fils (wifi, Bluetooth, Infrarouge). • Aujourd’hui on peut configurer une imprimante sans fil. • Entre le réseau et le réseau externe il y a ce qu’on appelle le PROXY. • C’est matériel informa<que qui permet de gérer les flux d’entrée et de sor<e. • C’est un moyen de sécurité, contrôler, filtrer les informa<ons transmises. 4
  • 5. Architecture Clients - Serveur • La navigation sur le web est un système de communication basé sur l’architecture "client-serveur". • Un internaute connecté avec son ordinateur et un navigateur web (Firefox, chrome) joue le rôle d'un « Client » . Alors que les pages demandées sont fournies par des programmes installés sur un ordinateur lointain jouera le rôle d'une « Serveur ». • Le navigateur web est l’application installé chez le client et qui exploite les services fournis par le serveur. • La communication entre l'ordinateur "client" et l'ordinateur "serveur" se fait en général avec le protocole "HTTP" (HyperText Transfer Protocol). C’est la dernière génération d’échange d’information sous le format HTML (HyperText Markup Langage), contenant du texte, des images et des liens URL (Uniform Resource Locator) vers d’autres serveur/services URL = protocole://adresse IP : port/référence locale Exemple : HTTP://192.156.43.1:8080/répertoire Indiquer le port est une option 5
  • 6. Architecture Clients - Serveur • Le client émet une requête vers le serveur grâce à son adresse et le port, qui désigne un service par9culier du serveur. • C'est toujours le client qui déclenche une demande de service. • Le serveur reçoit la demande et répond à l'aide de l'adresse de la machine client et son port. • Le serveur a@end passivement les requetés des clients (port d’écoute) et peut traiter plusieurs requêtes en même temps. • Par exemple, le numéro de port des services: • FTP : 21, • SMTP (email) : 25, • Web : 80 (défaut). 6
  • 7. Format de fichier Fichier Texte structuré par des champs spécifiques avec une seule clé index comme entrée. 7
  • 8. Format plat: simple texte structuré (.txt) 8
  • 11. Format plat: TAB (Tabulation, Tableau) 11
  • 12. Format plat: TAB (Tabulation, Tableau) 90% 12 Une base de donnée est une collec1on de un ou plusieurs TABLEAUX Un tableau est une collec1on d'une ou plusieurs COLONNES Une colonne est une collec1on d'une ou plusieurs LIGNES Tableau 2Tableau 1 Tableau 3 Tableaux interconnectés = Format Relationnel = Format Structure
  • 13. Ce Tableau a une structure à deux colonnes : • La première contient des DATE • La seconde contient des NOM de personne La première colonne est nommé : Discovery_Date La seconde colonne est nommé : Scientist Format plat: TAB (Tabula1on, Tableau) 90%
  • 14. La colonne 1 n'accepte que des dates : type de donnée numérique La colonne 2 n'accepte que des nom : type de donnée alphabétique Format plat: TAB (Tabulation, Tableau) 90%
  • 15. Supposons le tableau Discovery qui contient les détails des découvertes L'ajout d'une nouvelle colonne nécessite la mise à jour de la structure du tableau Tableau nommé Discovery
  • 16. Supposons le tableau Discovery qui contient les détails des découvertes L'ajout de la nouvelle colonne nécessite la mise à jour de la structure du tableau Tableau nommé Discovery
  • 17. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone Remarques : Il y a des scientifiques qui ont le même nom de famille : Moorhouse Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24 Mais si le tableau est plus grand !!
  • 18. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone Remarques : Il y a des scientifiques qui ont le même nom de famille : Moorhouse Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24 Problèmes : 1. Si un scientifique fait plusieurs découvertes, ces informations personnelles seront introduites plusieurs fois : Cela en informatique consommes du temps et de mémoire 2. Pour faire la différence entre de scientifique de même nom il faut aller voir leurs dates de naissances ou bien leurs N° de tél : Cela n'est pas pratique 3. Si un scientifique change de N° de Tél il faut changer cela dans tous les lignes : Corvée Mais si le tableau est plus grand !!
  • 19. Il faut que l'iden.fiant d'un scien.fique se trouve dans un seul endroit Tableau : Discovery Tableau : Scientists Résoudre les problèmes d'un seul Tableau
  • 20. Il faut que l'identifiant d'un scientifique se trouve dans un seul endroit Tableau : Scientists Résoudre les problèmes d'un seul Tableau Cette technique qui relie des données d'un tableau 1 aux données d'un tableau 2 est la forme moderne des bases de données qui s'appelle : Relation Database Management Systems (RDBMS)
  • 21. ● Personnel : Access, paradox, FileMaker, dBase ● Entreprise : InterBase, Ongres, DB2, Oracle ● Open source : PostgreSQL, MySQL Il est distribué sous une double licence GPL et propriétaire. Il fait par8e des logiciels de ges8on de base de données les plus u8lisés au monde1, autant par le grand public (applica8ons web principalement) que par des professionnels, en concurrence avec Oracle, Informix et MicrosoE SQL Server. Structured Query Language Les systèmes de base de données
  • 22. Base de Donnée des Interactions physiques des protéines The International Molecular Exchange Consortium PSI-MI XML 2.5 Proteomics Standards Initiative Molecular Interaction XML/TAB Format PSI-MI TAB (MITAB25) http://www.imexconsortium.org/
  • 23. PSI-MI XML 2.5 Exemple Make file with cytoscape !
  • 24. PSI-MI TAB (MITAB25) • Unique identifier for interactor A : unique Accession from own database • Unique identifier for interactor B : unique Accession from own database • Alternative identifier for interactor A : Gene Symbol • Alternative identifier for interactor B. : Gene Symbol • Aliases for A : Multiple identifiers separated by "|" • Aliases for B : Multiple identifiers separated by "|" • Interaction detection methods • First author • Identifier of the publication • NCBI Taxonomy identifier for interactor A. • NCBI Taxonomy identifier for interactor B • Interaction types • Source databases • Interaction identifier(s) in the corresponding source database, represented by databaseName:identifier • Confidence score. https://code.google.com/archive/p/psimi/wikis/PsimiTabFormat.wiki
  • 25. 25 Base de Donnée des Interac/ons physiques des protéines
  • 27. KEGG: Kyoto Encyclopedia of Genes and Genomes
  • 28. KEGG: Kyoto Encyclopedia of Genes and Genomes
  • 31. 31 Format de Fichier (XML) TAB GPML (.gpml) Graphical Pathway Markup Language KPML (KEGG Markup Language) BioPAX (.owl) Web Ontology Language SBML (.smbl) System Biology Markup language SBGL (.sbgl) Systems Biology Graphical Notation PSI-MITAB KEGG X wikipathway X Reactome X X X • GPML est basé sur le format XML. GPML est le format native utilisé par PathVisio et WikiPathways. • KEGG Markup Language (KGML) est basé sur le format XML. Il est utilisé par KEGG • Biological Pathway Exchange (BioPAX) est un langage standard pour la représentation graphique des voies de signalisations • BioPax est qualitative et statique: Il décrit les interactions sans annotation spécifique au type d’interaction • SBML est quantitative et dynamique: il détaille le type d’interaction avec des annotations spécifique
  • 34. 34 Diseasome: Disease Gene Toxique Association Format Tableau The Comparative Toxicogenomics Database: update 2019
  • 35. 35 Diseasome: Disease Gene Associa.on eDGAR GAD Format Tableau
  • 36. ● Chimique - y compris les polluants industriels ● Médicament ● Toxines ● Structure de protéine 36 Base de données des molécules
  • 39. 39 SMILE FORMAT : C(=O)C1=CC=C(C=C1)S(=O)(=O)NC(=O)NC1CCCCC1 414 Mrv0541 02231214402D 22 23 0 0 0 0 999 V2000 2.4751 0.0000 0.0000 S 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 0.8250 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 1.6500 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.3001 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -3.7126 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 2.0625 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 0.8250 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 4.6185 2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 4.6185 3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 5.3330 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 5.3330 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -0.8250 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1 3 2 0 0 0 0 1 4 2 0 0 0 0 1 7 1 0 0 0 0 1 15 1 0 0 0 0 2 14 2 0 0 0 0 5 21 2 0 0 0 0 6 8 1 0 0 0 0 6 14 1 0 0 0 0 7 14 1 0 0 0 0 8 9 1 0 0 0 0 8 10 1 0 0 0 0 9 11 1 0 0 0 0 10 12 1 0 0 0 0 11 13 1 0 0 0 0 12 13 1 0 0 0 0 15 16 2 0 0 0 0 15 17 1 0 0 0 0 16 19 1 0 0 0 0 17 20 2 0 0 0 0 18 19 2 0 0 0 0 18 20 1 0 0 0 0 18 21 1 0 0 0 0 21 22 1 0 0 0 0 MOL Format Acetohexamide
  • 40. 40
  • 41. 41
  • 42. 42 Seulement médicament SDF Structure Data Format Séquence Protéine FASTA Toutes les informations XML
  • 43. 43 Base de données de toxines animales
  • 46. 46
  • 47. 47