1. Base de Données en
Bioinformatique
Karim Mezhoud
kmezhoud@gmail.com
Centre National des Sciences et Technologies Nucléaires
CNTSN
1
2. Historique: Bases de données en Bioinformatique
• La première fonction qu’a eu la Bioinformatique au cours des années 80 est la gestion des données générer à partir
des expérimentations en biologie, médecine et en pharmacie.
• Les année 80 sont aussi la période où les technologies et les appareillages en biologie ont commencé leurs
développement comme la cristallographie, résonance magnétique nucléaire, spectrométrie de mass…
• A un moment donnée, il a fallu trouver les moyens pour stocker, traiter, organiser et même pour la suite offrir les
outils pour consulter, analyser et interpréter les données.
2Expérimentation
Stockage
3. Avant le web
• Avant la technologie du WEB (world Wide Web), la communication entre les
ordinateurs était locale.
• C.à.d. il y avait un clavier et consol (écran) reliés par câble au serveur (disque dur)
• Le serveur devrait être équipé de tous les hardwares et softwares nécessaires.
• Les banques de données ne pouvaient pas être consultées à distance.
• Manque de disponibilité des données à la communauté scientifique pour
participer au traitement des données.
• La photo à droite montre un ordinateur des années 80. Il n'y avait pas ni interface
graphique, ni souris.
• Cette photo montre un serveur de capacité 2.5 GB des années 80.
• Aujourd’hui un simple clé USB peut contenir 64 GB.
3
Réseau local
Ordinateur des années 80
Disque dure des années 80 3
4. Architecture d’un réseau Internet
• L’arrivée des interfaces graphiques des systèmes d'exploita<on et des logiciels
(WYSIWYG : What You See Is What You Get), et du réseau ont profondément
modifié la communica<on dans le monde.
• La Bioinforma<que été l’un des domaines qui a profité de ces technologies pour
se développer.
• En Tunisie, on commence, à peine, à voir conscience de cela.
• Le réseau local est composé de plusieurs ordinateurs reliés par des câbles,
• Ou bien sans fils (wifi, Bluetooth, Infrarouge).
• Aujourd’hui on peut configurer une imprimante sans fil.
• Entre le réseau et le réseau externe il y a ce qu’on appelle le PROXY.
• C’est matériel informa<que qui permet de gérer les flux d’entrée et de sor<e.
• C’est un moyen de sécurité, contrôler, filtrer les informa<ons transmises.
4
5. Architecture Clients - Serveur
• La navigation sur le web est un système de communication basé sur
l’architecture "client-serveur".
• Un internaute connecté avec son ordinateur et un navigateur web (Firefox,
chrome) joue le rôle d'un « Client » . Alors que les pages demandées sont
fournies par des programmes installés sur un ordinateur lointain jouera le rôle
d'une « Serveur ».
• Le navigateur web est l’application installé chez le client et qui exploite les
services fournis par le serveur.
• La communication entre l'ordinateur "client" et l'ordinateur "serveur" se fait
en général avec le protocole "HTTP" (HyperText Transfer Protocol). C’est la
dernière génération d’échange d’information sous le format HTML (HyperText
Markup Langage), contenant du texte, des images et des liens URL (Uniform
Resource Locator) vers d’autres serveur/services
URL = protocole://adresse IP : port/référence locale
Exemple : HTTP://192.156.43.1:8080/répertoire
Indiquer le port est une option
5
6. Architecture Clients - Serveur
• Le client émet une requête vers le serveur grâce à son adresse et le port, qui
désigne un service par9culier du serveur.
• C'est toujours le client qui déclenche une demande de service.
• Le serveur reçoit la demande et répond à l'aide de l'adresse de la machine
client et son port.
• Le serveur a@end passivement les requetés des clients (port d’écoute) et peut
traiter plusieurs requêtes en même temps.
• Par exemple, le numéro de port des services:
• FTP : 21,
• SMTP (email) : 25,
• Web : 80 (défaut).
6
7. Format de fichier
Fichier Texte structuré par des champs spécifiques avec une seule clé index comme entrée.
7
12. Format plat: TAB (Tabulation, Tableau) 90%
12
Une base de donnée est une collec1on de un ou plusieurs TABLEAUX
Un tableau est une collec1on d'une ou plusieurs COLONNES
Une colonne est une collec1on d'une ou plusieurs LIGNES
Tableau 2Tableau 1 Tableau 3
Tableaux interconnectés = Format Relationnel = Format Structure
13. Ce Tableau a une structure à deux colonnes :
• La première contient des DATE
• La seconde contient des NOM de personne
La première colonne est nommé : Discovery_Date
La seconde colonne est nommé : Scientist
Format plat: TAB (Tabula1on, Tableau) 90%
14. La colonne 1 n'accepte que des dates : type de donnée numérique
La colonne 2 n'accepte que des nom : type de donnée alphabétique
Format plat: TAB (Tabulation, Tableau) 90%
15. Supposons le tableau Discovery qui contient les détails des découvertes
L'ajout d'une nouvelle colonne nécessite la mise à jour de la structure du tableau
Tableau nommé Discovery
16. Supposons le tableau Discovery qui contient les détails des découvertes
L'ajout de la nouvelle colonne nécessite la mise à jour de la structure du tableau
Tableau nommé Discovery
17. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone
Remarques :
Il y a des scientifiques qui ont le même nom de famille : Moorhouse
Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24
Mais si le tableau est plus grand !!
18. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone
Remarques :
Il y a des scientifiques qui ont le même nom de famille : Moorhouse
Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24
Problèmes :
1. Si un scientifique fait plusieurs découvertes, ces informations personnelles seront introduites
plusieurs fois : Cela en informatique consommes du temps et de mémoire
2. Pour faire la différence entre de scientifique de même nom il faut aller voir leurs dates de
naissances ou bien leurs N° de tél : Cela n'est pas pratique
3. Si un scientifique change de N° de Tél il faut changer cela dans tous les lignes : Corvée
Mais si le tableau est plus grand !!
19. Il faut que l'iden.fiant d'un scien.fique se trouve dans un seul endroit
Tableau : Discovery
Tableau : Scientists
Résoudre les problèmes d'un seul Tableau
20. Il faut que l'identifiant d'un scientifique se trouve dans un seul endroit
Tableau : Scientists
Résoudre les problèmes d'un seul Tableau
Cette technique qui relie des données d'un tableau 1 aux données d'un
tableau 2 est la forme moderne des bases de données qui s'appelle :
Relation Database Management Systems (RDBMS)
21. ● Personnel : Access, paradox, FileMaker, dBase
● Entreprise : InterBase, Ongres, DB2, Oracle
● Open source : PostgreSQL, MySQL
Il est distribué sous une double licence GPL et propriétaire.
Il fait par8e des logiciels de ges8on de base de données les plus u8lisés au monde1, autant
par le grand public (applica8ons web principalement) que par des professionnels, en
concurrence avec Oracle, Informix et MicrosoE SQL Server.
Structured Query Language
Les systèmes de base de données
22. Base de Donnée des Interactions physiques des protéines
The International Molecular Exchange Consortium
PSI-MI XML 2.5
Proteomics Standards Initiative
Molecular Interaction XML/TAB Format
PSI-MI TAB (MITAB25)
http://www.imexconsortium.org/
24. PSI-MI TAB (MITAB25)
• Unique identifier for interactor A : unique Accession from own database
• Unique identifier for interactor B : unique Accession from own database
• Alternative identifier for interactor A : Gene Symbol
• Alternative identifier for interactor B. : Gene Symbol
• Aliases for A : Multiple identifiers separated by "|"
• Aliases for B : Multiple identifiers separated by "|"
• Interaction detection methods
• First author
• Identifier of the publication
• NCBI Taxonomy identifier for interactor A.
• NCBI Taxonomy identifier for interactor B
• Interaction types
• Source databases
• Interaction identifier(s) in the corresponding source database, represented by databaseName:identifier
• Confidence score.
https://code.google.com/archive/p/psimi/wikis/PsimiTabFormat.wiki
31. 31
Format de Fichier (XML) TAB
GPML (.gpml)
Graphical Pathway Markup Language
KPML (KEGG Markup Language)
BioPAX (.owl)
Web Ontology Language
SBML (.smbl)
System Biology Markup language
SBGL (.sbgl)
Systems Biology Graphical Notation
PSI-MITAB
KEGG X
wikipathway X
Reactome X X X
• GPML est basé sur le format XML. GPML est le format native utilisé par PathVisio et WikiPathways.
• KEGG Markup Language (KGML) est basé sur le format XML. Il est utilisé par KEGG
• Biological Pathway Exchange (BioPAX) est un langage standard pour la représentation graphique des voies de
signalisations
• BioPax est qualitative et statique: Il décrit les interactions sans annotation spécifique au type d’interaction
• SBML est quantitative et dynamique: il détaille le type d’interaction avec des annotations spécifique