Anúncio
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medical
Anúncio
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medical
Próximos SlideShares
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Carregando em ... 3
1 de 6
Anúncio

Mais conteúdo relacionado

Apresentações para você(20)

Anúncio

Similar a Cahier des charges pour la création d'un data warehouse medical(20)

Mais de Vincent H. Hupertan(20)

Anúncio

Último(20)

Cahier des charges pour la création d'un data warehouse medical

  1. Hupertan, MD, MR N°SIREN 448 931 915 00038 RPPS : 1000 39 70 315 N° Ordre : 75 1 68044 8 h u p e r t a n . s t a t @ m e . c o m h u p e r t a n @ g m a i l . c o m Mobile + 3 3 6 7 6 8 3 8 9 0 1 MD, Urologist-Sexologist, Hospital Doctor, Consultant Clinical Research, Data Mining & Statistics http://about.me/hupertan Cahier de charges pour la création d’un « entrepôt de données » pour le suivi des patients dans un but de recheche bio-médicale Aspect méthodologique, éthiques, pratiques Vincent Hupertan MR HUPERTAN VINCENT HOREA 3 avenue de Wailly, 78290 Croissy Sur Seine, Paris
  2. Cahier des charges «DataWarehouse urologie»" 1/5 Cahier des charges pour la création dʼun «entrepôt de données» pour le suivi des cohortes des patients dans un but de recherche biomédi-cale » Vincent Hupertan Statistics Master en Extraction des Connaissances à partir de données (Ingénieurie des connaissances) hupertan.stat@me.com 06.76.83.89.01 Data analysis, Statistics @ RD consulting Conseil en statistique et recherche médicale (1) Définition et historique Entrepôt de données («DataWarehouse») est constitué par l’ensemble d'éléments matériels et logiciels qui ont comme objectif de stockage numérique des données générées pas l’activité d’une entreprise (au sens très large). Le stockage n’est pas une finalité en soi mais une issue logique de l’informatisation de l’activité humaine. Ainsi les entrepôts de données sont devenus la mémoire de l'activité de l’entreprise. Après une première période d’archivage pur, au fur et à mesure du baisse du cout du stockage, d’explosion de la volumétrie les entrepôts avaient commencé à être considérée comme source d’information pour évaluer et améliorer les performances. Progressivement il y a eu l’évolution inéluctable en passant du stockage, à la l’analyse grâce à des tableaux de bord (OLAP) dans les années ’90, à des analyses plus poussée et au Data Mining (extraction des connaissances à partir des données) au début des années 2000. Si les entreprises ont vite compris la nécessité des constituer ces entrepôts, avec la création des véritable Data Center (Carrefour un des plus important DataCenter français près de Lille, GlaxoSmithKline – Research Triangle Park at North Carolina – « KNOWLEDGE DISCOVERY CENTER »). A contrario, les établissement de santé et notamment les hôpitaux ont toujours resté à la traine. Si l’informatisation c’est développé avec l’avénement du PMSI, T2A le recueil de données à visé recherche continue à se faire essentiellement grâce à des tableurs (Excel). (2) Principes La constitution des bases de données orientées recherche médicale (en excluant d’emblée les essais cliniques), notamment celles utilisées dans le suivi des cohortes la réflexion autour de la créa-tion des bases doit faire l'objet d’une réflexion approfondie pour éviter un certains nombre d’erreur. C’est toujours délicat de soumettre un article et ensuite avoir une question de reviewer sur un para-mètre que l’on a pas inclue dans la base (exemple récent avec l’indice de CLAVIEN dans les né-phrectomie partielles). Un certain nombre des principes et des conditions sont à connaître: I. Récupérer l’intégralité des donnée existantes quelque soit le format (Excel!). jeudi 31 mars 2011" Document confidentiel
  3. Cahier des charges «DataWarehouse urologie»" 2/5 II. Respecter la traçabilité de l’information1. En effet si besoin y est ont devrait pouvoir retrouver le cheminement pour revenir à la source primaire d’information à partir de la base: A. Identifiant unique (PATIDENT) pour un patient qui doit être identique entre la base et le do-cument original (le dossier papier dit aussi «mille feuilles», CR anapath, CR imagerie). B. Tous les corrections et les codages appliqués aux données originelle doivent être annotés et documentées. C. Un journal de data management doit accompagner la base. III. Respecter l’étapes du procèsus standard2 pour la constitution de la base: A. Design des données à enregistrer. Il s’agit d’une projection en terme de (1) enregistrements et (2) d’organisation des tables à l'intérieur de la base de données. 1. Quels enregistrements ( terminologie variée: variables, champs, colonnes). a) Nécessité absolue de faire un audit des données existantes (sous forme de tableur ou base de données). Cet audit ne doit pas être dissocié d’un approche théorique sur les items à recueilli pour améliorer le contenu information de la cohorte. Des nouvel items peuvent ainsi apparaître. b) Après l'identification des items il faut faire une choix pour ceux qui sont à garder. L’arbitrage qui permet de faire le choix des items à garder dans la base devrait ré-pondre à un bon compromis entre l’exhaustivité de données et le risque d’avoir des données manquantes. 2. Type et contenu des enregistrements. Les règles de bon sens sont à appliquer: a) Utiliser un identifiant unique sans risque de doublon; b) Utiliser un «livre de codage» (Codebook) détaillé avec le nom, descriptif, codage de chaque variable. Les codage doit être validé. Si possible préférer les données brutes. c) Eviter les textes libres, évidement avoir une préférence aux données brutes sans cal-cul AVANT la saisie (poids et taille et non pas le BMI, densité de PSA). Enregistrer que les dates et pas les calculs sur dates (âge, durée de recul). d) Assurer une gestion adéquate des données manquantes. Dans la situation d’une item vide on va s’interroger s’il agit d’un oubli, d’une erreur, donnée effacée etc; Pour ce la il faut: (1) Éviter les «blanc» si la données est manquante; (2) Appliquer un codage standard (ec. 99, 98); (3) Faire la différence entre: (a) «missing» 99; 1 Audit Trail 2 La création de bases pour les essais cliniques prospectifs nécessitent un processus particulier en accord avec le de-sign de lʼétude: (1) à partir des objectifs de lʼétude=> (b) méthodologie statistique, (c) données à recueillir et terminer avec le (d)design de la base jeudi 31 mars 2011" Document confidentiel
  4. des charges «DataWarehouse urologie»" 3/5 (b) N/A (non applicable): 98 (ex. score de Gleason avec des biopsies négati-ves, ou antécédents obstétricaux chez des hommes). 3. Les items doivent ensuite être organisés en tables, une structure à l’intérieur de la base selon une structure relationnelle de type3 1 - n, plus rarement n à m. Cette organisation doit tenir compte des «éléments unitaires»4. Visite 1 Visite nr 2 Acte nr 1 Patient 1 Patient 2 Patient 3 ................ 1 à n B. Définir l'ergonomie de la saisie ains que la fonctionnalité. Par exemple, dans une et même base il faut associer des consultation et des actes. Un ou plusieurs actes ( une base «biopsie prostate» et une base différente «prostatectomie»). Limiter le recueil à des pathologies parti-culières ou la totalité des patients? IV. Saisie des donnée uniquement à l’aide des logiciels spécialisés. Les TABLEURS ne sont pas des bases de donnée et sont à proscrire! V. Dans la mesure il peut toujours y avoir des erreurs après la saisie dès la conception de la bases il faut imaginer un processus de validation et de correction des erreurs pendant et ou après la saisie. A part les erreurs de saisie les erreurs qui peuvent apparaître sont du à une interprétation erroné des questions, ou encore à un codage ambigu. VI. Ne jamais modifier les données originales après la saisie et la validation et garder un journal des modification apportées à la base (qui a modifié la donnée et quand). VII. Archivage des données est obligatoire, pendant la saisie et évidement à la fin de l’étude. L’ar-chivage peut se faire sur place (disque de sauvegarde) ou encore à distance via internet. VIII.Considérations de sécurité et confidentialité. A. Le traitement des données à caractère personnel est soumis à des règles très strictes (cf à la loi du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés modifiée). Dans la mesure ou sur le plan méthodologique le recueil prospectif de données de patients suivis dans un établissement publique santé, dans un objectif de recherche biomédicale, peut être considéré comme une recherche épidémiologique au sens des articles L1121--1 et suivants du Code de la Santé Publique, les recherches épidémiologiques(études de cohortes, et ou études d'usage des médicaments) les dispositions de la «METHODOLOGIE DE RE-Cahier 3 un patient qui à plusieurs visites 4 éléments unitaires: un patients, une visite, un acte, une carotte biopsique jeudi 31 mars 2011" Document confidentiel
  5. Cahier des charges «DataWarehouse urologie»" 4/5 FERENCE POUR LES TRAITEMENTS DE DONNEES PERSONNELLES OPERES DANS LE CADRE DES RECHERCHES BIOMEDICALES»5 B. Les fichiers doivent être déclarés à la CNIL; C. Les patients doivent être informés du recueil des données, et dispose d’un droit d’accès. D. L’ensemble des procédures doivent mis en place pour assurer la sécurité des données (cryp-tage des données, mot de passe d’une longueur minimale, l’existence d’un gestionnaire des mot de passe, le recueil des données sensibles (sexualité) doit être justifié). (3) Mise en oeuvre (A)L’étape de design de la table est sous la responsabilité «des experts» et doit aboutir à l’identification des items à enregistrer. Ce n’est qu’après que le choix du logiciel et la réalisation pratique du projet peut se faire. (B) En terme de réalisation plusieurs scénarios sont possibles: I. Base de données sur intranet de l’hôpital. A. Avantages: 1. Possibilité de lier la base via le NIP avec des éléments du dossier médical (comptes ren-dus MediWeb Ⓡet CRWEBⓇ voir avec le PACS). 2. Droit du recueil du nom et le prénom. 3. Moins de formalités auprès de la CNIL. 4. Choix possible du logiciel de bases de données: logiciel réseaux ou d’une logiciel fonc-tionnement via une interface browser(Internet ExplorerⓇ). 5. La protection et la sécurité de la base est assurée par l’institution. B. Désavantages: 1. Inaccessibilité de la base de l’extérieur pour des analyses ad hoc (congrès, questions ur-gentes des reviewers) 2. Dépendance totale du service informatique de l’hôpital: a) Complexité de la mise ne oeuvre; b) Lourdeur si panne informatique; c) Choix logiciel et du OS (Microsoft WindowⓇ est obligatoire) d) Localisation du serveur (service informatique) e) Eventuel coût lié à l’achat du logiciel, si l’institution n’a pas de licence. II. La base stocké sur un serveur internet 5 Méthodologie de référence homologuée par décision du 5 janvier 2006 la par la Commission nationale de lʼinformatique et libertés, après concertation avec le Comité consultatif sur le traitement de lʼinformation en matière de recherche dans le domaine de la santé et consultation dʼorganismes de recherches publics et privés représentatifs, en application des dispositions de lʼarticle 54 alinéa 5 de la loi du 6 janvier 1978 relative à lʼinformatique, aux fichiers et aux libertés modi-fiée. jeudi 31 mars 2011" Document confidentiel
  6. Cahier des charges «DataWarehouse urologie»" 5/5 A. Avantages a) Accessibilité 24/24 des bases b) Choix du serveur, de l’OS (Windows, Linux et MAC OS Serveur). c) Choix du logiciel et terme de performance, coût de licence. d) Autonomie totale de la gestion de la base: maintenance, stockage, archiva et back-up, exploitation. B. Désavantages: a) Impossibilité de stocker le NOM et le PRENOM; b) Lourdeur administrative (CNIL): c) Coût de domiciliation de la base; d) Protection et sécurité des données à assurer. (4) Etapes: I. Sans informaticien: A. Nommer des responsables pour auditer chacune des bases existantes=> projets de design e tables. B. Discuter la pertinence des design proposés en réunion. II. Avec l’aide du programmateur informatique: A. Discuter le design de la table de donnée: structure, organisation B. Choix du logiciel, serveur physique. C. Discuter le type de maintenance de la base et les responsabilités. (5) Conclusion La création d’un entrepôt de données se fait un trois étapes, avec une première lié au organisation de l’information. Ensuite les étapes de réalisation et de mise en place. jeudi 31 mars 2011" Document confidentiel
Anúncio