SlideShare uma empresa Scribd logo
1 de 53
Baixar para ler offline
Metadatos	
  en	
  biociencia:	
  posibilitando	
  la	
  
invesQgación	
  reproducible	
  y	
  reuQlizable	
  


                 Alejandra	
  González-­‐Beltrán,	
  PhD	
  

                Senior Software Engineer, ISATeam
           Oxford	
  e-­‐Research	
  Centre,	
  University	
  of	
  Oxford	
  
                                          	
  Oxford,	
  UK

                 SELENfest	
  2012	
  –	
  CIFASIS,	
  UNR,	
  19	
  Diciembre	
  2012	
  
El	
  contexto	
  
                                                   health	
  

                                                                 agro	
  



 env	
  


                     tox/pharma	
  
           Source	
  of	
  the	
  figure:	
  EBI	
  website	
  

La	
  biociencia	
  
es	
  mulQ-­‐dominio	
  
El	
  contexto	
  
                                                   health	
  

                                                                 agro	
  



 env	
  


                     tox/pharma	
  
           Source	
  of	
  the	
  figure:	
  EBI	
  website	
  

La	
  biociencia	
  
es	
  mulQ-­‐dominio	
                                                      Petabytes	
  de	
  datos	
  
El	
  contexto	
  
                                                   health	
  

                                                                 agro	
  



 env	
  


                     tox/pharma	
  
           Source	
  of	
  the	
  figure:	
  EBI	
  website	
  

La	
  biociencia	
  
es	
  mulQ-­‐dominio	
                                                          Petabytes	
  de	
  datos	
  
                                                                          Metadatos	
  
                                                                       experimentales	
  en	
  
                                                                      notas	
  de	
  laboratorio	
  
Ioannidis	
   et	
   al.,	
   Repeatability	
   of	
   published	
   microarray	
  
gene	
  expression	
  analyses.	
  Nature	
  Gene*cs	
  41(2),	
  149-­‐55	
  
(2009)	
  doi:10.1038/ng.295	
  	
  
Ioannidis	
   et	
   al.,	
   Repeatability	
   of	
   published	
   microarray	
  
gene	
  expression	
  analyses.	
  Nature	
  Gene*cs	
  41(2),	
  149-­‐55	
  
(2009)	
  doi:10.1038/ng.295	
  	
  
h]p://www.nature.com/news/2011/110111/full/469139a.html	
  
h]p://www.nature.com/news/2011/110111/full/469139a.html	
  




         h]p://www.economist.com/node/21528593	
  
h]p://www.nature.com/news/2011/110111/full/469139a.html	
  




        h]p://www.economist.com/node/21528593	
        h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html	
  
Analogía	
  de	
  la	
  lata	
  de	
  conservas	
  
basada	
  en	
  comentario	
  por	
  	
  Norman	
  
Morrison	
  y	
  converQda	
  de	
  ontologías	
  
                 a	
  metadatos.	
  
Descripción	
  de	
  experimentos…	
  
     	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
   	
  metadatos	
  
•  Fragmentación	
  de	
  formatos	
  	
  
	
  	
  	
  	
  	
  	
  (e.g.	
  MAGE-­‐Tab,	
  PRIDE-­‐XML,	
  SRA-­‐XML)	
  




•  Los	
  disQntos	
  formatos	
  capturan	
  disQnta	
  información…	
  
    	
     	
   	
     	
  …	
  pero	
  hay	
  muchas	
  cosas	
  comunes	
  




•  Las	
  terminologías	
  que	
  se	
  usan	
  para	
  describir	
  los	
  
	
  experimentos	
  varían	
  mucho…	
  
Variadas	
  comunidades	
  de	
  expertos…	
  	
  
  	
   	
   	
   	
   	
   	
   	
   	
   	
  …variadas	
  normas	
  y	
  estándares	
  	
  




                                                          usar	
  la	
  misma	
  palabra	
  
              permiten	
  que	
  los	
  datos	
                                                 reportar	
  la	
  misma	
  
                                                            para	
  referirse	
  a	
  las	
  
              se	
  transmitan	
  entre	
  sistemas	
                                           Información	
  esencial	
  	
  
                                                            mismas	
  cosas	
  
h]p://xkcd.com/927/	
  
Variadas	
  comunidades	
  de	
  expertos…	
  	
  
  	
   	
   	
   	
   	
   	
   	
   	
   	
  …variadas	
  normas	
  y	
  estándares	
  	
  




                                                          usar	
  la	
  misma	
  palabra	
  
              permiten	
  que	
  los	
  datos	
                                                 reportar	
  la	
  misma	
  
                                                            para	
  referirse	
  a	
  las	
  
              se	
  transmitan	
  entre	
  sistemas	
                                           Información	
  esencial	
  	
  
                                                            mismas	
  cosas	
  


                              Desafíos: falta de interacción y coordinación,
                               fragmentación y cubrimiento desparejo…
                                      dificulta la interoperabilidad
Estándares	
  de	
  reporte	
  de	
  datos	
  en	
  expansión…	
  




                        MAGE-Tab!     AAO!            miame!
                      GCDML!                               MIAPA!
                                         CHEBI!                     GIATE!
                        SRAxml!       OBI!            MIRIAM!
                                           VO!
              SOFT!                                            MIQAS!
                    FASTA!          PATO!                MIX!
       CML!                                  ENVO!                    REMARK!
                DICOM!                                      MIGEN!
     GELML!                          MOD!
                  SBRML!                                 MIAPE!       MIQE!
                                         TEDDY!
 MITAB!     MzML!                 XAO!                         CIMR! CONSORT!
                                              BTO!
ISA-Tab! SEDML…!              DO	
   PRO!     IDO…!          MIASE! MISFISHIE….!
Estándares	
  de	
  reporte	
  de	
  datos	
  en	
  expansión…	
  
                                                                     +	
  303	
  	
  




                                                                                                                     +	
  150	
  	
  
                           +	
  130	
  	
  




                                                                                                                                        Source:	
  MIBBI,	
  	
  
                                                                                        Source:	
  BioPortal	
  
                                              Es(mated	
  




                                                                                                                                                     EQUATOR	
  
                                                                                                                                                                             Databases,	
  	
  
                                                                                                                                                                             annotaQon,	
  
                                                                                                                                                                              curaQon	
  	
  
                                                                                                                                                                                tools	
  
                        MAGE-Tab!                              AAO!                                                miame!
                      GCDML!                                                                                            MIAPA!
                                                                  CHEBI!                                                                                            GIATE!
                        SRAxml!                                OBI!                                                MIRIAM!
                                                                    VO!
              SOFT!                                                                                                              MIQAS!
                    FASTA!                                   PATO!                                                         MIX!
       CML!                                                                ENVO!                                                        REMARK!
                DICOM!                                                                                                        MIGEN!
     GELML!                                                   MOD!
                  SBRML!                                                                                                   MIAPE!                                     MIQE!
                                                                    TEDDY!
 MITAB!     MzML!                                            XAO!                                                                           CIMR! CONSORT!
                                                                                   BTO!
ISA-Tab! SEDML…!                      DO	
   PRO!                                IDO…!                                                    MIASE! MISFISHIE….!
Pero…	
  	
  
 cómo	
  podemos	
  saber	
  cuáles	
  son	
  los	
  estándares	
  y	
  sus	
  interrelaciones	
  
                                                                              Uso	
  tecnologías	
  de	
  
        Qué	
  herramientas	
  y	
  
                                                                             secuenciación,	
  qué	
  
          bases	
  de	
  datos	
  
                                                                          estándares	
  son	
  relevantes	
  
         implementan	
  qué	
  
                                                                                      para	
  mí?	
  
           estándares?	
  

                                                                                           Cómo	
  puedo	
  
   Cuál	
  es	
  el	
  criterio	
                                                        involucrarme	
  en	
  
    para	
  evaluar	
  su	
                                                                  proponer	
  
    estado	
  y	
  valor?	
                                                                extensiones	
  o	
  
                                                                                         modificaciones?	
  


               Cuáles	
  son	
  lo	
             Qué	
  formatos	
                Trabajo	
  con	
  plantas,	
  
              suficientemente	
                 soportan	
  “listas	
  de	
         son	
  los	
  estándares	
  
            maduros	
  para	
  usar	
  o	
        información	
                   relevantes	
  sólo	
  para	
  
            recomendar	
  su	
  uso?	
              mínima”	
                         aplicaciones	
  
                                                  espécificas?	
                       biomédicas?	
  
inves(ga(on	
  study	
  assay	
  

•  AsisQr	
  en	
  la	
  anotación/descripción	
  y	
  administración	
  de	
  
   datos	
  experimentales	
  en	
  el	
  origen	
  
•  Considerar	
  datos	
  de	
  estudios	
  de	
  alto	
  rendimiento	
  
   usando	
  una	
  o	
  más	
  tecnologías	
  ómicas	
  u	
  otras	
  
   tecnologías	
  
•  PermiQr	
  a	
  los	
  usarios	
  adoptar	
  los	
  estándares	
  de	
  	
  	
  
   reporte	
  definidos	
  por	
  la	
  comunidad	
  (formatos,	
  listas	
  de	
  
   verificación	
  y	
  ontologías)	
  
•  Facilitar	
  comparQr	
  los	
  datos,	
  reusarlos,	
  comparar	
  y	
  
   reproducir	
  los	
  experimentos,	
  remiQr	
  datos	
  a	
  
   repositorios	
  públicos	
  internacionales	
  
 	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  El	
  ecosistema	
  	
  	
  	
  	
  
 	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  El	
  ecosistema	
  	
  	
  	
  	
  




                ISA software suite: supporting standards-compliant                         Towards interoperable bioscience data	

                experimental annotation and enabling curation at the                       Sansone et al, 2012	

                community level	

                                                         Nature Genetics	

                Rocca-Serra et al, 2010	

                Bioinformatics
Formato	
  flexible	
  y	
  de	
  propósito	
  
general	
  
Formato	
  tabular	
  (vs	
  XML)	
  
AgnósQco	
  del	
  dominio	
  
Captura	
  metadatos	
  de	
  
experimentos	
  ómicos	
  y	
  de	
  
experimentos	
  tradicionales	
  (e.g.	
  
clínica	
  química	
  e	
  histología)	
  
file chooser




               publication searcher                                     visualization




                                                                                    ontology search
QR code generator




                                      automated ontology tagging
      spreadsheet-like interface       tagterms   visualise   suggest   clear all   help
                                                                                           powered by ncbo annotator
Permite	
  reportar	
  y	
  editar	
  la	
  descripción	
  del	
  
        experimento	
  usando	
  Google	
  Spreadsheets.	
  	
  
                                       	
  
 Se	
  pueden	
  usar	
  Google	
  Spreadsheets	
  en	
  cobinación	
  
   con	
  planQlas	
  ISA-­‐Tab	
  (generadas	
  importando	
  un	
  
archivo	
  Excel	
  en	
  ISAconfigurator)	
  y	
  OntoMaton	
  (para	
  
búquedas	
  de	
  ontologías	
  y	
  eQquetado)	
  para	
  describir	
  
                            la	
  invesQgación.	
  
-­‐  collaboraQve	
  annotaQon	
  
                                                                           -­‐  distributed	
  groups	
  of	
  users	
  
                                                                           -­‐  version	
  control	
  &	
  history	
  
                                                                           	
  
Ontology	
  Search	
  and	
  Tagging	
  in	
  Google	
  Spreadsheets	
  
Permite	
  crear	
  planQllas	
  detallando	
  los	
  pasos	
  a	
  reportar	
  para	
  
   disQntos	
  Qpos	
  de	
  invesQgaciones,	
  que	
  conformen	
  con	
  los	
  
                                    estándares	
  definidos	
  por	
  la	
  comunidad	
  (listados	
  
en	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ),	
  e.g.	
  configurar	
  los	
  campos	
  para	
  que	
  sean	
  (i)	
  
                conceptos	
  de	
  una	
  o	
  más	
  ontologías,	
  (ii)	
  texto	
  (con/sin	
  
  verificación	
  con	
  expresiones	
  regulares),	
  (iii)	
  números,	
  etc.	
  
Con	
  los	
  archivos	
  ISA-­‐Tab	
  podemos	
  llevar	
  a	
  cabo	
  el	
  análisis	
  de	
  los	
  datos,	
  converQr	
  a	
  RDF/OWL	
  u	
  
               otros	
  formatos	
  para	
  	
  enviarlos/comparQrlos	
  a	
  repositorios	
  locales	
  o	
  remotos.	
  
•  Paquete	
  en	
  lenguaje	
  R,	
  disponible	
  en	
  
   BioConductor	
  2.11	
  	
  
                          h]p://bioconductor.org/packages/release/bioc/html/Risa.html	
  

•  Clase	
  ISAtab	
  
•  Lee	
  archivos	
  ISAtab	
  en	
  objetos	
  ISAtab	
  y	
  permite	
  
   guardar	
  los	
  archivos	
  ISAtab	
  	
  
•  Construye	
  objetos	
  xcmsSet	
  (paquete	
  xcms)	
  a	
  
   parQr	
  de	
  ensayos	
  de	
  espectrometría	
  de	
  masas	
  
•  Permite	
  incrementar	
  los	
  archivos	
  ISAtab	
  después	
  
   del	
  análisis	
  
•  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  código	
  fuente	
  &	
  issue	
  tracking	
  	
  
                                                                               	
  
                                                                          h]ps://github.com/ISA-­‐tools/Risa	
  
                                                                               	
  
                                                                          	
   	
  
                                                                               	
  
•  El	
  paquete	
  faahKO	
  v.	
  2.12	
  conQene	
  archivos	
  ISAtab	
  
   que	
  describen	
  el	
  experimento	
  
     	
  	
  	
  	
  faahkoISA	
  =	
  readISAta(find.package("faahKO"))	
  
     	
  	
  	
  	
  assay.filename	
  <-­‐	
  faahkoISA["assay.filenames"][[1]]	
  
     	
  	
  	
  	
  xset	
  =	
  processAssayXcmsSet(faahkoISA,	
  assay.filename)	
  
     	
  	
  	
  	
  …	
  
     	
  	
  	
  	
  updateAssayMetadata(faahkoISA,	
  assay.filename,"Derived	
  Spectral	
  
     Data	
  File","faahkoDSDF.txt"	
  )	
  
•  Un	
  ejemplo	
  usando	
  los	
  paquetes	
  de	
  BioConductor	
  Risa,	
  xcms	
  
   y	
  CAMERA	
  en	
  el	
  experimento	
  MTBLS2	
  se	
  pueden	
  
   encontrar	
  en:	
  
                     Metabolights – an open access general-purpose repository for
                     metabolomics studies and associated meta-data	

                     Haug et al, 2012	

                     Nucleic Acids Research
 	
  Sintaxis	
  ISA	
  	
  
        transformaciones	
  subyacentes	
  entre	
  materiales	
  y	
  datos	
  




 Input	
  Material	
  or	
                               Output	
  Material	
  or	
  
 Data	
  Node	
                                          Data	
  Node	
  



Characteris@cs[…]	
  
Factor	
  Value[…]	
                                                     Characteris@cs[…]	
  
                                                                         Factor	
  Value[…]	
  
                                      Protocol	
  REF	
  

                         Parameter	
  Value	
  […]	
  
                                                                                                  33	
  
Web	
  semánQca	
  
•  SemánQca	
  de	
  “mundo	
  abierto”	
  
•  Conjunto	
  de	
  lenguajes	
  de	
  representación	
  
   (RDF,	
  RDFS,	
  OWL,	
  …)	
  
•  RDF	
  (Resource	
  DescripQon	
  Framework)	
  
   –  	
  recomendación	
  del	
  	
  
   –  Modelo	
  basado	
  en	
  grafos	
  para	
  el	
  intercambio	
  de	
  
      datos	
  en	
  la	
  Web	
  
   –  Tripletas	
   <subject>	
  <predicate>	
  <object>	
  
                      	
  
                    <lipoprotein>	
  <parQcipates_in>	
  <inflammatory	
  response>	
  
                    	
  
                    <PRO:212342352>	
  <BFO_0000056>	
  <GO:0006954>	
  
Web	
  semánQca	
  
•  RDFS	
  (RDF	
  Schema)	
  y	
  OWL	
  (Web	
  Ontology	
  
   Language):	
  lenguajes	
  para	
  definición	
  de	
  
   vocabularios,	
  describen	
  datos	
  en	
  RDF	
  
    –  Recomendaciones	
  	
  
    –  RDFS	
  permite	
  expresar,	
  e.g.,	
  Qpo,	
  dominio,	
  sub-­‐
       propiedades	
  	
  
    –  OWL	
  =	
  RDFS	
  +	
  otros	
  constructores	
  (e.g.	
  operaciones	
  
       de	
  conjuntos)	
  
    –  OWL	
  basado	
  en	
  lógica	
  descripQva,	
  disQntos	
  “perfiles”	
  
       de	
  acuerdo	
  a	
  la	
  complejidad	
  de	
  razonamiento	
  
Datos	
  enlazados	
  (linked	
  data)	
  




Linking	
  Open	
  Data	
  cloud	
  diagram,	
  by	
  Richard	
  Cyganiak	
  and	
  Anja	
  Jentzsch.	
  h]p://lod-­‐cloud.net/	
  




                                                              h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350
                                                              	
  
•  Hacer	
  explícita	
  la	
  semánQca	
  de	
  ISAtab,	
  
   incluyendo	
  los	
  conceptos	
  de	
  materiales,	
  
   enQdades	
  de	
  datos	
  y	
  procesos	
  
•  Aprovechar	
  las	
  anotaciones	
  semánQcas	
  
   disponibles	
  en	
  archivos	
  ISAtab	
  
•  Extender	
  la	
  sintaxis	
  ISA	
  con	
  nuevos	
  elementos	
  
   (e.g.	
  grupos	
  de	
  tratamiento),	
  facilitando	
  la	
  
   comprensión	
  y	
  capacidades	
  de	
  consulta	
  sobre	
  el	
  
   diseño	
  de	
  experimentos	
  
•  Facilitar	
  la	
  integración	
  de	
  datos,	
  el	
  razonamiento,	
  
   descubrimiento	
  de	
  nuevo	
  conocimiento	
  
Archivos	
  ISAtab	
  como	
  datos	
  enlazados	
  
•  Conectar	
  con	
  “la	
  nube”	
  de	
  datos	
  enlazados	
  
•  Colaboraciones	
  con	
  Toxbank	
  (	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  )	
  
	
   y	
   el	
   “W3C	
   Health	
   Care	
   &	
   Life	
   Sciences	
   Interest	
  
Group”	
  (HCLSIG)	
  
ISAtab	
  dataset	
             ISAtab	
  Graph	
  
    Parser	
                       Analysis	
  




           ISA	
  Mapping	
  
              Parser	
  
ISA-­‐OBO-­‐mapping	
  
has	
  specified	
  input	
  

                                    type	
  
material	
  enQty	
                                Saghantelian_1	
                                              sample	
  
                                                                                                            	
  collecQon	
  

                                                       derives	
  from	
  

                                                                                     has	
  specified	
  output	
  
                                                                                                                                    type	
  
                                       type	
               KO1	
  
                                                                                     has	
  specified	
  input	
  
     processed	
  	
  
      material	
  
                                                       derives	
  from	
  
                                                                                     extracQon	
                                 material	
  	
  
                                                                                                                                processing	
  
                               type	
                                         has	
  specified	
  output	
  
                                                     KO1_extract	
  
                                                                                        has	
  specified	
  input	
                   type	
  



   InformaQon	
                                        derives	
  from	
  
                                                                                                    mass	
  
  content	
  enQty	
                                                                            spectrometry	
  

                                                                                            has	
  specified	
  output	
  
                         type	
  
                                                  ./cdf/KO/ko15.CDF	
  
Incrementando	
  el	
  nivel	
  de	
  
                                  estructuración…	
  
                                …para	
  disQntas	
  audiencias	
  




Notas	
  en	
  cuadernos	
  de	
  laboratorio	
   Planillas	
  de	
  cálulo	
  &	
  tablas	
     Hechos	
  como	
  sentencias	
  RDF	
  
  (información	
  para	
  humanos)	
                  (metadatos	
  ISAtab)	
                    (información	
  para	
  máquinas)	
  
core	
  organizaQon	
  in	
  the	
  




          UK	
  Node	
  
Implementación en Harvard




                           ISA




               h]p://discovery.hsci.harvard.edu/	
  
               	
  
Implementación en EBI

h]p://www.ebi.ac.uk/metabolights	
  
	
  




      Metabolights – an open access general-purpose repository for
      metabolomics studies and associated meta-data	

      Haug et al, 2012	

      Nucleic Acids Research	

                    45
 	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  El	
  ecosistema	
  	
  	
  	
  	
  
@isatools	
  @biosharing	
  
Isa-­‐tools.org	
  	
  	
  	
  	
  isacommons.org	
  	
  	
  	
  biosharing.org	
  
faahKO	
  dataset	
  
•  Available	
  in	
  BioConductor	
  
•  Subset	
  of	
  the	
  original	
  data	
  on	
  global	
  metabolite	
  profiling	
  

                                                                           Saghatlian	
  et	
  al.	
  
                                                                           Biochemistry.	
  2004	
  




•  LC/MS	
  peaks	
  from	
  the	
  spinal	
  cords	
  of	
  6	
  wild-­‐type	
  and	
  6	
  FAAH	
  
   (fa]y	
  acid	
  amyde	
  hydrolase)	
  knockout	
  mice	
  
-­‐	
  	
  Define	
  key	
  enQQes	
  (e.g.	
  factors,	
  	
  
protocols,	
  parameters)	
  
-­‐	
  Grouping	
  of	
  studies	
  
-­‐	
  Relate	
  studies	
  and	
  assays	
                      faahKO	
  invesQgaQon	
  
-­‐  Subjects	
  studied:	
  source(s),	
  sampling	
  
                                                 methodology,	
  characterisQcs	
  
faahKO	
  study	
                                -­‐  treatments/manipulaQons	
  performed	
  	
  
                                                 to	
  prepare	
  the	
  specimens	
  
                                                 	
  




   NEWT	
  UniProt	
  Taxonomy	
  Database	
  
                                                        Mouse	
  Genome	
  InformaQcs	
  
-­‐  Subjects	
  studied:	
  source(s),	
  sampling	
  
                                methodology,	
  characterisQcs	
  
faahKO	
  study	
               -­‐  treatments/manipulaQons	
  performed	
  	
  
                                to	
  prepare	
  the	
  specimens	
  
                                	
  




                      Mouse	
  Adult	
  Gross	
  Anatomy	
  
-­‐  measurement	
  type,	
  e.g.	
  metabolite	
  profiling	
  
-­‐  technology,	
  e.g.	
  mass	
  spectrometry	
                faahKO	
  assay	
  

Mais conteúdo relacionado

Semelhante a Metadatos biociencia

CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcional
CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcionalCONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcional
CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcionalMonica Munoz-Torres
 
Tutorial metadatos en CASSIA
Tutorial metadatos en CASSIATutorial metadatos en CASSIA
Tutorial metadatos en CASSIAselvahumeda
 
Tutorial metadatos
Tutorial metadatosTutorial metadatos
Tutorial metadatosselvahumeda
 
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdfINFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdfCarmenPaye
 
Dspace y BVS Fundacion Femeba
Dspace y BVS Fundacion FemebaDspace y BVS Fundacion Femeba
Dspace y BVS Fundacion Femebasandraraiher
 
Informe biotecnologia
Informe   biotecnologiaInforme   biotecnologia
Informe biotecnologiaKiyomi020
 
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Edgar Fernando Salcedo Ramirez
 
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...NicoleAragnArce
 
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...NicoleAragnArce
 
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentes
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentesCromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentes
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentesJoan Simon
 
Practica 1 analisis de secuencias del gen16 s
Practica 1   analisis de secuencias del gen16 s Practica 1   analisis de secuencias del gen16 s
Practica 1 analisis de secuencias del gen16 s KarenOriflame
 
Interoperabilidad en Repositorios Institucionales
Interoperabilidad en Repositorios InstitucionalesInteroperabilidad en Repositorios Institucionales
Interoperabilidad en Repositorios InstitucionalesEmiliano Marmonti
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"NancyVegu
 
Búsquedas efectivas de evidencias científicas en internet
Búsquedas efectivas de evidencias científicas en internetBúsquedas efectivas de evidencias científicas en internet
Búsquedas efectivas de evidencias científicas en internetFrank Cajina Gómez
 
Software for systems biology
Software for systems biologySoftware for systems biology
Software for systems biologyCarlos Rodriguez
 
Las multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaLas multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaAlberto Labarga
 
Practica 1 analisis de secuencias del gen 16 s
Practica 1   analisis de secuencias del gen 16 sPractica 1   analisis de secuencias del gen 16 s
Practica 1 analisis de secuencias del gen 16 sjuancarlos74381
 

Semelhante a Metadatos biociencia (20)

CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcional
CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcionalCONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcional
CONSORCIO ONTOLOGÍA DE GENES: herramientas para anotación funcional
 
Tutorial metadatos en CASSIA
Tutorial metadatos en CASSIATutorial metadatos en CASSIA
Tutorial metadatos en CASSIA
 
Tutorial metadatos
Tutorial metadatosTutorial metadatos
Tutorial metadatos
 
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdfINFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
 
Dspace y BVS Fundacion Femeba
Dspace y BVS Fundacion FemebaDspace y BVS Fundacion Femeba
Dspace y BVS Fundacion Femeba
 
Informe biotecnologia
Informe   biotecnologiaInforme   biotecnologia
Informe biotecnologia
 
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
 
Pagina 159
Pagina 159Pagina 159
Pagina 159
 
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...
PRACTICA BUSO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDI...
 
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...
PRACTICA USO Y CONTROL DE CROMATOGRAMAS DE ADN UTILIZANDO EL SOFTWARE BIOEDIT...
 
Applying sw mikel_egana
Applying sw mikel_eganaApplying sw mikel_egana
Applying sw mikel_egana
 
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentes
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentesCromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentes
CromoCat y GenoCat: dos bases de datos genéticas con estrategias diferentes
 
Uso del software mega dna
Uso del software mega dnaUso del software mega dna
Uso del software mega dna
 
Practica 1 analisis de secuencias del gen16 s
Practica 1   analisis de secuencias del gen16 s Practica 1   analisis de secuencias del gen16 s
Practica 1 analisis de secuencias del gen16 s
 
Interoperabilidad en Repositorios Institucionales
Interoperabilidad en Repositorios InstitucionalesInteroperabilidad en Repositorios Institucionales
Interoperabilidad en Repositorios Institucionales
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"
 
Búsquedas efectivas de evidencias científicas en internet
Búsquedas efectivas de evidencias científicas en internetBúsquedas efectivas de evidencias científicas en internet
Búsquedas efectivas de evidencias científicas en internet
 
Software for systems biology
Software for systems biologySoftware for systems biology
Software for systems biology
 
Las multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaLas multiples caras de la bioinformatica
Las multiples caras de la bioinformatica
 
Practica 1 analisis de secuencias del gen 16 s
Practica 1   analisis de secuencias del gen 16 sPractica 1   analisis de secuencias del gen 16 s
Practica 1 analisis de secuencias del gen 16 s
 

Mais de Alejandra Gonzalez-Beltran

The Software Sustainability Institute Fellowship
The Software Sustainability Institute FellowshipThe Software Sustainability Institute Fellowship
The Software Sustainability Institute FellowshipAlejandra Gonzalez-Beltran
 
The DATS model: datasets descriptions for data discovery in DataMed
The DATS model: datasets descriptions for data discovery in DataMedThe DATS model: datasets descriptions for data discovery in DataMed
The DATS model: datasets descriptions for data discovery in DataMedAlejandra Gonzalez-Beltran
 
Data publication: Discover, Explore, Visualise
Data publication: Discover, Explore, VisualiseData publication: Discover, Explore, Visualise
Data publication: Discover, Explore, VisualiseAlejandra Gonzalez-Beltran
 
ISA commons - overview and latest developments
ISA commons - overview and latest developmentsISA commons - overview and latest developments
ISA commons - overview and latest developmentsAlejandra Gonzalez-Beltran
 
From peer-reviewed to peer-reproduced: a role for research objects in scholar...
From peer-reviewed to peer-reproduced: a role for research objects in scholar...From peer-reviewed to peer-reproduced: a role for research objects in scholar...
From peer-reviewed to peer-reproduced: a role for research objects in scholar...Alejandra Gonzalez-Beltran
 
Metadata challenges research and re-usable data - BioSharing, ISA and STATO
Metadata challenges research and re-usable data - BioSharing, ISA and STATOMetadata challenges research and re-usable data - BioSharing, ISA and STATO
Metadata challenges research and re-usable data - BioSharing, ISA and STATOAlejandra Gonzalez-Beltran
 
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...Alejandra Gonzalez-Beltran
 
Brazil-UK Frontiers of Engineering - Big data in healthcare session
Brazil-UK Frontiers of Engineering - Big data in healthcare sessionBrazil-UK Frontiers of Engineering - Big data in healthcare session
Brazil-UK Frontiers of Engineering - Big data in healthcare sessionAlejandra Gonzalez-Beltran
 
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...Metagenomic Data Provenance and Management using the ISA infrastructure --- o...
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...Alejandra Gonzalez-Beltran
 
BioSharing.org - mapping the landscape of community standards, databases, dat...
BioSharing.org - mapping the landscape of community standards, databases, dat...BioSharing.org - mapping the landscape of community standards, databases, dat...
BioSharing.org - mapping the landscape of community standards, databases, dat...Alejandra Gonzalez-Beltran
 

Mais de Alejandra Gonzalez-Beltran (20)

The Software Sustainability Institute Fellowship
The Software Sustainability Institute FellowshipThe Software Sustainability Institute Fellowship
The Software Sustainability Institute Fellowship
 
CMSO Minimal reporting requirements
CMSO Minimal reporting requirementsCMSO Minimal reporting requirements
CMSO Minimal reporting requirements
 
The DATS model: datasets descriptions for data discovery in DataMed
The DATS model: datasets descriptions for data discovery in DataMedThe DATS model: datasets descriptions for data discovery in DataMed
The DATS model: datasets descriptions for data discovery in DataMed
 
Datasets with bioschemas
Datasets with bioschemasDatasets with bioschemas
Datasets with bioschemas
 
Data publication: Discover, Explore, Visualise
Data publication: Discover, Explore, VisualiseData publication: Discover, Explore, Visualise
Data publication: Discover, Explore, Visualise
 
ISA commons - overview and latest developments
ISA commons - overview and latest developmentsISA commons - overview and latest developments
ISA commons - overview and latest developments
 
Metadata for Interoperable Bioscience
Metadata for Interoperable BioscienceMetadata for Interoperable Bioscience
Metadata for Interoperable Bioscience
 
From peer-reviewed to peer-reproduced: a role for research objects in scholar...
From peer-reviewed to peer-reproduced: a role for research objects in scholar...From peer-reviewed to peer-reproduced: a role for research objects in scholar...
From peer-reviewed to peer-reproduced: a role for research objects in scholar...
 
Metadata challenges research and re-usable data - BioSharing, ISA and STATO
Metadata challenges research and re-usable data - BioSharing, ISA and STATOMetadata challenges research and re-usable data - BioSharing, ISA and STATO
Metadata challenges research and re-usable data - BioSharing, ISA and STATO
 
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...
Seminario en CIFASIS, Rosario, Argentina - Seminar in CIFASIS, Rosario, Argen...
 
Brazil-UK Frontiers of Engineering - Big data in healthcare session
Brazil-UK Frontiers of Engineering - Big data in healthcare sessionBrazil-UK Frontiers of Engineering - Big data in healthcare session
Brazil-UK Frontiers of Engineering - Big data in healthcare session
 
COPO kick-off meeting
COPO kick-off meetingCOPO kick-off meeting
COPO kick-off meeting
 
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...Metagenomic Data Provenance and Management using the ISA infrastructure --- o...
Metagenomic Data Provenance and Management using the ISA infrastructure --- o...
 
ISMB Workshop 2014
ISMB Workshop 2014ISMB Workshop 2014
ISMB Workshop 2014
 
BioSharing.org - mapping the landscape of community standards, databases, dat...
BioSharing.org - mapping the landscape of community standards, databases, dat...BioSharing.org - mapping the landscape of community standards, databases, dat...
BioSharing.org - mapping the landscape of community standards, databases, dat...
 
UKON 2014
UKON 2014UKON 2014
UKON 2014
 
4A2B2C-2013
4A2B2C-20134A2B2C-2013
4A2B2C-2013
 
NETTAB 2013
NETTAB 2013NETTAB 2013
NETTAB 2013
 
OpenTox Europe 2013
OpenTox Europe 2013OpenTox Europe 2013
OpenTox Europe 2013
 
Beyond the PDF 2, 2013
Beyond the PDF 2, 2013Beyond the PDF 2, 2013
Beyond the PDF 2, 2013
 

Metadatos biociencia

  • 1. Metadatos  en  biociencia:  posibilitando  la   invesQgación  reproducible  y  reuQlizable   Alejandra  González-­‐Beltrán,  PhD   Senior Software Engineer, ISATeam Oxford  e-­‐Research  Centre,  University  of  Oxford    Oxford,  UK SELENfest  2012  –  CIFASIS,  UNR,  19  Diciembre  2012  
  • 2. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website   La  biociencia   es  mulQ-­‐dominio  
  • 3. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website   La  biociencia   es  mulQ-­‐dominio   Petabytes  de  datos  
  • 4. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website   La  biociencia   es  mulQ-­‐dominio   Petabytes  de  datos   Metadatos   experimentales  en   notas  de  laboratorio  
  • 5. Ioannidis   et   al.,   Repeatability   of   published   microarray   gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55   (2009)  doi:10.1038/ng.295    
  • 6. Ioannidis   et   al.,   Repeatability   of   published   microarray   gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55   (2009)  doi:10.1038/ng.295    
  • 8. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593  
  • 9. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593   h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html  
  • 10. Analogía  de  la  lata  de  conservas   basada  en  comentario  por    Norman   Morrison  y  converQda  de  ontologías   a  metadatos.  
  • 11. Descripción  de  experimentos…                          metadatos   •  Fragmentación  de  formatos                (e.g.  MAGE-­‐Tab,  PRIDE-­‐XML,  SRA-­‐XML)   •  Los  disQntos  formatos  capturan  disQnta  información…          …  pero  hay  muchas  cosas  comunes   •  Las  terminologías  que  se  usan  para  describir  los    experimentos  varían  mucho…  
  • 12. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas  
  • 14. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas   Desafíos: falta de interacción y coordinación, fragmentación y cubrimiento desparejo… dificulta la interoperabilidad
  • 15. Estándares  de  reporte  de  datos  en  expansión…   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO! ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  • 16. Estándares  de  reporte  de  datos  en  expansión…   +  303     +  150     +  130     Source:  MIBBI,     Source:  BioPortal   Es(mated   EQUATOR   Databases,     annotaQon,   curaQon     tools   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO! ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  • 17. Pero…     cómo  podemos  saber  cuáles  son  los  estándares  y  sus  interrelaciones   Uso  tecnologías  de   Qué  herramientas  y   secuenciación,  qué   bases  de  datos   estándares  son  relevantes   implementan  qué   para  mí?   estándares?   Cómo  puedo   Cuál  es  el  criterio   involucrarme  en   para  evaluar  su   proponer   estado  y  valor?   extensiones  o   modificaciones?   Cuáles  son  lo   Qué  formatos   Trabajo  con  plantas,   suficientemente   soportan  “listas  de   son  los  estándares   maduros  para  usar  o   información   relevantes  sólo  para   recomendar  su  uso?   mínima”   aplicaciones   espécificas?   biomédicas?  
  • 18.
  • 19. inves(ga(on  study  assay   •  AsisQr  en  la  anotación/descripción  y  administración  de   datos  experimentales  en  el  origen   •  Considerar  datos  de  estudios  de  alto  rendimiento   usando  una  o  más  tecnologías  ómicas  u  otras   tecnologías   •  PermiQr  a  los  usarios  adoptar  los  estándares  de       reporte  definidos  por  la  comunidad  (formatos,  listas  de   verificación  y  ontologías)   •  Facilitar  comparQr  los  datos,  reusarlos,  comparar  y   reproducir  los  experimentos,  remiQr  datos  a   repositorios  públicos  internacionales  
  • 20.                          El  ecosistema          
  • 21.                          El  ecosistema           ISA software suite: supporting standards-compliant Towards interoperable bioscience data experimental annotation and enabling curation at the Sansone et al, 2012 community level Nature Genetics Rocca-Serra et al, 2010 Bioinformatics
  • 22. Formato  flexible  y  de  propósito   general   Formato  tabular  (vs  XML)   AgnósQco  del  dominio   Captura  metadatos  de   experimentos  ómicos  y  de   experimentos  tradicionales  (e.g.   clínica  química  e  histología)  
  • 23.
  • 24.
  • 25.
  • 26. file chooser publication searcher visualization ontology search QR code generator automated ontology tagging spreadsheet-like interface tagterms visualise suggest clear all help powered by ncbo annotator
  • 27. Permite  reportar  y  editar  la  descripción  del   experimento  usando  Google  Spreadsheets.       Se  pueden  usar  Google  Spreadsheets  en  cobinación   con  planQlas  ISA-­‐Tab  (generadas  importando  un   archivo  Excel  en  ISAconfigurator)  y  OntoMaton  (para   búquedas  de  ontologías  y  eQquetado)  para  describir   la  invesQgación.  
  • 28. -­‐  collaboraQve  annotaQon   -­‐  distributed  groups  of  users   -­‐  version  control  &  history     Ontology  Search  and  Tagging  in  Google  Spreadsheets  
  • 29. Permite  crear  planQllas  detallando  los  pasos  a  reportar  para   disQntos  Qpos  de  invesQgaciones,  que  conformen  con  los   estándares  definidos  por  la  comunidad  (listados   en                                                    ),  e.g.  configurar  los  campos  para  que  sean  (i)   conceptos  de  una  o  más  ontologías,  (ii)  texto  (con/sin   verificación  con  expresiones  regulares),  (iii)  números,  etc.  
  • 30. Con  los  archivos  ISA-­‐Tab  podemos  llevar  a  cabo  el  análisis  de  los  datos,  converQr  a  RDF/OWL  u   otros  formatos  para    enviarlos/comparQrlos  a  repositorios  locales  o  remotos.  
  • 31. •  Paquete  en  lenguaje  R,  disponible  en   BioConductor  2.11     h]p://bioconductor.org/packages/release/bioc/html/Risa.html   •  Clase  ISAtab   •  Lee  archivos  ISAtab  en  objetos  ISAtab  y  permite   guardar  los  archivos  ISAtab     •  Construye  objetos  xcmsSet  (paquete  xcms)  a   parQr  de  ensayos  de  espectrometría  de  masas   •  Permite  incrementar  los  archivos  ISAtab  después   del  análisis   •                                                             código  fuente  &  issue  tracking       h]ps://github.com/ISA-­‐tools/Risa          
  • 32. •  El  paquete  faahKO  v.  2.12  conQene  archivos  ISAtab   que  describen  el  experimento          faahkoISA  =  readISAta(find.package("faahKO"))          assay.filename  <-­‐  faahkoISA["assay.filenames"][[1]]          xset  =  processAssayXcmsSet(faahkoISA,  assay.filename)          …          updateAssayMetadata(faahkoISA,  assay.filename,"Derived  Spectral   Data  File","faahkoDSDF.txt"  )   •  Un  ejemplo  usando  los  paquetes  de  BioConductor  Risa,  xcms   y  CAMERA  en  el  experimento  MTBLS2  se  pueden   encontrar  en:   Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research
  • 33.    Sintaxis  ISA     transformaciones  subyacentes  entre  materiales  y  datos   Input  Material  or   Output  Material  or   Data  Node   Data  Node   Characteris@cs[…]   Factor  Value[…]   Characteris@cs[…]   Factor  Value[…]   Protocol  REF   Parameter  Value  […]   33  
  • 34. Web  semánQca   •  SemánQca  de  “mundo  abierto”   •  Conjunto  de  lenguajes  de  representación   (RDF,  RDFS,  OWL,  …)   •  RDF  (Resource  DescripQon  Framework)   –   recomendación  del     –  Modelo  basado  en  grafos  para  el  intercambio  de   datos  en  la  Web   –  Tripletas   <subject>  <predicate>  <object>     <lipoprotein>  <parQcipates_in>  <inflammatory  response>     <PRO:212342352>  <BFO_0000056>  <GO:0006954>  
  • 35. Web  semánQca   •  RDFS  (RDF  Schema)  y  OWL  (Web  Ontology   Language):  lenguajes  para  definición  de   vocabularios,  describen  datos  en  RDF   –  Recomendaciones     –  RDFS  permite  expresar,  e.g.,  Qpo,  dominio,  sub-­‐ propiedades     –  OWL  =  RDFS  +  otros  constructores  (e.g.  operaciones   de  conjuntos)   –  OWL  basado  en  lógica  descripQva,  disQntos  “perfiles”   de  acuerdo  a  la  complejidad  de  razonamiento  
  • 36. Datos  enlazados  (linked  data)   Linking  Open  Data  cloud  diagram,  by  Richard  Cyganiak  and  Anja  Jentzsch.  h]p://lod-­‐cloud.net/   h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350  
  • 37. •  Hacer  explícita  la  semánQca  de  ISAtab,   incluyendo  los  conceptos  de  materiales,   enQdades  de  datos  y  procesos   •  Aprovechar  las  anotaciones  semánQcas   disponibles  en  archivos  ISAtab   •  Extender  la  sintaxis  ISA  con  nuevos  elementos   (e.g.  grupos  de  tratamiento),  facilitando  la   comprensión  y  capacidades  de  consulta  sobre  el   diseño  de  experimentos   •  Facilitar  la  integración  de  datos,  el  razonamiento,   descubrimiento  de  nuevo  conocimiento  
  • 38. Archivos  ISAtab  como  datos  enlazados   •  Conectar  con  “la  nube”  de  datos  enlazados   •  Colaboraciones  con  Toxbank  (                                )     y   el   “W3C   Health   Care   &   Life   Sciences   Interest   Group”  (HCLSIG)  
  • 39. ISAtab  dataset   ISAtab  Graph   Parser   Analysis   ISA  Mapping   Parser  
  • 41. has  specified  input   type   material  enQty   Saghantelian_1   sample    collecQon   derives  from   has  specified  output   type   type   KO1   has  specified  input   processed     material   derives  from   extracQon   material     processing   type   has  specified  output   KO1_extract   has  specified  input   type   InformaQon   derives  from   mass   content  enQty   spectrometry   has  specified  output   type   ./cdf/KO/ko15.CDF  
  • 42. Incrementando  el  nivel  de   estructuración…   …para  disQntas  audiencias   Notas  en  cuadernos  de  laboratorio   Planillas  de  cálulo  &  tablas   Hechos  como  sentencias  RDF   (información  para  humanos)   (metadatos  ISAtab)   (información  para  máquinas)  
  • 43. core  organizaQon  in  the   UK  Node  
  • 44. Implementación en Harvard ISA h]p://discovery.hsci.harvard.edu/    
  • 45. Implementación en EBI h]p://www.ebi.ac.uk/metabolights     Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research 45
  • 46.                          El  ecosistema          
  • 47. @isatools  @biosharing   Isa-­‐tools.org          isacommons.org        biosharing.org  
  • 48.
  • 49. faahKO  dataset   •  Available  in  BioConductor   •  Subset  of  the  original  data  on  global  metabolite  profiling   Saghatlian  et  al.   Biochemistry.  2004   •  LC/MS  peaks  from  the  spinal  cords  of  6  wild-­‐type  and  6  FAAH   (fa]y  acid  amyde  hydrolase)  knockout  mice  
  • 50. -­‐    Define  key  enQQes  (e.g.  factors,     protocols,  parameters)   -­‐  Grouping  of  studies   -­‐  Relate  studies  and  assays   faahKO  invesQgaQon  
  • 51. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs   faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     NEWT  UniProt  Taxonomy  Database   Mouse  Genome  InformaQcs  
  • 52. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs   faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     Mouse  Adult  Gross  Anatomy  
  • 53. -­‐  measurement  type,  e.g.  metabolite  profiling   -­‐  technology,  e.g.  mass  spectrometry   faahKO  assay