SlideShare uma empresa Scribd logo
1 de 37
Baixar para ler offline
Helpt datamanagement 
de onderzoeker? 
ja ... maar de praktijk is weerbarstig 
2014-10-31 Den Haag 
2015-03-12 Delft 
dirk.roorda@dans.knaw.nl
Geleerdenbrieven
Data en traditie
text + linguistics => 
data + research => 
Wido van Peursen
Wat zien we ervan?
Toegankelijkheid van Data 
Deze onderzoekers zijn begonnen vóór 
internet 
ze hebben een fantastische datacreatie 
workflow ontwikkeld op hun instituut 
de ETCBC heeft een behoorlijk dikke 
celwand gekregen
Eigen coderingen
research data cycle ?religious 
communities 
theol. 
scholars 
theol. 
scholars 
enlightened lay 
people
research data cycle ?religious 
communities 
theol. 
scholars 
theol. 
scholars 
Research Data 
Archiving 
DANS 
CLARIN 
SHEBANQ 
LAF-Fabric 
comp. hum 
linguists 
enlightened lay 
people
stap 3: deponeren 
(2012)
wat is er gedeponeerd?
stap 4: project (2013) 
SHEBANQ 
System for Hebrew Text: 
ANnotations for Queries 
project: CLARIN-NL 
data curation: LAF 
demonstrator: query saver 
infrastructuur 
data formaat 
instrument
LAF? Yes, ISO Linguistic Annotation Framework 
ISO 24612:2012 
Nancy Ide, Laurent Romary
This is LAF 
Linguistic Annotation Framework 
<node xml:id="n_88917"> 
sentence 
<link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/> 
</node> 
<edge xml:id="e1" from="n88917" to="n84383"/> 
<a xml:id="ae1" label="parents" ref="e1" as="link"/> 
<a xml:id="af22" label="ft" ref="n3" as="utf8"><fs> 
<f name="lexeme_utf8" value=" </" רשׁא ית 
<f name="surface_consonants_utf8" value=" </" רשׁא ית 
</fs></a> 
<region xml:id="r_2" anchors="6 23"/> 
<node xml:id="n_3"><link targets="r_2"/></node> 
clause 
labeled <a xml:id="a_3" label="word" ref="n_3" as="monads"/> 
edges 
nodes 
clause_atom_number=1 
clause_atom_relation=0 
clause_atom_type=xQtl 
indentation=0 
annotations 
(features) 
determination=determined 
phrase_function=Objc 
phrase_type=PP 
subphrase 
link to 
regions 
annotations 
(empty) 
regions 
primary data 
lexeme_utf8= רשׁא ית 
surface_consonants_utf8= רשׁא ית 
n3 n2 
phrase 
parents 
mother 
r11 r10 r9 
r11 r10 r9 92 72-91 6-23 0-5 
word 
בְּראֵשׁיִ֖ת בָּראָ֣ אֱ.ה יִ֑ם א ת֥ הַשּׁמָיַ֖םִ וְ אֵת֥ הָארָֽץֶ׃
IPython notebook
data en tools 
data is niet los verkrijgbaar 
er is altijd een instrument nodig: software 
kijken/checken 
transporteren 
transformeren
kijken-checken 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls 
etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml 
etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml 
etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml 
etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 
1.5G . 
BR> = ברא = maken 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR&gt;' *.xml 
etcbc4_monads.lex.xml 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR&gt;' etcbc4_monads.lex.xml 
113
kijken-checken 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt 
-rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt
kijken-checken
kijken-checken (xml) 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml 
-rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml 
-rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml 
-rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml 
-rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml 
-rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml 
-rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml 
-rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml 
-rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml 
-rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml 
-rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml 
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout 
--stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff. 
xsd etcbc4_monads.lex.xml 
etcbc4_monads.lex.xml validates 
real 2m26.029s 
user 2m20.308s 
sys 0m2.376s
kijken-checken (xml) 
.hdr => .xml
transporteren
transformeren Hoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten? 
scripten 
shell, python 
scientific programming 
software als instrument 
uur cyclus 
door onderzoeker voor 
onderzoeker 
programmeren 
C, C++, Java 
software engineering 
applicaties als product 
wekelijkse cyclus 
door ICTer voor 
onderzoeker
waar vallen wetenschappers voor? 
het zijn geen software ontwikkelaars 
maar ze programmeren wel 
ze exploreren data, kneden, masseren 
hun product is geen programma 
maar analyse, visualisatie, publicatie
cultuur 
fragmenten uit een video van Fernando Perez 
4:19 onderzoekers en computing - 7:37 
17:00 tools en de data life cycle - 20:26 
42:09 data en publiceren - 44:20 / 49:22
data science at the command line 
http://datascienceatthecommandline.com 
http://datasciencetoolbox.org 
The Data Science Toolbox is a virtual 
environment based on Ubuntu Linux that 
is specifically suited for doing data 
science. Its purpose is to get you started 
in a matter of minutes. You can run the 
Data Science Toolbox either locally 
(using VirtualBox and Vagrant) or in the 
cloud (using Amazon Web Services).
stap 6: oogsten (2014) 
Rens Bod: 
ling/dighum 
Data Oriented Parsing
stap 6: oogsten (2014)
stap 7: meer (toekomst) 
meer projecten 
meer disciplines 
meer databronnen 
meer wetenschappelijke output 
betere positie in de competitie
research environment 
function medium infra 
data LAF in dataset DANS EASY 
web site web2py DANS=>KNAW, 
Leaseweb, Cloud 
tools LAF-Fabric, 
Shebanq, Emdros 
Github, 
Sourceforge 
publishing IPython notebooks, 
Restructured Text 
Github, 
Readthedocs 
products apps, notebooks, 
articles 
Github, Science 
Clouds, Journals
is dit een succes verhaal? 
dat staat nog te bezien ... 
pas na 6 jaar tekenen van versnelling 
vaak de gelegenheid grijpen 
overmatig overtuigen 
technische diepgang 
affiniteit met de bronnen en het onderzoek 
investeringen vooraf
waarom gaat het niet sneller? 
de groep heeft zich efficiënt georganiseerd 
veel is onder controle 
nieuwe methoden zijn nog niet bewezen 
technische support is schaars en moeilijk te 
betalen voor alfa-groepen
welke factoren dragen bij? 
personele veranderingen in de vakgroep 
nieuwe projecten 
nieuwe eisen van NWO (open access) 
competitie en samenwerking over disciplines 
door de al maar doorgaande dynamiek van meer-beter-sneller- 
werkbaarder: 
komt de digitale wereld steeds dichter bij steeds meer mensen
Helpt data management de 
onderzoeker? 
ja, als zij inziet waar archivering en hergebruik 
goed voor zijn 
ja, als hij de weg naar het archief weet te vinden 
ja, als het archief relevant voor haar weet te zijn 
ja, als het archief alert omgaat met de 
ontwikkelingen in ICT 
dirk.roorda@dans.knaw.nl
Helpt data management de 
onderzoeker? 
Niets hiervan is 
vanzelfsprekend 
ja, als zij inziet waar archivering en hergebruik 
goed voor zijn 
ja, als hij de weg naar het archief weet te vinden 
ja, als het archief relevant voor haar weet te zijn 
ja, als het archief alert omgaat met de 
ontwikkelingen in ICT 
dirk.roorda@dans.knaw.nl

Mais conteúdo relacionado

Destaque

20151111 utrecht ver theolbibliothecarissen
20151111 utrecht ver theolbibliothecarissen20151111 utrecht ver theolbibliothecarissen
20151111 utrecht ver theolbibliothecarissenDirk Roorda
 
Laf fabric-dh benelux2014
Laf fabric-dh benelux2014Laf fabric-dh benelux2014
Laf fabric-dh benelux2014Dirk Roorda
 
Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05Dirk Roorda
 
Annotating the Hebrew Bible
Annotating the Hebrew BibleAnnotating the Hebrew Bible
Annotating the Hebrew BibleDirk Roorda
 
2009 PLANETS Vienna - MIXED migration to XML
2009 PLANETS Vienna - MIXED migration to XML2009 PLANETS Vienna - MIXED migration to XML
2009 PLANETS Vienna - MIXED migration to XMLDirk Roorda
 
Verbal Valency in Hebrew Verbs
Verbal Valency in Hebrew VerbsVerbal Valency in Hebrew Verbs
Verbal Valency in Hebrew VerbsDirk Roorda
 

Destaque (8)

20151111 utrecht ver theolbibliothecarissen
20151111 utrecht ver theolbibliothecarissen20151111 utrecht ver theolbibliothecarissen
20151111 utrecht ver theolbibliothecarissen
 
Laf fabric-dh benelux2014
Laf fabric-dh benelux2014Laf fabric-dh benelux2014
Laf fabric-dh benelux2014
 
Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05Auto ingest demo-werklunch 2013-11-05
Auto ingest demo-werklunch 2013-11-05
 
Saving Queries
Saving QueriesSaving Queries
Saving Queries
 
Annotating the Hebrew Bible
Annotating the Hebrew BibleAnnotating the Hebrew Bible
Annotating the Hebrew Bible
 
2009 PLANETS Vienna - MIXED migration to XML
2009 PLANETS Vienna - MIXED migration to XML2009 PLANETS Vienna - MIXED migration to XML
2009 PLANETS Vienna - MIXED migration to XML
 
Text fabric
Text fabricText fabric
Text fabric
 
Verbal Valency in Hebrew Verbs
Verbal Valency in Hebrew VerbsVerbal Valency in Hebrew Verbs
Verbal Valency in Hebrew Verbs
 

Semelhante a Datamanagement for Research: A Case Study

Presentatie Dirk Roorda E4DS (onderzoeker)
Presentatie Dirk Roorda E4DS (onderzoeker)Presentatie Dirk Roorda E4DS (onderzoeker)
Presentatie Dirk Roorda E4DS (onderzoeker)Rene van Horik
 
Eof Experiences With E Sci Doc Nl
Eof Experiences With E Sci Doc NlEof Experiences With E Sci Doc Nl
Eof Experiences With E Sci Doc NlLodewijk Bogaards
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers
 
Gebruikersbijeenkomst data.overheid.nl 30 juni dcat
Gebruikersbijeenkomst data.overheid.nl 30 juni   dcatGebruikersbijeenkomst data.overheid.nl 30 juni   dcat
Gebruikersbijeenkomst data.overheid.nl 30 juni dcatJeffrey Cafferata
 
SURFgroepen voorbij!
SURFgroepen voorbij!SURFgroepen voorbij!
SURFgroepen voorbij!Arne Horst
 
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...VNG Realisatie
 
I en I Conferentie 2009
I en I Conferentie 2009I en I Conferentie 2009
I en I Conferentie 2009Wytze Koopal
 
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13SURF Events
 
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenPresentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenVerteldVerleden
 

Semelhante a Datamanagement for Research: A Case Study (20)

Presentatie Dirk Roorda E4DS (onderzoeker)
Presentatie Dirk Roorda E4DS (onderzoeker)Presentatie Dirk Roorda E4DS (onderzoeker)
Presentatie Dirk Roorda E4DS (onderzoeker)
 
Vanstappen De Caigny
Vanstappen De CaignyVanstappen De Caigny
Vanstappen De Caigny
 
EDepots in het CVAa en het NAi
EDepots in het CVAa en het NAi EDepots in het CVAa en het NAi
EDepots in het CVAa en het NAi
 
Text and Data Mining: kennisdeelsessie
Text and Data Mining: kennisdeelsessie Text and Data Mining: kennisdeelsessie
Text and Data Mining: kennisdeelsessie
 
MyResearch Portal
MyResearch PortalMyResearch Portal
MyResearch Portal
 
VRE's en RDM
VRE's en RDMVRE's en RDM
VRE's en RDM
 
Eof Experiences With E Sci Doc Nl
Eof Experiences With E Sci Doc NlEof Experiences With E Sci Doc Nl
Eof Experiences With E Sci Doc Nl
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
Gebruikersbijeenkomst data.overheid.nl 30 juni dcat
Gebruikersbijeenkomst data.overheid.nl 30 juni   dcatGebruikersbijeenkomst data.overheid.nl 30 juni   dcat
Gebruikersbijeenkomst data.overheid.nl 30 juni dcat
 
SURFgroepen voorbij!
SURFgroepen voorbij!SURFgroepen voorbij!
SURFgroepen voorbij!
 
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...
20190425 presentatie architectuur themabijeenkomst digitale informatie en inn...
 
Full presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH KadasterFull presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH Kadaster
 
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
 
GIVE metadata - showcase - 30 nov 2023.pptx
GIVE metadata - showcase - 30 nov 2023.pptxGIVE metadata - showcase - 30 nov 2023.pptx
GIVE metadata - showcase - 30 nov 2023.pptx
 
I en I Conferentie 2009
I en I Conferentie 2009I en I Conferentie 2009
I en I Conferentie 2009
 
Duurzaam digitaliseren. Praktijk
Duurzaam digitaliseren. PraktijkDuurzaam digitaliseren. Praktijk
Duurzaam digitaliseren. Praktijk
 
ESRI Doet Een Boekje Open
ESRI Doet Een Boekje OpenESRI Doet Een Boekje Open
ESRI Doet Een Boekje Open
 
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13
Visie op DLWO: de burchtmetafoor in de praktijk - Nico Juist - OWD13
 
Presentatie Schokkaert
Presentatie SchokkaertPresentatie Schokkaert
Presentatie Schokkaert
 
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenPresentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
 

Mais de Dirk Roorda

General Missives
General MissivesGeneral Missives
General MissivesDirk Roorda
 
Text Display (when it gets tricky)
Text Display (when it gets tricky)Text Display (when it gets tricky)
Text Display (when it gets tricky)Dirk Roorda
 
Quran and Text-Fabric
Quran and Text-FabricQuran and Text-Fabric
Quran and Text-FabricDirk Roorda
 
Ancient corpora analysis
Ancient corpora analysisAncient corpora analysis
Ancient corpora analysisDirk Roorda
 
Data management for researchers
Data management for researchersData management for researchers
Data management for researchersDirk Roorda
 
2007 PresDB Edinburgh - MIXED migration to XML
2007 PresDB Edinburgh - MIXED migration to XML2007 PresDB Edinburgh - MIXED migration to XML
2007 PresDB Edinburgh - MIXED migration to XMLDirk Roorda
 
2010 CLARA Nijmegen - Data Seal of Approval tutorial
2010 CLARA Nijmegen - Data Seal of Approval tutorial2010 CLARA Nijmegen - Data Seal of Approval tutorial
2010 CLARA Nijmegen - Data Seal of Approval tutorialDirk Roorda
 
2010 DANS - Infrastructure
2010 DANS - Infrastructure2010 DANS - Infrastructure
2010 DANS - InfrastructureDirk Roorda
 
2007 iPres Beijing - MIXED: Preservation by migration to XML
2007 iPres Beijing - MIXED: Preservation by migration to XML2007 iPres Beijing - MIXED: Preservation by migration to XML
2007 iPres Beijing - MIXED: Preservation by migration to XMLDirk Roorda
 

Mais de Dirk Roorda (14)

TF-FAIR.pdf
TF-FAIR.pdfTF-FAIR.pdf
TF-FAIR.pdf
 
Textpy
TextpyTextpy
Textpy
 
General Missives
General MissivesGeneral Missives
General Missives
 
Text Display (when it gets tricky)
Text Display (when it gets tricky)Text Display (when it gets tricky)
Text Display (when it gets tricky)
 
Tf in-context
Tf in-contextTf in-context
Tf in-context
 
Quran and Text-Fabric
Quran and Text-FabricQuran and Text-Fabric
Quran and Text-Fabric
 
Ancient corpora analysis
Ancient corpora analysisAncient corpora analysis
Ancient corpora analysis
 
Qdf2tf
Qdf2tfQdf2tf
Qdf2tf
 
Data management for researchers
Data management for researchersData management for researchers
Data management for researchers
 
Shebanq gniezno
Shebanq gnieznoShebanq gniezno
Shebanq gniezno
 
2007 PresDB Edinburgh - MIXED migration to XML
2007 PresDB Edinburgh - MIXED migration to XML2007 PresDB Edinburgh - MIXED migration to XML
2007 PresDB Edinburgh - MIXED migration to XML
 
2010 CLARA Nijmegen - Data Seal of Approval tutorial
2010 CLARA Nijmegen - Data Seal of Approval tutorial2010 CLARA Nijmegen - Data Seal of Approval tutorial
2010 CLARA Nijmegen - Data Seal of Approval tutorial
 
2010 DANS - Infrastructure
2010 DANS - Infrastructure2010 DANS - Infrastructure
2010 DANS - Infrastructure
 
2007 iPres Beijing - MIXED: Preservation by migration to XML
2007 iPres Beijing - MIXED: Preservation by migration to XML2007 iPres Beijing - MIXED: Preservation by migration to XML
2007 iPres Beijing - MIXED: Preservation by migration to XML
 

Datamanagement for Research: A Case Study

  • 1. Helpt datamanagement de onderzoeker? ja ... maar de praktijk is weerbarstig 2014-10-31 Den Haag 2015-03-12 Delft dirk.roorda@dans.knaw.nl
  • 3.
  • 5. text + linguistics => data + research => Wido van Peursen
  • 6. Wat zien we ervan?
  • 7. Toegankelijkheid van Data Deze onderzoekers zijn begonnen vóór internet ze hebben een fantastische datacreatie workflow ontwikkeld op hun instituut de ETCBC heeft een behoorlijk dikke celwand gekregen
  • 9. research data cycle ?religious communities theol. scholars theol. scholars enlightened lay people
  • 10. research data cycle ?religious communities theol. scholars theol. scholars Research Data Archiving DANS CLARIN SHEBANQ LAF-Fabric comp. hum linguists enlightened lay people
  • 12. wat is er gedeponeerd?
  • 13. stap 4: project (2013) SHEBANQ System for Hebrew Text: ANnotations for Queries project: CLARIN-NL data curation: LAF demonstrator: query saver infrastructuur data formaat instrument
  • 14. LAF? Yes, ISO Linguistic Annotation Framework ISO 24612:2012 Nancy Ide, Laurent Romary
  • 15. This is LAF Linguistic Annotation Framework <node xml:id="n_88917"> sentence <link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/> </node> <edge xml:id="e1" from="n88917" to="n84383"/> <a xml:id="ae1" label="parents" ref="e1" as="link"/> <a xml:id="af22" label="ft" ref="n3" as="utf8"><fs> <f name="lexeme_utf8" value=" </" רשׁא ית <f name="surface_consonants_utf8" value=" </" רשׁא ית </fs></a> <region xml:id="r_2" anchors="6 23"/> <node xml:id="n_3"><link targets="r_2"/></node> clause labeled <a xml:id="a_3" label="word" ref="n_3" as="monads"/> edges nodes clause_atom_number=1 clause_atom_relation=0 clause_atom_type=xQtl indentation=0 annotations (features) determination=determined phrase_function=Objc phrase_type=PP subphrase link to regions annotations (empty) regions primary data lexeme_utf8= רשׁא ית surface_consonants_utf8= רשׁא ית n3 n2 phrase parents mother r11 r10 r9 r11 r10 r9 92 72-91 6-23 0-5 word בְּראֵשׁיִ֖ת בָּראָ֣ אֱ.ה יִ֑ם א ת֥ הַשּׁמָיַ֖םִ וְ אֵת֥ הָארָֽץֶ׃
  • 16.
  • 18. data en tools data is niet los verkrijgbaar er is altijd een instrument nodig: software kijken/checken transporteren transformeren
  • 19. kijken-checken dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 1.5G . BR> = ברא = maken dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR&gt;' *.xml etcbc4_monads.lex.xml dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR&gt;' etcbc4_monads.lex.xml 113
  • 20. kijken-checken dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt -rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt
  • 22. kijken-checken (xml) dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml -rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml -rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml -rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml -rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml -rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml -rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml -rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml -rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml -rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml -rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout --stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff. xsd etcbc4_monads.lex.xml etcbc4_monads.lex.xml validates real 2m26.029s user 2m20.308s sys 0m2.376s
  • 25. transformeren Hoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten? scripten shell, python scientific programming software als instrument uur cyclus door onderzoeker voor onderzoeker programmeren C, C++, Java software engineering applicaties als product wekelijkse cyclus door ICTer voor onderzoeker
  • 26. waar vallen wetenschappers voor? het zijn geen software ontwikkelaars maar ze programmeren wel ze exploreren data, kneden, masseren hun product is geen programma maar analyse, visualisatie, publicatie
  • 27. cultuur fragmenten uit een video van Fernando Perez 4:19 onderzoekers en computing - 7:37 17:00 tools en de data life cycle - 20:26 42:09 data en publiceren - 44:20 / 49:22
  • 28. data science at the command line http://datascienceatthecommandline.com http://datasciencetoolbox.org The Data Science Toolbox is a virtual environment based on Ubuntu Linux that is specifically suited for doing data science. Its purpose is to get you started in a matter of minutes. You can run the Data Science Toolbox either locally (using VirtualBox and Vagrant) or in the cloud (using Amazon Web Services).
  • 29. stap 6: oogsten (2014) Rens Bod: ling/dighum Data Oriented Parsing
  • 30. stap 6: oogsten (2014)
  • 31. stap 7: meer (toekomst) meer projecten meer disciplines meer databronnen meer wetenschappelijke output betere positie in de competitie
  • 32. research environment function medium infra data LAF in dataset DANS EASY web site web2py DANS=>KNAW, Leaseweb, Cloud tools LAF-Fabric, Shebanq, Emdros Github, Sourceforge publishing IPython notebooks, Restructured Text Github, Readthedocs products apps, notebooks, articles Github, Science Clouds, Journals
  • 33. is dit een succes verhaal? dat staat nog te bezien ... pas na 6 jaar tekenen van versnelling vaak de gelegenheid grijpen overmatig overtuigen technische diepgang affiniteit met de bronnen en het onderzoek investeringen vooraf
  • 34. waarom gaat het niet sneller? de groep heeft zich efficiënt georganiseerd veel is onder controle nieuwe methoden zijn nog niet bewezen technische support is schaars en moeilijk te betalen voor alfa-groepen
  • 35. welke factoren dragen bij? personele veranderingen in de vakgroep nieuwe projecten nieuwe eisen van NWO (open access) competitie en samenwerking over disciplines door de al maar doorgaande dynamiek van meer-beter-sneller- werkbaarder: komt de digitale wereld steeds dichter bij steeds meer mensen
  • 36. Helpt data management de onderzoeker? ja, als zij inziet waar archivering en hergebruik goed voor zijn ja, als hij de weg naar het archief weet te vinden ja, als het archief relevant voor haar weet te zijn ja, als het archief alert omgaat met de ontwikkelingen in ICT dirk.roorda@dans.knaw.nl
  • 37. Helpt data management de onderzoeker? Niets hiervan is vanzelfsprekend ja, als zij inziet waar archivering en hergebruik goed voor zijn ja, als hij de weg naar het archief weet te vinden ja, als het archief relevant voor haar weet te zijn ja, als het archief alert omgaat met de ontwikkelingen in ICT dirk.roorda@dans.knaw.nl