SlideShare a Scribd company logo
1 of 22
Download to read offline
Heel snel klaar
Met heel veel data




                                     Evert Lammerts, eScience & Cloud Services
   SARA Reken- en Netwerk Diensten                                     13-09-11
Er was eens...
  … een bedrijf met de ambitie het hele internet te indexeren
  … snel
  … en goedkoop


Er dus bedachten zij...
  … een systeem waarmee dat kan
  … MapReduce en het Google File System
  … en schreven er over (S. Ghemawat et al., 2004)



      SARA Reken- en Netwerk Diensten                  13-09-11
In 2006, zonder veel lawaai...
  … was Doug Cutting klaar met de eerste OS implementatie
  … voor de crawler van de Apache Nutch zoekmachine



En het ging snel...
  … toen Yahoo! Doug Cutting in dienst nam
  … het Apache Hadoop project uit Nutch voortkwam
  … en het systeem in 2008 schaalde naar Petabytes data



      SARA Reken- en Netwerk Diensten               13-09-11
In 2009:
    Winnaar Jim Gray's Sort




    SARA Reken- en Netwerk Diensten   13-09-11
In 2011:
    Winnaar                          Jeopardy!




   SARA Reken- en Netwerk Diensten               13-09-11
En wat blijkt?



Het voldoet ook voor anderen!



    SARA Reken- en Netwerk Diensten   13-09-11
Daar komt ook...
 … langzaam maar zeker...




… de academische wereld achter!
 … al dan niet schoorvoetend




     SARA Reken- en Netwerk Diensten   13-09-11
Hadoop blijkt namelijk...
  …   vanwege haar rekenmodel en bestandssysteem
  …   dat data parallelisme zelf regelt
  …   dat erg goed is in I/O intensieve rekentaken
  …   en dat bijzonder tolerant is t.o.v. fouten

… een nuttige aanvulling
  … op bestaande rekeninfrastructuur




        SARA Reken- en Netwerk Diensten              13-09-11
SARA Reken- en Netwerk Diensten   13-09-11
Data parallelisme is wanneer...
 … processoren tegelijkertijd dezelfde taak uitvoeren
 … met andere parameters



En taak parallelisme is wanneer...
 … processoren samenwerken
 … om een enkele taak te voltooien




     SARA Reken- en Netwerk Diensten                    13-09-11
Het Hadoop DFS...
 … faciliteert data parallelisme
 … door elk bestand op te knippen in X blokken
 … en al die blokken te distribueren over verschillende nodes


En MapReduce...
 … kan een bestand dan verwerken
 … door op elk van die nodes
 … dezelfde taak uit te voeren



     SARA Reken- en Netwerk Diensten                  13-09-11
Zoiets dus...



En dit is echt anders...
  … want ineens is daar data lokaliteit
  … en ingebakken parallelisme
  … wat door MapReduce weer gebruikt wordt



      SARA Reken- en Netwerk Diensten        13-09-11
Want we doen het niet zo...




    SARA Reken- en Netwerk Diensten   13-09-11
Dat heeft als voordeel...
  …   dat er geen data over het netwerk hoeft
  …   en dus is de I/O snelheid gelijk aan dat van de disks
  …   en je weet altijd hoeveel blokken er zijn
  …   dus is de graad van parallelisme makkelijk te bepalen

Bovendien is dit kosten-efficient...
  … want er is geen dure netwerk apparatuur nodig
  … en daarbij is Hadoop fout tolerant
  … en dus zijn er geen dure redundantie mechanismen nodig



        SARA Reken- en Netwerk Diensten                 13-09-11
Maar de wereld is groter...
  … want er zijn allemaal leuke tools ontwikkeld
  … die weer allemaal met Hadoop werken



… zo is er bijvoorbeeld...
  …   Apache Hbase, een in-memory key / value store
  …   Apache Pig, om queries uit te voeren
  …   Giraph, voor graph processing
  …   HCatalog, table and storage management
  …   Oozie, a workflow manager
       SARA Reken- en Netwerk Diensten                13-09-11
Wat verder bijzonder is...
  …   zijn de Hadoop APIs
  …   die stabiel zijn
  …   en goed onderhouden worden, met versioning en al,
  …   en dat is in onze wereld wel heel erg nieuw

Wat je daar mee kan...
  …   is applicaties bouwen die met het system praten
  …   vanaf een client computer, of een server
  …   en dat is dan weer eScience
  …   toch?

        SARA Reken- en Netwerk Diensten                 13-09-11
SARA Reken- en Netwerk Diensten   13-09-11
En wij doen mee...
  …   sinds december 2010, met een prototype cluster
  …   van zes nodes
  …   met 20 cores voor MapReduce
  …   en 100 TB voor HDFS

Met daarbij...
  …   Apache Pig
  …   Hive
  …   Hbase (in test)
  …   Hue

        SARA Reken- en Netwerk Diensten                13-09-11
SARA Reken- en Netwerk Diensten   13-09-11
Dit doen mensen uit...
 … de sociale wetenschappen
 … de informatica
 … de econometrie


Wat ze dan doen is...
 …   allerlei kwantitatieve methoden toepassen
 …   op ongestructureerde teksten met natuurlijke taal
 …   op sensordata
 …   op semi-gestructureerde informatie (tags e.d.)
 …   op grafisch materiaal (video's en foto's)
       SARA Reken- en Netwerk Diensten                   13-09-11
Hoe we nu verder gaan...
 …   is via BiG Grid
 …   met een nieuw cluster
 …   met 528 cores en 528 TB
 …   hopelijk vanaf januari

En dan gaan we...
 …   een service neerzetten met een aantal extensies
 …   als Hbase, Pig, Giraph, Oozie en Hive
 …   en we ontwikkelen mee aan Hadoop zelf
 …   en aan applicaties daarop

       SARA Reken- en Netwerk Diensten                 13-09-11
Maar om te beginnen...
  …   organiseren we 30 november een twee daagse cursus
  …   met SIKS, en Jimmy Lin, als het meezit
  …   en gaan we de bioinformatici te helpen met Biodoop
  …   en moet er weer een hackathon komen

En uiteindelijk...
  … rekenen we nog lang en gelukkig




       SARA Reken- en Netwerk Diensten                13-09-11

More Related Content

Similar to Hadoop voor niet-technici

Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDirk Roorda
 
SURFgroepen voorbij!
SURFgroepen voorbij!SURFgroepen voorbij!
SURFgroepen voorbij!Arne Horst
 
Profiel thymos rudi respen
Profiel thymos   rudi respenProfiel thymos   rudi respen
Profiel thymos rudi respenRudi Respen
 
De betekenis van cloud computing
De betekenis van cloud computingDe betekenis van cloud computing
De betekenis van cloud computingFreek Bijl
 
Matthias Vandermaesen: De Datahub
Matthias Vandermaesen: De DatahubMatthias Vandermaesen: De Datahub
Matthias Vandermaesen: De DatahubPACKED vzw
 
Matthias Vandermaesen - De datahub
Matthias Vandermaesen - De datahubMatthias Vandermaesen - De datahub
Matthias Vandermaesen - De datahubPACKED
 
IPv6 news-nl-20121009
IPv6 news-nl-20121009IPv6 news-nl-20121009
IPv6 news-nl-20121009Bart Hanssens
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDirk Roorda
 
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloud
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloudCursus: Deel 2 - Raspberry Pi, creëer je eigen cloud
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloudIDG Nederland
 
The DataTank, RML and Domain Modelling
The DataTank, RML and Domain ModellingThe DataTank, RML and Domain Modelling
The DataTank, RML and Domain ModellingLaurens De Vocht
 
Hoe Cloud is Open Source
Hoe Cloud is Open SourceHoe Cloud is Open Source
Hoe Cloud is Open SourceIGI Group
 
Sap leonardo vnsg developerdag 2017 - experis ciber
Sap leonardo  vnsg developerdag 2017 - experis ciberSap leonardo  vnsg developerdag 2017 - experis ciber
Sap leonardo vnsg developerdag 2017 - experis ciberWim Snoep
 
Big Data en Open Data
Big Data en Open DataBig Data en Open Data
Big Data en Open DataBart Hanssens
 

Similar to Hadoop voor niet-technici (18)

Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case Study
 
SURFgroepen voorbij!
SURFgroepen voorbij!SURFgroepen voorbij!
SURFgroepen voorbij!
 
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
 
Drupal8
Drupal8Drupal8
Drupal8
 
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro20191114 ECP Jaarcongres 2019 -  PLDN en Linked Data Intro
20191114 ECP Jaarcongres 2019 - PLDN en Linked Data Intro
 
Profiel thymos rudi respen
Profiel thymos   rudi respenProfiel thymos   rudi respen
Profiel thymos rudi respen
 
De betekenis van cloud computing
De betekenis van cloud computingDe betekenis van cloud computing
De betekenis van cloud computing
 
De Datahub
De DatahubDe Datahub
De Datahub
 
Matthias Vandermaesen: De Datahub
Matthias Vandermaesen: De DatahubMatthias Vandermaesen: De Datahub
Matthias Vandermaesen: De Datahub
 
Matthias Vandermaesen - De datahub
Matthias Vandermaesen - De datahubMatthias Vandermaesen - De datahub
Matthias Vandermaesen - De datahub
 
IPv6 news-nl-20121009
IPv6 news-nl-20121009IPv6 news-nl-20121009
IPv6 news-nl-20121009
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case Study
 
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloud
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloudCursus: Deel 2 - Raspberry Pi, creëer je eigen cloud
Cursus: Deel 2 - Raspberry Pi, creëer je eigen cloud
 
The DataTank, RML and Domain Modelling
The DataTank, RML and Domain ModellingThe DataTank, RML and Domain Modelling
The DataTank, RML and Domain Modelling
 
Hoe Cloud is Open Source
Hoe Cloud is Open SourceHoe Cloud is Open Source
Hoe Cloud is Open Source
 
Hoe Cloud in Open Source?
Hoe Cloud in Open Source?Hoe Cloud in Open Source?
Hoe Cloud in Open Source?
 
Sap leonardo vnsg developerdag 2017 - experis ciber
Sap leonardo  vnsg developerdag 2017 - experis ciberSap leonardo  vnsg developerdag 2017 - experis ciber
Sap leonardo vnsg developerdag 2017 - experis ciber
 
Big Data en Open Data
Big Data en Open DataBig Data en Open Data
Big Data en Open Data
 

More from Evert Lammerts

Notes on data-intensive processing with Hadoop Mapreduce
Notes on data-intensive processing with Hadoop MapreduceNotes on data-intensive processing with Hadoop Mapreduce
Notes on data-intensive processing with Hadoop MapreduceEvert Lammerts
 
Introduction NL-HUG (April)
Introduction NL-HUG (April)Introduction NL-HUG (April)
Introduction NL-HUG (April)Evert Lammerts
 
Hadoop @ Sara & BiG Grid
Hadoop @ Sara & BiG GridHadoop @ Sara & BiG Grid
Hadoop @ Sara & BiG GridEvert Lammerts
 
First NL-HUG: Large-scale data processing at SARA with Apache Hadoop
First NL-HUG: Large-scale data processing at SARA with Apache HadoopFirst NL-HUG: Large-scale data processing at SARA with Apache Hadoop
First NL-HUG: Large-scale data processing at SARA with Apache HadoopEvert Lammerts
 
Scientific computing in The Netherlands
Scientific computing in The NetherlandsScientific computing in The Netherlands
Scientific computing in The NetherlandsEvert Lammerts
 
Large-Scale Data Storage and Processing for Scientists with Hadoop
Large-Scale Data Storage and Processing for Scientists with HadoopLarge-Scale Data Storage and Processing for Scientists with Hadoop
Large-Scale Data Storage and Processing for Scientists with HadoopEvert Lammerts
 
Hadoop Hackathon Reader
Hadoop Hackathon ReaderHadoop Hackathon Reader
Hadoop Hackathon ReaderEvert Lammerts
 
Introduction to SARA's Hadoop Hackathon - dec 7th 2010
Introduction to SARA's Hadoop Hackathon - dec 7th 2010Introduction to SARA's Hadoop Hackathon - dec 7th 2010
Introduction to SARA's Hadoop Hackathon - dec 7th 2010Evert Lammerts
 

More from Evert Lammerts (8)

Notes on data-intensive processing with Hadoop Mapreduce
Notes on data-intensive processing with Hadoop MapreduceNotes on data-intensive processing with Hadoop Mapreduce
Notes on data-intensive processing with Hadoop Mapreduce
 
Introduction NL-HUG (April)
Introduction NL-HUG (April)Introduction NL-HUG (April)
Introduction NL-HUG (April)
 
Hadoop @ Sara & BiG Grid
Hadoop @ Sara & BiG GridHadoop @ Sara & BiG Grid
Hadoop @ Sara & BiG Grid
 
First NL-HUG: Large-scale data processing at SARA with Apache Hadoop
First NL-HUG: Large-scale data processing at SARA with Apache HadoopFirst NL-HUG: Large-scale data processing at SARA with Apache Hadoop
First NL-HUG: Large-scale data processing at SARA with Apache Hadoop
 
Scientific computing in The Netherlands
Scientific computing in The NetherlandsScientific computing in The Netherlands
Scientific computing in The Netherlands
 
Large-Scale Data Storage and Processing for Scientists with Hadoop
Large-Scale Data Storage and Processing for Scientists with HadoopLarge-Scale Data Storage and Processing for Scientists with Hadoop
Large-Scale Data Storage and Processing for Scientists with Hadoop
 
Hadoop Hackathon Reader
Hadoop Hackathon ReaderHadoop Hackathon Reader
Hadoop Hackathon Reader
 
Introduction to SARA's Hadoop Hackathon - dec 7th 2010
Introduction to SARA's Hadoop Hackathon - dec 7th 2010Introduction to SARA's Hadoop Hackathon - dec 7th 2010
Introduction to SARA's Hadoop Hackathon - dec 7th 2010
 

Hadoop voor niet-technici

  • 1. Heel snel klaar Met heel veel data Evert Lammerts, eScience & Cloud Services SARA Reken- en Netwerk Diensten 13-09-11
  • 2. Er was eens... … een bedrijf met de ambitie het hele internet te indexeren … snel … en goedkoop Er dus bedachten zij... … een systeem waarmee dat kan … MapReduce en het Google File System … en schreven er over (S. Ghemawat et al., 2004) SARA Reken- en Netwerk Diensten 13-09-11
  • 3. In 2006, zonder veel lawaai... … was Doug Cutting klaar met de eerste OS implementatie … voor de crawler van de Apache Nutch zoekmachine En het ging snel... … toen Yahoo! Doug Cutting in dienst nam … het Apache Hadoop project uit Nutch voortkwam … en het systeem in 2008 schaalde naar Petabytes data SARA Reken- en Netwerk Diensten 13-09-11
  • 4. In 2009: Winnaar Jim Gray's Sort SARA Reken- en Netwerk Diensten 13-09-11
  • 5. In 2011: Winnaar Jeopardy! SARA Reken- en Netwerk Diensten 13-09-11
  • 6. En wat blijkt? Het voldoet ook voor anderen! SARA Reken- en Netwerk Diensten 13-09-11
  • 7. Daar komt ook... … langzaam maar zeker... … de academische wereld achter! … al dan niet schoorvoetend SARA Reken- en Netwerk Diensten 13-09-11
  • 8. Hadoop blijkt namelijk... … vanwege haar rekenmodel en bestandssysteem … dat data parallelisme zelf regelt … dat erg goed is in I/O intensieve rekentaken … en dat bijzonder tolerant is t.o.v. fouten … een nuttige aanvulling … op bestaande rekeninfrastructuur SARA Reken- en Netwerk Diensten 13-09-11
  • 9. SARA Reken- en Netwerk Diensten 13-09-11
  • 10. Data parallelisme is wanneer... … processoren tegelijkertijd dezelfde taak uitvoeren … met andere parameters En taak parallelisme is wanneer... … processoren samenwerken … om een enkele taak te voltooien SARA Reken- en Netwerk Diensten 13-09-11
  • 11. Het Hadoop DFS... … faciliteert data parallelisme … door elk bestand op te knippen in X blokken … en al die blokken te distribueren over verschillende nodes En MapReduce... … kan een bestand dan verwerken … door op elk van die nodes … dezelfde taak uit te voeren SARA Reken- en Netwerk Diensten 13-09-11
  • 12. Zoiets dus... En dit is echt anders... … want ineens is daar data lokaliteit … en ingebakken parallelisme … wat door MapReduce weer gebruikt wordt SARA Reken- en Netwerk Diensten 13-09-11
  • 13. Want we doen het niet zo... SARA Reken- en Netwerk Diensten 13-09-11
  • 14. Dat heeft als voordeel... … dat er geen data over het netwerk hoeft … en dus is de I/O snelheid gelijk aan dat van de disks … en je weet altijd hoeveel blokken er zijn … dus is de graad van parallelisme makkelijk te bepalen Bovendien is dit kosten-efficient... … want er is geen dure netwerk apparatuur nodig … en daarbij is Hadoop fout tolerant … en dus zijn er geen dure redundantie mechanismen nodig SARA Reken- en Netwerk Diensten 13-09-11
  • 15. Maar de wereld is groter... … want er zijn allemaal leuke tools ontwikkeld … die weer allemaal met Hadoop werken … zo is er bijvoorbeeld... … Apache Hbase, een in-memory key / value store … Apache Pig, om queries uit te voeren … Giraph, voor graph processing … HCatalog, table and storage management … Oozie, a workflow manager SARA Reken- en Netwerk Diensten 13-09-11
  • 16. Wat verder bijzonder is... … zijn de Hadoop APIs … die stabiel zijn … en goed onderhouden worden, met versioning en al, … en dat is in onze wereld wel heel erg nieuw Wat je daar mee kan... … is applicaties bouwen die met het system praten … vanaf een client computer, of een server … en dat is dan weer eScience … toch? SARA Reken- en Netwerk Diensten 13-09-11
  • 17. SARA Reken- en Netwerk Diensten 13-09-11
  • 18. En wij doen mee... … sinds december 2010, met een prototype cluster … van zes nodes … met 20 cores voor MapReduce … en 100 TB voor HDFS Met daarbij... … Apache Pig … Hive … Hbase (in test) … Hue SARA Reken- en Netwerk Diensten 13-09-11
  • 19. SARA Reken- en Netwerk Diensten 13-09-11
  • 20. Dit doen mensen uit... … de sociale wetenschappen … de informatica … de econometrie Wat ze dan doen is... … allerlei kwantitatieve methoden toepassen … op ongestructureerde teksten met natuurlijke taal … op sensordata … op semi-gestructureerde informatie (tags e.d.) … op grafisch materiaal (video's en foto's) SARA Reken- en Netwerk Diensten 13-09-11
  • 21. Hoe we nu verder gaan... … is via BiG Grid … met een nieuw cluster … met 528 cores en 528 TB … hopelijk vanaf januari En dan gaan we... … een service neerzetten met een aantal extensies … als Hbase, Pig, Giraph, Oozie en Hive … en we ontwikkelen mee aan Hadoop zelf … en aan applicaties daarop SARA Reken- en Netwerk Diensten 13-09-11
  • 22. Maar om te beginnen... … organiseren we 30 november een twee daagse cursus … met SIKS, en Jimmy Lin, als het meezit … en gaan we de bioinformatici te helpen met Biodoop … en moet er weer een hackathon komen En uiteindelijk... … rekenen we nog lang en gelukkig SARA Reken- en Netwerk Diensten 13-09-11