Introduction to SARA's Hadoop Hackathon - dec 7th 2010
Hadoop voor niet-technici
1. Heel snel klaar
Met heel veel data
Evert Lammerts, eScience & Cloud Services
SARA Reken- en Netwerk Diensten 13-09-11
2. Er was eens...
… een bedrijf met de ambitie het hele internet te indexeren
… snel
… en goedkoop
Er dus bedachten zij...
… een systeem waarmee dat kan
… MapReduce en het Google File System
… en schreven er over (S. Ghemawat et al., 2004)
SARA Reken- en Netwerk Diensten 13-09-11
3. In 2006, zonder veel lawaai...
… was Doug Cutting klaar met de eerste OS implementatie
… voor de crawler van de Apache Nutch zoekmachine
En het ging snel...
… toen Yahoo! Doug Cutting in dienst nam
… het Apache Hadoop project uit Nutch voortkwam
… en het systeem in 2008 schaalde naar Petabytes data
SARA Reken- en Netwerk Diensten 13-09-11
4. In 2009:
Winnaar Jim Gray's Sort
SARA Reken- en Netwerk Diensten 13-09-11
5. In 2011:
Winnaar Jeopardy!
SARA Reken- en Netwerk Diensten 13-09-11
6. En wat blijkt?
Het voldoet ook voor anderen!
SARA Reken- en Netwerk Diensten 13-09-11
7. Daar komt ook...
… langzaam maar zeker...
… de academische wereld achter!
… al dan niet schoorvoetend
SARA Reken- en Netwerk Diensten 13-09-11
8. Hadoop blijkt namelijk...
… vanwege haar rekenmodel en bestandssysteem
… dat data parallelisme zelf regelt
… dat erg goed is in I/O intensieve rekentaken
… en dat bijzonder tolerant is t.o.v. fouten
… een nuttige aanvulling
… op bestaande rekeninfrastructuur
SARA Reken- en Netwerk Diensten 13-09-11
10. Data parallelisme is wanneer...
… processoren tegelijkertijd dezelfde taak uitvoeren
… met andere parameters
En taak parallelisme is wanneer...
… processoren samenwerken
… om een enkele taak te voltooien
SARA Reken- en Netwerk Diensten 13-09-11
11. Het Hadoop DFS...
… faciliteert data parallelisme
… door elk bestand op te knippen in X blokken
… en al die blokken te distribueren over verschillende nodes
En MapReduce...
… kan een bestand dan verwerken
… door op elk van die nodes
… dezelfde taak uit te voeren
SARA Reken- en Netwerk Diensten 13-09-11
12. Zoiets dus...
En dit is echt anders...
… want ineens is daar data lokaliteit
… en ingebakken parallelisme
… wat door MapReduce weer gebruikt wordt
SARA Reken- en Netwerk Diensten 13-09-11
13. Want we doen het niet zo...
SARA Reken- en Netwerk Diensten 13-09-11
14. Dat heeft als voordeel...
… dat er geen data over het netwerk hoeft
… en dus is de I/O snelheid gelijk aan dat van de disks
… en je weet altijd hoeveel blokken er zijn
… dus is de graad van parallelisme makkelijk te bepalen
Bovendien is dit kosten-efficient...
… want er is geen dure netwerk apparatuur nodig
… en daarbij is Hadoop fout tolerant
… en dus zijn er geen dure redundantie mechanismen nodig
SARA Reken- en Netwerk Diensten 13-09-11
15. Maar de wereld is groter...
… want er zijn allemaal leuke tools ontwikkeld
… die weer allemaal met Hadoop werken
… zo is er bijvoorbeeld...
… Apache Hbase, een in-memory key / value store
… Apache Pig, om queries uit te voeren
… Giraph, voor graph processing
… HCatalog, table and storage management
… Oozie, a workflow manager
SARA Reken- en Netwerk Diensten 13-09-11
16. Wat verder bijzonder is...
… zijn de Hadoop APIs
… die stabiel zijn
… en goed onderhouden worden, met versioning en al,
… en dat is in onze wereld wel heel erg nieuw
Wat je daar mee kan...
… is applicaties bouwen die met het system praten
… vanaf een client computer, of een server
… en dat is dan weer eScience
… toch?
SARA Reken- en Netwerk Diensten 13-09-11
18. En wij doen mee...
… sinds december 2010, met een prototype cluster
… van zes nodes
… met 20 cores voor MapReduce
… en 100 TB voor HDFS
Met daarbij...
… Apache Pig
… Hive
… Hbase (in test)
… Hue
SARA Reken- en Netwerk Diensten 13-09-11
20. Dit doen mensen uit...
… de sociale wetenschappen
… de informatica
… de econometrie
Wat ze dan doen is...
… allerlei kwantitatieve methoden toepassen
… op ongestructureerde teksten met natuurlijke taal
… op sensordata
… op semi-gestructureerde informatie (tags e.d.)
… op grafisch materiaal (video's en foto's)
SARA Reken- en Netwerk Diensten 13-09-11
21. Hoe we nu verder gaan...
… is via BiG Grid
… met een nieuw cluster
… met 528 cores en 528 TB
… hopelijk vanaf januari
En dan gaan we...
… een service neerzetten met een aantal extensies
… als Hbase, Pig, Giraph, Oozie en Hive
… en we ontwikkelen mee aan Hadoop zelf
… en aan applicaties daarop
SARA Reken- en Netwerk Diensten 13-09-11
22. Maar om te beginnen...
… organiseren we 30 november een twee daagse cursus
… met SIKS, en Jimmy Lin, als het meezit
… en gaan we de bioinformatici te helpen met Biodoop
… en moet er weer een hackathon komen
En uiteindelijk...
… rekenen we nog lang en gelukkig
SARA Reken- en Netwerk Diensten 13-09-11