Hadoop voor niet-technici

Heel snel klaar
Met heel veel data

Evert Lammerts, eScience & Cloud Services
SARA Reken- en Netwerk Diensten 13-09-11

Er was eens...
… een bedrijf met de ambitie het hele internet te indexeren
… snel
… en goedkoop

Er dus bedachten zij...
… een systeem waarmee dat kan
… MapReduce en het Google File System
… en schreven er over (S. Ghemawat et al., 2004)


In 2006, zonder veel lawaai...
… was Doug Cutting klaar met de eerste OS implementatie
… voor de crawler van de Apache Nutch zoekmachine

En het ging snel...
… toen Yahoo! Doug Cutting in dienst nam
… het Apache Hadoop project uit Nutch voortkwam
… en het systeem in 2008 schaalde naar Petabytes data


In 2009:
Winnaar Jim Gray's Sort


In 2011:
Winnaar Jeopardy!


En wat blijkt?

Het voldoet ook voor anderen!


Daar komt ook...
… langzaam maar zeker...

… de academische wereld achter!
… al dan niet schoorvoetend


Hadoop blijkt namelijk...
… vanwege haar rekenmodel en bestandssysteem
… dat data parallelisme zelf regelt
… dat erg goed is in I/O intensieve rekentaken
… en dat bijzonder tolerant is t.o.v. fouten

… een nuttige aanvulling
… op bestaande rekeninfrastructuur


Data parallelisme is wanneer...
… processoren tegelijkertijd dezelfde taak uitvoeren
… met andere parameters

En taak parallelisme is wanneer...
… processoren samenwerken
… om een enkele taak te voltooien


Het Hadoop DFS...
… faciliteert data parallelisme
… door elk bestand op te knippen in X blokken
… en al die blokken te distribueren over verschillende nodes

En MapReduce...
… kan een bestand dan verwerken
… door op elk van die nodes
… dezelfde taak uit te voeren


Zoiets dus...

En dit is echt anders...
… want ineens is daar data lokaliteit
… en ingebakken parallelisme
… wat door MapReduce weer gebruikt wordt


Want we doen het niet zo...


Dat heeft als voordeel...
… dat er geen data over het netwerk hoeft
… en dus is de I/O snelheid gelijk aan dat van de disks
… en je weet altijd hoeveel blokken er zijn
… dus is de graad van parallelisme makkelijk te bepalen

Bovendien is dit kosten-efficient...
… want er is geen dure netwerk apparatuur nodig
… en daarbij is Hadoop fout tolerant
… en dus zijn er geen dure redundantie mechanismen nodig


Maar de wereld is groter...
… want er zijn allemaal leuke tools ontwikkeld
… die weer allemaal met Hadoop werken

… zo is er bijvoorbeeld...
… Apache Hbase, een in-memory key / value store
… Apache Pig, om queries uit te voeren
… Giraph, voor graph processing
… HCatalog, table and storage management
… Oozie, a workflow manager

Wat verder bijzonder is...
… zijn de Hadoop APIs
… die stabiel zijn
… en goed onderhouden worden, met versioning en al,
… en dat is in onze wereld wel heel erg nieuw

Wat je daar mee kan...
… is applicaties bouwen die met het system praten
… vanaf een client computer, of een server
… en dat is dan weer eScience
… toch?


En wij doen mee...
… sinds december 2010, met een prototype cluster
… van zes nodes
… met 20 cores voor MapReduce
… en 100 TB voor HDFS

Met daarbij...
… Apache Pig
… Hive
… Hbase (in test)
… Hue


Dit doen mensen uit...
… de sociale wetenschappen
… de informatica
… de econometrie

Wat ze dan doen is...
… allerlei kwantitatieve methoden toepassen
… op ongestructureerde teksten met natuurlijke taal
… op sensordata
… op semi-gestructureerde informatie (tags e.d.)
… op grafisch materiaal (video's en foto's)

Hoe we nu verder gaan...
… is via BiG Grid
… met een nieuw cluster
… met 528 cores en 528 TB
… hopelijk vanaf januari

En dan gaan we...
… een service neerzetten met een aantal extensies
… als Hbase, Pig, Giraph, Oozie en Hive
… en we ontwikkelen mee aan Hadoop zelf
… en aan applicaties daarop


Maar om te beginnen...
… organiseren we 30 november een twee daagse cursus
… met SIKS, en Jimmy Lin, als het meezit
… en gaan we de bioinformatici te helpen met Biodoop
… en moet er weer een hackathon komen

En uiteindelijk...
… rekenen we nog lang en gelukkig


Hadoop voor niet-technici

Recommended

Recommended

More Related Content

Similar to Hadoop voor niet-technici

Similar to Hadoop voor niet-technici (18)

More from Evert Lammerts

More from Evert Lammerts (8)

Hadoop voor niet-technici