Thesis Big Data

Academiejaar 2012-2013

2e examenperiode - juni

”HARNESSING A GAME-CHANGING ASSET”
THE ECONOMIST

Eindwerk voorgedragen door
< Natan Meekers >

< Professionele bachelor >

Technologie & Design

BIG DATA

Interne promotor:
< Dhr. Chris Vandermeiren >
Externe promotor:
< Dhr. Geert Van Landeghem >

tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan
| Bachelor in het Informaticamanagement en de multimedia |
| in het studiegebied Technologie & Design |

"Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal
bevat dat ooit in eender welke instelling is gebruikt om een diploma, van welke aard ook, te
behalen of dat eerder werd gepubliceerd of geschreven door een ander persoon, behalve daar
waar deze scriptie referenties bevat naar andere werken.”

Inhoudsopgave
1

Dankwoord ....................................................................................................................................... 1

2

Voorwoord ....................................................................................................................................... 2

3

Abstract ............................................................................................................................................ 3

4

Inleiding ............................................................................................................................................ 4

5

Definitie ............................................................................................................................................ 6

6

Situering Big Data ............................................................................................................................. 7
6.1

Big Data & Performance Management .................................................................................... 7

6.2

Big Data & Business Intelligence .............................................................................................. 8

6.2.1
6.2.2

Big Data ............................................................................................................................ 9

6.2.3

Situering ......................................................................................................................... 10

6.2.4
7

Business Intelligence ........................................................................................................ 8

Big Data Raffinaderij....................................................................................................... 11

Innovatie, uitdagingen & opportuniteiten ..................................................................................... 13
7.1

Innovatie................................................................................................................................. 13

7.1.1

Hadoop stack .................................................................................................................. 14

7.1.2

Cloudera vs. Hortonworks Data Platform (HDP) ............................................................ 18

7.1.3

SAS Visual Analytics ........................................................................................................ 19

7.2

Uitdagingen ............................................................................................................................ 22

7.2.1

Data silo’s samenbrengen .............................................................................................. 22

7.2.2

Data complexiteit ........................................................................................................... 22

7.2.3

Nieuwe skills ................................................................................................................... 22

7.2.4

Privacy ............................................................................................................................ 22

7.3

Opportuniteiten ..................................................................................................................... 23

7.3.1

Data-gedreven organisatie ............................................................................................. 23

7.3.2

Uitgebreidere analytische mogelijkheden ..................................................................... 23

7.3.3

Interactie met klanten .................................................................................................... 23

7.3.4

Detecteren van fraude ................................................................................................... 23

7.3.5

Andere ............................................................................................................................ 23

8

Aanpak............................................................................................................................................ 24
8.1

Onderzoek naar Big Data ....................................................................................................... 24

8.1.1

Events ............................................................................................................................. 24

8.1.2

Webinars ........................................................................................................................ 24

8.1.3

Sociale Media ................................................................................................................. 25

8.1.4

Virtuele Machine ............................................................................................................ 26

8.2

Formuleer opportuniteiten .................................................................................................... 26

8.3

Ontwikkel Use Cases .............................................................................................................. 27

8.4

Identificeer huidige- en toekomstige capaciteiten ................................................................ 27

8.5

Zet een testomgeving op........................................................................................................ 27

8.6

Evalueer .................................................................................................................................. 27

9

Use Cases........................................................................................................................................ 28
9.1

Misdaad Preventie Memphis ................................................................................................. 28

9.2

Presidentsverkiezing US ......................................................................................................... 29

9.3

Detectie frauduleuze transacties ........................................................................................... 31

9.4

Vestas windturbines ............................................................................................................... 32

10

Case – FOD Justitie ..................................................................................................................... 33

11

Case – Adswizz............................................................................................................................ 34

12

Conclusie .................................................................................................................................... 35

12.1

Algemeen ............................................................................................................................... 35

12.2

Persoonlijk .............................................................................................................................. 36

13

Verklarende woordenlijst ........................................................................................................... 37

14

Bijlage ......................................................................................................................................... 39

14.1

Big data poster ....................................................................................................................... 39

14.2

Adswizz- streaming ad injection............................................................................................. 40

15

Bibliografie ................................................................................................................................. 41

16

Auteur......................................................................................................................................... 45

1

DANKWOORD

Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en
project. In de eerste plaats wil ik mijn ouders bedanken voor de mogelijkheden en ondersteuning die
zij mij hebben gegeven. Hun enthousiasme en geloof in mij hebben mij sterk gemotiveerd.
Ik wil mijn interne promotor, Dhr. Chris Vandermeiren, bedanken voor zijn wijze raad, opvolging en
begeleiding doorheen het hele traject. Zijn geloof in mij heeft mij extra aangespoord om mijn best te
doen. Ook wil ik me richten tot Mevr. Ilse Bracke en Dhr. Hans Tubbax voor hun enthousiasme en
aanmoedigingen om bij mijn eerste voorstel te blijven toen ik aan het twijfelen was.
Bijzondere dank gaat uit naar mijn externe promotor, Dhr. Geert Van Landeghem van DataCrunchers.
Toen ik hem contacteerde om te vragen of ik op hem mocht ‘terugvallen’ wanneer ik vast zat, had ik
nooit de begeleiding, tijdsinvestering en het materiaal verwacht, waarin hij heeft voorzien. De keren
dat ik op kantoor van hem en medewerkers opleiding heb gekregen, hebben enorm bijgedragen om
vertrouwd te geraken in het Big Data verhaal. Toen ik hem om raad vroeg in verband met het project
bij Justitie dat zéér traag vooruit ging, heeft hij mij op zeer korte termijn aan een nieuw en
interessant project geholpen.
De organisatoren en leden van de Meetup groep ‘BigData.be’ wil ik ook graag bedanken voor de
verschillende Big Data Meetups. Elke keer opnieuw waren het leerrijke presentaties en interessante
gesprekken waaruit ik veel heb bijgeleerd. Speciaal dank gaat uit naar Daan Gerits voor het delen van
opinies en gedachten, als antwoord op mijn vragen in de LinkedIn groep.
Graag vernoem ik ook Dries Van Nieuwenhuyse die spontaan heeft aangeboden mijn eindwerk na te
lezen. Zijn feedback en raad hebben mij geholpen inhoudelijke en structurele verbeteringen aan te
brengen.
Ook alle andere mensen, die ik niet bij naam heb genoemd maar toch hebben bijgedragen, wil ik
bedanken voor die dingen die mij geholpen hebben mijn bachelorproef tot een goed einde te
brengen.

Natan Meekers

Thomas More

1

2

VOORWOORD

Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het
vak ‘Methoden voor onderzoek en rapportering’ een thesis voorstel uitwerken. Aangezien ik voor de
afstudeerrichting ‘Performance Management’ gekozen heb, en mij wil specialiseren in Business
Intelligence, ben ik op zoek gegaan naar een interessant en relevant onderwerp in diezelfde richting.
Op het jaarlijkse Business Intelligence congres, dat georganiseerd wordt door het BICC van de
hogeschool, heb ik met een heel aantal bedrijfsmensen gesproken over verschillende mogelijke
onderwerpen. Dit soort events zijn een uitstekende opportuniteit om contacten te leggen en raad te
vragen aan professionals en bedrijven. Zij hebben immers ervaring en kennen de markt.
Zo ben ik in gesprek geraakt met Dhr. F. Verscheure die als Lifecycle Management Consultant werkt
bij SAS Belgium & Luxemburg. Hij bracht mij op het idee om een eindwerk te maken rond Hadoop. Na
wat opzoekwerk werd mij al snel duidelijk dat de term Big Data en Hadoop nauw samen gaan.
Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de
verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan
uit commodity 1 hardware. Zo kunnen bedrijven complexe vragen stellen en nieuwe inzichten
bekomen in zeer korte tijd op basis van alle beschikbare data.
Ik was meteen overtuigd om over Big Data een eindwerk te maken. Met de populariteit van Social,
Mobile en Cloud, geloof ik dat Big Data een steeds grotere en belangrijkere rol zal gaan spelen.
Tijdens een eerste gesprek met mijn mentor, Dhr. Chris Vandermeiren, werd het al snel duidelijk dat
de technologie gewoon testen niet voldoende was. Om het eindwerk relevant en waardevol te
maken, moest ik op zoek gaan naar een bedrijf dat met Big Data problematiek te maken heeft.
Zo ben ik terechtgekomen bij het FOD Justitie. Zij zitten met een aantal problemen waarvoor Big Data
een mooie oplossing kan bieden:





Er zijn héél veel vragen van de business die snel opgelost moeten worden.
Het bouwen van datawarehouses duurt te lang.
De data zit verspreid over verschillende data silo’s van de verschillende instanties.

Hun situatie is voor mij een uitstekende kans om te kijken naar de mogelijkheden van Hadoop en
andere open-source tools die de oplossing zullen bieden voor hun problemen.

1

Betaalbaar, normale hardware

Natan Meekers

Thomas More

2

3

ABSTRACT

Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er
duidelijk nood aan innovatieve technologieën en nieuwe methodologieën. Met dit eindwerk wil ik de
focus leggen op volgende aspecten:




Wat is Big Data en hoe kaderen we dit binnen Performance Management en Business
Intelligence?
Welke innovaties, uitdagingen en opportuniteiten brengt het met zich mee?
Hoe pak je een Big Data project concreet aan? Welke stappen moet je volgen? Welke skills
zijn nodig?

Om de relevantie van mijn eindwerk naar bedrijven toe te verhogen, zou ik de theorie toepassen op
een business case bij FOD Justitie.
De Federale Overheidsdienst Justitie (FOD Justitie) bestaat uit verschillende instanties en houdt zich
bezig met de rechtsorde in alle stadia: wetgeving, preventie, handhaving … Hun cel ‘Data
Management’ is sinds twee jaar bezig met Business Intelligence en Datawarehousing. Van hen wordt
verwacht dat ze alle vragen die van de verschillende gerechtsinstellingen komen, zo snel mogelijk
beantwoorden. Echter, het bouwen van een datawarehouse kost tijd en de vragen die van de
verschillende instanties komen, stapelen zich snel op. Momenteel zijn er zoveel vragen die
beantwoord moeten worden, dat de cel Data Management voor de komende 10 jaar? al werkt heeft.
Daarbij komt dat het departement slechts 8? werknemers in dienst heeft en dat de vereiste data
verspreid zit over verschillende data silo’s bij de verschillende instanties. Sinds twee jaar is Justitie
ook bezig met een Business Intelligence project in samenwerking met LACO. Mede door de
investering in dit BI project staat het hoger management niet te springen om nu een Big Data project
te gaan financieren.
Echter, door veelheid aan procedures en een trage en moeilijke communicatie, kan ik het slechts
suggestief toepassen in de resterende tijdframe. Om mijn theoretische kennis toch toe te passen in
de praktijk, ben ik via mijn externe begeleider terecht gekomen bij Adswizz op een interessant Big
Data project.
Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.
Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal
worden. Ook willen ze extra data gaan verzamelen over luisteraars zodat ze advertenties kunnen
gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om
dan een meer relevante advertentie te injecteren in een bepaalde webstream.
Momenteel gebruiken zij Amazon S3 en EMR en ontwikkelen ze scripts in Pig om hun data te
manipuleren. Ik zal hen helpen bij het ontwikkelen van Pig scripts die data verzamelen, aggregeren en
wegschrijven naar Hbase. Rapporten worden opgebouwd op basis hiervan.

Natan Meekers

Thomas More

3

4

INLEIDING

Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de
wereld van Business Intelligence en zal komende jaren op grote schaal worden opgenomen door
bedrijven. (Gartner, 2013)
"After a few years of experimentation and early adopter successes, 2013 will be the year of

larger scale adoption of big data technologies."
GARTNER, 2013

In onze huidige economie is de grootste waarde gebaseerd op kennis, en gegevens zijn van zéér groot
strategisch belang. De data die nodig is om tot deze kennis te komen is afkomstig uit diverse bronnen
en bestaat uit verschillende types zoals: data uit legacy systemen, online transactie gegevens,
sensoren die klimaatgegevens verzamelen, gps-tracking signalen, berichten geplaatst op sociale
media, log bestanden… Vandaag de dag creëren we ongeveer 900.000 Terabytes aan data per dag
(IBM, 2012). Dat wil zeggen dat ongeveer 90% van de data over de hele wereld gegenereerd is in de
laatste twee jaar.

Figuur 1 - Big Data sources

Natan Meekers

Thomas More

4

De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen:
‘Social’

‘Mobile’

‘Cloud’

De snelle opkomst van deze drie domeinen heeft heel wat veranderingen teweeg gebracht: sociale
veranderingen gaan veel sneller dan vroeger (zie “Arabisch Lente”) en de informatiestroom is nu
omgekeerd. Waar vroeger informatie afkomstig was van slechts een beperkt aantal kanalen, beschikt
nu iedereen over de mogelijkheid om op alle mogelijke momenten en plaatsen informatie te delen.
(Hunt, 2013)

Deze grote hoeveelheid informatie die nu beschikbaar wordt, biedt veel mogelijkheden aan maar ook
veel uitdagingen. Het wordt steeds moeilijker om relevante en nuttige informatie uit deze enorme
massa te filteren. Veel organisaties hebben het al moeilijk om hun kritieke gegevens te beheren en te
analyseren omdat deze verspreid zitten over de verschillende informatiesystemen en/of
departementen, laat staan dat ze dan klaar zijn om, of beschikken over de mogelijkheden om
relevante informatie te extraheren uit voorgaande genoemde domeinen. (Jernevad, 2012)
Daarbij komt dat het “on-the-fly” analyseren (voor bv. Fraude-detectie bij transacties) en het
betrekken van externe bronnen met ongestructureerde data, steeds essentiëler wordt voor
bedrijven.

Natan Meekers

Thomas More

5

5

DEFINITIE

Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te
verklaren aangezien er zoveel verschillende standpunten zijn over wat er nu juist verstaan wordt
onder Big Data.
De term ‘Big Data’ is misschien misleidend omdat hij letterlijk betekent: grote volumes data. Echter in
de praktijk wordt Big Data niet persé bepaald door grote volumes van data maar ook door andere
factoren zoals: de snelheid waarmee de data binnenkomt, de variëteit aan data - gestructureerd of
ongestructureerd - en de externe datasets die men wil betrekken bij analyses. Volgende definitie van
Gartner, die Big Data als de 3 V’s omschrijft, is de meest algemeen aangenomen definitie:
"Big data in general is defined as high Volume, Velocity and Variety information assets

that demand cost-effective, innovative forms of information processing for enhanced
insight and decision making."
GARTNER, 2012

In deze definitie merken we direct verschillende aspecten die de term Big Data omschrijven:





Het data aspect: volume, variëteit en snelheid.
Het technologische aspect: kosteneffectieve manier om de data op te slaan en te
verwerken.
Het analytische aspect: data anders bekijken voor verbeterde inzichten en besluitvorming.

Ondanks deze definitie de meest algemeen aangenomen definitie is, zijn er nog steeds andere visies
over wat Big Data nu juist betekent. Volgende omschrijving is naar mijn mening een mooie aanvulling
op de definitie van Gartner:
"Big Data is indeed Volume, Velocity and Variety. But these are again consequences of how

you structure your data. In my opinion Big Data is also about the way you look at your
data, which is enabled by a collection of technologies. The fact that you can restructure
your data at any time and enrich it with any kind of additional data sources allows us to
get information out which we never thought was possible"
DAAN GERITS, 2013

Samengevat: ondanks de term laat uitschijnen dat het gaat over grote data volumes, omschrijft de
term meer het geheel. Het omvat de steeds sneller groeiende en complexer wordende datasets, die
ervoor gezorgd hebben dat er nieuwe technologieën ontwikkeld zijn. Die bieden op hun beurt nieuwe
mogelijkheden aan om enorm grote datasets op te slaan en te herstructureren en om externe data te
betrekken bij analyses om zo tot nieuwe inzichten en een verbeterde besluitvorming te komen.

Natan Meekers

Thomas More

6

6
6.1

Situering Big Data
Big Data & Performance Management

Performance Management is een overkoepelende term voor het geheel van processen, methoden, toepassingen en technologieën die een
organisatie gebruikt om haar prestaties op te volgen, te beheren en te sturen (Nieuwenhuyse, 2011). Performance Management omvat vier
‘intelligence’ domeinen: het Strategische, Financiële, Analytische en Business domein. Big Data valt voornamelijk onder Business Intelligence
maar kan ook voor een deel ook onder Analytical Intelligence gerekend worden.

Business Intelligence
GESTRUCTUREERDEONGESTRUCTUREERDE-

ANALYSEREN

GEHERSTRUCTUREERDE-

SOCIALE
MEDIA

PERFORMANCE
MANAGEMENT

GPS &
SENSOR
SIGNALEN

RAPPORTEREN

DATA

PDF, TEXT
DOCUMENTEN
EN FOTO'S

VOORSPELLEN
LOG FILES

BIG DATA

Analytical Intelligence
Figuur 2 - Situering Big Data binnen Performance Management

Natan Meekers

Thomas More

7

6.2

BIG DATA & BUSINESS INTELLIGENCE

Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om deze rijke bron aan
informatie te benutten. Big Data biedt enorme verbeteringen en nieuwe mogelijkheden aan t.o.v. de
klassieke Business Intelligence tools; het kan zelfs sommige van deze tools vervangen. Hierdoor is het
niet meer voor iedereen duidelijk hoe we BD en BI nu juist moeten bekijken ten opzichte van elkaar.
In dit hoofdstuk wil ik een beeld scheppen hoe we ze juist moeten bekijken en waar we BD kunnen
situeren in het huidige BI landschap.

6.2.1

BUSINESS INTELLIGENCE

Business Intelligence is een overkoepelende term voor de methodes, technologieën en tools die data
verzamelen, opslaan, analyseren en rapporteren om bedrijven tot een verbeterde besluitvorming te
laten komen.
Een definitie voor Business Intelligence door Gartner:
“Business intelligence (BI) is an umbrella term that includes the applications, infrastructure
and tools, and best practices that enable access to and analysis of information to improve
and optimize decisions and performance”
GARTNER, 2012

De missie van BI is dus om te antwoorden op Business vragen en te kijken naar de prestaties in het
verleden. Om die missie zo goed mogelijk te vervullen, zien we dat er een aantal elementen zijn waar
meer aandacht aan besteed moet worden:
1. SNELHEID: Vertraging proberen te vermijden wanneer het gaat om het bedienen van klanten,
reageren op veranderingen in de markt en het optimaliseren van processen.
2. ‘AGILITY’: Het coördineren en beheren van processen en activiteiten doorheen de hele
organisatie om beter te kunnen inspelen op bijgestuurde input.
3. INTELLIGENCE: Aanpassen naar een meer voorspellende en proactieve instelling door gebruik te
maken van meerdere data bronnen en het continu bijsturen van processen en beslissingen.
4. EFFECTIVITEIT: De kosten beter beheren en de productiviteit verhogen om het succes van de
business te ondersteunen.
De scope van BI is gelimiteerd tot gestructureerde data. Alles wat in een datawarehouse terecht komt
via ETL, kan gebruikt worden. Alle ongestructureerde data, die op dit moment tot 80% bedraagt, blijft
onbruikbaar terwijl er toch heel veel informatie en patronen in verstopt zitten.
De vernieuwingen die BD brengt, zijn dus hoognodig en essentieel voor bedrijven want BD helpt
bedrijven om ruwe databronnen te transformeren tot een bruikbaar formaat. Pas dan kan deze data
gebruikt worden in analyses om zo tot nieuwe inzichten te komen.

Natan Meekers

Thomas More

8

Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige
oplossingen, nieuwe en andere methodes moesten komen om ondersteuning te bieden bij de nieuwe
problemen waar wordt tegenaan gelopen.
Nu alles veel groter kan en iedereen veel groter wil, moet je als bedrijf opletten dat je niet ‘verdrinkt’
in de hoeveelheid data die je gaat verzamelen en opslaan. Ook daar zullen deze nieuwe
technologieën bedrijven in ondersteunen.
Onderstaande tabel schept een duidelijk beeld hoe de focus in BI zich verplaatst om te kunnen blijven
voldoen aan de eisen van de business en om te kunnen inspelen op de snel veranderende markt.

BI IN HET VERLEDEN EN HEDEN

BI IN HET HEDEN EN DE TOEKOMST

Klein, gebruikersgroepen per departement die
afhankelijk zijn van IT

Implementaties overheen het hele bedrijf met
‘selfservice’ functionaliteiten

ETL processen voorzien extracten van specifiek
opgevraagde data; deze transformeren voor
specifiek gebruik.

ELT en andere ETL alternatieven, toegang tot
Big Data - ruwe data- en meer gedetailleerde
data afkomstig van verschillende bronnen

Focus op gestructureerde data voor rapporten
en ad hoc query analyses.

Nood aan een uitgebreider scala van zoek,
query en andere tools; rijke meta data voor
semigestructureerde data

Alleen historische views op de data

Views en analyses op de data voor zowel het
verleden, heden als de toekomst

6.2.2

BIG DATA

Zoals al in het vorige hoofdstuk aangehaald, is de meest algemeen aangenomen en complete definitie
van Big Data:
"Big data in general is defined as high volume, velocity and variety information assets

that demand cost-effective, innovative forms of information processing for enhanced
insight and decision making."
GARTNER, 2012

Als we definities vergelijken, wordt het al snel duidelijk dat BD geen vervanger is en dit ook nooit kan
zijn, noch worden voor BI. BI is een overkoepelende term die ruim omschrijft hoe bedrijven informatie
uit hun data kunnen halen en BD in zijn geheel, zal daar altijd toe behoren.

Natan Meekers

Thomas More

9

6.2.3

SITUERING

Het BI landschap op de dag van vandaag:

Figuur 3 - BI landschap (door Convergent-Consulting)

Als we het huidige BI landschap bekijken, merken we al snel op dat Big Data een stap verder gaat dan de
klassieke BI:





Verder dan relationeel: de stroom van semi- en ongestructureerde data (sensor, M2M, …)
creëren de vraag naar niet-relationele, gedistribueerde databases.
Verder dan structuur: de huidige BI metadata structuur kan niet om met de complexiteit van de
data.
Verder dan het Datawarehouse: nood aan een nieuwe manier om data op te slaan en te
verwerken (HDFS, HBase, MapReduce)
Verder dan historiek: het implementeren van modellen om uitzonderingen of patronen te
ontdekken als ze voorkomen i.p.v. steeds te werken op historische data.

Voorlopig zal BD de klassieke BI architectuur en tools ondersteunen en aanvullen (Big Data raffinaderij),
maar naarmate deze systemen en methoden meer vertrouwd geraken en real-time analyses en
rapporteringen nog essentiëler worden, zullen ze in steeds meer bedrijven aan aantal van de klassieke
BI-tools vervangen.

Natan Meekers

Thomas More

10

6.2.4

BIG DATA RAFFINADERIJ

Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een soort
data raffinaderij bouwen die ondersteuning biedt voor de klassieke BI architectuur en de toepassingen
die al up-and-running zijn.

Figuur 4 – Big Data ondersteunt Business Intelligence (door Hortonworks)

Op bovenstaande figuur zien we hoe een BD raffinaderij kan instaan om data uit verschillende bronnen
te verzamelen en te verwerken zodat die mee gebruikt kan worden in de huidige BI architectuur bij
bedrijven. Of dat nu gestructureerde data is - zoals database records -, of ongestructureerde data - zoals
documenten -, of zelfs semigestructureerd data - zoals log data in een tekstbestand -, maakt voor
Hadoop niet uit. Hadoop is in staat om al deze types data gelijktijdig te verwerken en te analyseren. Dat
is ook de voornaamste functie van een Hadoop gebaseerde data raffinaderij.

Natan Meekers

Thomas More

11

6.2.4.1
OPHALEN EN LADEN
Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop
ingeladen. Hadoop speelt hierin een belangrijke rol omdat het data, afkomstig uit verschillende bronnen
en van verschillende types, kan omzetten tot een formaat dat waardevol is voor de business.
6.2.4.2
OPSLAG
Het Hadoop Distributed File System (HDFS) verdeelt de data in blokken (vb. 128MB) en verspreidt deze
over de verschillende nodes van een cluster2. Elke blok data wordt minimaal 3 keer opgeslagen wat het
mogelijk maakt om een data blok in parallel te verwerken. Op die manier is het systeem ook foutentolerant. Wanneer er een machine defect geraakt, kan een andere machine, die dezelfde data blok
bevat, de taak overnemen.
6.2.4.3
PROCESSING
De verwerking van die data gebeurt door MapReduce, een framework dat het mogelijk maakt om
enorme datasets in parallel te verwerken door taken op te delen (Map), die te laten verwerken door de
nodes, en achteraf de resultaten weer samen te voegen (Reduce).
Doordat elke blok data verschillende keren is opgeslagen, voorziet het HDFS in een high-availability
omgeving, die kan opgebouwd worden uit commodity hardware. Om gestructureerde datasets op te
slaan, wordt er vaak gebruik gemaakt van HBase of Cassandra (NoSQL databanken).

2

Verzameling van servers bestaande uit commodity hardware

Natan Meekers

Thomas More

12

7
7.1

INNOVATIE, UITDAGINGEN & OPPORTUNITEITEN
INNOVATIE

Wanneer je als bedrijf denkt over het implementeren van een BD oplossing, zijn er enkele vragen die je
jezelf moet stellen als je een bepaald systeem overweegt.
1.
2.
3.
4.

Kan dit systeem om met grote hoeveelheden data en is het schaalbaar?
Kan dit systeem om met zowel gestructureerde als semi- en ongestructureerde data?
Kan dit systeem om met data die aan hoge snelheid binnenkomt?
Kan dit systeem om met complexiteit? (data centers in verschillende locaties)

De zoektocht naar een geschikt systeem is niet gemakkelijk. Elk bedrijf wil natuurlijk een mix van
volgende drie factoren om met hun nieuwe BD systeem zo dicht mogelijk bij het BD ‘Bulls-Eye’ te komen.

Schaalbaarheid
en performantie

Kosteneffectiviteit

BD ‘Bulls-Eye’

Operationeel
gemak

Figuur 5 - Big Data Bulls-Eye

Omdat de snelheid, waarmee de data moet omgezet worden naar informatie, steeds essentiëler wordt,
moeten IT en business-users beter gaan samenwerken. Dat is een insteek die je terugvindt bij vele
leveranciers. De manier waarop hun oplossing gebouwd is, is gefocust op een verbeterde samenwerking
tussen business & IT en een goede balans tussen agility en controle.

Natan Meekers

Thomas More

13

7.1.1

HADOOP

STACK

De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de
belangrijkste en meest gebruikte en die zal ik dan ook iets uitgebreider bespreken.
Enkele van de voornaamste voordelen die het Hadoop ecosysteem ons biedt zijn de volgende:
 Schaalbaarheid
 Performantie: hoe groter het volume van de data die verwerkt moet worden, hoe duidelijker
het wordt dat de manier waarop Hadoop werkt, veel performanter is dan bvb. een appliance .
 Kosteneffectief: door de manier waarop Hadoop werkt, volstaat het om met commodity
hardware te werken en besparen we op die manier ook op energie omdat deze hardware
minder energie verbruikt.
 Fouten-tolerant: alle data blokken zijn meerdere keren verspreid over verschillende machines
en zodra er een machine wegvalt, zal Hadoop een nieuwe kopie aanmaken op een andere.
 Pushen van algoritmes naar de data in plaats van de data naar het algoritme te brengen
 Gedistribueerde verwerking

Project R
(Statistics)

Mahout
(Machine learning)

Figuur 6 - Hadoop ecosysteem

Natan Meekers

Thomas More

14

7.1.1.1
HADOOP CORE
Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de
verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan
uit commodity3 hardware. Het is zo ontworpen dat je clusters kan schalen tot duizenden machines,
die elk voorzien in opslag en verwerking.
De Hadoop core bestaat uit twee componenten: Hadoop Distributed File System (HDFS) en
MapReduce. Deze twee zijn zo ontworpen dat ze perfect op elkaar afgestemd zijn en samen worden
uitgerold. Dat is het meest significante punt van Hadoop want zo beschik je over de mogelijkheid om
algoritmes naar de data te pushen in plaats van de data naar het algoritme te brengen.

Figuur 7 – Werking van Hadoop

Op bovenstaande afbeelding zien we hoe data verspreid wordt over verschillende nodes van een
cluster en hoe MapReduce jobs verdeelt en de resultaten weer samenvoegt om tot het eindresultaat
te komen.
Het is belangrijk om te weten hoe Hadoop werkt wanneer je begint na te denken over hardware
vereisten. MapReduce gebruikt in een ideale situatie slechts één ‘Map’ voor één disk omdat het
geoptimaliseerd is voor sequentieel lezen van disks. Dat is ook de reden waarom virtuele omgevingen
worden afgeraden: wanneer je in een virtuele omgeving werkt, is het moeilijk om te verzekeren dat
elk proces maar één disk gebruikt.

3

Betaalbaar, normale hardware.

Natan Meekers

Thomas More

15

De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB
ram. Wanneer je HBase of Cassandra gebruikt, kan het zijn dat je meer geheugen nodig hebt. Voor
het OS kan je best een aparte disk voorzien. Wanneer je in het geval van deze setup kiest voor servers
met 2 CPU’s, kan je best ook twee keer zoveel disks voorzien. Meer dan twee CPU’s per node is niet
aangeraden omdat de meerprijs voor zulke machines niet gelijk opgaat met de extra performantie.
Voorbeeld van de kleinst mogelijke cluster opstelling:

master
2* 4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - workload
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

Figuur 8 - Basic cluster setup

7.1.1.2
HBASE
HBase is een gedistribueerde, kolom-georiënteerde database die behoort tot de NoSQL databases.
NoSQL staat voor ‘Not Only SQL’ waarmee men wil duiden op het feit dat er ook NoSQL systemen zijn
die de gebruiker toelaten om SQL query’s in te voeren. Grote voordelen zijn dat ze horizontaal
schaalbaar zijn en dat ze performanter zijn voor bepaalde data modellen. Het wordt dus gebruikt
wanneer je zeer grote tabellen moet opslaan die bestaan uit miljarden rijen en miljoenen kolommen.
HBase maakt het mogelijk om data random in real-time te lezen en te schrijven.
De reden dat je tabellen kan aanmaken met miljoenen kolommen en miljarden rijen is dat alle lege
cellen geen plaats in nemen (sparse-lead). Ook kan je ten allen tijde, zonder al te veel moeite, extra
kolommen gaan invoegen.
Hbase heeft ook een hoge through-put. Je kan tot 20000 records per second schrijven.

Natan Meekers

Thomas More

16

7.1.1.3
ZOOKEEPER
ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving,
distributie synchronisatie, en nog andere groep services. Alle services die ZooKeeper aanbiedt,
worden gebruikt door één of andere gedistribueerde applicatie.
7.1.1.4
PIG
Pig is een platform voor het manipuleren van grote data sets. Het bestaat uit een ‘high-level’ taal
waarin je programma’s kan schrijven om data te analyseren. Het grote voordeel van Pig is dat de
structuur van de programma’s vatbaar is om parallel uit te voeren. Dat maakt het mogelijk dat we
met Pig programma’s zeer grote data sets kunnen manipuleren.
Een ander groot voordeel is dat je Pig programma’s lokaal kan schrijven en testen op een extract van
de data. Zo kun je programma’s in iteratieve stappen opbouwen om ze zo optimaal mogelijk te maken
om achteraf uit te voeren op een grote data set. Ook kunnen gebruikers hun eigen functies schrijven
en die toevoegen aan de Pig library, waarna je die functies gewoon kan opvragen in al je andere
programma’s.
7.1.1.5
HIVE
Hive is een Data warehouse systeem dat ontwikkeld is op Hadoop en voorziet in een mechanisme dat
structuur kan projecteren op data en die dan opvragen door middel van HiveQL, een taal die op SQL
lijkt. Hive zorgt er dus voor dat je gemakkelijk data kan aggregeren, ad-hoc query’s kan uitvoeren en
analyses op grote data sets.

Natan Meekers

Thomas More

17

7.1.2 CLOUDERA

VS.

HORTONWORKS DATA PLATFORM (HDP)

Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest omwille van:




Hadoop experts
Grote bijdrage aan de Hadoop open-source community
Goede start

Daar heeft Yahoo!, gesteund door Benchmark Capital, in het najaar van 2011 verandering in gebracht
door een team Hadoop-ingenieurs af te splitsen en onder te brengen in een nieuw bedrijf:
Hortonworks. Deze ingenieurs bleken dé grootste bijdrage geleverd te hebben aan Apache Hadoop en
hebben zo één van de grootste, meest innovatieve Hadoop implementaties gebouwd.
Hortonworks verklaart dat het HDP 100% open-source is en altijd gratis zal zijn! ... dit in tegenstelling
tot Cloudera. Zo proberen ze, net als RedHat in de tijd van Linux, Cloudera’s eerste plaats in te nemen
door 100% open-source te blijven. Bij Cloudera moet je betalen voor de Management Suite en die
bevat belangrijke administratieve tools voor configuratie- en resource management.

Figuur 9 - HDP integratie mogelijkheden

Hortonworks heeft de krachten gebundeld met verschillende partners om de integratie met een zo
breed mogelijk scala aan andere applicaties te verzekeren. Hortonworks zit dus niet stil. Onlangs
hebben ze aangekondigd dat ze het HDP ook voor Windows Server beschikbaar hebben gemaakt en
dat ze nu ook samenwerken met OpenStack4 om Hadoop daarop beschikbaar te maken.

4

OpenStack levert open source cloud software voor het bouwen van een private of publieke cloud.

Natan Meekers

Thomas More

18

7.1.3

SAS VISUAL ANALYTICS

Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken.
Daarom zal ik het hier kort bespreken. Voor mij is het de combinatie van onderstaande vijf factoren
die VA tot een uniek platform maken:
1.
2.
3.
4.
5.

Hadoop (HDFS) voor de data-opslag
SAS LASR® voor speed-of-thought computing (in-memory)
Visueel sterke data-exploratie modus en data-visualisatie interface
Sterke voorspellende analytische mogelijkheden (forecasting)
Mobile ondersteuning & ‘Selfservice’ BI

Figuur 10 - SAS Visual Analytics word-cloud

Natan Meekers

Thomas More

19

VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of
Qlikview die aanbieden, zeer snelle in-memory analytics en natuurlijk het uitgebreide scala aan
analytische- & forecasting-mogelijkheden, waarvoor SAS bekend staat.
De nieuwe mogelijkheden die VA ons biedt, maken het bouwen van cubes en vooraf definiëren van
dimensies overbodig. Het berekenen, aggregeren en analyseren van data gebeurt nu on-the-fly.
Voorlopig gebruikt VA altijd een LASR server. Dit kan een enkele machine zijn of een gedistribueerde
omgeving. In het tweede geval worden LASR servers en de analyses geparallelliseerd. Maar SAS voert
nu ook onderzoek naar het draaien van Visual Analytics op andere technologieën zoals een Teradata
of Greenplum appliance.

Figuur 11 - SAS Visual Analytics gedistribueerde omgeving

Met de massive parallel processing (MPP) voor geavanceerde analyses (mining, forcasting, …) in het
geheugen, biedt SAS een alternatief aan voor MapReduce; dit gaat volgens hen een stuk verder dan
datgene wat MapReduce aanbiedt.

Natan Meekers

Thomas More

20

Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en
laat zien hoe VA ook voldoet aan de eisen voor het steeds meer populair wordende selfservice BI
gebeuren. Bedrijven verlangen naar Agile BI platformen waar business users zelf kunnen spelen met
de data en waar IT het platform onderhoudt en beheert en de data prepareert.

Figuur 12 - VA gebruikersgroepen en hun functionaliteiten

Gecreëerde rapporten kunnen zowel op het web bekeken worden als op mobiele apparaten. Business
users kunnen opmerkingen maken op rapporten, waarna geassocieerde personen (analyst/report
designer) op de hoogte worden gebracht en kunnen interageren.

Natan Meekers

Thomas More

21

7.2
7.2.1

UITDAGINGEN
DATA

SILO’S SAMENBRENGEN

Door alle data silo’s samen te voegen alsook de verschillende soorten analisten (marktonderzoekers
en traditionele analisten), kunnen we nieuwe verbanden ontdekken tussen deze data en onopgeloste
vraagstukken, beantwoorden.

7.2.2

DATA

COMPLEXITEIT

Dit is waarschijnlijk de meest voor de hand liggende uitdaging. Met alle data die nu beschikbaar is,
moeten bedrijven gaan opletten dat ze niet verdrinken in de data die ze willen verzamelen en
opslaan. Niet alleen de grote hoeveelheden data draagt bij aan de complexiteit, maar ook de
variëteit: semi gestructureerde en ongestructureerde data.

7.2.3

NIEUWE

SKILLS

Uit een onderzoek van SAS in samenwerking met Bloomberg Businessweek Research Services blijkt
dat vele organisaties moeilijkheden hebben bij het implementeren of gebruiken van analytics. Sinds
de opkomst van Big Data is Business Analytics dan ook in populariteit en belang toegenomen. De
nieuwe platformen laten ons immers beschikken over de mogelijkheid om verborgen patronen en
verbanden te ontdekken.
De vraag naar analytische skills is dus enorm toegenomen en dat zal het blijven doen. Zo zijn
bedrijven ook op zoek naar nieuwe profielen zoals Data Scientists, die bedrijven moeten helpen om
verbanden te zoeken in data. Door het tekort aan opgeleide personen met voldoende analtyische
kennis, is het vinden van zulke profielen, of zelfs het opleiden ervan, voor een groot aantal bedrijven
al een uitdaging.
Niet alleen hebben bedrijven nood aan analytische skills, maar ook Hadoop gecertifieerde personen
en Linux experts zijn nodig voor het opzetten en onderhouden van de onderliggende architectuur.

7.2.4

PRIVACY

Rekening houden met privacy issues bij het verzamelen van persoonlijke data van klanten wanneer
men op die manier beter en persoonlijker wil inspelen op hen. Dit is een topic dat weer wat
gevoeliger ligt omdat er geen duidelijke grens is tot waar bedrijven mogen gaan in het op zoek gaan
en verzamelen van gegevens over klanten.

Natan Meekers

Thomas More

22

7.3
7.3.1

OPPORTUNITEITEN
DATA-GEDREVEN

ORGANISATIE

Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data de ‘new oil’ is van de 21 ste eeuw.
Bedrijven moeten dus op zoek gaan naar alle mogelijke soorten bronnen om data uit te verzamelen
en te betrekken bij analyses zodat toekomstige beslissingen gebaseerd kunnen worden op verkregen
informatie en nieuw ontdekte patronen.

7.3.2

UITGEBREIDERE

ANALYTISCHE MOGELIJKHEDEN

Doordat de opslag van data goedkoper is en de verwerking van grote hoeveelheden geen enkel
probleem meer vormt, kun je als bedrijf meer ‘advanced analytics’ gaan toepassen. Datamining en
voorspellende analyses zoals forecasting kunnen ingezet worden om complexere problemen aan te
pakken waarvan men vroeger dacht dat ze onmogelijk op te lossen waren.

7.3.3

INTERACTIE

MET KLANTEN

Het hele gegeven van Social-Mobile-Cloud genereert zoveel data, dat we nu over de mogelijkheid
beschikken om klantenprofielen op te stellen en hen persoonlijk aan te spreken. Dit kan door
consequent data bij te houden (van sociale media, mobile app gebruik .....) en die te gaan analyseren.
Je verzamelt bijvoorbeeld gegevens van personen die je website bezoeken. Op basis daarvan kan je
een gepersonaliseerde website laten zien. Concreet: een verschillende layout voor mannen en
vrouwen of het tonen van andere producten op basis van leeftijdscategorieën.

7.3.4

DETECTEREN

VAN FRAUDE

Nu er meer data beschikbaar is en die data sneller verwerkt kan worden, kun je als bedrijf werken
naar een real-time Big Data architectuur, die op basis van vooropgestelde regels nagaat of een
transactie mogelijk frauduleus is terwijl die wordt uitgevoerd.
Door de vernieuwingen die Big Data met zich meebrengt, kun je als bedrijf alle beschikbare data
betrekken bij analyses in plaats van een extract van de laatste jaren. Blijf op zoek gaan naar nieuwe
patronen die wijzen op mogelijk frauduleuze transacties. Verifieer de gefilterde transacties om na te
gaan of er geen valse positieven in voorkomen want anders verlies je misschien klanten. Deze
modellen worden opgebouwd door data scientists die op zoek gaan naar mogelijke verbanden tussen
data.

7.3.5

ANDERE

Er zijn nog zoveel andere opportuniteiten die Big Data ons kan bieden. Het is niet mogelijk om ze
allemaal te definiëren omdat ze voor elke sector specifiek zijn. Elke dag worden er nieuwe
opportuniteiten ontdekt. De kunst is creatief te zijn in het op zoek gaan naar manieren om Big Data te
gebruiken en zo een concurrentieel voordeel op te bouwen.

Natan Meekers

Thomas More

23

8

AANPAK

Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van
vandaag weinig of geen aandacht aan besteed in het hoger onderwijs. In dit hoofdstuk stel ik een
stappenplan op om bedrijven, die met Big Data willen beginnen, te helpen.

8.1

ONDERZOEK

NAAR BIG DATA
Big Data is nieuw en er zijn verschillende percepties van het begrip. Het gaat niet alleen om grote
volumes van data. Door onderzoek te doen, leer je wat er allemaal verstaan wordt onder dit begrip.
Tijdens de lessen van Performance Management pasten we de ‘flipped-class’ methode toe. Gedurende
een aantal weken mochten we werken aan een paper over een nieuwe ontwikkeling binnen
Performance Management. Zo heb ik mij in die periode kunnen verdiepen in Big Data door hienrnaar
onderzoek te doen; deze paper heeft als basis gediend voor dit eindwerk.

8.1.1

EVENTS

Events zijn een uitstekende plaats om contacten te leggen met mensen die gemeenschappelijke
interesses hebben. Een goed netwerk is volgens mij dan ook essentieel voor een IT ’er; wanneer je kennis
of informatie zoekt over een bepaald onderwerp, kan je altijd iemand uit je netwerk contacteren.
LinkedIn, websites van consultancy bedrijven en nieuwsbrieven van vendors (IBM, MS, ..) zijn goede
kanalen om op de hoogte te blijven van georganiseerde events. Als je een beetje sociaal vaardig en
communicatief bent, en wat lef hebt, is het niet moeilijk om contacten te leggen met mensen om op die
manier je netwerk uit te breiden.

8.1.2

WEBINARS

Webinars zijn een relatief nieuw concept om informatie te delen. Deze worden voornamelijk
georganiseerd door bedrijven die hun klanten en prospecten op een eenvoudige manier van informatie
willen voorzien.
Wanneer je ingeschreven bent voor een webinar, wordt je een link toegestuurd waarmee je kan inloggen
op het moment dat de webinar plaatsvindt. Wanneer je inlogt, krijg je toegang tot audio en video. In
sommige webinars kan je ook zelf interactief deelnemen aan de sessie, als je over een headset beschikt.
Tijdens andere webinars kan je vragen stellen via een chat module; deze worden dan achteraf
behandeld.
Het interessante aan dit concept is dat je je niet hoeft te verplaatsen en dat je op een relatief korte tijd,
meestal ongeveer één uur, veel informatie krijgt en over de mogelijkheid beschikt om vragen te stellen.
Als er tijd tekort is om alle vragen te beantwoorden, worden de overige vragen vaak beantwoord via
email.

Natan Meekers

Thomas More

24

8.1.3

SOCIALE MEDIA

In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn,
Twitter, en Meetup zijn erg populair voor professionele doeleinden.

Figuur 13 - Sociale media om je netwerk uit te bouwen

Via Twitter kan je je abonneren op kanalen van bedrijven en/of personen die jou interesseren. Als je je
abonneert op een Twitter kanaal waar jouw interesse naar uitgaat, ontvang je telkens de nieuwste
Tweets op je persoonlijk dashboard.
Het abonneren op Twitter kanalen van ‘thought- en inspirational leaders’ heeft als voordeel dat je op de
hoogte blijft van populaire topics en nieuwe, interessante ontwikkelingen.
Op LinkedIn bouw je je eigen professionele netwerk van contacten en kan je je inschrijven op groepen.
Deze groepen kunnen door iedereen opgericht worden en hebben als doel mensen met dezelfde
interesse met elkaar in contact te brengen en meningen en ervaringen te kunnen delen. Door middel van
polls en discussies worden ideeën tussen groepsleden uitgewisseld.
Meetup, een minder bekend platform, is interessant om in contact te komen met mensen die dezelfde
interesses hebben.

Natan Meekers

Thomas More

25

8.1.4

VIRTUELE MACHINE

Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan
afspelen op je eigen systeem om op die manier kennis te maken met Hadoop en services. De VM van
Hortonworks bevat ook tutorials voor Pig en Hive om te leren hoe scripts worden opgebouwd en
uitgevoerd.

Figuur 14 - Hortonworks VM interface

8.2

FORMULEER

OPPORTUNITEITEN
Je kan vertrekken vanuit een analyse van je bedrijf en die problemen formuleren die tot nu toe te
moeilijk of te duur waren om op te lossen. In samenwerking met analisten, data scientists, marketeers
en andere business users kan je opportuniteiten of problemen identificeren die het best passen bij jouw
bedrijf en die nog nooit zijn aangepakt.
Uit die lijst van geformuleerde opportuniteiten neem je best degene waarvan je redelijk zeker bent dat je
een acceptabele ROI zal krijgen.

Natan Meekers

Thomas More

26

8.3

ONTWIKKEL USE CASES

Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te voeren.
Schematiseer de datastromen om na te gaan welke technologieën nodig zijn om het geformuleerde
probleem op te lossen.
Ga na welke data verzameld en opgeslagen moeten worden en welke je beter weg laat. Ook al is opslag
goedkoper geworden, het kost nog steeds geld en daarom is het nuttig om goed na te denken welke data
tot nieuwe inzichten kunnen leiden en die op te slaan.
Ga na welke analytische query’s er nodig zijn en welke algoritmes gebruikt zullen worden om de
gewenste resultaten te verkrijgen.

8.4

IDENTIFICEER

HUIDIGE- EN TOEKOMSTIGE CAPACITEITEN
Als de use cases zijn opgesteld, is het goed om na te gaan welke extra data kwaliteitseisen gedefinieerd
moeten worden voor het verzamelen, cleanen en aggregeren van data. Ook op gebied van hardware is
het goed om na te gaan aan welke vereisten het systeem moet voldoen: schaalbaar, fouten tolerant,
performant …
Zoals eerder vermeld is het voor Hadoop clusters niet aangeraden om servers te kopen met meer dan 2
CPU’s omdat die direct een prijsklasse hoger zijn en dat loopt niet gelijk op met de extra performantie. In
de meeste opstellingen wordt er gebruik gemaakt van één 2TB disk per CPU core, maar er zijn ook al
clusters die draaien met 3TB schijven per core. Een node met 2 quad core processors heeft dus 8 disks
om data op te slaan en 1 disk voor het OS.

8.5

ZET

EEN TESTOMGEVING OP
Nu ook de capaciteiten geïdentificeerd en geformuleerd zijn, kan je beginnen met het opzetten van een
testomgeving of kiezen voor een cloud oplossing zoals Amazon. Zeker voor een POC is dat heel
gemakkelijk en veel kosten efficiënter dan het opzetten van een eigen omgeving.
Wanneer je een eigen architectuur opzet, is het slim om te kijken naar gelijkaardige bedrijven om te zien
wat voor setup zij gebruiken. Verder zijn er verschillende blogs van Yahoo! Hadoop ingenieurs geven
concrete tips geven over het opzetten van een cluster.
Denk ook al na over hoe de data gevisualiseerd zal worden zodat die gemakkelijk te begrijpen is voor alle
business users.

8.6

EVALUEER

Interpreteer de resultaten en ga na of deze kunnen kloppen. Is de doorlooptijd om de vraag te
beantwoorden korten dan voorheen? Of is het resultaat nauwkeuriger? Meet ook de ROI en ga na wat
de ROI is op korte en lange termijn. Breidt het project uit met meer cases en ga na wat voor jou bedrijf
de beste opportuniteiten zijn om uit te werken.

Natan Meekers

Thomas More

27

9

USE CASES

9.1

MISDAAD PREVENTIE MEMPHIS

Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen zo hoog op dat er iets
moest gebeuren. Enkele wetenschappers van de Universiteit van Memphis hebben het Memphis Police
Department (MPD) benaderd met het voorstel om alle data, die tot nog toe in silo’s zat opgesloten, te
‘bevrijden’ en te combineren met real-time data om zo patronen te ontdekken.
De wetenschappers zijn de data gaan analyseren met het statistische programma SPSS en is vervolgens
omgedoopt tot Operatie Blue CRUSH doordat het door IMB is aangekocht. Dankzij de analyses heeft het
politie departement meer inzicht gekregen in de plaats en tijd van de incidenten.
Door deze inzichten kan MPD hun patrouilles nu effectiever en efficiënter inzetten.

HISTORISCHE INPUT

REAL-TIME INPUT

OUTPUT

Politierapporten

Verkeerspatronen

Real-time

Soorten criminaliteit

Jaargetijde

Grootste kans misdaad

Locatie misdaad

Temperatuur

Optimale inzet politiekrachten

Tijdstip misdaad (pv)

Regen

Weersomstandigheden

Evenementen (?)

Verkeersinformatie

Integratie met 911

Overige bijzonderheden

GSM-locatie verdachten

Soorten criminelen (strafbladen)
Arrestatiebevelen
Crime-scene
Terugkerende patronen (loon-uitbetaaldag)

Het resultaat van dit project kan niet ontkent worden:




30% minder zware criminaliteit
15% minder gewelddelicten
Hogere veroordelingsgraad (16%  70%) door betere bewijslast (op heterdaad betrapt)

Het Big Data systeem Blue CRUSH is een zelf lerend systeem dat beter wordt doordat er meer informatie
beschikbaar komt en er meer feedback ingevoerd wordt. Deze oplossing kan nu ook zonder al te veel
aanpassingen gebruikt worden door andere politiedepartementen die hier ook nood aan hebben.

Natan Meekers

Thomas More

28

9.2

PRESIDENTSVERKIEZING US

Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. Volgens
verschillende bronnen heeft Obama zijn overwinning te danken aan het gebruik van Big Data in zijn
campagne.
President Obama’s campagne was één van de meeste verfijnde en gesofistikeerde digitale operaties
waarbij geen enkele veronderstelling als vanzelfsprekend werd aangenomen. Zijn campagne werd
bedacht en geleid door data analisten die niets aan toeval overlieten. Ze moedigden supporters aan om
hun persoonlijke gegevens te delen, opmerkingen, foto’s en video’s te posten en om te doneren. Dat
was slechts het begin.

Vanuit hun veelzijdige campagnestrategie positie zijn ze verder gegaan door webmasters deze data te
laten gebruiken om bezoekers te leiden naar andere campagne-media zoals Obama’s Facebook-pagina
en Youtube kanaal.
Een ander voorbeeld toont ook aan dat data van steeds groter belang is bij politiek: Obama heeft een
wedstrijd opgesteld om te dineren met Jessica Parker en heeft zich gericht naar een beperkte groep van
personen die ook aangetrokken zijn door zijn de Republikeinen, celebraties en die houden van dineren.
Deze specifieke groep bestaat en heeft veel geld waardoor er op deze manier ook extra inkomsten
verkregen kunnen worden.

Natan Meekers

Thomas More

29

Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken
om nieuwe kiezers te vinden maar ook om te bepalen welke boodschappen de aandacht trekt van
bepaalde personen en welke types van personen door deze boodschappen overtuigd geraken.
Het is duidelijk dat de zeer dure advertenties op tv en radio er niet langer voor zorgen dat je de
verkiezingen wint. Het zijn de nauwkeurig uitgezochte, kleinschalige en op maat gemaakte
boodschappen voor een specifieke doelgroep of persoon die maken dat een gebruiker zich aangesproken
voelt en mogelijk een stem wordt.
Obama’s team is zelfs zo ver gegaan dat de campagne voerders die thuis langsgaan, verschillende
boodschappen klaar hadden afhankelijk voor welk familielid de deur zou open doen.

NATE SILVER
Een ander opvallend verhaal is dat van Nate Silver. Hij is een statisticus die een gewaagde voorspelling
heeft gemaakt over de uitslag van de verkiezingen in de US.

Nate Silver deed ook een voorspelling over het aantal stemmen dat beide kandidaten zouden halen: 332
voor Obama en 206 voor Romney. Deze cijfers komen 100% overeen met de echte resultaten. Uit beide
verhalen blijkt maar weer dat er heel veel data is die we op de juiste manier moeten gaan gebruiken om
tot nieuwe inzichten en voorspellingen te komen en welke mogelijkheden we krijgen om doelen te
bereiken die vroeger onmogelijk leken.

Natan Meekers

Thomas More

30

9.3

DETECTIE

FRAUDULEUZE TRANSACTIES
Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bronnen verwerken
dan de gewone creditkaart bedrijven. PayPal moet uit de 90 miljoen browsers en mobiele apparaten die
bijna constant connecteren naar de online betaal service, de mogelijke frauduleuze transacties
identificeren. Door deze uitdaging hebben ze systemen ontworpen die frauduleuze activiteiten kunnen
identificeren en die afhandelen voordat deze transacties begonnen zijn. Ook de andere grote spelers op
de markt van online transacties hebben speciale geavanceerde analytische tools en servers gebouwd om
patronen van frauduleuze activiteiten te ontdekken.
PayPal heeft zo een ‘Fraude Management Filter’ ontworpen die
zoekt naar betalingen en andere soorten transacties waarvan de
bron verdacht is, de grootte van het bedrag of eender welke
andere factor die een winkelier kan opgeven en maakt dat deze
transacties goedgekeurd moeten worden. Maar er zijn meer
factoren die kunnen helpen in het verfijnen van de bestaande
modellen om fraude te voorkomen. Zo kunnen ook IP adressen,
browser informatie en andere technische data dienen in het
ontdekken van nieuwe patronen.
Het gebruik van deze nieuwe technieken en tools zijn een enorme vooruitgang op de manieren die
hiervoor gebruikt werden. Nu kunnen er continu, real-time analyses uitgevoerd worden op zéér grote
datasets. Vroeger werden er samples gebruikt van de data die dan ’s nachts werd geanalyseerd voor het
maken van fraude-detectie modellen. In deze snel veranderende wereld volstaan deze modellen simpel
weg niet meer.
Data die geregistreerd wordt door transacties via deze online betalings-platformen bieden veel meer
mogelijkheden dan het detecteren van alleen fraude. Door het combineren van klantgegevens,
transacties, zoekopdrachten, aankopen, likes & dislikes (sociale media), … kunnen bedrijven nieuwe
geavanceerde marketing modellen opstellen en voorspellende analyses maken voor het verkopen van
nieuwe producten en services.

Natan Meekers

Thomas More

31

9.4

VESTAS

WINDTURBINES
Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen dat
het voor bleef op de concurrerende firma’s. Om dat te doen zijn ze Big Data analytische software van
IBM gaan gebruiken: ‘BigInsight’ in samenwerking met een krachtige IBM supercomputer: ‘Firestorm’.
Met deze nieuwe technologieën willen ze
Petabytes
aan
gestructureerde
en
ongestructureerde data van weerrapporten,
satteliet foto’s, geospatial en sensor data,
ontbossingsmappen en weersvoorspellingsmodellen analyseren.
Klanten willen weten hoeveel energie een
windturbine zal opbrengen en wat hun Return
On Investment (ROI) zal zijn vooraleer ze
overgaan tot het aankopen en plaatsen van
een windturbine. Met deze nieuwe technologieën kunnen ze de vragen van de klant zeer snel
beantwoorden en hen helpen om hun doelen voor hernieuwbare energie te behalen.
Als de turbines geplaatst zijn en operationeel zijn, zullen Vestas ingenieurs de nieuwe software
gebruiken om de opbrengst van de turbine te simuleren, analyseren hoe elk blad van de schroef op
weersomstandigheden reageert en bepalen wat het beste tijdstip is om de turbine stil te leggen voor
onderhoud.
Vestas is één van de bedrijven die weer
aantoont hoe grote organisaties Big Data
kunnen
gebruiken
om
slimmere
beslissingen te maken. Deze beslissingen
hebben een sterke invloed op de groei van
je bedrijf aangezien je de moeilijkste
problemen
kan
aanpakken.
De
mogelijkheid om inzichten te krijgen in de
grote hoeveelheden data die bedrijven ter
beschikking hebben, heeft het potentieel
om een bedrijf of industrie voor goed te
veranderen.

Natan Meekers

Thomas More

32

10 CASE – FOD JUSTITIE
Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen over de
scope en vereisten van het project dat ik zou uitvoeren. Zij zouden voorzien in hardware en data, ik zou
het systeem operationeel maken en een vraag van de business proberen te beantwoorden met het
nieuwe systeem . Ondanks ik mijn praktisch gedeelte daar niet kon uitwerken, heb ik er veel uit geleerd.
Wanneer een bedrijf te groot wordt, loopt het risico om zoveel procedures te creëren, dat sommige
processen onnodig ingewikkeld worden. Zo heb ik twee weken moeten wachten vooraleer SAS
Enterprise Guide als package op mijn pc beschikbaar was. Die aanvraag moest via de helpdesk geïnitieerd
worden: een ticket aanmaken, wachten tot het ticket geaccepteerd is, wachten tot alle voorgaande
tickets afgewerkt zijn en dan wachten tot je eigen ticket succesvol afgewerkt is.
In tussentijd heb ik via e-mail en telefoon contact gezocht met IT om er zeker van te zijn dat het daarna
niet nog eens zo lang zou duren om de servers klaar te maken. Ik merkte al snel dat er traag geantwoord
werd op mijn mails en telefonisch kreeg ik geen contact meer. Dan ben ik op zoek gegaan naar een ander
project.
Ik heb mijn interne begeleider bij FOD Justitie op de hoogte gebracht van mijn beslissing en heb gezegd
dat ik in juni nog een aantal dagen kom werken op de Visual Analytics server. Deze demo server heeft
SAS voorzien en wordt nu door niemand gebruikt.
Het opzetten van een Big Data architectuur ter ondersteuning van de klassieke BI zal verbetering
brengen op volgende vlakken:







Eén centrale data ‘repository’ waar alle data van alle justitiehuizen in samenvloeit.
Verrijken van interne data met externe data zoals verkeersinformatie en klimaatgegevens.
Toepassen van datamining om verbanden te zoeken tussen data.
Data modellen projecteren op data.
Uitgebreidere mogelijkheden om tekst analyses en Natural Language Processing uit te voeren.
Penitentie gegevens gaan analyseren die rechters kunnen helpen om gepaste sancties uit te
delen.

Natan Meekers

Thomas More

33

11 CASE – ADSWIZZ
Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider
(DataCrunchers).
Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.
Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden.
Ook willen ze extra data verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren.
Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante
advertentie te injecteren in een bepaalde webstream.
Momenteel gebruiken zij Scribe om hun data te verplaatsen naar Amazon S3 storage. Ontwikkelde Pig
scripts worden gelanceerd op Amazon ’s Elastic MapReduce (EMR) om te testen hoe ze performen op de
volledige data set in plaats van een lokaal extract.
De data van één maand kopiëren van S3 naar EMR duurt ongeveer 4 minuten. In EMR wordt er dan een
cluster online gebracht van 20 nodes. Het aantal nodes kan je zelf kiezen. De data wordt met de huidige
Pig scripts in 4 uur verwerkt. Deze scripts moeten dus nog geoptimaliseerd worden want dit zou moeten
lukken in 1 à 2 uur. Wanneer het Pig script is uitgevoerd, wordt het resultaat weggeschreven naar S3, de
data verwijderd en de cluster weer offline gebracht.
Mijn rol in dit project is het helpen ontwikkelen van Pig scripts die data verzamelen, aggregeren en
wegschrijven naar HBase. De huidige rapporten worden opgebouwd op basis van de data in HBase.
De informatie over dit project is beperkt omdat ik hier pas eind mei kon opstarten. Dit komt door de
moeilijkheden die er waren bij Justitie.
Tijdens de presentatie van dit eindwerk kan de jury meer gedetailleerde informatie verwachten over het
praktische gedeelte van dit project. Ik zal laten zien hoe Pig scripts zijn opgebouwd en uitleggen hoe ze
worden uitgevoerd. Ook zal ik met de iPad een aantal rapporten laten zien die ik in Visual Analytics heb
gebouwd.

Natan Meekers

Thomas More

34

12 CONCLUSIE
12.1 ALGEMEEN
Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance
Management. Het meet onze prestaties in het verleden (BI) en het kan ons ook door middel van
geavanceerde analyses (‘predictive analytics’) inzicht geven in de toekomst.
Doorheen dit eindwerk is het duidelijk geworden dat Big Data een grote toegevoegde waarde biedt voor
bedrijven: meer inzicht in klanten om ze persoonlijker te bedienen, sneller (en nieuwe) inzichten
verwerven, geld uitsparen, uitvoeren van fraude en risico analyses, … Dat is de reden waarom steeds
meer bedrijven een ‘data-driven’ richting uitgaan.
De mogelijkheid om meer data sneller te verwerken en daarbij externe databronnen te betrekken, maakt
dat bedrijven beschikken over veel nieuwe opportuniteiten waarmee ze een concurrentievoordeel
kunnen opbouwen.
Big Data projecten eisen nieuwe skills waarin een bedrijf zal moeten investeren. Vooral de vraag naar
analytische profielen zal sterk stijgen.
De ROI is moeilijk te bepalen voor veel Big Data projecten maar ondertussen bestaan er al veel use cases
waaruit je inspiratie kan opdoen en die je zekerheid geven dat je project iets zal opleveren.
Ondanks de vele use cases, die voornamelijk uit de VS afkomstig zijn, heb ik gemerkt dat er op de
Belgische markt nog maar weinig vraag is naar Big Data expertise. Het zal dus voor Big Data consultants
een uitdaging zijn om aan bedrijven de meerwaarde en voordelen aan te tonen om een project op te
starten. Maar over het algemeen zien we dat in België vernieuwingen altijd wat later doorbreken. Ik
geloof dus dat Big Data de komende jaren op grote schaal zal geïmplementeerd worden.
Bedrijven beginnen best met een POC of Pilot project om vanuit één probleem of vraag een oplossing of
antwoord te geven door middel van Big Data. Wanneer zo een case succesvol is uitgewerkt, kan men
stilaan uitbreiden door meer cases aan te pakken en creatief te zoeken naar nieuwe opportuniteiten.
Pas wel op voor de grote fout die vele mensen maken: ‘Big Data is no silver bullet’ ! Alle dingen die
mogelijk zijn met het verzamelen en opslaan van data tot het uitvoeren van de geavanceerde analyses,
vereisen de juiste skills en expertise om succes te garanderen. Big Data systemen werken niet autonoom
en hebben nog steeds begeleiding nodig van mensen die begrijpen wat er gebeurt en die de resultaten
kunnen evalueren.
Suggesties voor verder werk: dieper ingaan op ‘the analytics’ van Big Data en nagaan hoe we creatief
kunnen zijn met data. Op die manier kan een profiel opgesteld worden van vereiste skills en hoe ze
ontwikkeld kunnen worden om bedrijven beter te helpen bij Big Data projecten en succes te garanderen.

Natan Meekers

Thomas More

35

12.2 PERSOONLIJK
De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal.
Dat was niet altijd gemakkelijk omdat het allemaal nieuwe materie is. Door verschillende kanalen te
gebruiken, heb ik veel bijgeleerd en heb ik goede contacten kunnen leggen. Die kan ik raadplegen als ik
hulp nodig heb voor de praktijk.
Big Data is een zeer uitgebreid en veelomvattend onderwerp en het was niet gemakkelijk om het
compact uit te leggen.
Voor het praktische gedeelte heb ik wat tegenslag gehad maar daar heb ik ook veel uit geleerd. Ondanks
de noodzaak van verandering van project op het allerlaatste moment (5 werkdagen voor de deadline van
dit eindwerk) heb ik niet opgegeven.
Tot in juni blijf ik er aan verder werken zodat ik een meer uitgebreid praktisch gedeelte kan presenteren.

Natan Meekers

Thomas More

36

13 VERKLARENDE WOORDENLIJST
[1] OPEN-SOURCE
Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkheid om de
software te bestuderen, aan te passen en verbeteringen aan te brengen. De code van opensource software komt vaak tot stand door de samenwerking van individuele programmeurs uit
een open-source community
[2] Commodity hardware
Computer hardware die gemakkelijk te verkrijgen en betaalbaar is.
[3] Appliance
Een machine die speciaal ontworpen is om een bepaalde taak uit te voeren.
[4] Node
Een computer die is aangesloten op een bepaald netwerk. Een verzameling van nodes vormt
een cluster.
[5] Legacy systemen
Bronsystemen zoals ERP, CRM of andere applicaties met gegevens in een databank.
[6] Scope
Het bereik van een project. Overeengekomen werk dat voltooid moet worden om tot het
eindresultaat te komen.
[7] Amazon S3
Service die de mogelijkheid aanbiedt om data op te slaan in de cloud.
[8] Amazon EMR
Elastic MapReduce is een web service die bedrijven de mogelijkheid aanbiedt om enorme
hoeveelheden data op een gemakkelijke en kosten-efficiënte manier te analyseren.
[9] on-the-fly
In real-time. Uitvoeren terwijl het gebeurt.
[10] speed-of-thought
Zeer snel.

Natan Meekers

Thomas More

37

14 AFKORTINGEN
PM

PERFORMANCE MANAGEMENT

BI

BUSINESS INTELLIGENCE

BD

BIG DATA

ETL/ELT

EXTRACT, TRANSFORM AND LOAD / EXTRACT, LOAD AND TRANSFORM.

EMR

ELASTIC MAPREDUCE

POC

PROOF OF CONCEPT

HDFS

HADOOP DISTRIBUTED FILE SYSTEM

VA

VISUAL ANALYTICS

HDP

HORTONWORKS DATA PLATFORM

MPP

MASSIVE PARALLEL PROCESSING

ROI

RETURN ON INVESTMENT

Natan Meekers

Thomas More

38

16 BIJLAGE
16.1 BIG

DATA POSTER
Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan de
hand van die poster mochten wij onze paper presenteren op het Performance Management event dat
georganiseerd was door het BICC van onze hogeschool.

Natan Meekers

Thomas More

39

16.2 ADSWIZZ-

STREAMING AD INJECTION
Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in webstreams.

Natan Meekers

Thomas More

40

17 BIBLIOGRAFIE
[1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012.
Opgeroepen in Oktober 2012 van:
<http://www.atlantbh.com/how-to-build-optimal-hadoop-cluster/>.
[2] APACHE. Hadoop™. Apache.org, 2012.
<http://hadoop.apache.org/>.
[3] ASAY M.. Becoming Red Hat: Cloudera and Hortonworks' Big Data death match™. The Register, 2013.
Opgeroepen in Februari 2013 van:
< http://www.theregister.co.uk/2012/08/17/community_hadoop/>.
[4] COX, R. Hortonworks shows out at OpenStack summit. Sillicon Angle, 2013.
Opgeroepen in April 2013 van:
<http://siliconangle.com/blog/2013/04/17/hortonworks-shows-out-at-openstack-summit-while-cloudera-stays-athome/>
[5] CROLS, J. Storm is coming: are you ready for big data? Ferranti Computer Systems. Belgium, p. 8. 2012.
[6] DATA SCIENCE SERIES. Scoping out your Big Data analytics project. Datameer. 2013.
<http://info.datameer.com/rs/datameer/images/Project_plan.pdf?mkt_tok=3RkMMJWWfF9wsRokv6rIZKXon
jHpfsX56egrWaa1lMI%2F0ER3fOvrPUfGjI4FRMpjI%2BSLDwEYGJlv6SgFSrbEMaJn2bgIUhE%3D>.
[7] DEAN. Facing the challenges of Big Data. YARC, 2013.
< http://yarcdata.com/blog/?p=413/>.
[8] HOWARD, P. Sybase IQ 15.4. Bloor Research. USA, p. 17. 2012.
[9] IBM. What is Big Data. Bringing big data to the enterprise, 2012.
<http://www-01.ibm.com/software/data/bigdata/>.
[10] IBM CORPORATION. Recognize the many faces of fraud. IBM Corporation. USA, p. 8. 2010.
[11] IBM CORPORATION. Understanding Big Data. IBM Corporation. USA, p. 166. 2011.
[12] IBM GLOBAL BUSINESS SERVICES. Analytics: The real-world use of big data. IBM Institute for Business Value.
USA, p. 22. 2012.
[13] JERNEVAD, M. Trends that empower. Projectplace International. Stockholm, p. 13. 2012.
[14] LEI, S. Setting Up a Hadoop Cluster. National University of Signapore. Signapore, p. 6. 2009.

Natan Meekers

Thomas More

41

[15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013.
< http://siliconangle.com/blog/2013/03/28/big-data-deep-dive-conclusion-the-future-of-analytics//>.
[16] MCKINSEY. The next frontier for innovation, competition and productivity. McKinsey Global Institute. [S.l.], p.
156. 2011.
[17] NUCLEUS RESEARCH. Big Data: Beyond the buzzwords. Nucleus Research. USA, p. 3. 2011.
[18] OFFERMAN, A. Hadoop: raamwerk voor de grote jongens. Tweakers, 21 fev. 2012.
<http://tweakers.net/reviews/2475/2/hadoop-raamwerk-voor-de-grote-jongens-wat-is-hadoop.html>
[19] RAMAMURTHY, B. MapReduce & Hadoop Distributed File System. University Buffalo. Buffalo, p. 39. 2012.
[20] SAS INSITUTE. Banks, Big Data and High-Performance Analytics. SAS Institute. USA, p. 16. 2012.
[21] SAS INSTITUTE. Big Data for the Next Big Idea in Financial Services. SAS Institute. USA, p. 13. 2012.
[22] SAS INSTITUTE. High Performance Analytics at the speed of right. Sas Institute. USA, p. 32. 2012.
[23] THE APACHE SOFTWARE FOUNDATION. What is Hadoop. Hadoop Apache, 3 20 2012.
<http://hadoop.apache.org/>.
[24] TURNER, J. Hadoop: What it is, how it works, and what it can do. O'Reilly Radar, 12 jan. 2011.
<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.
[25] URBANI, J. Reasoning-Hadoop. Vrije Universiteit - Faculty of Sciences. Amsterdam, p. 87. 2009.
[26] EVELSON, B. Advanced Data Visualization Platforms. SAS Institue, 2012.
Opgeroepen in Maart 2013 van:
<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.
[27] ZWANENVELD, A. Big Data: Misdaadpreventie Memphis Police Dept. , Juli 2012.
Opgeroepen in November 2012 van:
<http://www.webanalisten.nl/big-data-voorbeeld-misdaadpreventie-memphis-police-dept>.
[28] BADGER, E. How to catch a criminal with data. , Maart 2012.
<http://www.theatlanticcities.com/technology/2012/03/how-catch-criminal-data/1477/>.
[29] HONAN, D. The 2012 Election: A big win for Big Data , Nov 2012.
<http://bigthink.com/think-tank/the-2012-election-a-big-win-for-big-data>.
[30] HOWARD, A. In the 2012 election, Big Data-driven analysis & campains were the winners. O'Reilly, Nov 2012.
<http://strata.oreilly.com/2012/11/2012-election-big-data-journalism-obama-data-campaign.html>.

Natan Meekers

Thomas More

42

[31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012.
<http://www.computerworld.com/s/article/9233587/Barack_Obama_39_s_Big_Data_won_the_US_election>.
[31] SILVER, N. Five Thirty Eight (538). NY Times , Nov 2012.
<http://fivethirtyeight.blogs.nytimes.com/>
[32] HARDING, L. Numbers nerd Nata Silver’s forcasts prove all right on election night. Guardian, Nov 2012.
<http://www.guardian.co.uk/world/2012/nov/07/nate-silver-election-forecasts-right>
[33] ECONOMIST, T. Big Data: Chrunching the numbers. The Economist, Mei 2012.
<http://www.economist.com/node/21554743>
[34] SIMS, D. Big Data thwarts fraud. Strata O'Reilly, Feb 2011.
<http://strata.oreilly.com/2011/02/big-data-fraud-protection-payment.html>
[35] IBM. Vestas Wind Systems turn to IBM Big Data Analytics for smarter wind energy. IBM, Okt 2011.
<http://www-03.ibm.com/press/us/en/pressrelease/35737.wss>
[36] IBM. IBM helps Vestas turn cliate Big Data into Capital. IBM, Okt 2011.
<http://www.ibmbigdatahub.com/video/ibm-helps-vestas-turn-climate-big-data-capital>
[37] LAMONICA, M. IBM's Big Data helps Vestas wind turbines crank. CNET News, Okt 2011.
<http://news.cnet.com/8301-11128_3-20125284-54/ibms-big-data-helps-vestas-wind-turbines-crank/>
[38] HARISH & VIJAY, Introduction to Big Data & Hadoop Ecosystem Part 1-2-3. Cloudstory.in, Apr 2012.
<http://cloudstory.in/2012/04/introduction-to-big-data-hadoop-ecosystem-part-1-2-3/>
[39] GARTNER. 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So. Gartner, 2013.
<http://www.gartner.com/newsroom/id/2366515>
[40] HORTONWORKS. Modern Data Architecture and Hadoop. Hortonworks, 2013:
<http://hortonworks.com/hadoop-modern-data-architecture>
[41] HUNT, I. The CIA on Big Data. SiSense, 2013.
<www.sisense.com/blog/bruno/2013/03/27/recaps-gigaom-structure-data-gartner-bi-and-analytics-summit>

Natan Meekers

Thomas More

43

[42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013.
Opgeroepen in Mei 2013 van:
<theinnovationenterprise.com/summits/big-data-innovation-summit-april-2013-san-francisco/schedule>
[43] INTEL. Getting started with Big Data. Intel, 2013.
<http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoopplanning-guide.pdf
[44] JEDRAS, J. SAS takes aim at SAP with in-memory analytics. IT World Canada, 2013.
<http://www.itworldcanada.com/news/sas-takes-aim-at-sap-with-in-memory-analytics/147049
[45] KELLY, J. The Hadoop Wars: Cloudera and Hortonworks’ Death Match for Mindshare. Wikibon, 2013.
<http://wikibon.org/wiki/v/The_Hadoop_Wars:_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mind
share>
[46] KELLY, K. Big Data vs. Tradition Business Intelligence. SmartDataCollective, 2012.
<http://smartdatacollective.com/node/84546>
[47] MEHRA, G. Using Big Data to Prevent Ecommerce Fraud. Practical eCommerce, 2013.
<http://www.practicalecommerce.com/articles/4031-Using-Big-Data-to-Prevent-Ecommerce-Fraud>
[48] VAN NIEUWENHUYSE, D. (2011). Performance Management. Leuven: LannooCampes.
[49] PITTMAN, D. Friday Data Flick: Uses of Big Data and Hadoop as Data Warehouse. IBM Big Data Hub, 2013.
<http://www.ibmbigdatahub.com/blog/friday-data-flick-uses-big-data-and-hadoop-datawarehouse?utm_source=feedly&utm_medium=feed&utm_campaign=Feed:+netezza/allblogs+(Netezza+Blogs++All+Posts)>
[50] RADDING, A. Big Data Drives surging interest in Business Intelligence. BigFatFinancialBlog, 2013.
<http://bigfatfinanceblog.com/2013/02/21/big-data-drives-surging-interest-in-business-intelligence/>
[51] WALLACE, D. Big Data management for retail banks. SAS Institute, 2012.
<http://www.sas.com/knowledge-exchange/risk/integrated-risk/big-data-management-for-retail-banks>

Natan Meekers

Thomas More

44

18 AUTEUR
Meekers Natan
Vennestraat 26, B-1980 Zemst-Laar
MOBIEL: +32 498 08 78 90
EMAIL: natan@meekers.eu
Natan Meekers
@NatanMeekers
http://natan.meekers.eu

EXTERNE PROMOTOR
Manager & Big Data consultant at DataCrunchers

Van Landeghem Geert
Steenweg van Grembergen 27, B-9200 Dendermonde
MOBIEL: +32 477 75 95 33
EMAIL: info@datacrunchers.eu
Geert Van Landeghem
@gvanlandeghem

Natan Meekers

Thomas More

45

Thesis Big Data

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a Thesis Big Data

Semelhante a Thesis Big Data (20)

Thesis Big Data