SlideShare uma empresa Scribd logo
1 de 51
Baixar para ler offline
Academiejaar 2012-2013

2e examenperiode - juni

”HARNESSING A GAME-CHANGING ASSET”
THE ECONOMIST

Eindwerk voorgedragen door
< Natan Meekers >

< Professionele bachelor >

Technologie & Design

BIG DATA

Interne promotor:
< Dhr. Chris Vandermeiren >
Externe promotor:
< Dhr. Geert Van Landeghem >

tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan
| Bachelor in het Informaticamanagement en de multimedia |
| in het studiegebied Technologie & Design |
Academiejaar 2012-2013

2e examenperiode - juni

”HARNESSING A GAME-CHANGING ASSET”
THE ECONOMIST

Eindwerk voorgedragen door
< Natan Meekers >

< Professionele bachelor >

Technologie & Design

BIG DATA

Interne promotor:
< Dhr. Chris Vandermeiren >
Externe promotor:
< Dhr. Geert Van Landeghem >

tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan
| Bachelor in het Informaticamanagement en de multimedia |
| in het studiegebied Technologie & Design |
"Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal
bevat dat ooit in eender welke instelling is gebruikt om een diploma, van welke aard ook, te
behalen of dat eerder werd gepubliceerd of geschreven door een ander persoon, behalve daar
waar deze scriptie referenties bevat naar andere werken.”
Inhoudsopgave
1

Dankwoord ....................................................................................................................................... 1

2

Voorwoord ....................................................................................................................................... 2

3

Abstract ............................................................................................................................................ 3

4

Inleiding ............................................................................................................................................ 4

5

Definitie ............................................................................................................................................ 6

6

Situering Big Data ............................................................................................................................. 7
6.1

Big Data & Performance Management .................................................................................... 7

6.2

Big Data & Business Intelligence .............................................................................................. 8

6.2.1
6.2.2

Big Data ............................................................................................................................ 9

6.2.3

Situering ......................................................................................................................... 10

6.2.4
7

Business Intelligence ........................................................................................................ 8

Big Data Raffinaderij....................................................................................................... 11

Innovatie, uitdagingen & opportuniteiten ..................................................................................... 13
7.1

Innovatie................................................................................................................................. 13

7.1.1

Hadoop stack .................................................................................................................. 14

7.1.2

Cloudera vs. Hortonworks Data Platform (HDP) ............................................................ 18

7.1.3

SAS Visual Analytics ........................................................................................................ 19

7.2

Uitdagingen ............................................................................................................................ 22

7.2.1

Data silo’s samenbrengen .............................................................................................. 22

7.2.2

Data complexiteit ........................................................................................................... 22

7.2.3

Nieuwe skills ................................................................................................................... 22

7.2.4

Privacy ............................................................................................................................ 22

7.3

Opportuniteiten ..................................................................................................................... 23

7.3.1

Data-gedreven organisatie ............................................................................................. 23

7.3.2

Uitgebreidere analytische mogelijkheden ..................................................................... 23

7.3.3

Interactie met klanten .................................................................................................... 23

7.3.4

Detecteren van fraude ................................................................................................... 23

7.3.5

Andere ............................................................................................................................ 23
8

Aanpak............................................................................................................................................ 24
8.1

Onderzoek naar Big Data ....................................................................................................... 24

8.1.1

Events ............................................................................................................................. 24

8.1.2

Webinars ........................................................................................................................ 24

8.1.3

Sociale Media ................................................................................................................. 25

8.1.4

Virtuele Machine ............................................................................................................ 26

8.2

Formuleer opportuniteiten .................................................................................................... 26

8.3

Ontwikkel Use Cases .............................................................................................................. 27

8.4

Identificeer huidige- en toekomstige capaciteiten ................................................................ 27

8.5

Zet een testomgeving op........................................................................................................ 27

8.6

Evalueer .................................................................................................................................. 27

9

Use Cases........................................................................................................................................ 28
9.1

Misdaad Preventie Memphis ................................................................................................. 28

9.2

Presidentsverkiezing US ......................................................................................................... 29

9.3

Detectie frauduleuze transacties ........................................................................................... 31

9.4

Vestas windturbines ............................................................................................................... 32

10

Case – FOD Justitie ..................................................................................................................... 33

11

Case – Adswizz............................................................................................................................ 34

12

Conclusie .................................................................................................................................... 35

12.1

Algemeen ............................................................................................................................... 35

12.2

Persoonlijk .............................................................................................................................. 36

13

Verklarende woordenlijst ........................................................................................................... 37

14

Bijlage ......................................................................................................................................... 39

14.1

Big data poster ....................................................................................................................... 39

14.2

Adswizz- streaming ad injection............................................................................................. 40

15

Bibliografie ................................................................................................................................. 41

16

Auteur......................................................................................................................................... 45
1

DANKWOORD

Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en
project. In de eerste plaats wil ik mijn ouders bedanken voor de mogelijkheden en ondersteuning die
zij mij hebben gegeven. Hun enthousiasme en geloof in mij hebben mij sterk gemotiveerd.
Ik wil mijn interne promotor, Dhr. Chris Vandermeiren, bedanken voor zijn wijze raad, opvolging en
begeleiding doorheen het hele traject. Zijn geloof in mij heeft mij extra aangespoord om mijn best te
doen. Ook wil ik me richten tot Mevr. Ilse Bracke en Dhr. Hans Tubbax voor hun enthousiasme en
aanmoedigingen om bij mijn eerste voorstel te blijven toen ik aan het twijfelen was.
Bijzondere dank gaat uit naar mijn externe promotor, Dhr. Geert Van Landeghem van DataCrunchers.
Toen ik hem contacteerde om te vragen of ik op hem mocht ‘terugvallen’ wanneer ik vast zat, had ik
nooit de begeleiding, tijdsinvestering en het materiaal verwacht, waarin hij heeft voorzien. De keren
dat ik op kantoor van hem en medewerkers opleiding heb gekregen, hebben enorm bijgedragen om
vertrouwd te geraken in het Big Data verhaal. Toen ik hem om raad vroeg in verband met het project
bij Justitie dat zéér traag vooruit ging, heeft hij mij op zeer korte termijn aan een nieuw en
interessant project geholpen.
De organisatoren en leden van de Meetup groep ‘BigData.be’ wil ik ook graag bedanken voor de
verschillende Big Data Meetups. Elke keer opnieuw waren het leerrijke presentaties en interessante
gesprekken waaruit ik veel heb bijgeleerd. Speciaal dank gaat uit naar Daan Gerits voor het delen van
opinies en gedachten, als antwoord op mijn vragen in de LinkedIn groep.
Graag vernoem ik ook Dries Van Nieuwenhuyse die spontaan heeft aangeboden mijn eindwerk na te
lezen. Zijn feedback en raad hebben mij geholpen inhoudelijke en structurele verbeteringen aan te
brengen.
Ook alle andere mensen, die ik niet bij naam heb genoemd maar toch hebben bijgedragen, wil ik
bedanken voor die dingen die mij geholpen hebben mijn bachelorproef tot een goed einde te
brengen.

Natan Meekers

Thomas More

1
2

VOORWOORD

Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het
vak ‘Methoden voor onderzoek en rapportering’ een thesis voorstel uitwerken. Aangezien ik voor de
afstudeerrichting ‘Performance Management’ gekozen heb, en mij wil specialiseren in Business
Intelligence, ben ik op zoek gegaan naar een interessant en relevant onderwerp in diezelfde richting.
Op het jaarlijkse Business Intelligence congres, dat georganiseerd wordt door het BICC van de
hogeschool, heb ik met een heel aantal bedrijfsmensen gesproken over verschillende mogelijke
onderwerpen. Dit soort events zijn een uitstekende opportuniteit om contacten te leggen en raad te
vragen aan professionals en bedrijven. Zij hebben immers ervaring en kennen de markt.
Zo ben ik in gesprek geraakt met Dhr. F. Verscheure die als Lifecycle Management Consultant werkt
bij SAS Belgium & Luxemburg. Hij bracht mij op het idee om een eindwerk te maken rond Hadoop. Na
wat opzoekwerk werd mij al snel duidelijk dat de term Big Data en Hadoop nauw samen gaan.
Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de
verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan
uit commodity 1 hardware. Zo kunnen bedrijven complexe vragen stellen en nieuwe inzichten
bekomen in zeer korte tijd op basis van alle beschikbare data.
Ik was meteen overtuigd om over Big Data een eindwerk te maken. Met de populariteit van Social,
Mobile en Cloud, geloof ik dat Big Data een steeds grotere en belangrijkere rol zal gaan spelen.
Tijdens een eerste gesprek met mijn mentor, Dhr. Chris Vandermeiren, werd het al snel duidelijk dat
de technologie gewoon testen niet voldoende was. Om het eindwerk relevant en waardevol te
maken, moest ik op zoek gaan naar een bedrijf dat met Big Data problematiek te maken heeft.
Zo ben ik terechtgekomen bij het FOD Justitie. Zij zitten met een aantal problemen waarvoor Big Data
een mooie oplossing kan bieden:





Er zijn héél veel vragen van de business die snel opgelost moeten worden.
Het bouwen van datawarehouses duurt te lang.
De data zit verspreid over verschillende data silo’s van de verschillende instanties.

Hun situatie is voor mij een uitstekende kans om te kijken naar de mogelijkheden van Hadoop en
andere open-source tools die de oplossing zullen bieden voor hun problemen.

1

Betaalbaar, normale hardware

Natan Meekers

Thomas More

2
3

ABSTRACT

Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er
duidelijk nood aan innovatieve technologieën en nieuwe methodologieën. Met dit eindwerk wil ik de
focus leggen op volgende aspecten:




Wat is Big Data en hoe kaderen we dit binnen Performance Management en Business
Intelligence?
Welke innovaties, uitdagingen en opportuniteiten brengt het met zich mee?
Hoe pak je een Big Data project concreet aan? Welke stappen moet je volgen? Welke skills
zijn nodig?

Om de relevantie van mijn eindwerk naar bedrijven toe te verhogen, zou ik de theorie toepassen op
een business case bij FOD Justitie.
De Federale Overheidsdienst Justitie (FOD Justitie) bestaat uit verschillende instanties en houdt zich
bezig met de rechtsorde in alle stadia: wetgeving, preventie, handhaving … Hun cel ‘Data
Management’ is sinds twee jaar bezig met Business Intelligence en Datawarehousing. Van hen wordt
verwacht dat ze alle vragen die van de verschillende gerechtsinstellingen komen, zo snel mogelijk
beantwoorden. Echter, het bouwen van een datawarehouse kost tijd en de vragen die van de
verschillende instanties komen, stapelen zich snel op. Momenteel zijn er zoveel vragen die
beantwoord moeten worden, dat de cel Data Management voor de komende 10 jaar? al werkt heeft.
Daarbij komt dat het departement slechts 8? werknemers in dienst heeft en dat de vereiste data
verspreid zit over verschillende data silo’s bij de verschillende instanties. Sinds twee jaar is Justitie
ook bezig met een Business Intelligence project in samenwerking met LACO. Mede door de
investering in dit BI project staat het hoger management niet te springen om nu een Big Data project
te gaan financieren.
Echter, door veelheid aan procedures en een trage en moeilijke communicatie, kan ik het slechts
suggestief toepassen in de resterende tijdframe. Om mijn theoretische kennis toch toe te passen in
de praktijk, ben ik via mijn externe begeleider terecht gekomen bij Adswizz op een interessant Big
Data project.
Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.
Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal
worden. Ook willen ze extra data gaan verzamelen over luisteraars zodat ze advertenties kunnen
gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om
dan een meer relevante advertentie te injecteren in een bepaalde webstream.
Momenteel gebruiken zij Amazon S3 en EMR en ontwikkelen ze scripts in Pig om hun data te
manipuleren. Ik zal hen helpen bij het ontwikkelen van Pig scripts die data verzamelen, aggregeren en
wegschrijven naar Hbase. Rapporten worden opgebouwd op basis hiervan.

Natan Meekers

Thomas More

3
4

INLEIDING

Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de
wereld van Business Intelligence en zal komende jaren op grote schaal worden opgenomen door
bedrijven. (Gartner, 2013)
"After a few years of experimentation and early adopter successes, 2013 will be the year of

larger scale adoption of big data technologies."
GARTNER, 2013

In onze huidige economie is de grootste waarde gebaseerd op kennis, en gegevens zijn van zéér groot
strategisch belang. De data die nodig is om tot deze kennis te komen is afkomstig uit diverse bronnen
en bestaat uit verschillende types zoals: data uit legacy systemen, online transactie gegevens,
sensoren die klimaatgegevens verzamelen, gps-tracking signalen, berichten geplaatst op sociale
media, log bestanden… Vandaag de dag creëren we ongeveer 900.000 Terabytes aan data per dag
(IBM, 2012). Dat wil zeggen dat ongeveer 90% van de data over de hele wereld gegenereerd is in de
laatste twee jaar.

Figuur 1 - Big Data sources

Natan Meekers

Thomas More

4
De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen:
‘Social’

‘Mobile’

‘Cloud’

De snelle opkomst van deze drie domeinen heeft heel wat veranderingen teweeg gebracht: sociale
veranderingen gaan veel sneller dan vroeger (zie “Arabisch Lente”) en de informatiestroom is nu
omgekeerd. Waar vroeger informatie afkomstig was van slechts een beperkt aantal kanalen, beschikt
nu iedereen over de mogelijkheid om op alle mogelijke momenten en plaatsen informatie te delen.
(Hunt, 2013)

Deze grote hoeveelheid informatie die nu beschikbaar wordt, biedt veel mogelijkheden aan maar ook
veel uitdagingen. Het wordt steeds moeilijker om relevante en nuttige informatie uit deze enorme
massa te filteren. Veel organisaties hebben het al moeilijk om hun kritieke gegevens te beheren en te
analyseren omdat deze verspreid zitten over de verschillende informatiesystemen en/of
departementen, laat staan dat ze dan klaar zijn om, of beschikken over de mogelijkheden om
relevante informatie te extraheren uit voorgaande genoemde domeinen. (Jernevad, 2012)
Daarbij komt dat het “on-the-fly” analyseren (voor bv. Fraude-detectie bij transacties) en het
betrekken van externe bronnen met ongestructureerde data, steeds essentiëler wordt voor
bedrijven.

Natan Meekers

Thomas More

5
5

DEFINITIE

Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te
verklaren aangezien er zoveel verschillende standpunten zijn over wat er nu juist verstaan wordt
onder Big Data.
De term ‘Big Data’ is misschien misleidend omdat hij letterlijk betekent: grote volumes data. Echter in
de praktijk wordt Big Data niet persé bepaald door grote volumes van data maar ook door andere
factoren zoals: de snelheid waarmee de data binnenkomt, de variëteit aan data - gestructureerd of
ongestructureerd - en de externe datasets die men wil betrekken bij analyses. Volgende definitie van
Gartner, die Big Data als de 3 V’s omschrijft, is de meest algemeen aangenomen definitie:
"Big data in general is defined as high Volume, Velocity and Variety information assets

that demand cost-effective, innovative forms of information processing for enhanced
insight and decision making."
GARTNER, 2012

In deze definitie merken we direct verschillende aspecten die de term Big Data omschrijven:





Het data aspect: volume, variëteit en snelheid.
Het technologische aspect: kosteneffectieve manier om de data op te slaan en te
verwerken.
Het analytische aspect: data anders bekijken voor verbeterde inzichten en besluitvorming.

Ondanks deze definitie de meest algemeen aangenomen definitie is, zijn er nog steeds andere visies
over wat Big Data nu juist betekent. Volgende omschrijving is naar mijn mening een mooie aanvulling
op de definitie van Gartner:
"Big Data is indeed Volume, Velocity and Variety. But these are again consequences of how

you structure your data. In my opinion Big Data is also about the way you look at your
data, which is enabled by a collection of technologies. The fact that you can restructure
your data at any time and enrich it with any kind of additional data sources allows us to
get information out which we never thought was possible"
DAAN GERITS, 2013

Samengevat: ondanks de term laat uitschijnen dat het gaat over grote data volumes, omschrijft de
term meer het geheel. Het omvat de steeds sneller groeiende en complexer wordende datasets, die
ervoor gezorgd hebben dat er nieuwe technologieën ontwikkeld zijn. Die bieden op hun beurt nieuwe
mogelijkheden aan om enorm grote datasets op te slaan en te herstructureren en om externe data te
betrekken bij analyses om zo tot nieuwe inzichten en een verbeterde besluitvorming te komen.

Natan Meekers

Thomas More

6
6
6.1

Situering Big Data
Big Data & Performance Management

Performance Management is een overkoepelende term voor het geheel van processen, methoden, toepassingen en technologieën die een
organisatie gebruikt om haar prestaties op te volgen, te beheren en te sturen (Nieuwenhuyse, 2011). Performance Management omvat vier
‘intelligence’ domeinen: het Strategische, Financiële, Analytische en Business domein. Big Data valt voornamelijk onder Business Intelligence
maar kan ook voor een deel ook onder Analytical Intelligence gerekend worden.

Business Intelligence
GESTRUCTUREERDEONGESTRUCTUREERDE-

ANALYSEREN

GEHERSTRUCTUREERDE-

SOCIALE
MEDIA

PERFORMANCE
MANAGEMENT

GPS &
SENSOR
SIGNALEN

RAPPORTEREN

DATA

PDF, TEXT
DOCUMENTEN
EN FOTO'S

VOORSPELLEN
LOG FILES

BIG DATA

Analytical Intelligence
Figuur 2 - Situering Big Data binnen Performance Management

Natan Meekers

Thomas More

7
6.2

BIG DATA & BUSINESS INTELLIGENCE

Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om deze rijke bron aan
informatie te benutten. Big Data biedt enorme verbeteringen en nieuwe mogelijkheden aan t.o.v. de
klassieke Business Intelligence tools; het kan zelfs sommige van deze tools vervangen. Hierdoor is het
niet meer voor iedereen duidelijk hoe we BD en BI nu juist moeten bekijken ten opzichte van elkaar.
In dit hoofdstuk wil ik een beeld scheppen hoe we ze juist moeten bekijken en waar we BD kunnen
situeren in het huidige BI landschap.

6.2.1

BUSINESS INTELLIGENCE

Business Intelligence is een overkoepelende term voor de methodes, technologieën en tools die data
verzamelen, opslaan, analyseren en rapporteren om bedrijven tot een verbeterde besluitvorming te
laten komen.
Een definitie voor Business Intelligence door Gartner:
“Business intelligence (BI) is an umbrella term that includes the applications, infrastructure
and tools, and best practices that enable access to and analysis of information to improve
and optimize decisions and performance”
GARTNER, 2012

De missie van BI is dus om te antwoorden op Business vragen en te kijken naar de prestaties in het
verleden. Om die missie zo goed mogelijk te vervullen, zien we dat er een aantal elementen zijn waar
meer aandacht aan besteed moet worden:
1. SNELHEID: Vertraging proberen te vermijden wanneer het gaat om het bedienen van klanten,
reageren op veranderingen in de markt en het optimaliseren van processen.
2. ‘AGILITY’: Het coördineren en beheren van processen en activiteiten doorheen de hele
organisatie om beter te kunnen inspelen op bijgestuurde input.
3. INTELLIGENCE: Aanpassen naar een meer voorspellende en proactieve instelling door gebruik te
maken van meerdere data bronnen en het continu bijsturen van processen en beslissingen.
4. EFFECTIVITEIT: De kosten beter beheren en de productiviteit verhogen om het succes van de
business te ondersteunen.
De scope van BI is gelimiteerd tot gestructureerde data. Alles wat in een datawarehouse terecht komt
via ETL, kan gebruikt worden. Alle ongestructureerde data, die op dit moment tot 80% bedraagt, blijft
onbruikbaar terwijl er toch heel veel informatie en patronen in verstopt zitten.
De vernieuwingen die BD brengt, zijn dus hoognodig en essentieel voor bedrijven want BD helpt
bedrijven om ruwe databronnen te transformeren tot een bruikbaar formaat. Pas dan kan deze data
gebruikt worden in analyses om zo tot nieuwe inzichten te komen.

Natan Meekers

Thomas More

8
Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige
oplossingen, nieuwe en andere methodes moesten komen om ondersteuning te bieden bij de nieuwe
problemen waar wordt tegenaan gelopen.
Nu alles veel groter kan en iedereen veel groter wil, moet je als bedrijf opletten dat je niet ‘verdrinkt’
in de hoeveelheid data die je gaat verzamelen en opslaan. Ook daar zullen deze nieuwe
technologieën bedrijven in ondersteunen.
Onderstaande tabel schept een duidelijk beeld hoe de focus in BI zich verplaatst om te kunnen blijven
voldoen aan de eisen van de business en om te kunnen inspelen op de snel veranderende markt.

BI IN HET VERLEDEN EN HEDEN

BI IN HET HEDEN EN DE TOEKOMST

Klein, gebruikersgroepen per departement die
afhankelijk zijn van IT

Implementaties overheen het hele bedrijf met
‘selfservice’ functionaliteiten

ETL processen voorzien extracten van specifiek
opgevraagde data; deze transformeren voor
specifiek gebruik.

ELT en andere ETL alternatieven, toegang tot
Big Data - ruwe data- en meer gedetailleerde
data afkomstig van verschillende bronnen

Focus op gestructureerde data voor rapporten
en ad hoc query analyses.

Nood aan een uitgebreider scala van zoek,
query en andere tools; rijke meta data voor
semigestructureerde data

Alleen historische views op de data

Views en analyses op de data voor zowel het
verleden, heden als de toekomst

6.2.2

BIG DATA

Zoals al in het vorige hoofdstuk aangehaald, is de meest algemeen aangenomen en complete definitie
van Big Data:
"Big data in general is defined as high volume, velocity and variety information assets

that demand cost-effective, innovative forms of information processing for enhanced
insight and decision making."
GARTNER, 2012

Als we definities vergelijken, wordt het al snel duidelijk dat BD geen vervanger is en dit ook nooit kan
zijn, noch worden voor BI. BI is een overkoepelende term die ruim omschrijft hoe bedrijven informatie
uit hun data kunnen halen en BD in zijn geheel, zal daar altijd toe behoren.

Natan Meekers

Thomas More

9
6.2.3

SITUERING

Het BI landschap op de dag van vandaag:

Figuur 3 - BI landschap (door Convergent-Consulting)

Als we het huidige BI landschap bekijken, merken we al snel op dat Big Data een stap verder gaat dan de
klassieke BI:





Verder dan relationeel: de stroom van semi- en ongestructureerde data (sensor, M2M, …)
creëren de vraag naar niet-relationele, gedistribueerde databases.
Verder dan structuur: de huidige BI metadata structuur kan niet om met de complexiteit van de
data.
Verder dan het Datawarehouse: nood aan een nieuwe manier om data op te slaan en te
verwerken (HDFS, HBase, MapReduce)
Verder dan historiek: het implementeren van modellen om uitzonderingen of patronen te
ontdekken als ze voorkomen i.p.v. steeds te werken op historische data.

Voorlopig zal BD de klassieke BI architectuur en tools ondersteunen en aanvullen (Big Data raffinaderij),
maar naarmate deze systemen en methoden meer vertrouwd geraken en real-time analyses en
rapporteringen nog essentiëler worden, zullen ze in steeds meer bedrijven aan aantal van de klassieke
BI-tools vervangen.

Natan Meekers

Thomas More

10
6.2.4

BIG DATA RAFFINADERIJ

Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een soort
data raffinaderij bouwen die ondersteuning biedt voor de klassieke BI architectuur en de toepassingen
die al up-and-running zijn.

Figuur 4 – Big Data ondersteunt Business Intelligence (door Hortonworks)

Op bovenstaande figuur zien we hoe een BD raffinaderij kan instaan om data uit verschillende bronnen
te verzamelen en te verwerken zodat die mee gebruikt kan worden in de huidige BI architectuur bij
bedrijven. Of dat nu gestructureerde data is - zoals database records -, of ongestructureerde data - zoals
documenten -, of zelfs semigestructureerd data - zoals log data in een tekstbestand -, maakt voor
Hadoop niet uit. Hadoop is in staat om al deze types data gelijktijdig te verwerken en te analyseren. Dat
is ook de voornaamste functie van een Hadoop gebaseerde data raffinaderij.

Natan Meekers

Thomas More

11
6.2.4.1
OPHALEN EN LADEN
Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop
ingeladen. Hadoop speelt hierin een belangrijke rol omdat het data, afkomstig uit verschillende bronnen
en van verschillende types, kan omzetten tot een formaat dat waardevol is voor de business.
6.2.4.2
OPSLAG
Het Hadoop Distributed File System (HDFS) verdeelt de data in blokken (vb. 128MB) en verspreidt deze
over de verschillende nodes van een cluster2. Elke blok data wordt minimaal 3 keer opgeslagen wat het
mogelijk maakt om een data blok in parallel te verwerken. Op die manier is het systeem ook foutentolerant. Wanneer er een machine defect geraakt, kan een andere machine, die dezelfde data blok
bevat, de taak overnemen.
6.2.4.3
PROCESSING
De verwerking van die data gebeurt door MapReduce, een framework dat het mogelijk maakt om
enorme datasets in parallel te verwerken door taken op te delen (Map), die te laten verwerken door de
nodes, en achteraf de resultaten weer samen te voegen (Reduce).
Doordat elke blok data verschillende keren is opgeslagen, voorziet het HDFS in een high-availability
omgeving, die kan opgebouwd worden uit commodity hardware. Om gestructureerde datasets op te
slaan, wordt er vaak gebruik gemaakt van HBase of Cassandra (NoSQL databanken).

2

Verzameling van servers bestaande uit commodity hardware

Natan Meekers

Thomas More

12
7
7.1

INNOVATIE, UITDAGINGEN & OPPORTUNITEITEN
INNOVATIE

Wanneer je als bedrijf denkt over het implementeren van een BD oplossing, zijn er enkele vragen die je
jezelf moet stellen als je een bepaald systeem overweegt.
1.
2.
3.
4.

Kan dit systeem om met grote hoeveelheden data en is het schaalbaar?
Kan dit systeem om met zowel gestructureerde als semi- en ongestructureerde data?
Kan dit systeem om met data die aan hoge snelheid binnenkomt?
Kan dit systeem om met complexiteit? (data centers in verschillende locaties)

De zoektocht naar een geschikt systeem is niet gemakkelijk. Elk bedrijf wil natuurlijk een mix van
volgende drie factoren om met hun nieuwe BD systeem zo dicht mogelijk bij het BD ‘Bulls-Eye’ te komen.

Schaalbaarheid
en performantie

Kosteneffectiviteit

BD ‘Bulls-Eye’

Operationeel
gemak

Figuur 5 - Big Data Bulls-Eye

Omdat de snelheid, waarmee de data moet omgezet worden naar informatie, steeds essentiëler wordt,
moeten IT en business-users beter gaan samenwerken. Dat is een insteek die je terugvindt bij vele
leveranciers. De manier waarop hun oplossing gebouwd is, is gefocust op een verbeterde samenwerking
tussen business & IT en een goede balans tussen agility en controle.

Natan Meekers

Thomas More

13
7.1.1

HADOOP

STACK

De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de
belangrijkste en meest gebruikte en die zal ik dan ook iets uitgebreider bespreken.
Enkele van de voornaamste voordelen die het Hadoop ecosysteem ons biedt zijn de volgende:
 Schaalbaarheid
 Performantie: hoe groter het volume van de data die verwerkt moet worden, hoe duidelijker
het wordt dat de manier waarop Hadoop werkt, veel performanter is dan bvb. een appliance .
 Kosteneffectief: door de manier waarop Hadoop werkt, volstaat het om met commodity
hardware te werken en besparen we op die manier ook op energie omdat deze hardware
minder energie verbruikt.
 Fouten-tolerant: alle data blokken zijn meerdere keren verspreid over verschillende machines
en zodra er een machine wegvalt, zal Hadoop een nieuwe kopie aanmaken op een andere.
 Pushen van algoritmes naar de data in plaats van de data naar het algoritme te brengen
 Gedistribueerde verwerking

Project R
(Statistics)

Mahout
(Machine learning)

Figuur 6 - Hadoop ecosysteem

Natan Meekers

Thomas More

14
7.1.1.1
HADOOP CORE
Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de
verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan
uit commodity3 hardware. Het is zo ontworpen dat je clusters kan schalen tot duizenden machines,
die elk voorzien in opslag en verwerking.
De Hadoop core bestaat uit twee componenten: Hadoop Distributed File System (HDFS) en
MapReduce. Deze twee zijn zo ontworpen dat ze perfect op elkaar afgestemd zijn en samen worden
uitgerold. Dat is het meest significante punt van Hadoop want zo beschik je over de mogelijkheid om
algoritmes naar de data te pushen in plaats van de data naar het algoritme te brengen.

Figuur 7 – Werking van Hadoop

Op bovenstaande afbeelding zien we hoe data verspreid wordt over verschillende nodes van een
cluster en hoe MapReduce jobs verdeelt en de resultaten weer samenvoegt om tot het eindresultaat
te komen.
Het is belangrijk om te weten hoe Hadoop werkt wanneer je begint na te denken over hardware
vereisten. MapReduce gebruikt in een ideale situatie slechts één ‘Map’ voor één disk omdat het
geoptimaliseerd is voor sequentieel lezen van disks. Dat is ook de reden waarom virtuele omgevingen
worden afgeraden: wanneer je in een virtuele omgeving werkt, is het moeilijk om te verzekeren dat
elk proces maar één disk gebruikt.

3

Betaalbaar, normale hardware.

Natan Meekers

Thomas More

15
De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB
ram. Wanneer je HBase of Cassandra gebruikt, kan het zijn dat je meer geheugen nodig hebt. Voor
het OS kan je best een aparte disk voorzien. Wanneer je in het geval van deze setup kiest voor servers
met 2 CPU’s, kan je best ook twee keer zoveel disks voorzien. Meer dan twee CPU’s per node is niet
aangeraden omdat de meerprijs voor zulke machines niet gelijk opgaat met de extra performantie.
Voorbeeld van de kleinst mogelijke cluster opstelling:

master
2* 4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - workload
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

slave - cluster
4 cores
24GB RAM
4 * 2TB HD
1Gbit
RHEL 5/6

Figuur 8 - Basic cluster setup

7.1.1.2
HBASE
HBase is een gedistribueerde, kolom-georiënteerde database die behoort tot de NoSQL databases.
NoSQL staat voor ‘Not Only SQL’ waarmee men wil duiden op het feit dat er ook NoSQL systemen zijn
die de gebruiker toelaten om SQL query’s in te voeren. Grote voordelen zijn dat ze horizontaal
schaalbaar zijn en dat ze performanter zijn voor bepaalde data modellen. Het wordt dus gebruikt
wanneer je zeer grote tabellen moet opslaan die bestaan uit miljarden rijen en miljoenen kolommen.
HBase maakt het mogelijk om data random in real-time te lezen en te schrijven.
De reden dat je tabellen kan aanmaken met miljoenen kolommen en miljarden rijen is dat alle lege
cellen geen plaats in nemen (sparse-lead). Ook kan je ten allen tijde, zonder al te veel moeite, extra
kolommen gaan invoegen.
Hbase heeft ook een hoge through-put. Je kan tot 20000 records per second schrijven.

Natan Meekers

Thomas More

16
7.1.1.3
ZOOKEEPER
ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving,
distributie synchronisatie, en nog andere groep services. Alle services die ZooKeeper aanbiedt,
worden gebruikt door één of andere gedistribueerde applicatie.
7.1.1.4
PIG
Pig is een platform voor het manipuleren van grote data sets. Het bestaat uit een ‘high-level’ taal
waarin je programma’s kan schrijven om data te analyseren. Het grote voordeel van Pig is dat de
structuur van de programma’s vatbaar is om parallel uit te voeren. Dat maakt het mogelijk dat we
met Pig programma’s zeer grote data sets kunnen manipuleren.
Een ander groot voordeel is dat je Pig programma’s lokaal kan schrijven en testen op een extract van
de data. Zo kun je programma’s in iteratieve stappen opbouwen om ze zo optimaal mogelijk te maken
om achteraf uit te voeren op een grote data set. Ook kunnen gebruikers hun eigen functies schrijven
en die toevoegen aan de Pig library, waarna je die functies gewoon kan opvragen in al je andere
programma’s.
7.1.1.5
HIVE
Hive is een Data warehouse systeem dat ontwikkeld is op Hadoop en voorziet in een mechanisme dat
structuur kan projecteren op data en die dan opvragen door middel van HiveQL, een taal die op SQL
lijkt. Hive zorgt er dus voor dat je gemakkelijk data kan aggregeren, ad-hoc query’s kan uitvoeren en
analyses op grote data sets.

Natan Meekers

Thomas More

17
7.1.2 CLOUDERA

VS.

HORTONWORKS DATA PLATFORM (HDP)

Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest omwille van:




Hadoop experts
Grote bijdrage aan de Hadoop open-source community
Goede start

Daar heeft Yahoo!, gesteund door Benchmark Capital, in het najaar van 2011 verandering in gebracht
door een team Hadoop-ingenieurs af te splitsen en onder te brengen in een nieuw bedrijf:
Hortonworks. Deze ingenieurs bleken dé grootste bijdrage geleverd te hebben aan Apache Hadoop en
hebben zo één van de grootste, meest innovatieve Hadoop implementaties gebouwd.
Hortonworks verklaart dat het HDP 100% open-source is en altijd gratis zal zijn! ... dit in tegenstelling
tot Cloudera. Zo proberen ze, net als RedHat in de tijd van Linux, Cloudera’s eerste plaats in te nemen
door 100% open-source te blijven. Bij Cloudera moet je betalen voor de Management Suite en die
bevat belangrijke administratieve tools voor configuratie- en resource management.

Figuur 9 - HDP integratie mogelijkheden

Hortonworks heeft de krachten gebundeld met verschillende partners om de integratie met een zo
breed mogelijk scala aan andere applicaties te verzekeren. Hortonworks zit dus niet stil. Onlangs
hebben ze aangekondigd dat ze het HDP ook voor Windows Server beschikbaar hebben gemaakt en
dat ze nu ook samenwerken met OpenStack4 om Hadoop daarop beschikbaar te maken.

4

OpenStack levert open source cloud software voor het bouwen van een private of publieke cloud.

Natan Meekers

Thomas More

18
7.1.3

SAS VISUAL ANALYTICS

Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken.
Daarom zal ik het hier kort bespreken. Voor mij is het de combinatie van onderstaande vijf factoren
die VA tot een uniek platform maken:
1.
2.
3.
4.
5.

Hadoop (HDFS) voor de data-opslag
SAS LASR® voor speed-of-thought computing (in-memory)
Visueel sterke data-exploratie modus en data-visualisatie interface
Sterke voorspellende analytische mogelijkheden (forecasting)
Mobile ondersteuning & ‘Selfservice’ BI

Figuur 10 - SAS Visual Analytics word-cloud

Natan Meekers

Thomas More

19
VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of
Qlikview die aanbieden, zeer snelle in-memory analytics en natuurlijk het uitgebreide scala aan
analytische- & forecasting-mogelijkheden, waarvoor SAS bekend staat.
De nieuwe mogelijkheden die VA ons biedt, maken het bouwen van cubes en vooraf definiëren van
dimensies overbodig. Het berekenen, aggregeren en analyseren van data gebeurt nu on-the-fly.
Voorlopig gebruikt VA altijd een LASR server. Dit kan een enkele machine zijn of een gedistribueerde
omgeving. In het tweede geval worden LASR servers en de analyses geparallelliseerd. Maar SAS voert
nu ook onderzoek naar het draaien van Visual Analytics op andere technologieën zoals een Teradata
of Greenplum appliance.

Figuur 11 - SAS Visual Analytics gedistribueerde omgeving

Met de massive parallel processing (MPP) voor geavanceerde analyses (mining, forcasting, …) in het
geheugen, biedt SAS een alternatief aan voor MapReduce; dit gaat volgens hen een stuk verder dan
datgene wat MapReduce aanbiedt.

Natan Meekers

Thomas More

20
Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en
laat zien hoe VA ook voldoet aan de eisen voor het steeds meer populair wordende selfservice BI
gebeuren. Bedrijven verlangen naar Agile BI platformen waar business users zelf kunnen spelen met
de data en waar IT het platform onderhoudt en beheert en de data prepareert.

Figuur 12 - VA gebruikersgroepen en hun functionaliteiten

Gecreëerde rapporten kunnen zowel op het web bekeken worden als op mobiele apparaten. Business
users kunnen opmerkingen maken op rapporten, waarna geassocieerde personen (analyst/report
designer) op de hoogte worden gebracht en kunnen interageren.

Natan Meekers

Thomas More

21
7.2
7.2.1

UITDAGINGEN
DATA

SILO’S SAMENBRENGEN

Door alle data silo’s samen te voegen alsook de verschillende soorten analisten (marktonderzoekers
en traditionele analisten), kunnen we nieuwe verbanden ontdekken tussen deze data en onopgeloste
vraagstukken, beantwoorden.

7.2.2

DATA

COMPLEXITEIT

Dit is waarschijnlijk de meest voor de hand liggende uitdaging. Met alle data die nu beschikbaar is,
moeten bedrijven gaan opletten dat ze niet verdrinken in de data die ze willen verzamelen en
opslaan. Niet alleen de grote hoeveelheden data draagt bij aan de complexiteit, maar ook de
variëteit: semi gestructureerde en ongestructureerde data.

7.2.3

NIEUWE

SKILLS

Uit een onderzoek van SAS in samenwerking met Bloomberg Businessweek Research Services blijkt
dat vele organisaties moeilijkheden hebben bij het implementeren of gebruiken van analytics. Sinds
de opkomst van Big Data is Business Analytics dan ook in populariteit en belang toegenomen. De
nieuwe platformen laten ons immers beschikken over de mogelijkheid om verborgen patronen en
verbanden te ontdekken.
De vraag naar analytische skills is dus enorm toegenomen en dat zal het blijven doen. Zo zijn
bedrijven ook op zoek naar nieuwe profielen zoals Data Scientists, die bedrijven moeten helpen om
verbanden te zoeken in data. Door het tekort aan opgeleide personen met voldoende analtyische
kennis, is het vinden van zulke profielen, of zelfs het opleiden ervan, voor een groot aantal bedrijven
al een uitdaging.
Niet alleen hebben bedrijven nood aan analytische skills, maar ook Hadoop gecertifieerde personen
en Linux experts zijn nodig voor het opzetten en onderhouden van de onderliggende architectuur.

7.2.4

PRIVACY

Rekening houden met privacy issues bij het verzamelen van persoonlijke data van klanten wanneer
men op die manier beter en persoonlijker wil inspelen op hen. Dit is een topic dat weer wat
gevoeliger ligt omdat er geen duidelijke grens is tot waar bedrijven mogen gaan in het op zoek gaan
en verzamelen van gegevens over klanten.

Natan Meekers

Thomas More

22
7.3
7.3.1

OPPORTUNITEITEN
DATA-GEDREVEN

ORGANISATIE

Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data de ‘new oil’ is van de 21 ste eeuw.
Bedrijven moeten dus op zoek gaan naar alle mogelijke soorten bronnen om data uit te verzamelen
en te betrekken bij analyses zodat toekomstige beslissingen gebaseerd kunnen worden op verkregen
informatie en nieuw ontdekte patronen.

7.3.2

UITGEBREIDERE

ANALYTISCHE MOGELIJKHEDEN

Doordat de opslag van data goedkoper is en de verwerking van grote hoeveelheden geen enkel
probleem meer vormt, kun je als bedrijf meer ‘advanced analytics’ gaan toepassen. Datamining en
voorspellende analyses zoals forecasting kunnen ingezet worden om complexere problemen aan te
pakken waarvan men vroeger dacht dat ze onmogelijk op te lossen waren.

7.3.3

INTERACTIE

MET KLANTEN

Het hele gegeven van Social-Mobile-Cloud genereert zoveel data, dat we nu over de mogelijkheid
beschikken om klantenprofielen op te stellen en hen persoonlijk aan te spreken. Dit kan door
consequent data bij te houden (van sociale media, mobile app gebruik .....) en die te gaan analyseren.
Je verzamelt bijvoorbeeld gegevens van personen die je website bezoeken. Op basis daarvan kan je
een gepersonaliseerde website laten zien. Concreet: een verschillende layout voor mannen en
vrouwen of het tonen van andere producten op basis van leeftijdscategorieën.

7.3.4

DETECTEREN

VAN FRAUDE

Nu er meer data beschikbaar is en die data sneller verwerkt kan worden, kun je als bedrijf werken
naar een real-time Big Data architectuur, die op basis van vooropgestelde regels nagaat of een
transactie mogelijk frauduleus is terwijl die wordt uitgevoerd.
Door de vernieuwingen die Big Data met zich meebrengt, kun je als bedrijf alle beschikbare data
betrekken bij analyses in plaats van een extract van de laatste jaren. Blijf op zoek gaan naar nieuwe
patronen die wijzen op mogelijk frauduleuze transacties. Verifieer de gefilterde transacties om na te
gaan of er geen valse positieven in voorkomen want anders verlies je misschien klanten. Deze
modellen worden opgebouwd door data scientists die op zoek gaan naar mogelijke verbanden tussen
data.

7.3.5

ANDERE

Er zijn nog zoveel andere opportuniteiten die Big Data ons kan bieden. Het is niet mogelijk om ze
allemaal te definiëren omdat ze voor elke sector specifiek zijn. Elke dag worden er nieuwe
opportuniteiten ontdekt. De kunst is creatief te zijn in het op zoek gaan naar manieren om Big Data te
gebruiken en zo een concurrentieel voordeel op te bouwen.

Natan Meekers

Thomas More

23
8

AANPAK

Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van
vandaag weinig of geen aandacht aan besteed in het hoger onderwijs. In dit hoofdstuk stel ik een
stappenplan op om bedrijven, die met Big Data willen beginnen, te helpen.

8.1

ONDERZOEK

NAAR BIG DATA
Big Data is nieuw en er zijn verschillende percepties van het begrip. Het gaat niet alleen om grote
volumes van data. Door onderzoek te doen, leer je wat er allemaal verstaan wordt onder dit begrip.
Tijdens de lessen van Performance Management pasten we de ‘flipped-class’ methode toe. Gedurende
een aantal weken mochten we werken aan een paper over een nieuwe ontwikkeling binnen
Performance Management. Zo heb ik mij in die periode kunnen verdiepen in Big Data door hienrnaar
onderzoek te doen; deze paper heeft als basis gediend voor dit eindwerk.

8.1.1

EVENTS

Events zijn een uitstekende plaats om contacten te leggen met mensen die gemeenschappelijke
interesses hebben. Een goed netwerk is volgens mij dan ook essentieel voor een IT ’er; wanneer je kennis
of informatie zoekt over een bepaald onderwerp, kan je altijd iemand uit je netwerk contacteren.
LinkedIn, websites van consultancy bedrijven en nieuwsbrieven van vendors (IBM, MS, ..) zijn goede
kanalen om op de hoogte te blijven van georganiseerde events. Als je een beetje sociaal vaardig en
communicatief bent, en wat lef hebt, is het niet moeilijk om contacten te leggen met mensen om op die
manier je netwerk uit te breiden.

8.1.2

WEBINARS

Webinars zijn een relatief nieuw concept om informatie te delen. Deze worden voornamelijk
georganiseerd door bedrijven die hun klanten en prospecten op een eenvoudige manier van informatie
willen voorzien.
Wanneer je ingeschreven bent voor een webinar, wordt je een link toegestuurd waarmee je kan inloggen
op het moment dat de webinar plaatsvindt. Wanneer je inlogt, krijg je toegang tot audio en video. In
sommige webinars kan je ook zelf interactief deelnemen aan de sessie, als je over een headset beschikt.
Tijdens andere webinars kan je vragen stellen via een chat module; deze worden dan achteraf
behandeld.
Het interessante aan dit concept is dat je je niet hoeft te verplaatsen en dat je op een relatief korte tijd,
meestal ongeveer één uur, veel informatie krijgt en over de mogelijkheid beschikt om vragen te stellen.
Als er tijd tekort is om alle vragen te beantwoorden, worden de overige vragen vaak beantwoord via
email.

Natan Meekers

Thomas More

24
8.1.3

SOCIALE MEDIA

In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn,
Twitter, en Meetup zijn erg populair voor professionele doeleinden.

Figuur 13 - Sociale media om je netwerk uit te bouwen

Via Twitter kan je je abonneren op kanalen van bedrijven en/of personen die jou interesseren. Als je je
abonneert op een Twitter kanaal waar jouw interesse naar uitgaat, ontvang je telkens de nieuwste
Tweets op je persoonlijk dashboard.
Het abonneren op Twitter kanalen van ‘thought- en inspirational leaders’ heeft als voordeel dat je op de
hoogte blijft van populaire topics en nieuwe, interessante ontwikkelingen.
Op LinkedIn bouw je je eigen professionele netwerk van contacten en kan je je inschrijven op groepen.
Deze groepen kunnen door iedereen opgericht worden en hebben als doel mensen met dezelfde
interesse met elkaar in contact te brengen en meningen en ervaringen te kunnen delen. Door middel van
polls en discussies worden ideeën tussen groepsleden uitgewisseld.
Meetup, een minder bekend platform, is interessant om in contact te komen met mensen die dezelfde
interesses hebben.

Natan Meekers

Thomas More

25
8.1.4

VIRTUELE MACHINE

Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan
afspelen op je eigen systeem om op die manier kennis te maken met Hadoop en services. De VM van
Hortonworks bevat ook tutorials voor Pig en Hive om te leren hoe scripts worden opgebouwd en
uitgevoerd.

Figuur 14 - Hortonworks VM interface

8.2

FORMULEER

OPPORTUNITEITEN
Je kan vertrekken vanuit een analyse van je bedrijf en die problemen formuleren die tot nu toe te
moeilijk of te duur waren om op te lossen. In samenwerking met analisten, data scientists, marketeers
en andere business users kan je opportuniteiten of problemen identificeren die het best passen bij jouw
bedrijf en die nog nooit zijn aangepakt.
Uit die lijst van geformuleerde opportuniteiten neem je best degene waarvan je redelijk zeker bent dat je
een acceptabele ROI zal krijgen.

Natan Meekers

Thomas More

26
8.3

ONTWIKKEL USE CASES

Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te voeren.
Schematiseer de datastromen om na te gaan welke technologieën nodig zijn om het geformuleerde
probleem op te lossen.
Ga na welke data verzameld en opgeslagen moeten worden en welke je beter weg laat. Ook al is opslag
goedkoper geworden, het kost nog steeds geld en daarom is het nuttig om goed na te denken welke data
tot nieuwe inzichten kunnen leiden en die op te slaan.
Ga na welke analytische query’s er nodig zijn en welke algoritmes gebruikt zullen worden om de
gewenste resultaten te verkrijgen.

8.4

IDENTIFICEER

HUIDIGE- EN TOEKOMSTIGE CAPACITEITEN
Als de use cases zijn opgesteld, is het goed om na te gaan welke extra data kwaliteitseisen gedefinieerd
moeten worden voor het verzamelen, cleanen en aggregeren van data. Ook op gebied van hardware is
het goed om na te gaan aan welke vereisten het systeem moet voldoen: schaalbaar, fouten tolerant,
performant …
Zoals eerder vermeld is het voor Hadoop clusters niet aangeraden om servers te kopen met meer dan 2
CPU’s omdat die direct een prijsklasse hoger zijn en dat loopt niet gelijk op met de extra performantie. In
de meeste opstellingen wordt er gebruik gemaakt van één 2TB disk per CPU core, maar er zijn ook al
clusters die draaien met 3TB schijven per core. Een node met 2 quad core processors heeft dus 8 disks
om data op te slaan en 1 disk voor het OS.

8.5

ZET

EEN TESTOMGEVING OP
Nu ook de capaciteiten geïdentificeerd en geformuleerd zijn, kan je beginnen met het opzetten van een
testomgeving of kiezen voor een cloud oplossing zoals Amazon. Zeker voor een POC is dat heel
gemakkelijk en veel kosten efficiënter dan het opzetten van een eigen omgeving.
Wanneer je een eigen architectuur opzet, is het slim om te kijken naar gelijkaardige bedrijven om te zien
wat voor setup zij gebruiken. Verder zijn er verschillende blogs van Yahoo! Hadoop ingenieurs geven
concrete tips geven over het opzetten van een cluster.
Denk ook al na over hoe de data gevisualiseerd zal worden zodat die gemakkelijk te begrijpen is voor alle
business users.

8.6

EVALUEER

Interpreteer de resultaten en ga na of deze kunnen kloppen. Is de doorlooptijd om de vraag te
beantwoorden korten dan voorheen? Of is het resultaat nauwkeuriger? Meet ook de ROI en ga na wat
de ROI is op korte en lange termijn. Breidt het project uit met meer cases en ga na wat voor jou bedrijf
de beste opportuniteiten zijn om uit te werken.

Natan Meekers

Thomas More

27
9

USE CASES

9.1

MISDAAD PREVENTIE MEMPHIS

Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen zo hoog op dat er iets
moest gebeuren. Enkele wetenschappers van de Universiteit van Memphis hebben het Memphis Police
Department (MPD) benaderd met het voorstel om alle data, die tot nog toe in silo’s zat opgesloten, te
‘bevrijden’ en te combineren met real-time data om zo patronen te ontdekken.
De wetenschappers zijn de data gaan analyseren met het statistische programma SPSS en is vervolgens
omgedoopt tot Operatie Blue CRUSH doordat het door IMB is aangekocht. Dankzij de analyses heeft het
politie departement meer inzicht gekregen in de plaats en tijd van de incidenten.
Door deze inzichten kan MPD hun patrouilles nu effectiever en efficiënter inzetten.

HISTORISCHE INPUT

REAL-TIME INPUT

OUTPUT

Politierapporten

Verkeerspatronen

Real-time

Soorten criminaliteit

Jaargetijde

Grootste kans misdaad

Locatie misdaad

Temperatuur

Optimale inzet politiekrachten

Tijdstip misdaad (pv)

Regen

Weersomstandigheden

Evenementen (?)

Verkeersinformatie

Integratie met 911

Overige bijzonderheden

GSM-locatie verdachten

Soorten criminelen (strafbladen)
Arrestatiebevelen
Crime-scene
Terugkerende patronen (loon-uitbetaaldag)

Het resultaat van dit project kan niet ontkent worden:




30% minder zware criminaliteit
15% minder gewelddelicten
Hogere veroordelingsgraad (16%  70%) door betere bewijslast (op heterdaad betrapt)

Het Big Data systeem Blue CRUSH is een zelf lerend systeem dat beter wordt doordat er meer informatie
beschikbaar komt en er meer feedback ingevoerd wordt. Deze oplossing kan nu ook zonder al te veel
aanpassingen gebruikt worden door andere politiedepartementen die hier ook nood aan hebben.

Natan Meekers

Thomas More

28
9.2

PRESIDENTSVERKIEZING US

Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. Volgens
verschillende bronnen heeft Obama zijn overwinning te danken aan het gebruik van Big Data in zijn
campagne.
President Obama’s campagne was één van de meeste verfijnde en gesofistikeerde digitale operaties
waarbij geen enkele veronderstelling als vanzelfsprekend werd aangenomen. Zijn campagne werd
bedacht en geleid door data analisten die niets aan toeval overlieten. Ze moedigden supporters aan om
hun persoonlijke gegevens te delen, opmerkingen, foto’s en video’s te posten en om te doneren. Dat
was slechts het begin.

Vanuit hun veelzijdige campagnestrategie positie zijn ze verder gegaan door webmasters deze data te
laten gebruiken om bezoekers te leiden naar andere campagne-media zoals Obama’s Facebook-pagina
en Youtube kanaal.
Een ander voorbeeld toont ook aan dat data van steeds groter belang is bij politiek: Obama heeft een
wedstrijd opgesteld om te dineren met Jessica Parker en heeft zich gericht naar een beperkte groep van
personen die ook aangetrokken zijn door zijn de Republikeinen, celebraties en die houden van dineren.
Deze specifieke groep bestaat en heeft veel geld waardoor er op deze manier ook extra inkomsten
verkregen kunnen worden.

Natan Meekers

Thomas More

29
Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken
om nieuwe kiezers te vinden maar ook om te bepalen welke boodschappen de aandacht trekt van
bepaalde personen en welke types van personen door deze boodschappen overtuigd geraken.
Het is duidelijk dat de zeer dure advertenties op tv en radio er niet langer voor zorgen dat je de
verkiezingen wint. Het zijn de nauwkeurig uitgezochte, kleinschalige en op maat gemaakte
boodschappen voor een specifieke doelgroep of persoon die maken dat een gebruiker zich aangesproken
voelt en mogelijk een stem wordt.
Obama’s team is zelfs zo ver gegaan dat de campagne voerders die thuis langsgaan, verschillende
boodschappen klaar hadden afhankelijk voor welk familielid de deur zou open doen.

NATE SILVER
Een ander opvallend verhaal is dat van Nate Silver. Hij is een statisticus die een gewaagde voorspelling
heeft gemaakt over de uitslag van de verkiezingen in de US.

Nate Silver deed ook een voorspelling over het aantal stemmen dat beide kandidaten zouden halen: 332
voor Obama en 206 voor Romney. Deze cijfers komen 100% overeen met de echte resultaten. Uit beide
verhalen blijkt maar weer dat er heel veel data is die we op de juiste manier moeten gaan gebruiken om
tot nieuwe inzichten en voorspellingen te komen en welke mogelijkheden we krijgen om doelen te
bereiken die vroeger onmogelijk leken.

Natan Meekers

Thomas More

30
9.3

DETECTIE

FRAUDULEUZE TRANSACTIES
Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bronnen verwerken
dan de gewone creditkaart bedrijven. PayPal moet uit de 90 miljoen browsers en mobiele apparaten die
bijna constant connecteren naar de online betaal service, de mogelijke frauduleuze transacties
identificeren. Door deze uitdaging hebben ze systemen ontworpen die frauduleuze activiteiten kunnen
identificeren en die afhandelen voordat deze transacties begonnen zijn. Ook de andere grote spelers op
de markt van online transacties hebben speciale geavanceerde analytische tools en servers gebouwd om
patronen van frauduleuze activiteiten te ontdekken.
PayPal heeft zo een ‘Fraude Management Filter’ ontworpen die
zoekt naar betalingen en andere soorten transacties waarvan de
bron verdacht is, de grootte van het bedrag of eender welke
andere factor die een winkelier kan opgeven en maakt dat deze
transacties goedgekeurd moeten worden. Maar er zijn meer
factoren die kunnen helpen in het verfijnen van de bestaande
modellen om fraude te voorkomen. Zo kunnen ook IP adressen,
browser informatie en andere technische data dienen in het
ontdekken van nieuwe patronen.
Het gebruik van deze nieuwe technieken en tools zijn een enorme vooruitgang op de manieren die
hiervoor gebruikt werden. Nu kunnen er continu, real-time analyses uitgevoerd worden op zéér grote
datasets. Vroeger werden er samples gebruikt van de data die dan ’s nachts werd geanalyseerd voor het
maken van fraude-detectie modellen. In deze snel veranderende wereld volstaan deze modellen simpel
weg niet meer.
Data die geregistreerd wordt door transacties via deze online betalings-platformen bieden veel meer
mogelijkheden dan het detecteren van alleen fraude. Door het combineren van klantgegevens,
transacties, zoekopdrachten, aankopen, likes & dislikes (sociale media), … kunnen bedrijven nieuwe
geavanceerde marketing modellen opstellen en voorspellende analyses maken voor het verkopen van
nieuwe producten en services.

Natan Meekers

Thomas More

31
9.4

VESTAS

WINDTURBINES
Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen dat
het voor bleef op de concurrerende firma’s. Om dat te doen zijn ze Big Data analytische software van
IBM gaan gebruiken: ‘BigInsight’ in samenwerking met een krachtige IBM supercomputer: ‘Firestorm’.
Met deze nieuwe technologieën willen ze
Petabytes
aan
gestructureerde
en
ongestructureerde data van weerrapporten,
satteliet foto’s, geospatial en sensor data,
ontbossingsmappen en weersvoorspellingsmodellen analyseren.
Klanten willen weten hoeveel energie een
windturbine zal opbrengen en wat hun Return
On Investment (ROI) zal zijn vooraleer ze
overgaan tot het aankopen en plaatsen van
een windturbine. Met deze nieuwe technologieën kunnen ze de vragen van de klant zeer snel
beantwoorden en hen helpen om hun doelen voor hernieuwbare energie te behalen.
Als de turbines geplaatst zijn en operationeel zijn, zullen Vestas ingenieurs de nieuwe software
gebruiken om de opbrengst van de turbine te simuleren, analyseren hoe elk blad van de schroef op
weersomstandigheden reageert en bepalen wat het beste tijdstip is om de turbine stil te leggen voor
onderhoud.
Vestas is één van de bedrijven die weer
aantoont hoe grote organisaties Big Data
kunnen
gebruiken
om
slimmere
beslissingen te maken. Deze beslissingen
hebben een sterke invloed op de groei van
je bedrijf aangezien je de moeilijkste
problemen
kan
aanpakken.
De
mogelijkheid om inzichten te krijgen in de
grote hoeveelheden data die bedrijven ter
beschikking hebben, heeft het potentieel
om een bedrijf of industrie voor goed te
veranderen.

Natan Meekers

Thomas More

32
10 CASE – FOD JUSTITIE
Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen over de
scope en vereisten van het project dat ik zou uitvoeren. Zij zouden voorzien in hardware en data, ik zou
het systeem operationeel maken en een vraag van de business proberen te beantwoorden met het
nieuwe systeem . Ondanks ik mijn praktisch gedeelte daar niet kon uitwerken, heb ik er veel uit geleerd.
Wanneer een bedrijf te groot wordt, loopt het risico om zoveel procedures te creëren, dat sommige
processen onnodig ingewikkeld worden. Zo heb ik twee weken moeten wachten vooraleer SAS
Enterprise Guide als package op mijn pc beschikbaar was. Die aanvraag moest via de helpdesk geïnitieerd
worden: een ticket aanmaken, wachten tot het ticket geaccepteerd is, wachten tot alle voorgaande
tickets afgewerkt zijn en dan wachten tot je eigen ticket succesvol afgewerkt is.
In tussentijd heb ik via e-mail en telefoon contact gezocht met IT om er zeker van te zijn dat het daarna
niet nog eens zo lang zou duren om de servers klaar te maken. Ik merkte al snel dat er traag geantwoord
werd op mijn mails en telefonisch kreeg ik geen contact meer. Dan ben ik op zoek gegaan naar een ander
project.
Ik heb mijn interne begeleider bij FOD Justitie op de hoogte gebracht van mijn beslissing en heb gezegd
dat ik in juni nog een aantal dagen kom werken op de Visual Analytics server. Deze demo server heeft
SAS voorzien en wordt nu door niemand gebruikt.
Het opzetten van een Big Data architectuur ter ondersteuning van de klassieke BI zal verbetering
brengen op volgende vlakken:







Eén centrale data ‘repository’ waar alle data van alle justitiehuizen in samenvloeit.
Verrijken van interne data met externe data zoals verkeersinformatie en klimaatgegevens.
Toepassen van datamining om verbanden te zoeken tussen data.
Data modellen projecteren op data.
Uitgebreidere mogelijkheden om tekst analyses en Natural Language Processing uit te voeren.
Penitentie gegevens gaan analyseren die rechters kunnen helpen om gepaste sancties uit te
delen.

Natan Meekers

Thomas More

33
11 CASE – ADSWIZZ
Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider
(DataCrunchers).
Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand.
Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden.
Ook willen ze extra data verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren.
Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante
advertentie te injecteren in een bepaalde webstream.
Momenteel gebruiken zij Scribe om hun data te verplaatsen naar Amazon S3 storage. Ontwikkelde Pig
scripts worden gelanceerd op Amazon ’s Elastic MapReduce (EMR) om te testen hoe ze performen op de
volledige data set in plaats van een lokaal extract.
De data van één maand kopiëren van S3 naar EMR duurt ongeveer 4 minuten. In EMR wordt er dan een
cluster online gebracht van 20 nodes. Het aantal nodes kan je zelf kiezen. De data wordt met de huidige
Pig scripts in 4 uur verwerkt. Deze scripts moeten dus nog geoptimaliseerd worden want dit zou moeten
lukken in 1 à 2 uur. Wanneer het Pig script is uitgevoerd, wordt het resultaat weggeschreven naar S3, de
data verwijderd en de cluster weer offline gebracht.
Mijn rol in dit project is het helpen ontwikkelen van Pig scripts die data verzamelen, aggregeren en
wegschrijven naar HBase. De huidige rapporten worden opgebouwd op basis van de data in HBase.
De informatie over dit project is beperkt omdat ik hier pas eind mei kon opstarten. Dit komt door de
moeilijkheden die er waren bij Justitie.
Tijdens de presentatie van dit eindwerk kan de jury meer gedetailleerde informatie verwachten over het
praktische gedeelte van dit project. Ik zal laten zien hoe Pig scripts zijn opgebouwd en uitleggen hoe ze
worden uitgevoerd. Ook zal ik met de iPad een aantal rapporten laten zien die ik in Visual Analytics heb
gebouwd.

Natan Meekers

Thomas More

34
12 CONCLUSIE
12.1 ALGEMEEN
Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance
Management. Het meet onze prestaties in het verleden (BI) en het kan ons ook door middel van
geavanceerde analyses (‘predictive analytics’) inzicht geven in de toekomst.
Doorheen dit eindwerk is het duidelijk geworden dat Big Data een grote toegevoegde waarde biedt voor
bedrijven: meer inzicht in klanten om ze persoonlijker te bedienen, sneller (en nieuwe) inzichten
verwerven, geld uitsparen, uitvoeren van fraude en risico analyses, … Dat is de reden waarom steeds
meer bedrijven een ‘data-driven’ richting uitgaan.
De mogelijkheid om meer data sneller te verwerken en daarbij externe databronnen te betrekken, maakt
dat bedrijven beschikken over veel nieuwe opportuniteiten waarmee ze een concurrentievoordeel
kunnen opbouwen.
Big Data projecten eisen nieuwe skills waarin een bedrijf zal moeten investeren. Vooral de vraag naar
analytische profielen zal sterk stijgen.
De ROI is moeilijk te bepalen voor veel Big Data projecten maar ondertussen bestaan er al veel use cases
waaruit je inspiratie kan opdoen en die je zekerheid geven dat je project iets zal opleveren.
Ondanks de vele use cases, die voornamelijk uit de VS afkomstig zijn, heb ik gemerkt dat er op de
Belgische markt nog maar weinig vraag is naar Big Data expertise. Het zal dus voor Big Data consultants
een uitdaging zijn om aan bedrijven de meerwaarde en voordelen aan te tonen om een project op te
starten. Maar over het algemeen zien we dat in België vernieuwingen altijd wat later doorbreken. Ik
geloof dus dat Big Data de komende jaren op grote schaal zal geïmplementeerd worden.
Bedrijven beginnen best met een POC of Pilot project om vanuit één probleem of vraag een oplossing of
antwoord te geven door middel van Big Data. Wanneer zo een case succesvol is uitgewerkt, kan men
stilaan uitbreiden door meer cases aan te pakken en creatief te zoeken naar nieuwe opportuniteiten.
Pas wel op voor de grote fout die vele mensen maken: ‘Big Data is no silver bullet’ ! Alle dingen die
mogelijk zijn met het verzamelen en opslaan van data tot het uitvoeren van de geavanceerde analyses,
vereisen de juiste skills en expertise om succes te garanderen. Big Data systemen werken niet autonoom
en hebben nog steeds begeleiding nodig van mensen die begrijpen wat er gebeurt en die de resultaten
kunnen evalueren.
Suggesties voor verder werk: dieper ingaan op ‘the analytics’ van Big Data en nagaan hoe we creatief
kunnen zijn met data. Op die manier kan een profiel opgesteld worden van vereiste skills en hoe ze
ontwikkeld kunnen worden om bedrijven beter te helpen bij Big Data projecten en succes te garanderen.

Natan Meekers

Thomas More

35
12.2 PERSOONLIJK
De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal.
Dat was niet altijd gemakkelijk omdat het allemaal nieuwe materie is. Door verschillende kanalen te
gebruiken, heb ik veel bijgeleerd en heb ik goede contacten kunnen leggen. Die kan ik raadplegen als ik
hulp nodig heb voor de praktijk.
Big Data is een zeer uitgebreid en veelomvattend onderwerp en het was niet gemakkelijk om het
compact uit te leggen.
Voor het praktische gedeelte heb ik wat tegenslag gehad maar daar heb ik ook veel uit geleerd. Ondanks
de noodzaak van verandering van project op het allerlaatste moment (5 werkdagen voor de deadline van
dit eindwerk) heb ik niet opgegeven.
Tot in juni blijf ik er aan verder werken zodat ik een meer uitgebreid praktisch gedeelte kan presenteren.

Natan Meekers

Thomas More

36
13 VERKLARENDE WOORDENLIJST
[1] OPEN-SOURCE
Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkheid om de
software te bestuderen, aan te passen en verbeteringen aan te brengen. De code van opensource software komt vaak tot stand door de samenwerking van individuele programmeurs uit
een open-source community
[2] Commodity hardware
Computer hardware die gemakkelijk te verkrijgen en betaalbaar is.
[3] Appliance
Een machine die speciaal ontworpen is om een bepaalde taak uit te voeren.
[4] Node
Een computer die is aangesloten op een bepaald netwerk. Een verzameling van nodes vormt
een cluster.
[5] Legacy systemen
Bronsystemen zoals ERP, CRM of andere applicaties met gegevens in een databank.
[6] Scope
Het bereik van een project. Overeengekomen werk dat voltooid moet worden om tot het
eindresultaat te komen.
[7] Amazon S3
Service die de mogelijkheid aanbiedt om data op te slaan in de cloud.
[8] Amazon EMR
Elastic MapReduce is een web service die bedrijven de mogelijkheid aanbiedt om enorme
hoeveelheden data op een gemakkelijke en kosten-efficiënte manier te analyseren.
[9] on-the-fly
In real-time. Uitvoeren terwijl het gebeurt.
[10] speed-of-thought
Zeer snel.

Natan Meekers

Thomas More

37
14 AFKORTINGEN
PM

PERFORMANCE MANAGEMENT

BI

BUSINESS INTELLIGENCE

BD

BIG DATA

ETL/ELT

EXTRACT, TRANSFORM AND LOAD / EXTRACT, LOAD AND TRANSFORM.

EMR

ELASTIC MAPREDUCE

POC

PROOF OF CONCEPT

HDFS

HADOOP DISTRIBUTED FILE SYSTEM

VA

VISUAL ANALYTICS

HDP

HORTONWORKS DATA PLATFORM

MPP

MASSIVE PARALLEL PROCESSING

ROI

RETURN ON INVESTMENT

Natan Meekers

Thomas More

38
16 BIJLAGE
16.1 BIG

DATA POSTER
Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan de
hand van die poster mochten wij onze paper presenteren op het Performance Management event dat
georganiseerd was door het BICC van onze hogeschool.

Natan Meekers

Thomas More

39
16.2 ADSWIZZ-

STREAMING AD INJECTION
Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in webstreams.

Natan Meekers

Thomas More

40
17 BIBLIOGRAFIE
[1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012.
Opgeroepen in Oktober 2012 van:
<http://www.atlantbh.com/how-to-build-optimal-hadoop-cluster/>.
[2] APACHE. Hadoop™. Apache.org, 2012.
Opgeroepen in Oktober 2012 van:
<http://hadoop.apache.org/>.
[3] ASAY M.. Becoming Red Hat: Cloudera and Hortonworks' Big Data death match™. The Register, 2013.
Opgeroepen in Februari 2013 van:
< http://www.theregister.co.uk/2012/08/17/community_hadoop/>.
[4] COX, R. Hortonworks shows out at OpenStack summit. Sillicon Angle, 2013.
Opgeroepen in April 2013 van:
<http://siliconangle.com/blog/2013/04/17/hortonworks-shows-out-at-openstack-summit-while-cloudera-stays-athome/>
[5] CROLS, J. Storm is coming: are you ready for big data? Ferranti Computer Systems. Belgium, p. 8. 2012.
[6] DATA SCIENCE SERIES. Scoping out your Big Data analytics project. Datameer. 2013.
Opgeroepen in April 2013 van:
<http://info.datameer.com/rs/datameer/images/Project_plan.pdf?mkt_tok=3RkMMJWWfF9wsRokv6rIZKXon
jHpfsX56egrWaa1lMI%2F0ER3fOvrPUfGjI4FRMpjI%2BSLDwEYGJlv6SgFSrbEMaJn2bgIUhE%3D>.
[7] DEAN. Facing the challenges of Big Data. YARC, 2013.
Opgeroepen in April 2013 van:
< http://yarcdata.com/blog/?p=413/>.
[8] HOWARD, P. Sybase IQ 15.4. Bloor Research. USA, p. 17. 2012.
[9] IBM. What is Big Data. Bringing big data to the enterprise, 2012.
Opgeroepen in Oktober 2012 van:
<http://www-01.ibm.com/software/data/bigdata/>.
[10] IBM CORPORATION. Recognize the many faces of fraud. IBM Corporation. USA, p. 8. 2010.
[11] IBM CORPORATION. Understanding Big Data. IBM Corporation. USA, p. 166. 2011.
[12] IBM GLOBAL BUSINESS SERVICES. Analytics: The real-world use of big data. IBM Institute for Business Value.
USA, p. 22. 2012.
[13] JERNEVAD, M. Trends that empower. Projectplace International. Stockholm, p. 13. 2012.
[14] LEI, S. Setting Up a Hadoop Cluster. National University of Signapore. Signapore, p. 6. 2009.

Natan Meekers

Thomas More

41
[15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013.
Opgeroepen in April 2013 van:
< http://siliconangle.com/blog/2013/03/28/big-data-deep-dive-conclusion-the-future-of-analytics//>.
[16] MCKINSEY. The next frontier for innovation, competition and productivity. McKinsey Global Institute. [S.l.], p.
156. 2011.
[17] NUCLEUS RESEARCH. Big Data: Beyond the buzzwords. Nucleus Research. USA, p. 3. 2011.
[18] OFFERMAN, A. Hadoop: raamwerk voor de grote jongens. Tweakers, 21 fev. 2012.
Opgeroepen in Oktober 2012 van:
<http://tweakers.net/reviews/2475/2/hadoop-raamwerk-voor-de-grote-jongens-wat-is-hadoop.html>
[19] RAMAMURTHY, B. MapReduce & Hadoop Distributed File System. University Buffalo. Buffalo, p. 39. 2012.
[20] SAS INSITUTE. Banks, Big Data and High-Performance Analytics. SAS Institute. USA, p. 16. 2012.
[21] SAS INSTITUTE. Big Data for the Next Big Idea in Financial Services. SAS Institute. USA, p. 13. 2012.
[22] SAS INSTITUTE. High Performance Analytics at the speed of right. Sas Institute. USA, p. 32. 2012.
[23] THE APACHE SOFTWARE FOUNDATION. What is Hadoop. Hadoop Apache, 3 20 2012.
Opgeroepen in Oktober 2012 van:
<http://hadoop.apache.org/>.
[24] TURNER, J. Hadoop: What it is, how it works, and what it can do. O'Reilly Radar, 12 jan. 2011.
Opgeroepen in Oktober 2012 van:
<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.
[25] URBANI, J. Reasoning-Hadoop. Vrije Universiteit - Faculty of Sciences. Amsterdam, p. 87. 2009.
[26] EVELSON, B. Advanced Data Visualization Platforms. SAS Institue, 2012.
Opgeroepen in Maart 2013 van:
<http://radar.oreilly.com/2011/01/what-is-hadoop.html>.
[27] ZWANENVELD, A. Big Data: Misdaadpreventie Memphis Police Dept. , Juli 2012.
Opgeroepen in November 2012 van:
<http://www.webanalisten.nl/big-data-voorbeeld-misdaadpreventie-memphis-police-dept>.
[28] BADGER, E. How to catch a criminal with data. , Maart 2012.
Opgeroepen in November 2012 van:
<http://www.theatlanticcities.com/technology/2012/03/how-catch-criminal-data/1477/>.
[29] HONAN, D. The 2012 Election: A big win for Big Data , Nov 2012.
Opgeroepen in November 2012 van:
<http://bigthink.com/think-tank/the-2012-election-a-big-win-for-big-data>.
[30] HOWARD, A. In the 2012 election, Big Data-driven analysis & campains were the winners. O'Reilly, Nov 2012.
Opgeroepen in November 2012 van:
<http://strata.oreilly.com/2012/11/2012-election-big-data-journalism-obama-data-campaign.html>.

Natan Meekers

Thomas More

42
[31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012.
Opgeroepen in November 2012 van:
<http://www.computerworld.com/s/article/9233587/Barack_Obama_39_s_Big_Data_won_the_US_election>.
[31] SILVER, N. Five Thirty Eight (538). NY Times , Nov 2012.
Opgeroepen in November 2012 van:
<http://fivethirtyeight.blogs.nytimes.com/>
[32] HARDING, L. Numbers nerd Nata Silver’s forcasts prove all right on election night. Guardian, Nov 2012.
Opgeroepen in November 2012 van:
<http://www.guardian.co.uk/world/2012/nov/07/nate-silver-election-forecasts-right>
[33] ECONOMIST, T. Big Data: Chrunching the numbers. The Economist, Mei 2012.
Opgeroepen in November 2012 van:
<http://www.economist.com/node/21554743>
[34] SIMS, D. Big Data thwarts fraud. Strata O'Reilly, Feb 2011.
Opgeroepen in November 2012 van:
<http://strata.oreilly.com/2011/02/big-data-fraud-protection-payment.html>
[35] IBM. Vestas Wind Systems turn to IBM Big Data Analytics for smarter wind energy. IBM, Okt 2011.
Opgeroepen in November 2012 van:
<http://www-03.ibm.com/press/us/en/pressrelease/35737.wss>
[36] IBM. IBM helps Vestas turn cliate Big Data into Capital. IBM, Okt 2011.
Opgeroepen in November 2012 van:
<http://www.ibmbigdatahub.com/video/ibm-helps-vestas-turn-climate-big-data-capital>
[37] LAMONICA, M. IBM's Big Data helps Vestas wind turbines crank. CNET News, Okt 2011.
Opgeroepen in November 2012 van:
<http://news.cnet.com/8301-11128_3-20125284-54/ibms-big-data-helps-vestas-wind-turbines-crank/>
[38] HARISH & VIJAY, Introduction to Big Data & Hadoop Ecosystem Part 1-2-3. Cloudstory.in, Apr 2012.
Opgeroepen in November 2012 van:
<http://cloudstory.in/2012/04/introduction-to-big-data-hadoop-ecosystem-part-1-2-3/>
[39] GARTNER. 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So. Gartner, 2013.
Opgeroepen in Maart 2013 van:
<http://www.gartner.com/newsroom/id/2366515>
[40] HORTONWORKS. Modern Data Architecture and Hadoop. Hortonworks, 2013:
Opgeroepen in Maart 2013 van:
<http://hortonworks.com/hadoop-modern-data-architecture>
[41] HUNT, I. The CIA on Big Data. SiSense, 2013.
Opgeroepen in April 2013 van:
<www.sisense.com/blog/bruno/2013/03/27/recaps-gigaom-structure-data-gartner-bi-and-analytics-summit>

Natan Meekers

Thomas More

43
[42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013.
Opgeroepen in Mei 2013 van:
<theinnovationenterprise.com/summits/big-data-innovation-summit-april-2013-san-francisco/schedule>
[43] INTEL. Getting started with Big Data. Intel, 2013.
Opgeroepen in Mei 2013 van:
<http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoopplanning-guide.pdf
[44] JEDRAS, J. SAS takes aim at SAP with in-memory analytics. IT World Canada, 2013.
Opgeroepen in Mei 2013 van:
<http://www.itworldcanada.com/news/sas-takes-aim-at-sap-with-in-memory-analytics/147049
[45] KELLY, J. The Hadoop Wars: Cloudera and Hortonworks’ Death Match for Mindshare. Wikibon, 2013.
Opgeroepen in Mei 2013 van:
<http://wikibon.org/wiki/v/The_Hadoop_Wars:_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mind
share>
[46] KELLY, K. Big Data vs. Tradition Business Intelligence. SmartDataCollective, 2012.
Opgeroepen in Mei 2013 van:
<http://smartdatacollective.com/node/84546>
[47] MEHRA, G. Using Big Data to Prevent Ecommerce Fraud. Practical eCommerce, 2013.
Opgeroepen in Mei 2013 van:
<http://www.practicalecommerce.com/articles/4031-Using-Big-Data-to-Prevent-Ecommerce-Fraud>
[48] VAN NIEUWENHUYSE, D. (2011). Performance Management. Leuven: LannooCampes.
[49] PITTMAN, D. Friday Data Flick: Uses of Big Data and Hadoop as Data Warehouse. IBM Big Data Hub, 2013.
Opgeroepen in Mei 2013 van:
<http://www.ibmbigdatahub.com/blog/friday-data-flick-uses-big-data-and-hadoop-datawarehouse?utm_source=feedly&utm_medium=feed&utm_campaign=Feed:+netezza/allblogs+(Netezza+Blogs++All+Posts)>
[50] RADDING, A. Big Data Drives surging interest in Business Intelligence. BigFatFinancialBlog, 2013.
Opgeroepen in Mei 2013 van:
<http://bigfatfinanceblog.com/2013/02/21/big-data-drives-surging-interest-in-business-intelligence/>
[51] WALLACE, D. Big Data management for retail banks. SAS Institute, 2012.
Opgeroepen in Mei 2013 van:
<http://www.sas.com/knowledge-exchange/risk/integrated-risk/big-data-management-for-retail-banks>

Natan Meekers

Thomas More

44
18 AUTEUR
Meekers Natan
Vennestraat 26, B-1980 Zemst-Laar
MOBIEL: +32 498 08 78 90
EMAIL: natan@meekers.eu
Natan Meekers
@NatanMeekers
http://natan.meekers.eu

EXTERNE PROMOTOR
Manager & Big Data consultant at DataCrunchers

Van Landeghem Geert
Steenweg van Grembergen 27, B-9200 Dendermonde
MOBIEL: +32 477 75 95 33
EMAIL: info@datacrunchers.eu
Geert Van Landeghem
@gvanlandeghem

Natan Meekers

Thomas More

45

Mais conteúdo relacionado

Mais procurados

Ondernemen Met Sociale Netwerken
Ondernemen Met Sociale NetwerkenOndernemen Met Sociale Netwerken
Ondernemen Met Sociale NetwerkenMarketingfacts
 
E book ondernemen-met-sociale-netwerken
E book ondernemen-met-sociale-netwerkenE book ondernemen-met-sociale-netwerken
E book ondernemen-met-sociale-netwerkenQuietroom Label
 
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022Arend Roos
 
Trendrapport Internetgebruik 2012
Trendrapport Internetgebruik 2012Trendrapport Internetgebruik 2012
Trendrapport Internetgebruik 2012Gewoon Groen
 
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...AndereTijden
 
Marktonderzoek Affiliate Marketing 21 Sept 2009
Marktonderzoek Affiliate Marketing 21 Sept 2009Marktonderzoek Affiliate Marketing 21 Sept 2009
Marktonderzoek Affiliate Marketing 21 Sept 2009Marketingfacts
 
Communicatie familiebedrijven
Communicatie familiebedrijvenCommunicatie familiebedrijven
Communicatie familiebedrijvenTessa Smits
 
Objectieve Risicoanalyse, van utopie naar realiteit
Objectieve Risicoanalyse, van utopie naar realiteitObjectieve Risicoanalyse, van utopie naar realiteit
Objectieve Risicoanalyse, van utopie naar realiteitKlaas Coevering
 
koersbesluit_om_het_kind_interactief_22-5-2013
koersbesluit_om_het_kind_interactief_22-5-2013koersbesluit_om_het_kind_interactief_22-5-2013
koersbesluit_om_het_kind_interactief_22-5-2013Marc van Gemert
 
Meerjarenbeleidsplan Participatie
Meerjarenbeleidsplan ParticipatieMeerjarenbeleidsplan Participatie
Meerjarenbeleidsplan Participatievmpfundt
 
business word
business wordbusiness word
business wordJeroen
 
Groenplan 2012 vlaardingen blijvend groen
Groenplan 2012 vlaardingen blijvend groenGroenplan 2012 vlaardingen blijvend groen
Groenplan 2012 vlaardingen blijvend groenCarlos Mota
 
XML en Organisatie: vijf tegenstellingen
XML en Organisatie: vijf tegenstellingenXML en Organisatie: vijf tegenstellingen
XML en Organisatie: vijf tegenstellingenPieter van der Hijden
 
Eindrapport evaluatie-wetbeschermingpersoonsgegevens
Eindrapport evaluatie-wetbeschermingpersoonsgegevensEindrapport evaluatie-wetbeschermingpersoonsgegevens
Eindrapport evaluatie-wetbeschermingpersoonsgegevensFrank Smilda
 
NHG Congres De Nieuwe Huisarts - programmaboekje
NHG Congres De Nieuwe Huisarts - programmaboekjeNHG Congres De Nieuwe Huisarts - programmaboekje
NHG Congres De Nieuwe Huisarts - programmaboekjeJaco van Duivenboden
 
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris Peeters
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris PeetersBeleidsnota Algemeen Regeringsbeleid 2009-2014, Kris Peeters
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris PeetersBart Gysens
 
Beleidsnota Bestuurszaken 2009-2014, Geert Bourgeois
Beleidsnota Bestuurszaken 2009-2014, Geert BourgeoisBeleidsnota Bestuurszaken 2009-2014, Geert Bourgeois
Beleidsnota Bestuurszaken 2009-2014, Geert BourgeoisBart Gysens
 

Mais procurados (19)

Ondernemen Met Sociale Netwerken
Ondernemen Met Sociale NetwerkenOndernemen Met Sociale Netwerken
Ondernemen Met Sociale Netwerken
 
E book ondernemen-met-sociale-netwerken
E book ondernemen-met-sociale-netwerkenE book ondernemen-met-sociale-netwerken
E book ondernemen-met-sociale-netwerken
 
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022
Regioplan van zeeuws vlaanderen gezondleven nl 2012 2022
 
Trendrapport Internetgebruik 2012
Trendrapport Internetgebruik 2012Trendrapport Internetgebruik 2012
Trendrapport Internetgebruik 2012
 
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...
19112010 berenschot onderzoeksrapport_bestuurlijk_juridische_vormgeving_po-ko...
 
Marktonderzoek Affiliate Marketing 21 Sept 2009
Marktonderzoek Affiliate Marketing 21 Sept 2009Marktonderzoek Affiliate Marketing 21 Sept 2009
Marktonderzoek Affiliate Marketing 21 Sept 2009
 
Geld verdienen met Youtube
Geld verdienen met YoutubeGeld verdienen met Youtube
Geld verdienen met Youtube
 
Communicatie familiebedrijven
Communicatie familiebedrijvenCommunicatie familiebedrijven
Communicatie familiebedrijven
 
Objectieve Risicoanalyse, van utopie naar realiteit
Objectieve Risicoanalyse, van utopie naar realiteitObjectieve Risicoanalyse, van utopie naar realiteit
Objectieve Risicoanalyse, van utopie naar realiteit
 
koersbesluit_om_het_kind_interactief_22-5-2013
koersbesluit_om_het_kind_interactief_22-5-2013koersbesluit_om_het_kind_interactief_22-5-2013
koersbesluit_om_het_kind_interactief_22-5-2013
 
Meerjarenbeleidsplan Participatie
Meerjarenbeleidsplan ParticipatieMeerjarenbeleidsplan Participatie
Meerjarenbeleidsplan Participatie
 
business word
business wordbusiness word
business word
 
Groenplan 2012 vlaardingen blijvend groen
Groenplan 2012 vlaardingen blijvend groenGroenplan 2012 vlaardingen blijvend groen
Groenplan 2012 vlaardingen blijvend groen
 
XML en Organisatie: vijf tegenstellingen
XML en Organisatie: vijf tegenstellingenXML en Organisatie: vijf tegenstellingen
XML en Organisatie: vijf tegenstellingen
 
Eindrapport evaluatie-wetbeschermingpersoonsgegevens
Eindrapport evaluatie-wetbeschermingpersoonsgegevensEindrapport evaluatie-wetbeschermingpersoonsgegevens
Eindrapport evaluatie-wetbeschermingpersoonsgegevens
 
Iab handboekonlinevideo
Iab handboekonlinevideoIab handboekonlinevideo
Iab handboekonlinevideo
 
NHG Congres De Nieuwe Huisarts - programmaboekje
NHG Congres De Nieuwe Huisarts - programmaboekjeNHG Congres De Nieuwe Huisarts - programmaboekje
NHG Congres De Nieuwe Huisarts - programmaboekje
 
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris Peeters
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris PeetersBeleidsnota Algemeen Regeringsbeleid 2009-2014, Kris Peeters
Beleidsnota Algemeen Regeringsbeleid 2009-2014, Kris Peeters
 
Beleidsnota Bestuurszaken 2009-2014, Geert Bourgeois
Beleidsnota Bestuurszaken 2009-2014, Geert BourgeoisBeleidsnota Bestuurszaken 2009-2014, Geert Bourgeois
Beleidsnota Bestuurszaken 2009-2014, Geert Bourgeois
 

Semelhante a Thesis Big Data

Big data in Brussel vandaag. En morgen ?
Big data in Brussel vandaag. En morgen ? Big data in Brussel vandaag. En morgen ?
Big data in Brussel vandaag. En morgen ? Christina Galouzis
 
Cyberrisico's - de actuele stand van zaken
Cyberrisico's - de actuele stand van zakenCyberrisico's - de actuele stand van zaken
Cyberrisico's - de actuele stand van zakenAon Nederland
 
Doorbraakproject Onderwijs & ICT
Doorbraakproject Onderwijs & ICTDoorbraakproject Onderwijs & ICT
Doorbraakproject Onderwijs & ICTHenk Orsel
 
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...Mercator Hogeschool Gent
 
Fex 190912 - presentatie - kansen en mogelijkheden met data science door jo...
Fex   190912 - presentatie - kansen en mogelijkheden met data science door jo...Fex   190912 - presentatie - kansen en mogelijkheden met data science door jo...
Fex 190912 - presentatie - kansen en mogelijkheden met data science door jo...Flevum
 
Handreiking bij gegevenskwaliteit in de omgevingswet
Handreiking bij gegevenskwaliteit in de omgevingswetHandreiking bij gegevenskwaliteit in de omgevingswet
Handreiking bij gegevenskwaliteit in de omgevingswetDanny Greefhorst
 
Aanvragen en instellen van een Microsoft BPOS Trial Account
Aanvragen en instellen van een Microsoft  BPOS Trial  AccountAanvragen en instellen van een Microsoft  BPOS Trial  Account
Aanvragen en instellen van een Microsoft BPOS Trial AccountPeter de Haas
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011RTM
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011MIT Institute
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Step 991
 
De impact van Social Media Monitoring tools op strategische beslissingen binn...
De impact van Social Media Monitoring tools op strategische beslissingen binn...De impact van Social Media Monitoring tools op strategische beslissingen binn...
De impact van Social Media Monitoring tools op strategische beslissingen binn...Charlotte Van Schepdael
 
afstuderenBPMIT Gerben de Wolf
afstuderenBPMIT Gerben de WolfafstuderenBPMIT Gerben de Wolf
afstuderenBPMIT Gerben de WolfGerben de Wolf
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankLisette van Beusekom
 
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?Kamer van Koophandel
 
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...Niels Timmermans
 
Data Minimization
Data MinimizationData Minimization
Data MinimizationDenodo
 
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...GRAFOC | Printmedia Opleidingscentrum
 

Semelhante a Thesis Big Data (20)

Big data in Brussel vandaag. En morgen ?
Big data in Brussel vandaag. En morgen ? Big data in Brussel vandaag. En morgen ?
Big data in Brussel vandaag. En morgen ?
 
Cyberrisico's - de actuele stand van zaken
Cyberrisico's - de actuele stand van zakenCyberrisico's - de actuele stand van zaken
Cyberrisico's - de actuele stand van zaken
 
Doorbraakproject Onderwijs & ICT
Doorbraakproject Onderwijs & ICTDoorbraakproject Onderwijs & ICT
Doorbraakproject Onderwijs & ICT
 
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...
Social media de_kritische_succesfactoren_voor_succesvolle_social_media_campag...
 
Geld verdienen met linkedin
Geld verdienen met linkedinGeld verdienen met linkedin
Geld verdienen met linkedin
 
Geïntegreerde proef
Geïntegreerde proefGeïntegreerde proef
Geïntegreerde proef
 
Fex 190912 - presentatie - kansen en mogelijkheden met data science door jo...
Fex   190912 - presentatie - kansen en mogelijkheden met data science door jo...Fex   190912 - presentatie - kansen en mogelijkheden met data science door jo...
Fex 190912 - presentatie - kansen en mogelijkheden met data science door jo...
 
Handreiking bij gegevenskwaliteit in de omgevingswet
Handreiking bij gegevenskwaliteit in de omgevingswetHandreiking bij gegevenskwaliteit in de omgevingswet
Handreiking bij gegevenskwaliteit in de omgevingswet
 
Aanvragen en instellen van een Microsoft BPOS Trial Account
Aanvragen en instellen van een Microsoft  BPOS Trial  AccountAanvragen en instellen van een Microsoft  BPOS Trial  Account
Aanvragen en instellen van een Microsoft BPOS Trial Account
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011
 
Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011Global ICT Gids_Suriname_2011
Global ICT Gids_Suriname_2011
 
De impact van Social Media Monitoring tools op strategische beslissingen binn...
De impact van Social Media Monitoring tools op strategische beslissingen binn...De impact van Social Media Monitoring tools op strategische beslissingen binn...
De impact van Social Media Monitoring tools op strategische beslissingen binn...
 
Go Smart Industry
Go Smart Industry Go Smart Industry
Go Smart Industry
 
afstuderenBPMIT Gerben de Wolf
afstuderenBPMIT Gerben de WolfafstuderenBPMIT Gerben de Wolf
afstuderenBPMIT Gerben de Wolf
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
 
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?
Hoe maakt u uw bedrijf futureproof? En hoe doen anderen dat succesvol?
 
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...
Ontwikkelen van een nieuwe site voor de standaard & onderzoek naar het opzett...
 
Data Minimization
Data MinimizationData Minimization
Data Minimization
 
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...
2020 start vandaag! #GRAFOC-studie naar de nieuwe competenties voor de printm...
 

Thesis Big Data

  • 1. Academiejaar 2012-2013 2e examenperiode - juni ”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST Eindwerk voorgedragen door < Natan Meekers > < Professionele bachelor > Technologie & Design BIG DATA Interne promotor: < Dhr. Chris Vandermeiren > Externe promotor: < Dhr. Geert Van Landeghem > tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan | Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |
  • 2.
  • 3. Academiejaar 2012-2013 2e examenperiode - juni ”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST Eindwerk voorgedragen door < Natan Meekers > < Professionele bachelor > Technologie & Design BIG DATA Interne promotor: < Dhr. Chris Vandermeiren > Externe promotor: < Dhr. Geert Van Landeghem > tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan | Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |
  • 4. "Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal bevat dat ooit in eender welke instelling is gebruikt om een diploma, van welke aard ook, te behalen of dat eerder werd gepubliceerd of geschreven door een ander persoon, behalve daar waar deze scriptie referenties bevat naar andere werken.”
  • 5. Inhoudsopgave 1 Dankwoord ....................................................................................................................................... 1 2 Voorwoord ....................................................................................................................................... 2 3 Abstract ............................................................................................................................................ 3 4 Inleiding ............................................................................................................................................ 4 5 Definitie ............................................................................................................................................ 6 6 Situering Big Data ............................................................................................................................. 7 6.1 Big Data & Performance Management .................................................................................... 7 6.2 Big Data & Business Intelligence .............................................................................................. 8 6.2.1 6.2.2 Big Data ............................................................................................................................ 9 6.2.3 Situering ......................................................................................................................... 10 6.2.4 7 Business Intelligence ........................................................................................................ 8 Big Data Raffinaderij....................................................................................................... 11 Innovatie, uitdagingen & opportuniteiten ..................................................................................... 13 7.1 Innovatie................................................................................................................................. 13 7.1.1 Hadoop stack .................................................................................................................. 14 7.1.2 Cloudera vs. Hortonworks Data Platform (HDP) ............................................................ 18 7.1.3 SAS Visual Analytics ........................................................................................................ 19 7.2 Uitdagingen ............................................................................................................................ 22 7.2.1 Data silo’s samenbrengen .............................................................................................. 22 7.2.2 Data complexiteit ........................................................................................................... 22 7.2.3 Nieuwe skills ................................................................................................................... 22 7.2.4 Privacy ............................................................................................................................ 22 7.3 Opportuniteiten ..................................................................................................................... 23 7.3.1 Data-gedreven organisatie ............................................................................................. 23 7.3.2 Uitgebreidere analytische mogelijkheden ..................................................................... 23 7.3.3 Interactie met klanten .................................................................................................... 23 7.3.4 Detecteren van fraude ................................................................................................... 23 7.3.5 Andere ............................................................................................................................ 23
  • 6. 8 Aanpak............................................................................................................................................ 24 8.1 Onderzoek naar Big Data ....................................................................................................... 24 8.1.1 Events ............................................................................................................................. 24 8.1.2 Webinars ........................................................................................................................ 24 8.1.3 Sociale Media ................................................................................................................. 25 8.1.4 Virtuele Machine ............................................................................................................ 26 8.2 Formuleer opportuniteiten .................................................................................................... 26 8.3 Ontwikkel Use Cases .............................................................................................................. 27 8.4 Identificeer huidige- en toekomstige capaciteiten ................................................................ 27 8.5 Zet een testomgeving op........................................................................................................ 27 8.6 Evalueer .................................................................................................................................. 27 9 Use Cases........................................................................................................................................ 28 9.1 Misdaad Preventie Memphis ................................................................................................. 28 9.2 Presidentsverkiezing US ......................................................................................................... 29 9.3 Detectie frauduleuze transacties ........................................................................................... 31 9.4 Vestas windturbines ............................................................................................................... 32 10 Case – FOD Justitie ..................................................................................................................... 33 11 Case – Adswizz............................................................................................................................ 34 12 Conclusie .................................................................................................................................... 35 12.1 Algemeen ............................................................................................................................... 35 12.2 Persoonlijk .............................................................................................................................. 36 13 Verklarende woordenlijst ........................................................................................................... 37 14 Bijlage ......................................................................................................................................... 39 14.1 Big data poster ....................................................................................................................... 39 14.2 Adswizz- streaming ad injection............................................................................................. 40 15 Bibliografie ................................................................................................................................. 41 16 Auteur......................................................................................................................................... 45
  • 7. 1 DANKWOORD Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en project. In de eerste plaats wil ik mijn ouders bedanken voor de mogelijkheden en ondersteuning die zij mij hebben gegeven. Hun enthousiasme en geloof in mij hebben mij sterk gemotiveerd. Ik wil mijn interne promotor, Dhr. Chris Vandermeiren, bedanken voor zijn wijze raad, opvolging en begeleiding doorheen het hele traject. Zijn geloof in mij heeft mij extra aangespoord om mijn best te doen. Ook wil ik me richten tot Mevr. Ilse Bracke en Dhr. Hans Tubbax voor hun enthousiasme en aanmoedigingen om bij mijn eerste voorstel te blijven toen ik aan het twijfelen was. Bijzondere dank gaat uit naar mijn externe promotor, Dhr. Geert Van Landeghem van DataCrunchers. Toen ik hem contacteerde om te vragen of ik op hem mocht ‘terugvallen’ wanneer ik vast zat, had ik nooit de begeleiding, tijdsinvestering en het materiaal verwacht, waarin hij heeft voorzien. De keren dat ik op kantoor van hem en medewerkers opleiding heb gekregen, hebben enorm bijgedragen om vertrouwd te geraken in het Big Data verhaal. Toen ik hem om raad vroeg in verband met het project bij Justitie dat zéér traag vooruit ging, heeft hij mij op zeer korte termijn aan een nieuw en interessant project geholpen. De organisatoren en leden van de Meetup groep ‘BigData.be’ wil ik ook graag bedanken voor de verschillende Big Data Meetups. Elke keer opnieuw waren het leerrijke presentaties en interessante gesprekken waaruit ik veel heb bijgeleerd. Speciaal dank gaat uit naar Daan Gerits voor het delen van opinies en gedachten, als antwoord op mijn vragen in de LinkedIn groep. Graag vernoem ik ook Dries Van Nieuwenhuyse die spontaan heeft aangeboden mijn eindwerk na te lezen. Zijn feedback en raad hebben mij geholpen inhoudelijke en structurele verbeteringen aan te brengen. Ook alle andere mensen, die ik niet bij naam heb genoemd maar toch hebben bijgedragen, wil ik bedanken voor die dingen die mij geholpen hebben mijn bachelorproef tot een goed einde te brengen. Natan Meekers Thomas More 1
  • 8. 2 VOORWOORD Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het vak ‘Methoden voor onderzoek en rapportering’ een thesis voorstel uitwerken. Aangezien ik voor de afstudeerrichting ‘Performance Management’ gekozen heb, en mij wil specialiseren in Business Intelligence, ben ik op zoek gegaan naar een interessant en relevant onderwerp in diezelfde richting. Op het jaarlijkse Business Intelligence congres, dat georganiseerd wordt door het BICC van de hogeschool, heb ik met een heel aantal bedrijfsmensen gesproken over verschillende mogelijke onderwerpen. Dit soort events zijn een uitstekende opportuniteit om contacten te leggen en raad te vragen aan professionals en bedrijven. Zij hebben immers ervaring en kennen de markt. Zo ben ik in gesprek geraakt met Dhr. F. Verscheure die als Lifecycle Management Consultant werkt bij SAS Belgium & Luxemburg. Hij bracht mij op het idee om een eindwerk te maken rond Hadoop. Na wat opzoekwerk werd mij al snel duidelijk dat de term Big Data en Hadoop nauw samen gaan. Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan uit commodity 1 hardware. Zo kunnen bedrijven complexe vragen stellen en nieuwe inzichten bekomen in zeer korte tijd op basis van alle beschikbare data. Ik was meteen overtuigd om over Big Data een eindwerk te maken. Met de populariteit van Social, Mobile en Cloud, geloof ik dat Big Data een steeds grotere en belangrijkere rol zal gaan spelen. Tijdens een eerste gesprek met mijn mentor, Dhr. Chris Vandermeiren, werd het al snel duidelijk dat de technologie gewoon testen niet voldoende was. Om het eindwerk relevant en waardevol te maken, moest ik op zoek gaan naar een bedrijf dat met Big Data problematiek te maken heeft. Zo ben ik terechtgekomen bij het FOD Justitie. Zij zitten met een aantal problemen waarvoor Big Data een mooie oplossing kan bieden:    Er zijn héél veel vragen van de business die snel opgelost moeten worden. Het bouwen van datawarehouses duurt te lang. De data zit verspreid over verschillende data silo’s van de verschillende instanties. Hun situatie is voor mij een uitstekende kans om te kijken naar de mogelijkheden van Hadoop en andere open-source tools die de oplossing zullen bieden voor hun problemen. 1 Betaalbaar, normale hardware Natan Meekers Thomas More 2
  • 9. 3 ABSTRACT Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er duidelijk nood aan innovatieve technologieën en nieuwe methodologieën. Met dit eindwerk wil ik de focus leggen op volgende aspecten:    Wat is Big Data en hoe kaderen we dit binnen Performance Management en Business Intelligence? Welke innovaties, uitdagingen en opportuniteiten brengt het met zich mee? Hoe pak je een Big Data project concreet aan? Welke stappen moet je volgen? Welke skills zijn nodig? Om de relevantie van mijn eindwerk naar bedrijven toe te verhogen, zou ik de theorie toepassen op een business case bij FOD Justitie. De Federale Overheidsdienst Justitie (FOD Justitie) bestaat uit verschillende instanties en houdt zich bezig met de rechtsorde in alle stadia: wetgeving, preventie, handhaving … Hun cel ‘Data Management’ is sinds twee jaar bezig met Business Intelligence en Datawarehousing. Van hen wordt verwacht dat ze alle vragen die van de verschillende gerechtsinstellingen komen, zo snel mogelijk beantwoorden. Echter, het bouwen van een datawarehouse kost tijd en de vragen die van de verschillende instanties komen, stapelen zich snel op. Momenteel zijn er zoveel vragen die beantwoord moeten worden, dat de cel Data Management voor de komende 10 jaar? al werkt heeft. Daarbij komt dat het departement slechts 8? werknemers in dienst heeft en dat de vereiste data verspreid zit over verschillende data silo’s bij de verschillende instanties. Sinds twee jaar is Justitie ook bezig met een Business Intelligence project in samenwerking met LACO. Mede door de investering in dit BI project staat het hoger management niet te springen om nu een Big Data project te gaan financieren. Echter, door veelheid aan procedures en een trage en moeilijke communicatie, kan ik het slechts suggestief toepassen in de resterende tijdframe. Om mijn theoretische kennis toch toe te passen in de praktijk, ben ik via mijn externe begeleider terecht gekomen bij Adswizz op een interessant Big Data project. Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand. Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden. Ook willen ze extra data gaan verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante advertentie te injecteren in een bepaalde webstream. Momenteel gebruiken zij Amazon S3 en EMR en ontwikkelen ze scripts in Pig om hun data te manipuleren. Ik zal hen helpen bij het ontwikkelen van Pig scripts die data verzamelen, aggregeren en wegschrijven naar Hbase. Rapporten worden opgebouwd op basis hiervan. Natan Meekers Thomas More 3
  • 10. 4 INLEIDING Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de wereld van Business Intelligence en zal komende jaren op grote schaal worden opgenomen door bedrijven. (Gartner, 2013) "After a few years of experimentation and early adopter successes, 2013 will be the year of larger scale adoption of big data technologies." GARTNER, 2013 In onze huidige economie is de grootste waarde gebaseerd op kennis, en gegevens zijn van zéér groot strategisch belang. De data die nodig is om tot deze kennis te komen is afkomstig uit diverse bronnen en bestaat uit verschillende types zoals: data uit legacy systemen, online transactie gegevens, sensoren die klimaatgegevens verzamelen, gps-tracking signalen, berichten geplaatst op sociale media, log bestanden… Vandaag de dag creëren we ongeveer 900.000 Terabytes aan data per dag (IBM, 2012). Dat wil zeggen dat ongeveer 90% van de data over de hele wereld gegenereerd is in de laatste twee jaar. Figuur 1 - Big Data sources Natan Meekers Thomas More 4
  • 11. De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen: ‘Social’ ‘Mobile’ ‘Cloud’ De snelle opkomst van deze drie domeinen heeft heel wat veranderingen teweeg gebracht: sociale veranderingen gaan veel sneller dan vroeger (zie “Arabisch Lente”) en de informatiestroom is nu omgekeerd. Waar vroeger informatie afkomstig was van slechts een beperkt aantal kanalen, beschikt nu iedereen over de mogelijkheid om op alle mogelijke momenten en plaatsen informatie te delen. (Hunt, 2013) Deze grote hoeveelheid informatie die nu beschikbaar wordt, biedt veel mogelijkheden aan maar ook veel uitdagingen. Het wordt steeds moeilijker om relevante en nuttige informatie uit deze enorme massa te filteren. Veel organisaties hebben het al moeilijk om hun kritieke gegevens te beheren en te analyseren omdat deze verspreid zitten over de verschillende informatiesystemen en/of departementen, laat staan dat ze dan klaar zijn om, of beschikken over de mogelijkheden om relevante informatie te extraheren uit voorgaande genoemde domeinen. (Jernevad, 2012) Daarbij komt dat het “on-the-fly” analyseren (voor bv. Fraude-detectie bij transacties) en het betrekken van externe bronnen met ongestructureerde data, steeds essentiëler wordt voor bedrijven. Natan Meekers Thomas More 5
  • 12. 5 DEFINITIE Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te verklaren aangezien er zoveel verschillende standpunten zijn over wat er nu juist verstaan wordt onder Big Data. De term ‘Big Data’ is misschien misleidend omdat hij letterlijk betekent: grote volumes data. Echter in de praktijk wordt Big Data niet persé bepaald door grote volumes van data maar ook door andere factoren zoals: de snelheid waarmee de data binnenkomt, de variëteit aan data - gestructureerd of ongestructureerd - en de externe datasets die men wil betrekken bij analyses. Volgende definitie van Gartner, die Big Data als de 3 V’s omschrijft, is de meest algemeen aangenomen definitie: "Big data in general is defined as high Volume, Velocity and Variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." GARTNER, 2012 In deze definitie merken we direct verschillende aspecten die de term Big Data omschrijven:    Het data aspect: volume, variëteit en snelheid. Het technologische aspect: kosteneffectieve manier om de data op te slaan en te verwerken. Het analytische aspect: data anders bekijken voor verbeterde inzichten en besluitvorming. Ondanks deze definitie de meest algemeen aangenomen definitie is, zijn er nog steeds andere visies over wat Big Data nu juist betekent. Volgende omschrijving is naar mijn mening een mooie aanvulling op de definitie van Gartner: "Big Data is indeed Volume, Velocity and Variety. But these are again consequences of how you structure your data. In my opinion Big Data is also about the way you look at your data, which is enabled by a collection of technologies. The fact that you can restructure your data at any time and enrich it with any kind of additional data sources allows us to get information out which we never thought was possible" DAAN GERITS, 2013 Samengevat: ondanks de term laat uitschijnen dat het gaat over grote data volumes, omschrijft de term meer het geheel. Het omvat de steeds sneller groeiende en complexer wordende datasets, die ervoor gezorgd hebben dat er nieuwe technologieën ontwikkeld zijn. Die bieden op hun beurt nieuwe mogelijkheden aan om enorm grote datasets op te slaan en te herstructureren en om externe data te betrekken bij analyses om zo tot nieuwe inzichten en een verbeterde besluitvorming te komen. Natan Meekers Thomas More 6
  • 13. 6 6.1 Situering Big Data Big Data & Performance Management Performance Management is een overkoepelende term voor het geheel van processen, methoden, toepassingen en technologieën die een organisatie gebruikt om haar prestaties op te volgen, te beheren en te sturen (Nieuwenhuyse, 2011). Performance Management omvat vier ‘intelligence’ domeinen: het Strategische, Financiële, Analytische en Business domein. Big Data valt voornamelijk onder Business Intelligence maar kan ook voor een deel ook onder Analytical Intelligence gerekend worden. Business Intelligence GESTRUCTUREERDEONGESTRUCTUREERDE- ANALYSEREN GEHERSTRUCTUREERDE- SOCIALE MEDIA PERFORMANCE MANAGEMENT GPS & SENSOR SIGNALEN RAPPORTEREN DATA PDF, TEXT DOCUMENTEN EN FOTO'S VOORSPELLEN LOG FILES BIG DATA Analytical Intelligence Figuur 2 - Situering Big Data binnen Performance Management Natan Meekers Thomas More 7
  • 14. 6.2 BIG DATA & BUSINESS INTELLIGENCE Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om deze rijke bron aan informatie te benutten. Big Data biedt enorme verbeteringen en nieuwe mogelijkheden aan t.o.v. de klassieke Business Intelligence tools; het kan zelfs sommige van deze tools vervangen. Hierdoor is het niet meer voor iedereen duidelijk hoe we BD en BI nu juist moeten bekijken ten opzichte van elkaar. In dit hoofdstuk wil ik een beeld scheppen hoe we ze juist moeten bekijken en waar we BD kunnen situeren in het huidige BI landschap. 6.2.1 BUSINESS INTELLIGENCE Business Intelligence is een overkoepelende term voor de methodes, technologieën en tools die data verzamelen, opslaan, analyseren en rapporteren om bedrijven tot een verbeterde besluitvorming te laten komen. Een definitie voor Business Intelligence door Gartner: “Business intelligence (BI) is an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance” GARTNER, 2012 De missie van BI is dus om te antwoorden op Business vragen en te kijken naar de prestaties in het verleden. Om die missie zo goed mogelijk te vervullen, zien we dat er een aantal elementen zijn waar meer aandacht aan besteed moet worden: 1. SNELHEID: Vertraging proberen te vermijden wanneer het gaat om het bedienen van klanten, reageren op veranderingen in de markt en het optimaliseren van processen. 2. ‘AGILITY’: Het coördineren en beheren van processen en activiteiten doorheen de hele organisatie om beter te kunnen inspelen op bijgestuurde input. 3. INTELLIGENCE: Aanpassen naar een meer voorspellende en proactieve instelling door gebruik te maken van meerdere data bronnen en het continu bijsturen van processen en beslissingen. 4. EFFECTIVITEIT: De kosten beter beheren en de productiviteit verhogen om het succes van de business te ondersteunen. De scope van BI is gelimiteerd tot gestructureerde data. Alles wat in een datawarehouse terecht komt via ETL, kan gebruikt worden. Alle ongestructureerde data, die op dit moment tot 80% bedraagt, blijft onbruikbaar terwijl er toch heel veel informatie en patronen in verstopt zitten. De vernieuwingen die BD brengt, zijn dus hoognodig en essentieel voor bedrijven want BD helpt bedrijven om ruwe databronnen te transformeren tot een bruikbaar formaat. Pas dan kan deze data gebruikt worden in analyses om zo tot nieuwe inzichten te komen. Natan Meekers Thomas More 8
  • 15. Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige oplossingen, nieuwe en andere methodes moesten komen om ondersteuning te bieden bij de nieuwe problemen waar wordt tegenaan gelopen. Nu alles veel groter kan en iedereen veel groter wil, moet je als bedrijf opletten dat je niet ‘verdrinkt’ in de hoeveelheid data die je gaat verzamelen en opslaan. Ook daar zullen deze nieuwe technologieën bedrijven in ondersteunen. Onderstaande tabel schept een duidelijk beeld hoe de focus in BI zich verplaatst om te kunnen blijven voldoen aan de eisen van de business en om te kunnen inspelen op de snel veranderende markt. BI IN HET VERLEDEN EN HEDEN BI IN HET HEDEN EN DE TOEKOMST Klein, gebruikersgroepen per departement die afhankelijk zijn van IT Implementaties overheen het hele bedrijf met ‘selfservice’ functionaliteiten ETL processen voorzien extracten van specifiek opgevraagde data; deze transformeren voor specifiek gebruik. ELT en andere ETL alternatieven, toegang tot Big Data - ruwe data- en meer gedetailleerde data afkomstig van verschillende bronnen Focus op gestructureerde data voor rapporten en ad hoc query analyses. Nood aan een uitgebreider scala van zoek, query en andere tools; rijke meta data voor semigestructureerde data Alleen historische views op de data Views en analyses op de data voor zowel het verleden, heden als de toekomst 6.2.2 BIG DATA Zoals al in het vorige hoofdstuk aangehaald, is de meest algemeen aangenomen en complete definitie van Big Data: "Big data in general is defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." GARTNER, 2012 Als we definities vergelijken, wordt het al snel duidelijk dat BD geen vervanger is en dit ook nooit kan zijn, noch worden voor BI. BI is een overkoepelende term die ruim omschrijft hoe bedrijven informatie uit hun data kunnen halen en BD in zijn geheel, zal daar altijd toe behoren. Natan Meekers Thomas More 9
  • 16. 6.2.3 SITUERING Het BI landschap op de dag van vandaag: Figuur 3 - BI landschap (door Convergent-Consulting) Als we het huidige BI landschap bekijken, merken we al snel op dat Big Data een stap verder gaat dan de klassieke BI:     Verder dan relationeel: de stroom van semi- en ongestructureerde data (sensor, M2M, …) creëren de vraag naar niet-relationele, gedistribueerde databases. Verder dan structuur: de huidige BI metadata structuur kan niet om met de complexiteit van de data. Verder dan het Datawarehouse: nood aan een nieuwe manier om data op te slaan en te verwerken (HDFS, HBase, MapReduce) Verder dan historiek: het implementeren van modellen om uitzonderingen of patronen te ontdekken als ze voorkomen i.p.v. steeds te werken op historische data. Voorlopig zal BD de klassieke BI architectuur en tools ondersteunen en aanvullen (Big Data raffinaderij), maar naarmate deze systemen en methoden meer vertrouwd geraken en real-time analyses en rapporteringen nog essentiëler worden, zullen ze in steeds meer bedrijven aan aantal van de klassieke BI-tools vervangen. Natan Meekers Thomas More 10
  • 17. 6.2.4 BIG DATA RAFFINADERIJ Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een soort data raffinaderij bouwen die ondersteuning biedt voor de klassieke BI architectuur en de toepassingen die al up-and-running zijn. Figuur 4 – Big Data ondersteunt Business Intelligence (door Hortonworks) Op bovenstaande figuur zien we hoe een BD raffinaderij kan instaan om data uit verschillende bronnen te verzamelen en te verwerken zodat die mee gebruikt kan worden in de huidige BI architectuur bij bedrijven. Of dat nu gestructureerde data is - zoals database records -, of ongestructureerde data - zoals documenten -, of zelfs semigestructureerd data - zoals log data in een tekstbestand -, maakt voor Hadoop niet uit. Hadoop is in staat om al deze types data gelijktijdig te verwerken en te analyseren. Dat is ook de voornaamste functie van een Hadoop gebaseerde data raffinaderij. Natan Meekers Thomas More 11
  • 18. 6.2.4.1 OPHALEN EN LADEN Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop ingeladen. Hadoop speelt hierin een belangrijke rol omdat het data, afkomstig uit verschillende bronnen en van verschillende types, kan omzetten tot een formaat dat waardevol is voor de business. 6.2.4.2 OPSLAG Het Hadoop Distributed File System (HDFS) verdeelt de data in blokken (vb. 128MB) en verspreidt deze over de verschillende nodes van een cluster2. Elke blok data wordt minimaal 3 keer opgeslagen wat het mogelijk maakt om een data blok in parallel te verwerken. Op die manier is het systeem ook foutentolerant. Wanneer er een machine defect geraakt, kan een andere machine, die dezelfde data blok bevat, de taak overnemen. 6.2.4.3 PROCESSING De verwerking van die data gebeurt door MapReduce, een framework dat het mogelijk maakt om enorme datasets in parallel te verwerken door taken op te delen (Map), die te laten verwerken door de nodes, en achteraf de resultaten weer samen te voegen (Reduce). Doordat elke blok data verschillende keren is opgeslagen, voorziet het HDFS in een high-availability omgeving, die kan opgebouwd worden uit commodity hardware. Om gestructureerde datasets op te slaan, wordt er vaak gebruik gemaakt van HBase of Cassandra (NoSQL databanken). 2 Verzameling van servers bestaande uit commodity hardware Natan Meekers Thomas More 12
  • 19. 7 7.1 INNOVATIE, UITDAGINGEN & OPPORTUNITEITEN INNOVATIE Wanneer je als bedrijf denkt over het implementeren van een BD oplossing, zijn er enkele vragen die je jezelf moet stellen als je een bepaald systeem overweegt. 1. 2. 3. 4. Kan dit systeem om met grote hoeveelheden data en is het schaalbaar? Kan dit systeem om met zowel gestructureerde als semi- en ongestructureerde data? Kan dit systeem om met data die aan hoge snelheid binnenkomt? Kan dit systeem om met complexiteit? (data centers in verschillende locaties) De zoektocht naar een geschikt systeem is niet gemakkelijk. Elk bedrijf wil natuurlijk een mix van volgende drie factoren om met hun nieuwe BD systeem zo dicht mogelijk bij het BD ‘Bulls-Eye’ te komen. Schaalbaarheid en performantie Kosteneffectiviteit BD ‘Bulls-Eye’ Operationeel gemak Figuur 5 - Big Data Bulls-Eye Omdat de snelheid, waarmee de data moet omgezet worden naar informatie, steeds essentiëler wordt, moeten IT en business-users beter gaan samenwerken. Dat is een insteek die je terugvindt bij vele leveranciers. De manier waarop hun oplossing gebouwd is, is gefocust op een verbeterde samenwerking tussen business & IT en een goede balans tussen agility en controle. Natan Meekers Thomas More 13
  • 20. 7.1.1 HADOOP STACK De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de belangrijkste en meest gebruikte en die zal ik dan ook iets uitgebreider bespreken. Enkele van de voornaamste voordelen die het Hadoop ecosysteem ons biedt zijn de volgende:  Schaalbaarheid  Performantie: hoe groter het volume van de data die verwerkt moet worden, hoe duidelijker het wordt dat de manier waarop Hadoop werkt, veel performanter is dan bvb. een appliance .  Kosteneffectief: door de manier waarop Hadoop werkt, volstaat het om met commodity hardware te werken en besparen we op die manier ook op energie omdat deze hardware minder energie verbruikt.  Fouten-tolerant: alle data blokken zijn meerdere keren verspreid over verschillende machines en zodra er een machine wegvalt, zal Hadoop een nieuwe kopie aanmaken op een andere.  Pushen van algoritmes naar de data in plaats van de data naar het algoritme te brengen  Gedistribueerde verwerking Project R (Statistics) Mahout (Machine learning) Figuur 6 - Hadoop ecosysteem Natan Meekers Thomas More 14
  • 21. 7.1.1.1 HADOOP CORE Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan uit commodity3 hardware. Het is zo ontworpen dat je clusters kan schalen tot duizenden machines, die elk voorzien in opslag en verwerking. De Hadoop core bestaat uit twee componenten: Hadoop Distributed File System (HDFS) en MapReduce. Deze twee zijn zo ontworpen dat ze perfect op elkaar afgestemd zijn en samen worden uitgerold. Dat is het meest significante punt van Hadoop want zo beschik je over de mogelijkheid om algoritmes naar de data te pushen in plaats van de data naar het algoritme te brengen. Figuur 7 – Werking van Hadoop Op bovenstaande afbeelding zien we hoe data verspreid wordt over verschillende nodes van een cluster en hoe MapReduce jobs verdeelt en de resultaten weer samenvoegt om tot het eindresultaat te komen. Het is belangrijk om te weten hoe Hadoop werkt wanneer je begint na te denken over hardware vereisten. MapReduce gebruikt in een ideale situatie slechts één ‘Map’ voor één disk omdat het geoptimaliseerd is voor sequentieel lezen van disks. Dat is ook de reden waarom virtuele omgevingen worden afgeraden: wanneer je in een virtuele omgeving werkt, is het moeilijk om te verzekeren dat elk proces maar één disk gebruikt. 3 Betaalbaar, normale hardware. Natan Meekers Thomas More 15
  • 22. De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB ram. Wanneer je HBase of Cassandra gebruikt, kan het zijn dat je meer geheugen nodig hebt. Voor het OS kan je best een aparte disk voorzien. Wanneer je in het geval van deze setup kiest voor servers met 2 CPU’s, kan je best ook twee keer zoveel disks voorzien. Meer dan twee CPU’s per node is niet aangeraden omdat de meerprijs voor zulke machines niet gelijk opgaat met de extra performantie. Voorbeeld van de kleinst mogelijke cluster opstelling: master 2* 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - workload 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 Figuur 8 - Basic cluster setup 7.1.1.2 HBASE HBase is een gedistribueerde, kolom-georiënteerde database die behoort tot de NoSQL databases. NoSQL staat voor ‘Not Only SQL’ waarmee men wil duiden op het feit dat er ook NoSQL systemen zijn die de gebruiker toelaten om SQL query’s in te voeren. Grote voordelen zijn dat ze horizontaal schaalbaar zijn en dat ze performanter zijn voor bepaalde data modellen. Het wordt dus gebruikt wanneer je zeer grote tabellen moet opslaan die bestaan uit miljarden rijen en miljoenen kolommen. HBase maakt het mogelijk om data random in real-time te lezen en te schrijven. De reden dat je tabellen kan aanmaken met miljoenen kolommen en miljarden rijen is dat alle lege cellen geen plaats in nemen (sparse-lead). Ook kan je ten allen tijde, zonder al te veel moeite, extra kolommen gaan invoegen. Hbase heeft ook een hoge through-put. Je kan tot 20000 records per second schrijven. Natan Meekers Thomas More 16
  • 23. 7.1.1.3 ZOOKEEPER ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving, distributie synchronisatie, en nog andere groep services. Alle services die ZooKeeper aanbiedt, worden gebruikt door één of andere gedistribueerde applicatie. 7.1.1.4 PIG Pig is een platform voor het manipuleren van grote data sets. Het bestaat uit een ‘high-level’ taal waarin je programma’s kan schrijven om data te analyseren. Het grote voordeel van Pig is dat de structuur van de programma’s vatbaar is om parallel uit te voeren. Dat maakt het mogelijk dat we met Pig programma’s zeer grote data sets kunnen manipuleren. Een ander groot voordeel is dat je Pig programma’s lokaal kan schrijven en testen op een extract van de data. Zo kun je programma’s in iteratieve stappen opbouwen om ze zo optimaal mogelijk te maken om achteraf uit te voeren op een grote data set. Ook kunnen gebruikers hun eigen functies schrijven en die toevoegen aan de Pig library, waarna je die functies gewoon kan opvragen in al je andere programma’s. 7.1.1.5 HIVE Hive is een Data warehouse systeem dat ontwikkeld is op Hadoop en voorziet in een mechanisme dat structuur kan projecteren op data en die dan opvragen door middel van HiveQL, een taal die op SQL lijkt. Hive zorgt er dus voor dat je gemakkelijk data kan aggregeren, ad-hoc query’s kan uitvoeren en analyses op grote data sets. Natan Meekers Thomas More 17
  • 24. 7.1.2 CLOUDERA VS. HORTONWORKS DATA PLATFORM (HDP) Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest omwille van:    Hadoop experts Grote bijdrage aan de Hadoop open-source community Goede start Daar heeft Yahoo!, gesteund door Benchmark Capital, in het najaar van 2011 verandering in gebracht door een team Hadoop-ingenieurs af te splitsen en onder te brengen in een nieuw bedrijf: Hortonworks. Deze ingenieurs bleken dé grootste bijdrage geleverd te hebben aan Apache Hadoop en hebben zo één van de grootste, meest innovatieve Hadoop implementaties gebouwd. Hortonworks verklaart dat het HDP 100% open-source is en altijd gratis zal zijn! ... dit in tegenstelling tot Cloudera. Zo proberen ze, net als RedHat in de tijd van Linux, Cloudera’s eerste plaats in te nemen door 100% open-source te blijven. Bij Cloudera moet je betalen voor de Management Suite en die bevat belangrijke administratieve tools voor configuratie- en resource management. Figuur 9 - HDP integratie mogelijkheden Hortonworks heeft de krachten gebundeld met verschillende partners om de integratie met een zo breed mogelijk scala aan andere applicaties te verzekeren. Hortonworks zit dus niet stil. Onlangs hebben ze aangekondigd dat ze het HDP ook voor Windows Server beschikbaar hebben gemaakt en dat ze nu ook samenwerken met OpenStack4 om Hadoop daarop beschikbaar te maken. 4 OpenStack levert open source cloud software voor het bouwen van een private of publieke cloud. Natan Meekers Thomas More 18
  • 25. 7.1.3 SAS VISUAL ANALYTICS Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken. Daarom zal ik het hier kort bespreken. Voor mij is het de combinatie van onderstaande vijf factoren die VA tot een uniek platform maken: 1. 2. 3. 4. 5. Hadoop (HDFS) voor de data-opslag SAS LASR® voor speed-of-thought computing (in-memory) Visueel sterke data-exploratie modus en data-visualisatie interface Sterke voorspellende analytische mogelijkheden (forecasting) Mobile ondersteuning & ‘Selfservice’ BI Figuur 10 - SAS Visual Analytics word-cloud Natan Meekers Thomas More 19
  • 26. VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of Qlikview die aanbieden, zeer snelle in-memory analytics en natuurlijk het uitgebreide scala aan analytische- & forecasting-mogelijkheden, waarvoor SAS bekend staat. De nieuwe mogelijkheden die VA ons biedt, maken het bouwen van cubes en vooraf definiëren van dimensies overbodig. Het berekenen, aggregeren en analyseren van data gebeurt nu on-the-fly. Voorlopig gebruikt VA altijd een LASR server. Dit kan een enkele machine zijn of een gedistribueerde omgeving. In het tweede geval worden LASR servers en de analyses geparallelliseerd. Maar SAS voert nu ook onderzoek naar het draaien van Visual Analytics op andere technologieën zoals een Teradata of Greenplum appliance. Figuur 11 - SAS Visual Analytics gedistribueerde omgeving Met de massive parallel processing (MPP) voor geavanceerde analyses (mining, forcasting, …) in het geheugen, biedt SAS een alternatief aan voor MapReduce; dit gaat volgens hen een stuk verder dan datgene wat MapReduce aanbiedt. Natan Meekers Thomas More 20
  • 27. Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en laat zien hoe VA ook voldoet aan de eisen voor het steeds meer populair wordende selfservice BI gebeuren. Bedrijven verlangen naar Agile BI platformen waar business users zelf kunnen spelen met de data en waar IT het platform onderhoudt en beheert en de data prepareert. Figuur 12 - VA gebruikersgroepen en hun functionaliteiten Gecreëerde rapporten kunnen zowel op het web bekeken worden als op mobiele apparaten. Business users kunnen opmerkingen maken op rapporten, waarna geassocieerde personen (analyst/report designer) op de hoogte worden gebracht en kunnen interageren. Natan Meekers Thomas More 21
  • 28. 7.2 7.2.1 UITDAGINGEN DATA SILO’S SAMENBRENGEN Door alle data silo’s samen te voegen alsook de verschillende soorten analisten (marktonderzoekers en traditionele analisten), kunnen we nieuwe verbanden ontdekken tussen deze data en onopgeloste vraagstukken, beantwoorden. 7.2.2 DATA COMPLEXITEIT Dit is waarschijnlijk de meest voor de hand liggende uitdaging. Met alle data die nu beschikbaar is, moeten bedrijven gaan opletten dat ze niet verdrinken in de data die ze willen verzamelen en opslaan. Niet alleen de grote hoeveelheden data draagt bij aan de complexiteit, maar ook de variëteit: semi gestructureerde en ongestructureerde data. 7.2.3 NIEUWE SKILLS Uit een onderzoek van SAS in samenwerking met Bloomberg Businessweek Research Services blijkt dat vele organisaties moeilijkheden hebben bij het implementeren of gebruiken van analytics. Sinds de opkomst van Big Data is Business Analytics dan ook in populariteit en belang toegenomen. De nieuwe platformen laten ons immers beschikken over de mogelijkheid om verborgen patronen en verbanden te ontdekken. De vraag naar analytische skills is dus enorm toegenomen en dat zal het blijven doen. Zo zijn bedrijven ook op zoek naar nieuwe profielen zoals Data Scientists, die bedrijven moeten helpen om verbanden te zoeken in data. Door het tekort aan opgeleide personen met voldoende analtyische kennis, is het vinden van zulke profielen, of zelfs het opleiden ervan, voor een groot aantal bedrijven al een uitdaging. Niet alleen hebben bedrijven nood aan analytische skills, maar ook Hadoop gecertifieerde personen en Linux experts zijn nodig voor het opzetten en onderhouden van de onderliggende architectuur. 7.2.4 PRIVACY Rekening houden met privacy issues bij het verzamelen van persoonlijke data van klanten wanneer men op die manier beter en persoonlijker wil inspelen op hen. Dit is een topic dat weer wat gevoeliger ligt omdat er geen duidelijke grens is tot waar bedrijven mogen gaan in het op zoek gaan en verzamelen van gegevens over klanten. Natan Meekers Thomas More 22
  • 29. 7.3 7.3.1 OPPORTUNITEITEN DATA-GEDREVEN ORGANISATIE Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data de ‘new oil’ is van de 21 ste eeuw. Bedrijven moeten dus op zoek gaan naar alle mogelijke soorten bronnen om data uit te verzamelen en te betrekken bij analyses zodat toekomstige beslissingen gebaseerd kunnen worden op verkregen informatie en nieuw ontdekte patronen. 7.3.2 UITGEBREIDERE ANALYTISCHE MOGELIJKHEDEN Doordat de opslag van data goedkoper is en de verwerking van grote hoeveelheden geen enkel probleem meer vormt, kun je als bedrijf meer ‘advanced analytics’ gaan toepassen. Datamining en voorspellende analyses zoals forecasting kunnen ingezet worden om complexere problemen aan te pakken waarvan men vroeger dacht dat ze onmogelijk op te lossen waren. 7.3.3 INTERACTIE MET KLANTEN Het hele gegeven van Social-Mobile-Cloud genereert zoveel data, dat we nu over de mogelijkheid beschikken om klantenprofielen op te stellen en hen persoonlijk aan te spreken. Dit kan door consequent data bij te houden (van sociale media, mobile app gebruik .....) en die te gaan analyseren. Je verzamelt bijvoorbeeld gegevens van personen die je website bezoeken. Op basis daarvan kan je een gepersonaliseerde website laten zien. Concreet: een verschillende layout voor mannen en vrouwen of het tonen van andere producten op basis van leeftijdscategorieën. 7.3.4 DETECTEREN VAN FRAUDE Nu er meer data beschikbaar is en die data sneller verwerkt kan worden, kun je als bedrijf werken naar een real-time Big Data architectuur, die op basis van vooropgestelde regels nagaat of een transactie mogelijk frauduleus is terwijl die wordt uitgevoerd. Door de vernieuwingen die Big Data met zich meebrengt, kun je als bedrijf alle beschikbare data betrekken bij analyses in plaats van een extract van de laatste jaren. Blijf op zoek gaan naar nieuwe patronen die wijzen op mogelijk frauduleuze transacties. Verifieer de gefilterde transacties om na te gaan of er geen valse positieven in voorkomen want anders verlies je misschien klanten. Deze modellen worden opgebouwd door data scientists die op zoek gaan naar mogelijke verbanden tussen data. 7.3.5 ANDERE Er zijn nog zoveel andere opportuniteiten die Big Data ons kan bieden. Het is niet mogelijk om ze allemaal te definiëren omdat ze voor elke sector specifiek zijn. Elke dag worden er nieuwe opportuniteiten ontdekt. De kunst is creatief te zijn in het op zoek gaan naar manieren om Big Data te gebruiken en zo een concurrentieel voordeel op te bouwen. Natan Meekers Thomas More 23
  • 30. 8 AANPAK Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van vandaag weinig of geen aandacht aan besteed in het hoger onderwijs. In dit hoofdstuk stel ik een stappenplan op om bedrijven, die met Big Data willen beginnen, te helpen. 8.1 ONDERZOEK NAAR BIG DATA Big Data is nieuw en er zijn verschillende percepties van het begrip. Het gaat niet alleen om grote volumes van data. Door onderzoek te doen, leer je wat er allemaal verstaan wordt onder dit begrip. Tijdens de lessen van Performance Management pasten we de ‘flipped-class’ methode toe. Gedurende een aantal weken mochten we werken aan een paper over een nieuwe ontwikkeling binnen Performance Management. Zo heb ik mij in die periode kunnen verdiepen in Big Data door hienrnaar onderzoek te doen; deze paper heeft als basis gediend voor dit eindwerk. 8.1.1 EVENTS Events zijn een uitstekende plaats om contacten te leggen met mensen die gemeenschappelijke interesses hebben. Een goed netwerk is volgens mij dan ook essentieel voor een IT ’er; wanneer je kennis of informatie zoekt over een bepaald onderwerp, kan je altijd iemand uit je netwerk contacteren. LinkedIn, websites van consultancy bedrijven en nieuwsbrieven van vendors (IBM, MS, ..) zijn goede kanalen om op de hoogte te blijven van georganiseerde events. Als je een beetje sociaal vaardig en communicatief bent, en wat lef hebt, is het niet moeilijk om contacten te leggen met mensen om op die manier je netwerk uit te breiden. 8.1.2 WEBINARS Webinars zijn een relatief nieuw concept om informatie te delen. Deze worden voornamelijk georganiseerd door bedrijven die hun klanten en prospecten op een eenvoudige manier van informatie willen voorzien. Wanneer je ingeschreven bent voor een webinar, wordt je een link toegestuurd waarmee je kan inloggen op het moment dat de webinar plaatsvindt. Wanneer je inlogt, krijg je toegang tot audio en video. In sommige webinars kan je ook zelf interactief deelnemen aan de sessie, als je over een headset beschikt. Tijdens andere webinars kan je vragen stellen via een chat module; deze worden dan achteraf behandeld. Het interessante aan dit concept is dat je je niet hoeft te verplaatsen en dat je op een relatief korte tijd, meestal ongeveer één uur, veel informatie krijgt en over de mogelijkheid beschikt om vragen te stellen. Als er tijd tekort is om alle vragen te beantwoorden, worden de overige vragen vaak beantwoord via email. Natan Meekers Thomas More 24
  • 31. 8.1.3 SOCIALE MEDIA In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn, Twitter, en Meetup zijn erg populair voor professionele doeleinden. Figuur 13 - Sociale media om je netwerk uit te bouwen Via Twitter kan je je abonneren op kanalen van bedrijven en/of personen die jou interesseren. Als je je abonneert op een Twitter kanaal waar jouw interesse naar uitgaat, ontvang je telkens de nieuwste Tweets op je persoonlijk dashboard. Het abonneren op Twitter kanalen van ‘thought- en inspirational leaders’ heeft als voordeel dat je op de hoogte blijft van populaire topics en nieuwe, interessante ontwikkelingen. Op LinkedIn bouw je je eigen professionele netwerk van contacten en kan je je inschrijven op groepen. Deze groepen kunnen door iedereen opgericht worden en hebben als doel mensen met dezelfde interesse met elkaar in contact te brengen en meningen en ervaringen te kunnen delen. Door middel van polls en discussies worden ideeën tussen groepsleden uitgewisseld. Meetup, een minder bekend platform, is interessant om in contact te komen met mensen die dezelfde interesses hebben. Natan Meekers Thomas More 25
  • 32. 8.1.4 VIRTUELE MACHINE Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan afspelen op je eigen systeem om op die manier kennis te maken met Hadoop en services. De VM van Hortonworks bevat ook tutorials voor Pig en Hive om te leren hoe scripts worden opgebouwd en uitgevoerd. Figuur 14 - Hortonworks VM interface 8.2 FORMULEER OPPORTUNITEITEN Je kan vertrekken vanuit een analyse van je bedrijf en die problemen formuleren die tot nu toe te moeilijk of te duur waren om op te lossen. In samenwerking met analisten, data scientists, marketeers en andere business users kan je opportuniteiten of problemen identificeren die het best passen bij jouw bedrijf en die nog nooit zijn aangepakt. Uit die lijst van geformuleerde opportuniteiten neem je best degene waarvan je redelijk zeker bent dat je een acceptabele ROI zal krijgen. Natan Meekers Thomas More 26
  • 33. 8.3 ONTWIKKEL USE CASES Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te voeren. Schematiseer de datastromen om na te gaan welke technologieën nodig zijn om het geformuleerde probleem op te lossen. Ga na welke data verzameld en opgeslagen moeten worden en welke je beter weg laat. Ook al is opslag goedkoper geworden, het kost nog steeds geld en daarom is het nuttig om goed na te denken welke data tot nieuwe inzichten kunnen leiden en die op te slaan. Ga na welke analytische query’s er nodig zijn en welke algoritmes gebruikt zullen worden om de gewenste resultaten te verkrijgen. 8.4 IDENTIFICEER HUIDIGE- EN TOEKOMSTIGE CAPACITEITEN Als de use cases zijn opgesteld, is het goed om na te gaan welke extra data kwaliteitseisen gedefinieerd moeten worden voor het verzamelen, cleanen en aggregeren van data. Ook op gebied van hardware is het goed om na te gaan aan welke vereisten het systeem moet voldoen: schaalbaar, fouten tolerant, performant … Zoals eerder vermeld is het voor Hadoop clusters niet aangeraden om servers te kopen met meer dan 2 CPU’s omdat die direct een prijsklasse hoger zijn en dat loopt niet gelijk op met de extra performantie. In de meeste opstellingen wordt er gebruik gemaakt van één 2TB disk per CPU core, maar er zijn ook al clusters die draaien met 3TB schijven per core. Een node met 2 quad core processors heeft dus 8 disks om data op te slaan en 1 disk voor het OS. 8.5 ZET EEN TESTOMGEVING OP Nu ook de capaciteiten geïdentificeerd en geformuleerd zijn, kan je beginnen met het opzetten van een testomgeving of kiezen voor een cloud oplossing zoals Amazon. Zeker voor een POC is dat heel gemakkelijk en veel kosten efficiënter dan het opzetten van een eigen omgeving. Wanneer je een eigen architectuur opzet, is het slim om te kijken naar gelijkaardige bedrijven om te zien wat voor setup zij gebruiken. Verder zijn er verschillende blogs van Yahoo! Hadoop ingenieurs geven concrete tips geven over het opzetten van een cluster. Denk ook al na over hoe de data gevisualiseerd zal worden zodat die gemakkelijk te begrijpen is voor alle business users. 8.6 EVALUEER Interpreteer de resultaten en ga na of deze kunnen kloppen. Is de doorlooptijd om de vraag te beantwoorden korten dan voorheen? Of is het resultaat nauwkeuriger? Meet ook de ROI en ga na wat de ROI is op korte en lange termijn. Breidt het project uit met meer cases en ga na wat voor jou bedrijf de beste opportuniteiten zijn om uit te werken. Natan Meekers Thomas More 27
  • 34. 9 USE CASES 9.1 MISDAAD PREVENTIE MEMPHIS Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen zo hoog op dat er iets moest gebeuren. Enkele wetenschappers van de Universiteit van Memphis hebben het Memphis Police Department (MPD) benaderd met het voorstel om alle data, die tot nog toe in silo’s zat opgesloten, te ‘bevrijden’ en te combineren met real-time data om zo patronen te ontdekken. De wetenschappers zijn de data gaan analyseren met het statistische programma SPSS en is vervolgens omgedoopt tot Operatie Blue CRUSH doordat het door IMB is aangekocht. Dankzij de analyses heeft het politie departement meer inzicht gekregen in de plaats en tijd van de incidenten. Door deze inzichten kan MPD hun patrouilles nu effectiever en efficiënter inzetten. HISTORISCHE INPUT REAL-TIME INPUT OUTPUT Politierapporten Verkeerspatronen Real-time Soorten criminaliteit Jaargetijde Grootste kans misdaad Locatie misdaad Temperatuur Optimale inzet politiekrachten Tijdstip misdaad (pv) Regen Weersomstandigheden Evenementen (?) Verkeersinformatie Integratie met 911 Overige bijzonderheden GSM-locatie verdachten Soorten criminelen (strafbladen) Arrestatiebevelen Crime-scene Terugkerende patronen (loon-uitbetaaldag) Het resultaat van dit project kan niet ontkent worden:    30% minder zware criminaliteit 15% minder gewelddelicten Hogere veroordelingsgraad (16%  70%) door betere bewijslast (op heterdaad betrapt) Het Big Data systeem Blue CRUSH is een zelf lerend systeem dat beter wordt doordat er meer informatie beschikbaar komt en er meer feedback ingevoerd wordt. Deze oplossing kan nu ook zonder al te veel aanpassingen gebruikt worden door andere politiedepartementen die hier ook nood aan hebben. Natan Meekers Thomas More 28
  • 35. 9.2 PRESIDENTSVERKIEZING US Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. Volgens verschillende bronnen heeft Obama zijn overwinning te danken aan het gebruik van Big Data in zijn campagne. President Obama’s campagne was één van de meeste verfijnde en gesofistikeerde digitale operaties waarbij geen enkele veronderstelling als vanzelfsprekend werd aangenomen. Zijn campagne werd bedacht en geleid door data analisten die niets aan toeval overlieten. Ze moedigden supporters aan om hun persoonlijke gegevens te delen, opmerkingen, foto’s en video’s te posten en om te doneren. Dat was slechts het begin. Vanuit hun veelzijdige campagnestrategie positie zijn ze verder gegaan door webmasters deze data te laten gebruiken om bezoekers te leiden naar andere campagne-media zoals Obama’s Facebook-pagina en Youtube kanaal. Een ander voorbeeld toont ook aan dat data van steeds groter belang is bij politiek: Obama heeft een wedstrijd opgesteld om te dineren met Jessica Parker en heeft zich gericht naar een beperkte groep van personen die ook aangetrokken zijn door zijn de Republikeinen, celebraties en die houden van dineren. Deze specifieke groep bestaat en heeft veel geld waardoor er op deze manier ook extra inkomsten verkregen kunnen worden. Natan Meekers Thomas More 29
  • 36. Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken om nieuwe kiezers te vinden maar ook om te bepalen welke boodschappen de aandacht trekt van bepaalde personen en welke types van personen door deze boodschappen overtuigd geraken. Het is duidelijk dat de zeer dure advertenties op tv en radio er niet langer voor zorgen dat je de verkiezingen wint. Het zijn de nauwkeurig uitgezochte, kleinschalige en op maat gemaakte boodschappen voor een specifieke doelgroep of persoon die maken dat een gebruiker zich aangesproken voelt en mogelijk een stem wordt. Obama’s team is zelfs zo ver gegaan dat de campagne voerders die thuis langsgaan, verschillende boodschappen klaar hadden afhankelijk voor welk familielid de deur zou open doen. NATE SILVER Een ander opvallend verhaal is dat van Nate Silver. Hij is een statisticus die een gewaagde voorspelling heeft gemaakt over de uitslag van de verkiezingen in de US. Nate Silver deed ook een voorspelling over het aantal stemmen dat beide kandidaten zouden halen: 332 voor Obama en 206 voor Romney. Deze cijfers komen 100% overeen met de echte resultaten. Uit beide verhalen blijkt maar weer dat er heel veel data is die we op de juiste manier moeten gaan gebruiken om tot nieuwe inzichten en voorspellingen te komen en welke mogelijkheden we krijgen om doelen te bereiken die vroeger onmogelijk leken. Natan Meekers Thomas More 30
  • 37. 9.3 DETECTIE FRAUDULEUZE TRANSACTIES Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bronnen verwerken dan de gewone creditkaart bedrijven. PayPal moet uit de 90 miljoen browsers en mobiele apparaten die bijna constant connecteren naar de online betaal service, de mogelijke frauduleuze transacties identificeren. Door deze uitdaging hebben ze systemen ontworpen die frauduleuze activiteiten kunnen identificeren en die afhandelen voordat deze transacties begonnen zijn. Ook de andere grote spelers op de markt van online transacties hebben speciale geavanceerde analytische tools en servers gebouwd om patronen van frauduleuze activiteiten te ontdekken. PayPal heeft zo een ‘Fraude Management Filter’ ontworpen die zoekt naar betalingen en andere soorten transacties waarvan de bron verdacht is, de grootte van het bedrag of eender welke andere factor die een winkelier kan opgeven en maakt dat deze transacties goedgekeurd moeten worden. Maar er zijn meer factoren die kunnen helpen in het verfijnen van de bestaande modellen om fraude te voorkomen. Zo kunnen ook IP adressen, browser informatie en andere technische data dienen in het ontdekken van nieuwe patronen. Het gebruik van deze nieuwe technieken en tools zijn een enorme vooruitgang op de manieren die hiervoor gebruikt werden. Nu kunnen er continu, real-time analyses uitgevoerd worden op zéér grote datasets. Vroeger werden er samples gebruikt van de data die dan ’s nachts werd geanalyseerd voor het maken van fraude-detectie modellen. In deze snel veranderende wereld volstaan deze modellen simpel weg niet meer. Data die geregistreerd wordt door transacties via deze online betalings-platformen bieden veel meer mogelijkheden dan het detecteren van alleen fraude. Door het combineren van klantgegevens, transacties, zoekopdrachten, aankopen, likes & dislikes (sociale media), … kunnen bedrijven nieuwe geavanceerde marketing modellen opstellen en voorspellende analyses maken voor het verkopen van nieuwe producten en services. Natan Meekers Thomas More 31
  • 38. 9.4 VESTAS WINDTURBINES Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen dat het voor bleef op de concurrerende firma’s. Om dat te doen zijn ze Big Data analytische software van IBM gaan gebruiken: ‘BigInsight’ in samenwerking met een krachtige IBM supercomputer: ‘Firestorm’. Met deze nieuwe technologieën willen ze Petabytes aan gestructureerde en ongestructureerde data van weerrapporten, satteliet foto’s, geospatial en sensor data, ontbossingsmappen en weersvoorspellingsmodellen analyseren. Klanten willen weten hoeveel energie een windturbine zal opbrengen en wat hun Return On Investment (ROI) zal zijn vooraleer ze overgaan tot het aankopen en plaatsen van een windturbine. Met deze nieuwe technologieën kunnen ze de vragen van de klant zeer snel beantwoorden en hen helpen om hun doelen voor hernieuwbare energie te behalen. Als de turbines geplaatst zijn en operationeel zijn, zullen Vestas ingenieurs de nieuwe software gebruiken om de opbrengst van de turbine te simuleren, analyseren hoe elk blad van de schroef op weersomstandigheden reageert en bepalen wat het beste tijdstip is om de turbine stil te leggen voor onderhoud. Vestas is één van de bedrijven die weer aantoont hoe grote organisaties Big Data kunnen gebruiken om slimmere beslissingen te maken. Deze beslissingen hebben een sterke invloed op de groei van je bedrijf aangezien je de moeilijkste problemen kan aanpakken. De mogelijkheid om inzichten te krijgen in de grote hoeveelheden data die bedrijven ter beschikking hebben, heeft het potentieel om een bedrijf of industrie voor goed te veranderen. Natan Meekers Thomas More 32
  • 39. 10 CASE – FOD JUSTITIE Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen over de scope en vereisten van het project dat ik zou uitvoeren. Zij zouden voorzien in hardware en data, ik zou het systeem operationeel maken en een vraag van de business proberen te beantwoorden met het nieuwe systeem . Ondanks ik mijn praktisch gedeelte daar niet kon uitwerken, heb ik er veel uit geleerd. Wanneer een bedrijf te groot wordt, loopt het risico om zoveel procedures te creëren, dat sommige processen onnodig ingewikkeld worden. Zo heb ik twee weken moeten wachten vooraleer SAS Enterprise Guide als package op mijn pc beschikbaar was. Die aanvraag moest via de helpdesk geïnitieerd worden: een ticket aanmaken, wachten tot het ticket geaccepteerd is, wachten tot alle voorgaande tickets afgewerkt zijn en dan wachten tot je eigen ticket succesvol afgewerkt is. In tussentijd heb ik via e-mail en telefoon contact gezocht met IT om er zeker van te zijn dat het daarna niet nog eens zo lang zou duren om de servers klaar te maken. Ik merkte al snel dat er traag geantwoord werd op mijn mails en telefonisch kreeg ik geen contact meer. Dan ben ik op zoek gegaan naar een ander project. Ik heb mijn interne begeleider bij FOD Justitie op de hoogte gebracht van mijn beslissing en heb gezegd dat ik in juni nog een aantal dagen kom werken op de Visual Analytics server. Deze demo server heeft SAS voorzien en wordt nu door niemand gebruikt. Het opzetten van een Big Data architectuur ter ondersteuning van de klassieke BI zal verbetering brengen op volgende vlakken:       Eén centrale data ‘repository’ waar alle data van alle justitiehuizen in samenvloeit. Verrijken van interne data met externe data zoals verkeersinformatie en klimaatgegevens. Toepassen van datamining om verbanden te zoeken tussen data. Data modellen projecteren op data. Uitgebreidere mogelijkheden om tekst analyses en Natural Language Processing uit te voeren. Penitentie gegevens gaan analyseren die rechters kunnen helpen om gepaste sancties uit te delen. Natan Meekers Thomas More 33
  • 40. 11 CASE – ADSWIZZ Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider (DataCrunchers). Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand. Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden. Ook willen ze extra data verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante advertentie te injecteren in een bepaalde webstream. Momenteel gebruiken zij Scribe om hun data te verplaatsen naar Amazon S3 storage. Ontwikkelde Pig scripts worden gelanceerd op Amazon ’s Elastic MapReduce (EMR) om te testen hoe ze performen op de volledige data set in plaats van een lokaal extract. De data van één maand kopiëren van S3 naar EMR duurt ongeveer 4 minuten. In EMR wordt er dan een cluster online gebracht van 20 nodes. Het aantal nodes kan je zelf kiezen. De data wordt met de huidige Pig scripts in 4 uur verwerkt. Deze scripts moeten dus nog geoptimaliseerd worden want dit zou moeten lukken in 1 à 2 uur. Wanneer het Pig script is uitgevoerd, wordt het resultaat weggeschreven naar S3, de data verwijderd en de cluster weer offline gebracht. Mijn rol in dit project is het helpen ontwikkelen van Pig scripts die data verzamelen, aggregeren en wegschrijven naar HBase. De huidige rapporten worden opgebouwd op basis van de data in HBase. De informatie over dit project is beperkt omdat ik hier pas eind mei kon opstarten. Dit komt door de moeilijkheden die er waren bij Justitie. Tijdens de presentatie van dit eindwerk kan de jury meer gedetailleerde informatie verwachten over het praktische gedeelte van dit project. Ik zal laten zien hoe Pig scripts zijn opgebouwd en uitleggen hoe ze worden uitgevoerd. Ook zal ik met de iPad een aantal rapporten laten zien die ik in Visual Analytics heb gebouwd. Natan Meekers Thomas More 34
  • 41. 12 CONCLUSIE 12.1 ALGEMEEN Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance Management. Het meet onze prestaties in het verleden (BI) en het kan ons ook door middel van geavanceerde analyses (‘predictive analytics’) inzicht geven in de toekomst. Doorheen dit eindwerk is het duidelijk geworden dat Big Data een grote toegevoegde waarde biedt voor bedrijven: meer inzicht in klanten om ze persoonlijker te bedienen, sneller (en nieuwe) inzichten verwerven, geld uitsparen, uitvoeren van fraude en risico analyses, … Dat is de reden waarom steeds meer bedrijven een ‘data-driven’ richting uitgaan. De mogelijkheid om meer data sneller te verwerken en daarbij externe databronnen te betrekken, maakt dat bedrijven beschikken over veel nieuwe opportuniteiten waarmee ze een concurrentievoordeel kunnen opbouwen. Big Data projecten eisen nieuwe skills waarin een bedrijf zal moeten investeren. Vooral de vraag naar analytische profielen zal sterk stijgen. De ROI is moeilijk te bepalen voor veel Big Data projecten maar ondertussen bestaan er al veel use cases waaruit je inspiratie kan opdoen en die je zekerheid geven dat je project iets zal opleveren. Ondanks de vele use cases, die voornamelijk uit de VS afkomstig zijn, heb ik gemerkt dat er op de Belgische markt nog maar weinig vraag is naar Big Data expertise. Het zal dus voor Big Data consultants een uitdaging zijn om aan bedrijven de meerwaarde en voordelen aan te tonen om een project op te starten. Maar over het algemeen zien we dat in België vernieuwingen altijd wat later doorbreken. Ik geloof dus dat Big Data de komende jaren op grote schaal zal geïmplementeerd worden. Bedrijven beginnen best met een POC of Pilot project om vanuit één probleem of vraag een oplossing of antwoord te geven door middel van Big Data. Wanneer zo een case succesvol is uitgewerkt, kan men stilaan uitbreiden door meer cases aan te pakken en creatief te zoeken naar nieuwe opportuniteiten. Pas wel op voor de grote fout die vele mensen maken: ‘Big Data is no silver bullet’ ! Alle dingen die mogelijk zijn met het verzamelen en opslaan van data tot het uitvoeren van de geavanceerde analyses, vereisen de juiste skills en expertise om succes te garanderen. Big Data systemen werken niet autonoom en hebben nog steeds begeleiding nodig van mensen die begrijpen wat er gebeurt en die de resultaten kunnen evalueren. Suggesties voor verder werk: dieper ingaan op ‘the analytics’ van Big Data en nagaan hoe we creatief kunnen zijn met data. Op die manier kan een profiel opgesteld worden van vereiste skills en hoe ze ontwikkeld kunnen worden om bedrijven beter te helpen bij Big Data projecten en succes te garanderen. Natan Meekers Thomas More 35
  • 42. 12.2 PERSOONLIJK De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal. Dat was niet altijd gemakkelijk omdat het allemaal nieuwe materie is. Door verschillende kanalen te gebruiken, heb ik veel bijgeleerd en heb ik goede contacten kunnen leggen. Die kan ik raadplegen als ik hulp nodig heb voor de praktijk. Big Data is een zeer uitgebreid en veelomvattend onderwerp en het was niet gemakkelijk om het compact uit te leggen. Voor het praktische gedeelte heb ik wat tegenslag gehad maar daar heb ik ook veel uit geleerd. Ondanks de noodzaak van verandering van project op het allerlaatste moment (5 werkdagen voor de deadline van dit eindwerk) heb ik niet opgegeven. Tot in juni blijf ik er aan verder werken zodat ik een meer uitgebreid praktisch gedeelte kan presenteren. Natan Meekers Thomas More 36
  • 43. 13 VERKLARENDE WOORDENLIJST [1] OPEN-SOURCE Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkheid om de software te bestuderen, aan te passen en verbeteringen aan te brengen. De code van opensource software komt vaak tot stand door de samenwerking van individuele programmeurs uit een open-source community [2] Commodity hardware Computer hardware die gemakkelijk te verkrijgen en betaalbaar is. [3] Appliance Een machine die speciaal ontworpen is om een bepaalde taak uit te voeren. [4] Node Een computer die is aangesloten op een bepaald netwerk. Een verzameling van nodes vormt een cluster. [5] Legacy systemen Bronsystemen zoals ERP, CRM of andere applicaties met gegevens in een databank. [6] Scope Het bereik van een project. Overeengekomen werk dat voltooid moet worden om tot het eindresultaat te komen. [7] Amazon S3 Service die de mogelijkheid aanbiedt om data op te slaan in de cloud. [8] Amazon EMR Elastic MapReduce is een web service die bedrijven de mogelijkheid aanbiedt om enorme hoeveelheden data op een gemakkelijke en kosten-efficiënte manier te analyseren. [9] on-the-fly In real-time. Uitvoeren terwijl het gebeurt. [10] speed-of-thought Zeer snel. Natan Meekers Thomas More 37
  • 44. 14 AFKORTINGEN PM PERFORMANCE MANAGEMENT BI BUSINESS INTELLIGENCE BD BIG DATA ETL/ELT EXTRACT, TRANSFORM AND LOAD / EXTRACT, LOAD AND TRANSFORM. EMR ELASTIC MAPREDUCE POC PROOF OF CONCEPT HDFS HADOOP DISTRIBUTED FILE SYSTEM VA VISUAL ANALYTICS HDP HORTONWORKS DATA PLATFORM MPP MASSIVE PARALLEL PROCESSING ROI RETURN ON INVESTMENT Natan Meekers Thomas More 38
  • 45. 16 BIJLAGE 16.1 BIG DATA POSTER Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan de hand van die poster mochten wij onze paper presenteren op het Performance Management event dat georganiseerd was door het BICC van onze hogeschool. Natan Meekers Thomas More 39
  • 46. 16.2 ADSWIZZ- STREAMING AD INJECTION Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in webstreams. Natan Meekers Thomas More 40
  • 47. 17 BIBLIOGRAFIE [1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012. Opgeroepen in Oktober 2012 van: <http://www.atlantbh.com/how-to-build-optimal-hadoop-cluster/>. [2] APACHE. Hadoop™. Apache.org, 2012. Opgeroepen in Oktober 2012 van: <http://hadoop.apache.org/>. [3] ASAY M.. Becoming Red Hat: Cloudera and Hortonworks' Big Data death match™. The Register, 2013. Opgeroepen in Februari 2013 van: < http://www.theregister.co.uk/2012/08/17/community_hadoop/>. [4] COX, R. Hortonworks shows out at OpenStack summit. Sillicon Angle, 2013. Opgeroepen in April 2013 van: <http://siliconangle.com/blog/2013/04/17/hortonworks-shows-out-at-openstack-summit-while-cloudera-stays-athome/> [5] CROLS, J. Storm is coming: are you ready for big data? Ferranti Computer Systems. Belgium, p. 8. 2012. [6] DATA SCIENCE SERIES. Scoping out your Big Data analytics project. Datameer. 2013. Opgeroepen in April 2013 van: <http://info.datameer.com/rs/datameer/images/Project_plan.pdf?mkt_tok=3RkMMJWWfF9wsRokv6rIZKXon jHpfsX56egrWaa1lMI%2F0ER3fOvrPUfGjI4FRMpjI%2BSLDwEYGJlv6SgFSrbEMaJn2bgIUhE%3D>. [7] DEAN. Facing the challenges of Big Data. YARC, 2013. Opgeroepen in April 2013 van: < http://yarcdata.com/blog/?p=413/>. [8] HOWARD, P. Sybase IQ 15.4. Bloor Research. USA, p. 17. 2012. [9] IBM. What is Big Data. Bringing big data to the enterprise, 2012. Opgeroepen in Oktober 2012 van: <http://www-01.ibm.com/software/data/bigdata/>. [10] IBM CORPORATION. Recognize the many faces of fraud. IBM Corporation. USA, p. 8. 2010. [11] IBM CORPORATION. Understanding Big Data. IBM Corporation. USA, p. 166. 2011. [12] IBM GLOBAL BUSINESS SERVICES. Analytics: The real-world use of big data. IBM Institute for Business Value. USA, p. 22. 2012. [13] JERNEVAD, M. Trends that empower. Projectplace International. Stockholm, p. 13. 2012. [14] LEI, S. Setting Up a Hadoop Cluster. National University of Signapore. Signapore, p. 6. 2009. Natan Meekers Thomas More 41
  • 48. [15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013. Opgeroepen in April 2013 van: < http://siliconangle.com/blog/2013/03/28/big-data-deep-dive-conclusion-the-future-of-analytics//>. [16] MCKINSEY. The next frontier for innovation, competition and productivity. McKinsey Global Institute. [S.l.], p. 156. 2011. [17] NUCLEUS RESEARCH. Big Data: Beyond the buzzwords. Nucleus Research. USA, p. 3. 2011. [18] OFFERMAN, A. Hadoop: raamwerk voor de grote jongens. Tweakers, 21 fev. 2012. Opgeroepen in Oktober 2012 van: <http://tweakers.net/reviews/2475/2/hadoop-raamwerk-voor-de-grote-jongens-wat-is-hadoop.html> [19] RAMAMURTHY, B. MapReduce & Hadoop Distributed File System. University Buffalo. Buffalo, p. 39. 2012. [20] SAS INSITUTE. Banks, Big Data and High-Performance Analytics. SAS Institute. USA, p. 16. 2012. [21] SAS INSTITUTE. Big Data for the Next Big Idea in Financial Services. SAS Institute. USA, p. 13. 2012. [22] SAS INSTITUTE. High Performance Analytics at the speed of right. Sas Institute. USA, p. 32. 2012. [23] THE APACHE SOFTWARE FOUNDATION. What is Hadoop. Hadoop Apache, 3 20 2012. Opgeroepen in Oktober 2012 van: <http://hadoop.apache.org/>. [24] TURNER, J. Hadoop: What it is, how it works, and what it can do. O'Reilly Radar, 12 jan. 2011. Opgeroepen in Oktober 2012 van: <http://radar.oreilly.com/2011/01/what-is-hadoop.html>. [25] URBANI, J. Reasoning-Hadoop. Vrije Universiteit - Faculty of Sciences. Amsterdam, p. 87. 2009. [26] EVELSON, B. Advanced Data Visualization Platforms. SAS Institue, 2012. Opgeroepen in Maart 2013 van: <http://radar.oreilly.com/2011/01/what-is-hadoop.html>. [27] ZWANENVELD, A. Big Data: Misdaadpreventie Memphis Police Dept. , Juli 2012. Opgeroepen in November 2012 van: <http://www.webanalisten.nl/big-data-voorbeeld-misdaadpreventie-memphis-police-dept>. [28] BADGER, E. How to catch a criminal with data. , Maart 2012. Opgeroepen in November 2012 van: <http://www.theatlanticcities.com/technology/2012/03/how-catch-criminal-data/1477/>. [29] HONAN, D. The 2012 Election: A big win for Big Data , Nov 2012. Opgeroepen in November 2012 van: <http://bigthink.com/think-tank/the-2012-election-a-big-win-for-big-data>. [30] HOWARD, A. In the 2012 election, Big Data-driven analysis & campains were the winners. O'Reilly, Nov 2012. Opgeroepen in November 2012 van: <http://strata.oreilly.com/2012/11/2012-election-big-data-journalism-obama-data-campaign.html>. Natan Meekers Thomas More 42
  • 49. [31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012. Opgeroepen in November 2012 van: <http://www.computerworld.com/s/article/9233587/Barack_Obama_39_s_Big_Data_won_the_US_election>. [31] SILVER, N. Five Thirty Eight (538). NY Times , Nov 2012. Opgeroepen in November 2012 van: <http://fivethirtyeight.blogs.nytimes.com/> [32] HARDING, L. Numbers nerd Nata Silver’s forcasts prove all right on election night. Guardian, Nov 2012. Opgeroepen in November 2012 van: <http://www.guardian.co.uk/world/2012/nov/07/nate-silver-election-forecasts-right> [33] ECONOMIST, T. Big Data: Chrunching the numbers. The Economist, Mei 2012. Opgeroepen in November 2012 van: <http://www.economist.com/node/21554743> [34] SIMS, D. Big Data thwarts fraud. Strata O'Reilly, Feb 2011. Opgeroepen in November 2012 van: <http://strata.oreilly.com/2011/02/big-data-fraud-protection-payment.html> [35] IBM. Vestas Wind Systems turn to IBM Big Data Analytics for smarter wind energy. IBM, Okt 2011. Opgeroepen in November 2012 van: <http://www-03.ibm.com/press/us/en/pressrelease/35737.wss> [36] IBM. IBM helps Vestas turn cliate Big Data into Capital. IBM, Okt 2011. Opgeroepen in November 2012 van: <http://www.ibmbigdatahub.com/video/ibm-helps-vestas-turn-climate-big-data-capital> [37] LAMONICA, M. IBM's Big Data helps Vestas wind turbines crank. CNET News, Okt 2011. Opgeroepen in November 2012 van: <http://news.cnet.com/8301-11128_3-20125284-54/ibms-big-data-helps-vestas-wind-turbines-crank/> [38] HARISH & VIJAY, Introduction to Big Data & Hadoop Ecosystem Part 1-2-3. Cloudstory.in, Apr 2012. Opgeroepen in November 2012 van: <http://cloudstory.in/2012/04/introduction-to-big-data-hadoop-ecosystem-part-1-2-3/> [39] GARTNER. 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So. Gartner, 2013. Opgeroepen in Maart 2013 van: <http://www.gartner.com/newsroom/id/2366515> [40] HORTONWORKS. Modern Data Architecture and Hadoop. Hortonworks, 2013: Opgeroepen in Maart 2013 van: <http://hortonworks.com/hadoop-modern-data-architecture> [41] HUNT, I. The CIA on Big Data. SiSense, 2013. Opgeroepen in April 2013 van: <www.sisense.com/blog/bruno/2013/03/27/recaps-gigaom-structure-data-gartner-bi-and-analytics-summit> Natan Meekers Thomas More 43
  • 50. [42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013. Opgeroepen in Mei 2013 van: <theinnovationenterprise.com/summits/big-data-innovation-summit-april-2013-san-francisco/schedule> [43] INTEL. Getting started with Big Data. Intel, 2013. Opgeroepen in Mei 2013 van: <http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoopplanning-guide.pdf [44] JEDRAS, J. SAS takes aim at SAP with in-memory analytics. IT World Canada, 2013. Opgeroepen in Mei 2013 van: <http://www.itworldcanada.com/news/sas-takes-aim-at-sap-with-in-memory-analytics/147049 [45] KELLY, J. The Hadoop Wars: Cloudera and Hortonworks’ Death Match for Mindshare. Wikibon, 2013. Opgeroepen in Mei 2013 van: <http://wikibon.org/wiki/v/The_Hadoop_Wars:_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mind share> [46] KELLY, K. Big Data vs. Tradition Business Intelligence. SmartDataCollective, 2012. Opgeroepen in Mei 2013 van: <http://smartdatacollective.com/node/84546> [47] MEHRA, G. Using Big Data to Prevent Ecommerce Fraud. Practical eCommerce, 2013. Opgeroepen in Mei 2013 van: <http://www.practicalecommerce.com/articles/4031-Using-Big-Data-to-Prevent-Ecommerce-Fraud> [48] VAN NIEUWENHUYSE, D. (2011). Performance Management. Leuven: LannooCampes. [49] PITTMAN, D. Friday Data Flick: Uses of Big Data and Hadoop as Data Warehouse. IBM Big Data Hub, 2013. Opgeroepen in Mei 2013 van: <http://www.ibmbigdatahub.com/blog/friday-data-flick-uses-big-data-and-hadoop-datawarehouse?utm_source=feedly&utm_medium=feed&utm_campaign=Feed:+netezza/allblogs+(Netezza+Blogs++All+Posts)> [50] RADDING, A. Big Data Drives surging interest in Business Intelligence. BigFatFinancialBlog, 2013. Opgeroepen in Mei 2013 van: <http://bigfatfinanceblog.com/2013/02/21/big-data-drives-surging-interest-in-business-intelligence/> [51] WALLACE, D. Big Data management for retail banks. SAS Institute, 2012. Opgeroepen in Mei 2013 van: <http://www.sas.com/knowledge-exchange/risk/integrated-risk/big-data-management-for-retail-banks> Natan Meekers Thomas More 44
  • 51. 18 AUTEUR Meekers Natan Vennestraat 26, B-1980 Zemst-Laar MOBIEL: +32 498 08 78 90 EMAIL: natan@meekers.eu Natan Meekers @NatanMeekers http://natan.meekers.eu EXTERNE PROMOTOR Manager & Big Data consultant at DataCrunchers Van Landeghem Geert Steenweg van Grembergen 27, B-9200 Dendermonde MOBIEL: +32 477 75 95 33 EMAIL: info@datacrunchers.eu Geert Van Landeghem @gvanlandeghem Natan Meekers Thomas More 45