SlideShare uma empresa Scribd logo
1 de 53
BOSA.be
INTEC Brussel
2018-08-21
Bart Hanssens
FOD BOSA Digitale Transformatie
Big Data &
Open Data
• Data
• Enkele begrippen
• Big Data
• Wat is het + voorbeelden
• Open Data
• Wat is het + voorbeelden
• Vragen ?
Agenda
2
Data
3
• (Elektronische) gegevens
• Foto’s, documenten, kaarten, meetgegevens …
• Gestructureerd of ongestructureerd
Wat is data ?
4
• Metadata is ook data
• Gegevens die iets meer vertellen over andere gegevens
• Vaak gebruikt om iets te zoeken
• Bijvoorbeeld:
• Data: een YouTube video
• Metadata: de titel, datum, naam van de artiest, …
Wat is metadata ?
5
• Data opslaan / opvragen kost wat:
• Tijd, geld, ruimte
• Data verzamelen is niet genoeg
• Bedoeling van data verzamelen is om er iets mee te doen
• Correct analyseren van data kan heel moeilijk zijn
• Beveiliging van data is belangrijk
• Zeker als er data over personen worden bewaard / verwerkt
Aandachtspunten (meta)data
6
Big Data
7
Grootte Data (ongeveer)
Zettabyte ZB 15 ZB: alle data op het internet
Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld
Petabyte PB 4 PB: (per dag) data op Facebook
Terabyte TB 8 TB: grootste harde schijf voor thuis
Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek)
3 GB: (per uur) Netflix film in HD kwaliteit
1 GB: (per maand) limiet goedkoop GSM-abonnement
Megabyte MB 2 MB: PowerPoint presentatie
Kilobyte kB 3 KB: A4-pagina tekst
Byte B 280
Wat is veel data ?
8
Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer)
Harde schijf 0.03 EUR 250 MB/s
USB stick 0.2 EUR 150 MB/s
SSD m.2 0.3 EUR 3 500 MB/s
DDR4 RAM 10 EUR 25 600 MB/s
Vergelijking geheugen en opslag
9
Type Opmerking Max. snelheid (praktijk)
4G 5 MB/s
Wifi (n) 5 GHz 30 MB/s
Wifi (ac) 90 MB/s
Ethernet (Gigabit) 115 MB/s
Ethernet (10 GbE) 1 150 MB/s
MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s
Vergelijking downloadsnelheid
10
In teksten over Big Data wordt vaak gesproken over “V”’s:
• Volume: veel gegevens
• Velocity: snel te verwerken
• Variety: verschillende structuren en bronnen
Tegenwoordig worden er nog bijkomende“V”’s vermeld:
• Value: de waarde
• …
De “V”s van Big Data
11
• Produceren en opslaan van gegevens wordt goedkoper
• Steeds meer “persoonlijke” diensten gebaseerd op data
• Google: reclame gebaseerd op zoekopdrachten
• Netflix: suggesties voor films
• TomTom: snellere verkeersroutes op basis van file-informatie
• “Internet of Things”, “Smart City”, “Connected Cars”
• Steeds meer communicatie tussen machines onderling
Waarom steeds meer (big) data ?
12
• Overal sensoren, die (vaak) verbonden zijn:
• Smartphones met GPS, camera en bewegingssensor
• Meters luchtkwaliteit, straling, …
• Alarmsystemen, domotica
• Camera’s en detectoren in het verkeer
• (zelfrijdende) auto’s
• Sensoren in industriële machines
Internet of Things
13
• Online en sociale media
• Twitter, Facebook, Google, …
• Wetenschap
• Weer en klimaat, fysica, astronomie
• Banken en industrie
• Beurs, verzekeringen, chemie, gezondheidszorg
• Mobiliteit en transport
• Vlotter verkeer, zelfrijdende auto’s
• Sport
Toepassingen
14
• Voordelen en nadelen
• “Als het product gratis is, dan ben jij het product”
• Vaak de bedoeling om iets te verkopen op basis van
• Welke apps je gebruikt en wanneer
• Waar je je bevindt en met wie
• Welke pagina’s, videos … je bekijkt en deelt
• Welke dingen je al online gekocht hebt
• …
Voorbeeld: sociale media en online platformen
15
• Grote hoeveelheid foto’s en metingen
• Aarde: foto’s van gebouwen, temperatuur
• Ruimte: sterren, planeten
• USA: 25+ PB data, code en voorbeelden NASA
• https://open.nasa.gov/open-data
• België:
• Landbouw: groei van gewassen (https://watchitgrow.be)
• Terrascope platform (https://terrascope.be)
Voorbeeld: satellietgegevens
16
Voorbeeld: hoe groen is mijn gemeente ?
17
• Auto’s en vrachtwagens registreren situatie op de weg
• Putten, ijs, gladde wegen, …
• Informatie wordt gedeeld
• Waarschuwing naar auto’s in de buurt
• Melding naar beheerder van de weg (sneeuwruimers…)
• Vb: « BADA » project Volvo / Scania in Zweden
• http://www.nvfnorden.org/library/Files/Per-
Olof%20Svensk_BADA%207%20June%202017.pdf
Voorbeeld: verbeteren situatie autowegen
18
• Veel mensen hebben GSM/smartphones altijd bij de hand
• Staan in verbinding met antennes
• Operatoren kunnen analyses maken voor evenementen
• Via welke weg reizen de bezoekers
• Hoe lang blijven ze ter plaatse
• Vb: Proximus MyAnalytics
• https://www.proximusanalytics.be
• Geanonimiseerde rapporten (tegen betaling)
• Enkel data van Proximus (schatting voor andere operatoren)
Voorbeeld: bezoekers evenement op basis van GSM
19
Voorbeeld: huldiging Rode Duivels
20
• « Wordt het leven duurder in België ? »
• Aankopen zoals eten / drinken, maar ook brandstof, kleren
• Heeft indirect invloed op indexering (verhoging) huur
• O.a. gescande artikelen aan de kassa’s van supermarkten
• Vergelijking niet altijd even eenvoudig
• Seizoensproducten, zelfde product met andere code …
• https://statbel.fgov.be/nl/over-
statbel/methodologie/analyses
Voorbeeld: consumptieprijsindex Statbel
21
• Formule 1
• 100 – 300 sensoren per F1-auto
• Snelheid, bandenspanning, remmen, brandstof …
• Voetbal: FC Barcelona
• (big) data analytics
• Sportieve prestaties en gepersonaliseerde interactie fans
Voorbeeld: sport
22
• CERN “Large Hadron Collider” deeltjesversneller
• 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden
• https://home.cern/about/computing/processing-what-record
• NASA “Square Kilometre Array” telescoop
• Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden
• https://www.skatelescope.org
Voorbeeld: wetenschap
23
Analyseren en visualiseren van data
24
• Opslag van gegevens wordt steeds goedkoper
• Maar niet alles is even nuttig voor een bepaalde analyse
• Ook niet altijd duidelijk wat wel / geen invloed heeft
• Vaak gedaan om iets te voorspellen of te verbeteren
• Voorspellen weer, luchtkwaliteit, verkoop, …
• Detecteren van fraude
• Samenstellen van nieuwe materialen en geneesmiddelen
Analyseren van data
25
• Machines “trainen” om bepaalde patronen te herkennen
• Beelden: herkennen personen, verkeersborden, kankercellen
• Teksten en producten: automatisch indelen in categorieën
• Veel onderzoek naar ML door grote IT-bedrijven
• https://www.tensorflow.org (Google)
• http://www.paddlepaddle.org (Baidu)
• http://torch.ch (Facebook)
• https://www.ibm.com/watson (IBM)
Machine learning
26
• Bijvoorbeeld via “notebooks” of “dashboards”
• Online alternatief voor rapporten en documenten
• Vooral populair bij onderzoekers
• Kan ook zonder big data gebruikt worden
• Vaak geschreven in Python, “R” en/of Javascript
• http://shiny.rstudio.com
• http://jupyter.org
Visualisatie van gegevens
27
Big Data platformen
28
Wanneer Big Data / hoe onderdelen kiezen ?
29
• Big Data enkel zinvol voor grote hoeveelheden data
• Terabytes of meer
• Heel veel verschillende componenten
• Evolueren nog steeds erg snel
• Moeten niet allemaal gebruikt worden
• Geen systeem dat voor elke situatie perfect is
• Ingewikkelde zoekopdrachten of niet ?
• Gestructureerde data of niet ?
• Koppeling met andere systemen ?
Apache Hadoop
30
Hadoop Big Data platform
31
• Niet het enige platform, maar wel heel populair
• Bestaat uit verschillende componenten
• HDFS, MapReduce, …
• Java open source: gratis op eigen servers te gebruiken
• Commercieel pakket: Cloudera, MapR, Hortonworks …
• Installatie op eigen machines of “in the cloud”
• Amazon, Google, Microsoft, Oracle, SAP …
• Let op: niet gratis, kosten om data in/uit systeem te halen …
Hadoop HDFS, vereenvoudigd
32
HDFS
Apache Hadoop HDFS
33
• Gedistribueerd file system
• (deel van) schijven op aparte systemen gedragen zich als 1
• Geoptimaliseerd voor grote “batch” leesoperaties
• Niet voor kleine “random” schrijfoperaties
• Kan gebruikt worden met heel veel “gewone” schijven
• Zelfs met duizenden machines, tienduizenden schijven
• Honderden petabytes
• Data wordt automatisch verdeeld en gekopieerd
• Detectie + snel herstellen van fouten (vb: kapotte schijf)
Waarom data verdelen over meerdere systemen ?
34
• Lezen / schrijven van data is niet oneindig snel
• Werk verdelen over verschillende machines
• Vermijden dat gebruikers te lang moeten wachten
• Herstellen van problemen makkelijker maken
• Machines en netwerken kunnen tijdelijk falen of kapot gaan
MapReduce
35
• Manier om taken parallel uit te voeren
• Vb: tellen van woorden, zoeken
• Voor heel grote hoeveelheden data
• (veel) meer dan in het geheugen past
• Bedoeld voor taken waar alle data 1 keer gelezen wordt
• Berekeningen verdelen
• Zo dicht mogelijk bij de data uitvoeren
• Vermijden dat data heen en weer wordt gestuurd
• Resultaten combineren
Apache HBase
36
• Database die bovenop HDFS kan draaien
• Voor zeer grote databases (miljarden rijen)
• Geen volledige vervanging van “klassieke” databases
• Geen ingewikkelde queries
• Niet veel structuur
• Postgresql, Oracle… hebben ook andere mogelijkheden
Enkele andere componenten
37
• Apache Cassandra
• Ook een database
• “altijd beschikbaar” belangrijker dan “altijd dezelfde data”
• Apache Hive
• SQL-achtige taal bovenop Hadoop
• Makkelijker maken om Hadoop te gebruiken
Vereenvoudigd overzicht
38
HDFS
HBase
Map
Reduce
API
API
Hive
• Apache open source
• https://projects.apache.org/projects.html?category#big-data
• http://hadoop.apache.org
• http://spark.apache.org
• Big Data Community:
• http://bigdata.be
• Jaarlijks Data Science evenement:
• https://datasciencebe.com
Enkele big data / data science linken
39
Apache Spark
40
Apache Spark kenmerken
41
• Kan bovenop HDFS kan draaien of apart
• Alternatief voor MapReduce
• Spark kan verwerkingen in geheugen uitvoeren
• Veel sneller voor kleinere hoeveelheden data
• Geschikter om meerdere keren door zelfde data te lopen
Open Data
42
• Data zonder gevoelige / persoonlijke informatie
• Wel: statistieken,
• Niet: medisch dossier
• In een makkelijk te verwerken formaat
• Vb: tabellen in MS-Excel, CSV, XML …
• Door iedereen gratis te hergebruiken
• Ook voor commerciële doeleinden
Wat is Open Data ?
43
Open
Data
Big
Data
Open Data en Big Data
44
• Big data is niet altijd open data
• Vb: veel big data in bedrijven is niet publiek, of niet gratis
• Open data is niet altijd big data
• Vb: lijst van scholen in Brussel is kort
Open Data en Big Data (2)
45
• Meestal overheidsdiensten
• Steden, Gewesten, federale overheid …
• Worden via belastingen betaald door de burgers en bedrijven
• Verplichtingen opgelegd door Europese Unie
• Soms ook bedrijven
• Vb: bedrijven die fietsen of auto’s verhuren
• Vaak ook personen / vrijwilligers
• Vb: WikiPedia, OpenStreetMap, …
Wie publiceert open data ?
46
• Vooral steden publiceren adresinformatie
• Pleinen, zwembaden, …
• Kaartgegevens
• Gemeentegrenzen, 3D-kaart Vlaanderen, …
• Heel veel statistieken
• Bevolking per gemeente, gemiddelde prijzen, …
Over welke soort data gaat het ?
47
• Combineren met andere data
• Artikels schrijven
• Vb: gemiddelde prijs huis/appartement per gemeente
• Websites bouwen
• Vb: https://ici.brussels/nl
• Apps bouwen
• Vb: “Top Baby Names”: populaire voornamen
Wat kan je er mee doen ?
48
Voorbeeld: website Limburg in Cijfers
49
• Verschillende formaten worden door elkaar gebruikt
• CSV, MS-Excel, XML, JSON…
• Mogelijk ook verschillende informatie per streek
• Soms is bronvermelding verplicht, soms niet
• Vaak ook geen garantie op beschikbaarheid / updates
• Geen contract
Aandachtspunten open data
50
• Open data portaal:
• https://data.gov.be
• Jaarlijks open data evenement:
• http://www.openbelgium.be
• OpenKnowledge community:
• https://www.openknowledge.be
Enkele open data linken
51
Vragen ?
52
BOSA.be
@BartHanssens
bart.hanssens@bosa.fgov.be
opendata@belgium.be
Bedankt !

Mais conteúdo relacionado

Mais procurados (11)

20191017 presentatie opendatabootcamp KMSKA
20191017 presentatie opendatabootcamp KMSKA20191017 presentatie opendatabootcamp KMSKA
20191017 presentatie opendatabootcamp KMSKA
 
De Datahub
De DatahubDe Datahub
De Datahub
 
Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012
 
Tracs
TracsTracs
Tracs
 
A1 Basiskennes 20090912
A1 Basiskennes   20090912A1 Basiskennes   20090912
A1 Basiskennes 20090912
 
Sessie 'Onderduikkaarten online' | Hans Laagland | Noordelijke Netwerkdag Oor...
Sessie 'Onderduikkaarten online' | Hans Laagland | Noordelijke Netwerkdag Oor...Sessie 'Onderduikkaarten online' | Hans Laagland | Noordelijke Netwerkdag Oor...
Sessie 'Onderduikkaarten online' | Hans Laagland | Noordelijke Netwerkdag Oor...
 
Efficiënt informatie inwinnen en beheren (2010)
Efficiënt informatie inwinnen en beheren (2010)Efficiënt informatie inwinnen en beheren (2010)
Efficiënt informatie inwinnen en beheren (2010)
 
2019 bootcamp
2019 bootcamp2019 bootcamp
2019 bootcamp
 
Hublet tablets for shared use in libraries
Hublet tablets for shared use in librariesHublet tablets for shared use in libraries
Hublet tablets for shared use in libraries
 
Gebruik van StandplaatsBeheersySteem in Omeka-S en datalogging-systeem voor k...
Gebruik van StandplaatsBeheersySteem in Omeka-S en datalogging-systeem voor k...Gebruik van StandplaatsBeheersySteem in Omeka-S en datalogging-systeem voor k...
Gebruik van StandplaatsBeheersySteem in Omeka-S en datalogging-systeem voor k...
 
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
Alma, een nieuw gemeenschappelijk bibliotheekbeheerssysteem. Waarom nieuw?
 

Semelhante a Big Data en Open Data

gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres EindhovenAppsForGhent
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalRosseau Bart
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentRosseau Bart
 
Eduvision - Webinar Starten met Big Data Enterprise
Eduvision - Webinar Starten met Big Data EnterpriseEduvision - Webinar Starten met Big Data Enterprise
Eduvision - Webinar Starten met Big Data EnterpriseEduvision Opleidingen
 
CMBO SIG over DAM/CMS
CMBO SIG over DAM/CMSCMBO SIG over DAM/CMS
CMBO SIG over DAM/CMScmbo
 
TYPO3 Congres 2011 - Gemeente Ede - Open Source
TYPO3 Congres 2011 - Gemeente Ede - Open SourceTYPO3 Congres 2011 - Gemeente Ede - Open Source
TYPO3 Congres 2011 - Gemeente Ede - Open SourceTYPO3 Nederland
 
Voordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webVoordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webBart Hanssens
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityErik Van Der Zee
 
20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcamp20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcampPACKED vzw
 
Digitaal archiveren: een kleine inleiding
Digitaal archiveren: een kleine inleidingDigitaal archiveren: een kleine inleiding
Digitaal archiveren: een kleine inleidingTom Cobbaert
 
metadata & open source #osgeonl dag 2012
metadata & open source #osgeonl dag 2012 metadata & open source #osgeonl dag 2012
metadata & open source #osgeonl dag 2012 pvangenuchten
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstOscar Wijsman
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenVNG Realisatie
 
Marketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenMarketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenOnedaycompany
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision Opleidingen
 

Semelhante a Big Data en Open Data (20)

gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
 
Eduvision - Webinar Starten met Big Data Enterprise
Eduvision - Webinar Starten met Big Data EnterpriseEduvision - Webinar Starten met Big Data Enterprise
Eduvision - Webinar Starten met Big Data Enterprise
 
CMBO SIG over DAM/CMS
CMBO SIG over DAM/CMSCMBO SIG over DAM/CMS
CMBO SIG over DAM/CMS
 
TYPO3 Congres 2011 - Gemeente Ede - Open Source
TYPO3 Congres 2011 - Gemeente Ede - Open SourceTYPO3 Congres 2011 - Gemeente Ede - Open Source
TYPO3 Congres 2011 - Gemeente Ede - Open Source
 
Voordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webVoordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic web
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City Interoperability
 
20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcamp20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcamp
 
Digitaal archiveren: een kleine inleiding
Digitaal archiveren: een kleine inleidingDigitaal archiveren: een kleine inleiding
Digitaal archiveren: een kleine inleiding
 
Open Data Publishing
Open Data PublishingOpen Data Publishing
Open Data Publishing
 
metadata & open source #osgeonl dag 2012
metadata & open source #osgeonl dag 2012 metadata & open source #osgeonl dag 2012
metadata & open source #osgeonl dag 2012
 
Data trends
Data trendsData trends
Data trends
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomst
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
 
Opendata kviv
Opendata kvivOpendata kviv
Opendata kviv
 
Marketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenMarketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de Wolken
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?
 
De Bibliotheek, tussen producent en consument
De Bibliotheek, tussen producent en consumentDe Bibliotheek, tussen producent en consument
De Bibliotheek, tussen producent en consument
 

Mais de Bart Hanssens

OpenFed, a Drupal distribution
OpenFed, a Drupal distributionOpenFed, a Drupal distribution
OpenFed, a Drupal distributionBart Hanssens
 
Open Summer of Code in Belgium
Open Summer of Code in BelgiumOpen Summer of Code in Belgium
Open Summer of Code in BelgiumBart Hanssens
 
Open Belgium 2022: Prepare To Code
Open Belgium 2022: Prepare To CodeOpen Belgium 2022: Prepare To Code
Open Belgium 2022: Prepare To CodeBart Hanssens
 
Werkgroep metadata: INSPIRE - DCAT-AP mapping
Werkgroep metadata: INSPIRE - DCAT-AP mappingWerkgroep metadata: INSPIRE - DCAT-AP mapping
Werkgroep metadata: INSPIRE - DCAT-AP mappingBart Hanssens
 
Quarkus, Jib én OpenJ9
Quarkus, Jib én OpenJ9Quarkus, Jib én OpenJ9
Quarkus, Jib én OpenJ9Bart Hanssens
 
Open Data at the Federal Level 2021
Open Data at the Federal Level 2021Open Data at the Federal Level 2021
Open Data at the Federal Level 2021Bart Hanssens
 
Open Data workshop Agoria ICT
Open Data workshop Agoria ICTOpen Data workshop Agoria ICT
Open Data workshop Agoria ICTBart Hanssens
 
Atelier Open Data / Agoria ICT
Atelier Open Data / Agoria ICTAtelier Open Data / Agoria ICT
Atelier Open Data / Agoria ICTBart Hanssens
 
Open Source and Open Data
Open Source and Open DataOpen Source and Open Data
Open Source and Open DataBart Hanssens
 
Open Community Projects
Open Community ProjectsOpen Community Projects
Open Community ProjectsBart Hanssens
 
From webform to API using microframeworks
From webform to API using microframeworksFrom webform to API using microframeworks
From webform to API using microframeworksBart Hanssens
 
Linked Data: Introductie
Linked Data: IntroductieLinked Data: Introductie
Linked Data: IntroductieBart Hanssens
 
Open data, what's cooking at the federal level 2020
Open data, what's cooking at the federal level 2020Open data, what's cooking at the federal level 2020
Open data, what's cooking at the federal level 2020Bart Hanssens
 
BOSA DG DT: opendata et intégrateur de services
BOSA DG DT: opendata et intégrateur de servicesBOSA DG DT: opendata et intégrateur de services
BOSA DG DT: opendata et intégrateur de servicesBart Hanssens
 
Local and Regional digital transformation in Belgium
Local and Regional digital transformation in BelgiumLocal and Regional digital transformation in Belgium
Local and Regional digital transformation in BelgiumBart Hanssens
 
Presentatie data.gov.be
Presentatie data.gov.bePresentatie data.gov.be
Presentatie data.gov.beBart Hanssens
 
Graphs, Stores and API
Graphs, Stores and APIGraphs, Stores and API
Graphs, Stores and APIBart Hanssens
 

Mais de Bart Hanssens (20)

OpenFed, a Drupal distribution
OpenFed, a Drupal distributionOpenFed, a Drupal distribution
OpenFed, a Drupal distribution
 
Open Summer of Code in Belgium
Open Summer of Code in BelgiumOpen Summer of Code in Belgium
Open Summer of Code in Belgium
 
Open Belgium 2022: Prepare To Code
Open Belgium 2022: Prepare To CodeOpen Belgium 2022: Prepare To Code
Open Belgium 2022: Prepare To Code
 
Werkgroep metadata: INSPIRE - DCAT-AP mapping
Werkgroep metadata: INSPIRE - DCAT-AP mappingWerkgroep metadata: INSPIRE - DCAT-AP mapping
Werkgroep metadata: INSPIRE - DCAT-AP mapping
 
Overzicht DCAT-AP
Overzicht DCAT-APOverzicht DCAT-AP
Overzicht DCAT-AP
 
Quarkus, Jib én OpenJ9
Quarkus, Jib én OpenJ9Quarkus, Jib én OpenJ9
Quarkus, Jib én OpenJ9
 
Open Data at the Federal Level 2021
Open Data at the Federal Level 2021Open Data at the Federal Level 2021
Open Data at the Federal Level 2021
 
Open Data workshop Agoria ICT
Open Data workshop Agoria ICTOpen Data workshop Agoria ICT
Open Data workshop Agoria ICT
 
Atelier Open Data / Agoria ICT
Atelier Open Data / Agoria ICTAtelier Open Data / Agoria ICT
Atelier Open Data / Agoria ICT
 
Open Source and Open Data
Open Source and Open DataOpen Source and Open Data
Open Source and Open Data
 
Données ouvertes
Données ouvertesDonnées ouvertes
Données ouvertes
 
Open Community Projects
Open Community ProjectsOpen Community Projects
Open Community Projects
 
From webform to API using microframeworks
From webform to API using microframeworksFrom webform to API using microframeworks
From webform to API using microframeworks
 
Linked Data: Introductie
Linked Data: IntroductieLinked Data: Introductie
Linked Data: Introductie
 
JavaVMs en GraalVM
JavaVMs en GraalVMJavaVMs en GraalVM
JavaVMs en GraalVM
 
Open data, what's cooking at the federal level 2020
Open data, what's cooking at the federal level 2020Open data, what's cooking at the federal level 2020
Open data, what's cooking at the federal level 2020
 
BOSA DG DT: opendata et intégrateur de services
BOSA DG DT: opendata et intégrateur de servicesBOSA DG DT: opendata et intégrateur de services
BOSA DG DT: opendata et intégrateur de services
 
Local and Regional digital transformation in Belgium
Local and Regional digital transformation in BelgiumLocal and Regional digital transformation in Belgium
Local and Regional digital transformation in Belgium
 
Presentatie data.gov.be
Presentatie data.gov.bePresentatie data.gov.be
Presentatie data.gov.be
 
Graphs, Stores and API
Graphs, Stores and APIGraphs, Stores and API
Graphs, Stores and API
 

Big Data en Open Data

  • 1. BOSA.be INTEC Brussel 2018-08-21 Bart Hanssens FOD BOSA Digitale Transformatie Big Data & Open Data
  • 2. • Data • Enkele begrippen • Big Data • Wat is het + voorbeelden • Open Data • Wat is het + voorbeelden • Vragen ? Agenda 2
  • 4. • (Elektronische) gegevens • Foto’s, documenten, kaarten, meetgegevens … • Gestructureerd of ongestructureerd Wat is data ? 4
  • 5. • Metadata is ook data • Gegevens die iets meer vertellen over andere gegevens • Vaak gebruikt om iets te zoeken • Bijvoorbeeld: • Data: een YouTube video • Metadata: de titel, datum, naam van de artiest, … Wat is metadata ? 5
  • 6. • Data opslaan / opvragen kost wat: • Tijd, geld, ruimte • Data verzamelen is niet genoeg • Bedoeling van data verzamelen is om er iets mee te doen • Correct analyseren van data kan heel moeilijk zijn • Beveiliging van data is belangrijk • Zeker als er data over personen worden bewaard / verwerkt Aandachtspunten (meta)data 6
  • 8. Grootte Data (ongeveer) Zettabyte ZB 15 ZB: alle data op het internet Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld Petabyte PB 4 PB: (per dag) data op Facebook Terabyte TB 8 TB: grootste harde schijf voor thuis Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek) 3 GB: (per uur) Netflix film in HD kwaliteit 1 GB: (per maand) limiet goedkoop GSM-abonnement Megabyte MB 2 MB: PowerPoint presentatie Kilobyte kB 3 KB: A4-pagina tekst Byte B 280 Wat is veel data ? 8
  • 9. Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer) Harde schijf 0.03 EUR 250 MB/s USB stick 0.2 EUR 150 MB/s SSD m.2 0.3 EUR 3 500 MB/s DDR4 RAM 10 EUR 25 600 MB/s Vergelijking geheugen en opslag 9
  • 10. Type Opmerking Max. snelheid (praktijk) 4G 5 MB/s Wifi (n) 5 GHz 30 MB/s Wifi (ac) 90 MB/s Ethernet (Gigabit) 115 MB/s Ethernet (10 GbE) 1 150 MB/s MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s Vergelijking downloadsnelheid 10
  • 11. In teksten over Big Data wordt vaak gesproken over “V”’s: • Volume: veel gegevens • Velocity: snel te verwerken • Variety: verschillende structuren en bronnen Tegenwoordig worden er nog bijkomende“V”’s vermeld: • Value: de waarde • … De “V”s van Big Data 11
  • 12. • Produceren en opslaan van gegevens wordt goedkoper • Steeds meer “persoonlijke” diensten gebaseerd op data • Google: reclame gebaseerd op zoekopdrachten • Netflix: suggesties voor films • TomTom: snellere verkeersroutes op basis van file-informatie • “Internet of Things”, “Smart City”, “Connected Cars” • Steeds meer communicatie tussen machines onderling Waarom steeds meer (big) data ? 12
  • 13. • Overal sensoren, die (vaak) verbonden zijn: • Smartphones met GPS, camera en bewegingssensor • Meters luchtkwaliteit, straling, … • Alarmsystemen, domotica • Camera’s en detectoren in het verkeer • (zelfrijdende) auto’s • Sensoren in industriële machines Internet of Things 13
  • 14. • Online en sociale media • Twitter, Facebook, Google, … • Wetenschap • Weer en klimaat, fysica, astronomie • Banken en industrie • Beurs, verzekeringen, chemie, gezondheidszorg • Mobiliteit en transport • Vlotter verkeer, zelfrijdende auto’s • Sport Toepassingen 14
  • 15. • Voordelen en nadelen • “Als het product gratis is, dan ben jij het product” • Vaak de bedoeling om iets te verkopen op basis van • Welke apps je gebruikt en wanneer • Waar je je bevindt en met wie • Welke pagina’s, videos … je bekijkt en deelt • Welke dingen je al online gekocht hebt • … Voorbeeld: sociale media en online platformen 15
  • 16. • Grote hoeveelheid foto’s en metingen • Aarde: foto’s van gebouwen, temperatuur • Ruimte: sterren, planeten • USA: 25+ PB data, code en voorbeelden NASA • https://open.nasa.gov/open-data • België: • Landbouw: groei van gewassen (https://watchitgrow.be) • Terrascope platform (https://terrascope.be) Voorbeeld: satellietgegevens 16
  • 17. Voorbeeld: hoe groen is mijn gemeente ? 17
  • 18. • Auto’s en vrachtwagens registreren situatie op de weg • Putten, ijs, gladde wegen, … • Informatie wordt gedeeld • Waarschuwing naar auto’s in de buurt • Melding naar beheerder van de weg (sneeuwruimers…) • Vb: « BADA » project Volvo / Scania in Zweden • http://www.nvfnorden.org/library/Files/Per- Olof%20Svensk_BADA%207%20June%202017.pdf Voorbeeld: verbeteren situatie autowegen 18
  • 19. • Veel mensen hebben GSM/smartphones altijd bij de hand • Staan in verbinding met antennes • Operatoren kunnen analyses maken voor evenementen • Via welke weg reizen de bezoekers • Hoe lang blijven ze ter plaatse • Vb: Proximus MyAnalytics • https://www.proximusanalytics.be • Geanonimiseerde rapporten (tegen betaling) • Enkel data van Proximus (schatting voor andere operatoren) Voorbeeld: bezoekers evenement op basis van GSM 19
  • 21. • « Wordt het leven duurder in België ? » • Aankopen zoals eten / drinken, maar ook brandstof, kleren • Heeft indirect invloed op indexering (verhoging) huur • O.a. gescande artikelen aan de kassa’s van supermarkten • Vergelijking niet altijd even eenvoudig • Seizoensproducten, zelfde product met andere code … • https://statbel.fgov.be/nl/over- statbel/methodologie/analyses Voorbeeld: consumptieprijsindex Statbel 21
  • 22. • Formule 1 • 100 – 300 sensoren per F1-auto • Snelheid, bandenspanning, remmen, brandstof … • Voetbal: FC Barcelona • (big) data analytics • Sportieve prestaties en gepersonaliseerde interactie fans Voorbeeld: sport 22
  • 23. • CERN “Large Hadron Collider” deeltjesversneller • 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden • https://home.cern/about/computing/processing-what-record • NASA “Square Kilometre Array” telescoop • Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden • https://www.skatelescope.org Voorbeeld: wetenschap 23
  • 25. • Opslag van gegevens wordt steeds goedkoper • Maar niet alles is even nuttig voor een bepaalde analyse • Ook niet altijd duidelijk wat wel / geen invloed heeft • Vaak gedaan om iets te voorspellen of te verbeteren • Voorspellen weer, luchtkwaliteit, verkoop, … • Detecteren van fraude • Samenstellen van nieuwe materialen en geneesmiddelen Analyseren van data 25
  • 26. • Machines “trainen” om bepaalde patronen te herkennen • Beelden: herkennen personen, verkeersborden, kankercellen • Teksten en producten: automatisch indelen in categorieën • Veel onderzoek naar ML door grote IT-bedrijven • https://www.tensorflow.org (Google) • http://www.paddlepaddle.org (Baidu) • http://torch.ch (Facebook) • https://www.ibm.com/watson (IBM) Machine learning 26
  • 27. • Bijvoorbeeld via “notebooks” of “dashboards” • Online alternatief voor rapporten en documenten • Vooral populair bij onderzoekers • Kan ook zonder big data gebruikt worden • Vaak geschreven in Python, “R” en/of Javascript • http://shiny.rstudio.com • http://jupyter.org Visualisatie van gegevens 27
  • 29. Wanneer Big Data / hoe onderdelen kiezen ? 29 • Big Data enkel zinvol voor grote hoeveelheden data • Terabytes of meer • Heel veel verschillende componenten • Evolueren nog steeds erg snel • Moeten niet allemaal gebruikt worden • Geen systeem dat voor elke situatie perfect is • Ingewikkelde zoekopdrachten of niet ? • Gestructureerde data of niet ? • Koppeling met andere systemen ?
  • 31. Hadoop Big Data platform 31 • Niet het enige platform, maar wel heel populair • Bestaat uit verschillende componenten • HDFS, MapReduce, … • Java open source: gratis op eigen servers te gebruiken • Commercieel pakket: Cloudera, MapR, Hortonworks … • Installatie op eigen machines of “in the cloud” • Amazon, Google, Microsoft, Oracle, SAP … • Let op: niet gratis, kosten om data in/uit systeem te halen …
  • 33. Apache Hadoop HDFS 33 • Gedistribueerd file system • (deel van) schijven op aparte systemen gedragen zich als 1 • Geoptimaliseerd voor grote “batch” leesoperaties • Niet voor kleine “random” schrijfoperaties • Kan gebruikt worden met heel veel “gewone” schijven • Zelfs met duizenden machines, tienduizenden schijven • Honderden petabytes • Data wordt automatisch verdeeld en gekopieerd • Detectie + snel herstellen van fouten (vb: kapotte schijf)
  • 34. Waarom data verdelen over meerdere systemen ? 34 • Lezen / schrijven van data is niet oneindig snel • Werk verdelen over verschillende machines • Vermijden dat gebruikers te lang moeten wachten • Herstellen van problemen makkelijker maken • Machines en netwerken kunnen tijdelijk falen of kapot gaan
  • 35. MapReduce 35 • Manier om taken parallel uit te voeren • Vb: tellen van woorden, zoeken • Voor heel grote hoeveelheden data • (veel) meer dan in het geheugen past • Bedoeld voor taken waar alle data 1 keer gelezen wordt • Berekeningen verdelen • Zo dicht mogelijk bij de data uitvoeren • Vermijden dat data heen en weer wordt gestuurd • Resultaten combineren
  • 36. Apache HBase 36 • Database die bovenop HDFS kan draaien • Voor zeer grote databases (miljarden rijen) • Geen volledige vervanging van “klassieke” databases • Geen ingewikkelde queries • Niet veel structuur • Postgresql, Oracle… hebben ook andere mogelijkheden
  • 37. Enkele andere componenten 37 • Apache Cassandra • Ook een database • “altijd beschikbaar” belangrijker dan “altijd dezelfde data” • Apache Hive • SQL-achtige taal bovenop Hadoop • Makkelijker maken om Hadoop te gebruiken
  • 39. • Apache open source • https://projects.apache.org/projects.html?category#big-data • http://hadoop.apache.org • http://spark.apache.org • Big Data Community: • http://bigdata.be • Jaarlijks Data Science evenement: • https://datasciencebe.com Enkele big data / data science linken 39
  • 41. Apache Spark kenmerken 41 • Kan bovenop HDFS kan draaien of apart • Alternatief voor MapReduce • Spark kan verwerkingen in geheugen uitvoeren • Veel sneller voor kleinere hoeveelheden data • Geschikter om meerdere keren door zelfde data te lopen
  • 43. • Data zonder gevoelige / persoonlijke informatie • Wel: statistieken, • Niet: medisch dossier • In een makkelijk te verwerken formaat • Vb: tabellen in MS-Excel, CSV, XML … • Door iedereen gratis te hergebruiken • Ook voor commerciële doeleinden Wat is Open Data ? 43
  • 45. • Big data is niet altijd open data • Vb: veel big data in bedrijven is niet publiek, of niet gratis • Open data is niet altijd big data • Vb: lijst van scholen in Brussel is kort Open Data en Big Data (2) 45
  • 46. • Meestal overheidsdiensten • Steden, Gewesten, federale overheid … • Worden via belastingen betaald door de burgers en bedrijven • Verplichtingen opgelegd door Europese Unie • Soms ook bedrijven • Vb: bedrijven die fietsen of auto’s verhuren • Vaak ook personen / vrijwilligers • Vb: WikiPedia, OpenStreetMap, … Wie publiceert open data ? 46
  • 47. • Vooral steden publiceren adresinformatie • Pleinen, zwembaden, … • Kaartgegevens • Gemeentegrenzen, 3D-kaart Vlaanderen, … • Heel veel statistieken • Bevolking per gemeente, gemiddelde prijzen, … Over welke soort data gaat het ? 47
  • 48. • Combineren met andere data • Artikels schrijven • Vb: gemiddelde prijs huis/appartement per gemeente • Websites bouwen • Vb: https://ici.brussels/nl • Apps bouwen • Vb: “Top Baby Names”: populaire voornamen Wat kan je er mee doen ? 48
  • 49. Voorbeeld: website Limburg in Cijfers 49
  • 50. • Verschillende formaten worden door elkaar gebruikt • CSV, MS-Excel, XML, JSON… • Mogelijk ook verschillende informatie per streek • Soms is bronvermelding verplicht, soms niet • Vaak ook geen garantie op beschikbaarheid / updates • Geen contract Aandachtspunten open data 50
  • 51. • Open data portaal: • https://data.gov.be • Jaarlijks open data evenement: • http://www.openbelgium.be • OpenKnowledge community: • https://www.openknowledge.be Enkele open data linken 51