SlideShare uma empresa Scribd logo
1 de 20
Statistiek en grote data
bestanden


Piet Daas, Martijn Tennekes, Edwin de Jonge,
Alex Priem en Merijn van Pelt

Centraal Bureau voor de Statistiek

                                     Big Data Analytics, 14 Juni Almere
Centraal Bureau voor de Statistiek
• Taak: “het publiceren van betrouwbare en
  samenhangende statistische informatie, die
  inspeelt op de behoefte van de samenleving”.
  • in 2012 zo’n kleine 5000 officiële publicaties & tabellen

• Doel: maximale vermindering van administratieve
  lasten
  • Door bestaande administratieve bestanden te
    hergebruiken.
  • Kijken naar de nieuwe bronnen van informatie: Big Data!

 Big Data Analytics 14 Juni Almere                              1
CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
   1. Enquêtegegevens (steeds minder)
             Per enquête tot max. 100.000 records per jaar

   2. Administratieve bronnen (steeds meer)
             Per bron tot 20 miljoen records per maand

   •      Ook steeds meer ‘nieuwe’ bronnen (Big Data)
             Per bron zo’n 40-80 miljoen records per dag


  Big Data Analytics 14 Juni Almere                           2
CBS en gegevens (2)

• Er is steeds meer en steeds vaker data beschikbaar:
   • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
     • Steeds grotere hoeveelheden data moeten snel
       gecontroleerd, verwerkt en geanalyseerd worden
     • Meer aandacht voor selectiviteit en datatransformatie
     • Meer mogelijkheden voor snelle cijfers (‘real-time
       statistics’)
   • Behoefte aan nieuwe methoden en tools
     • Statistische methoden geschikt voor grote datasets
     • Denk aan: visualisatie methoden en data-, tekst- en
       stream-mining technieken

   Big Data Analytics 14 Juni Almere                         3
Nieuwe ontwikkelingen

•    Voorbeelden uit de praktijk
    1) Visualisatie-methoden om snel inzicht te krijgen
        in grote hoeveelheden gegevens
         a. Virtuele Volkstelling   (17 miljoen records)
         b. Polisadministratie      (20 miljoen records)

    2) Bevindingen van onderzoek gebruik Big Data
        bronnen
         c. Verkeerslusgegevens     (80 miljoen records)
         • Mobiele telefonie        (~500 miljoen records)


Big Data Analytics 14 Juni Almere                            4
Voorbeeld a. Virtuele Volkstelling
     • Volkstelling is verplicht, eens in 10-jaar
     • In Nederland niet meer met vragenlijsten
          • Laatste traditionele volkstelling in 1971
     • Nu door (her)gebruik van reeds verzamelde
       informatie
          • Grootschalig koppelen van administratieve bronnen en
            enquêtegegevens
          • Controleren en bijschatten
          • Hoe controleren?
              • Met een visualisatiemethode: Tableplot


Big Data Analytics 14 Juni Almere                                  5
Big Data Analytics 14 Juni Almere   Een tableplot van het testbestand
Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
  alle banen, uitkeringen en pensioenen in
  Nederland
     • Verzameld door Belastingdienst en UWV
     • Elke maand 20 miljoen records

     • Hoe krijgen we inzicht in deze enorme bak
       data?
          • Met een visualisatie: heat map



Big Data Analytics 14 Juni Almere                  7
Heatmap: Leeftijd, ‘Inkomen’




Big Data Analytics 14 Juni Almere   8
In 3D heatmap: Leeftijd, Inkomen, Aantal
                                                    Na ‘in
                                                          dikken
                                                                ’




           leef
                  tijd
                                      leef
                                             tijd




  Big Data Analytics 14 Juni Almere                             9
Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
     • Elke minuut (24/7) wordt het aantal
       passerende voertuigen op ~10.000
       meetpunten in Nederland geteld
          • Totaal en in verschillende lengtecategorieën


     • Mooie bron om verkeer- en vervoerstatistieken
       mee te maken
          • Veel data, zo’n 80 miljoen records per dag



Big Data Analytics 14 Juni Almere                          10
Aantal gedetecteerde voertuigen op één dag in NL




                                                        Alle locaties




                                      Totaal = ~ 294 miljoen

  Big Data Analytics 14 Juni Almere                                 11
Registratie activiteit verkeerslussen (eerste 10 min)




 Big Data Analytics 14 Juni Almere                 12
Na ‘gaafmaken’ van lusdata (op macroniveau)
                                     Maar op microniveau




 Big Data Analytics 14 Juni Almere                   13
Nog steeds op microniveau veel ‘ruis’




Big Data Analytics 14 Juni Almere           14
Kijk naar trend: voortschrijdend gemiddelde



                                     60 min gem.

                                     30 min gem.

                                     20 min gem.

                                     10 min gem.

                                      5 min gem.

                                        origineel




 Big Data Analytics 14 Juni Almere                  15
Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
      • Bijna altijd bij zich en staat vrijwel altijd aan
          • Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
      • Met behulp van registraties van providers:
          • Verplaatsingsgedrag (‘Dag’-populatie)
          • Toerisme (nieuwe aanmeldingen op netwerk)
          • Mensenmassa’s (bijv. bij evenementen)
      • Als meetinstrument te gebruiken voor:
          •   Vragenlijsten (via App, SMS of browser)
          •   Maken van foto’s van producten, kassabonnen en streepjescodes
          •   Doorgeven exacte locatie (GPS)
          •   Etc.


Big Data Analytics 14 Juni Almere                                             16
Verplaatsingsgedrag mobiele telefoons
                                    Verplaatsingen van zeer
                                    actieve mobiele gebruikers
                                       - gedurende 14 dagen
                                       - van één provider

                                    Gebaseerd op:
                                       - Bel- en SMS-activiteit
                                           meer dan 1x / dag
                                       - Locatie telefoonmasten

                                    Duidelijk selectief:
                                       - Wel de grote steden
                                       - Nauwelijks ‘t noorden
                                         en zeeland


Big Data Analytics 14 Juni Almere                                 17
Afsluitend: Statistiek en ‘Big Data’
   •   Geschikt maken voor statistisch gebruik is veel werk
        • Vooronderzoek nodig, kost veel tijd
        • Informatiereductie (‘indikken’) nodig
        • Risico: ‘garbage in’     ‘garbage statistics out’
   •   Traditionele aanpak schiet te kort
        • Zijn geen steekproefgegevens meer
        • Betreft vaak een selectief deel van de populatie
        • Soms te veel data (overdekking & teveel detail)
        • Bij standaard analyses wordt alles significant!
   •   Meer behoefte aan:
        • Visualisatiemethoden (om snel inzicht te krijgen)
        • Snelle methoden en niet-lineaire schatters
        • ‘Computational statistics’ (& snelle hardware)
        • Privacy-eisen worden hoger!


  Big Data Analytics 14 Juni Almere                           18
Big Data Analytics 14 Juni Almere   De toekomst van het CBS?

Mais conteúdo relacionado

Semelhante a Dr. Piet Daas (CBS) - Statistiek en grote data bestanden

Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenVNG Realisatie
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres EindhovenAppsForGhent
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentRosseau Bart
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalRosseau Bart
 
Presentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenPresentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenCmotions
 
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'ScienceWorks
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small dataNMITSymposium
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) IntoTheMinds
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open DataAd Steenbakkers
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTDutch Power
 
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision Opleidingen
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
 
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017IntoTheMinds
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstOscar Wijsman
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankLisette van Beusekom
 
Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)adviesch
 
Exploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisExploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisKVANdagen
 

Semelhante a Dr. Piet Daas (CBS) - Statistiek en grote data bestanden (20)

Big data @ CBS
Big data @ CBSBig data @ CBS
Big data @ CBS
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
 
Presentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenPresentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doen
 
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
 
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision - Big data voor de Overheid
Eduvision - Big data voor de Overheid
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
 
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomst
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
 
Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)
 
Exploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisExploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de Archivaris
 
Bigdata
BigdataBigdata
Bigdata
 

Mais de AlmereDataCapital

Karel Thönissen (Garabit) @ PIDS seminar
Karel Thönissen (Garabit) @ PIDS seminarKarel Thönissen (Garabit) @ PIDS seminar
Karel Thönissen (Garabit) @ PIDS seminarAlmereDataCapital
 
Steven van der Linden (Qforce) @ PIDS seminar
Steven van der Linden (Qforce) @ PIDS seminarSteven van der Linden (Qforce) @ PIDS seminar
Steven van der Linden (Qforce) @ PIDS seminarAlmereDataCapital
 
Maarten Stultjens (Elephant Security) @ PIDS seminar
Maarten Stultjens (Elephant Security) @ PIDS seminarMaarten Stultjens (Elephant Security) @ PIDS seminar
Maarten Stultjens (Elephant Security) @ PIDS seminarAlmereDataCapital
 
Sampo Kellomäki (Synergetics) @ PIDS seminar
Sampo Kellomäki (Synergetics) @ PIDS seminarSampo Kellomäki (Synergetics) @ PIDS seminar
Sampo Kellomäki (Synergetics) @ PIDS seminarAlmereDataCapital
 
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminar
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminarJaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminar
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminarAlmereDataCapital
 
Peter Kits (Holland Van Gijzen) @ PIDS seminar
Peter Kits (Holland Van Gijzen) @ PIDS seminarPeter Kits (Holland Van Gijzen) @ PIDS seminar
Peter Kits (Holland Van Gijzen) @ PIDS seminarAlmereDataCapital
 
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminar
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminarProf. mr. Sijmons (Universiteit Utrecht) @ PIDS seminar
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminarAlmereDataCapital
 
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'AlmereDataCapital
 
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...AlmereDataCapital
 
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...AlmereDataCapital
 
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...AlmereDataCapital
 
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de Zorg
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de ZorgCarlijn Nouwen (McKinsey) - Keynote: Big Data in de Zorg
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de ZorgAlmereDataCapital
 
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...AlmereDataCapital
 
Nicky Hekster (IBM) - Watson for Health
Nicky Hekster (IBM) - Watson for HealthNicky Hekster (IBM) - Watson for Health
Nicky Hekster (IBM) - Watson for HealthAlmereDataCapital
 
Freek Bomhof (TNO) - Big Data en kansen in de zorg
Freek Bomhof (TNO) - Big Data en kansen in de zorgFreek Bomhof (TNO) - Big Data en kansen in de zorg
Freek Bomhof (TNO) - Big Data en kansen in de zorgAlmereDataCapital
 
Harro Stokman (Euvision) - Big Brother Watches Big Data
Harro Stokman (Euvision) - Big Brother Watches Big DataHarro Stokman (Euvision) - Big Brother Watches Big Data
Harro Stokman (Euvision) - Big Brother Watches Big DataAlmereDataCapital
 
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storage
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storageArjan Hassing (Ernst & Young) - Kosten besparen op big data storage
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storageAlmereDataCapital
 
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdata
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdataLex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdata
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdataAlmereDataCapital
 
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe data
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe dataProf. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe data
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe dataAlmereDataCapital
 
Peter Walgemoed (Carelliance) - Businessmodels for Big Data
Peter Walgemoed (Carelliance) - Businessmodels for Big DataPeter Walgemoed (Carelliance) - Businessmodels for Big Data
Peter Walgemoed (Carelliance) - Businessmodels for Big DataAlmereDataCapital
 

Mais de AlmereDataCapital (20)

Karel Thönissen (Garabit) @ PIDS seminar
Karel Thönissen (Garabit) @ PIDS seminarKarel Thönissen (Garabit) @ PIDS seminar
Karel Thönissen (Garabit) @ PIDS seminar
 
Steven van der Linden (Qforce) @ PIDS seminar
Steven van der Linden (Qforce) @ PIDS seminarSteven van der Linden (Qforce) @ PIDS seminar
Steven van der Linden (Qforce) @ PIDS seminar
 
Maarten Stultjens (Elephant Security) @ PIDS seminar
Maarten Stultjens (Elephant Security) @ PIDS seminarMaarten Stultjens (Elephant Security) @ PIDS seminar
Maarten Stultjens (Elephant Security) @ PIDS seminar
 
Sampo Kellomäki (Synergetics) @ PIDS seminar
Sampo Kellomäki (Synergetics) @ PIDS seminarSampo Kellomäki (Synergetics) @ PIDS seminar
Sampo Kellomäki (Synergetics) @ PIDS seminar
 
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminar
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminarJaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminar
Jaap-Henk Hoepman (Privacy & Identity Lab) @ PIDS seminar
 
Peter Kits (Holland Van Gijzen) @ PIDS seminar
Peter Kits (Holland Van Gijzen) @ PIDS seminarPeter Kits (Holland Van Gijzen) @ PIDS seminar
Peter Kits (Holland Van Gijzen) @ PIDS seminar
 
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminar
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminarProf. mr. Sijmons (Universiteit Utrecht) @ PIDS seminar
Prof. mr. Sijmons (Universiteit Utrecht) @ PIDS seminar
 
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'
Roland Haeve (Atos): 'Using the Cloud for Big Data Analytics'
 
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visuali...
 
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...
Gerard Jansen (CEO Alan Turing Institute) - Alan Turing Institute: brengt dat...
 
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...
Bert Reijmerink (Genalice) - Hoe technologie bijdraagt aan een betere behande...
 
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de Zorg
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de ZorgCarlijn Nouwen (McKinsey) - Keynote: Big Data in de Zorg
Carlijn Nouwen (McKinsey) - Keynote: Big Data in de Zorg
 
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...
Sjaak van der Pouw (Siemens Healthcare) - Beeldexplosie: de mogelijkheden van...
 
Nicky Hekster (IBM) - Watson for Health
Nicky Hekster (IBM) - Watson for HealthNicky Hekster (IBM) - Watson for Health
Nicky Hekster (IBM) - Watson for Health
 
Freek Bomhof (TNO) - Big Data en kansen in de zorg
Freek Bomhof (TNO) - Big Data en kansen in de zorgFreek Bomhof (TNO) - Big Data en kansen in de zorg
Freek Bomhof (TNO) - Big Data en kansen in de zorg
 
Harro Stokman (Euvision) - Big Brother Watches Big Data
Harro Stokman (Euvision) - Big Brother Watches Big DataHarro Stokman (Euvision) - Big Brother Watches Big Data
Harro Stokman (Euvision) - Big Brother Watches Big Data
 
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storage
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storageArjan Hassing (Ernst & Young) - Kosten besparen op big data storage
Arjan Hassing (Ernst & Young) - Kosten besparen op big data storage
 
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdata
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdataLex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdata
Lex Pater (Flevoziekenhuis) - Slim omgaan met ziekenhuisdata
 
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe data
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe dataProf. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe data
Prof. Ard den Heeten (LRCB) - Brondata: kennis uit ruwe data
 
Peter Walgemoed (Carelliance) - Businessmodels for Big Data
Peter Walgemoed (Carelliance) - Businessmodels for Big DataPeter Walgemoed (Carelliance) - Businessmodels for Big Data
Peter Walgemoed (Carelliance) - Businessmodels for Big Data
 

Dr. Piet Daas (CBS) - Statistiek en grote data bestanden

  • 1. Statistiek en grote data bestanden Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Analytics, 14 Juni Almere
  • 2. Centraal Bureau voor de Statistiek • Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen • Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Analytics 14 Juni Almere 1
  • 3. CBS en gegevens Flinke verandering in gebruik beschikbare informatie voor statistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand • Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n 40-80 miljoen records per dag Big Data Analytics 14 Juni Almere 2
  • 4. CBS en gegevens (2) • Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Analytics 14 Juni Almere 3
  • 5. Nieuwe ontwikkelingen • Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) • Mobiele telefonie (~500 miljoen records) Big Data Analytics 14 Juni Almere 4
  • 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: Tableplot Big Data Analytics 14 Juni Almere 5
  • 7. Big Data Analytics 14 Juni Almere Een tableplot van het testbestand
  • 8. Voorbeeld b: Polisadministratie • Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map Big Data Analytics 14 Juni Almere 7
  • 9. Heatmap: Leeftijd, ‘Inkomen’ Big Data Analytics 14 Juni Almere 8
  • 10. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ leef tijd leef tijd Big Data Analytics 14 Juni Almere 9
  • 11. Voorbeeld c: Verkeerslusgegevens • Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dag Big Data Analytics 14 Juni Almere 10
  • 12. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 294 miljoen Big Data Analytics 14 Juni Almere 11
  • 13. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Analytics 14 Juni Almere 12
  • 14. Na ‘gaafmaken’ van lusdata (op macroniveau) Maar op microniveau Big Data Analytics 14 Juni Almere 13
  • 15. Nog steeds op microniveau veel ‘ruis’ Big Data Analytics 14 Juni Almere 14
  • 16. Kijk naar trend: voortschrijdend gemiddelde 60 min gem. 30 min gem. 20 min gem. 10 min gem. 5 min gem. origineel Big Data Analytics 14 Juni Almere 15
  • 17. Voorbeeld d: Mobiele telefoon • Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc. Big Data Analytics 14 Juni Almere 16
  • 18. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en zeeland Big Data Analytics 14 Juni Almere 17
  • 19. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie (‘indikken’) nodig • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Zijn geen steekproefgegevens meer • Betreft vaak een selectief deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Analytics 14 Juni Almere 18
  • 20. Big Data Analytics 14 Juni Almere De toekomst van het CBS?