SlideShare uma empresa Scribd logo
1 de 70
Baixar para ler offline
©2017 Dataiku, Inc. | www.dataiku.com | contact@dataiku.com | @dataiku
JAAP HUISPRIJZEN, GTST, THE BOLD, IKEA EN IENS.
ZOMAAR WAT TOEPASSINGEN VAN MACHINE LEARNING MET DATAIKU
https://longhowlam.wordpress.com
@longhowlam
https://www.linkedin.com/in/longhowlam
Freelance data scientist Contact me if you need me :-)
AGENDA
 DATAIKU INTRODUCTIE
 JAAP.NL HUIZEN ANALYTICS
 SOAP ANALYTICS: GTST EN THE BOLD
 IKEA ANALYTICS
 IENS RESTAURANTS ANALYTICS
Data Science uitdagingen 
die ik bij bedrijven zie
Verschillende programmeer talen en machine learning kits
● Wie kent ze allemaal uitvoerig?
● Python, R, Scala, SQL, Java
● H2o, R  Scikit-learn, Tensorflow, SparkMLlib
Data science Teams die samenwerken (of niet)
Kennis verschil in teams en tussen afdelingen
Deployment van analytische resultaten
● Inzichten, visualisaties
● Dashboards
● Predictive models (batch / real-time)
Data Engineer
Line-of-
business
Data
Consumer
Data EngineerData Engineer
Data AnalystData Analyst
Data ScientistData ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data Scientist
Horizontale samenwerking vs. Verticale samenwerking
Maak Visuals/dashboards
Data preparaties
Werk met code
Werk met een flow GUI
Dataiku Data Science Studio
The most Advanced Data Science Platform
Werk samen!
Powerful
Data Preparatie
Full coding
capabilities
Comprehensive
Data Visualization
Advanced Visual
Machine Learning
Solving the core pains of data science
Batch Runs
Monitor Workflows
Prepare & Analyze data
Interactive Machine learning
Real Time
Model Scoring
Dataiku
DSS
Design
Dataiku DSS
Batch
Automation
Dataiku DSS
Real Time
Deploy
Workflows
Deploy
Models
Dataiku: Klaar voor productie!
JAAP.NL HUIZEN ANALYTICS
HUISPRIJZEN VOORSPELLEN MET DATAIKU
Data van jaap.nl gescraped 130K huizen
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
Parameter Prijs effect (€)
Intercept 24,006
Eerste 2 cijfers postcode 10 240,839
96 − 103,000
12 204,591
79 − 49,002
Type huis Villa 173,000
Tussen woning − 41,000
vrijstaand 73,000
Oppervlakte per m2 2,064
Aantal Kamers elke extra kamer 4,500
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
Lineair regressie model: Simpel maar niet meest accuraat model
PREDICTIVE MODEL RESULTATEN VOOR ANDERE MODEL TYPES
PREDICTIVE MODEL RESULTATEN VOOR ANDERE MODEL TYPES
PREDICTIVE MODEL VISUAL INSPECTION VAN PREDICTIONS RESULTS
PREDICTIVE MODEL VISUAL INSPECTION VAN PREDICTIONS RESULTS
OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
Dataiku stroomlijnt het proces van
• Het maken van een REST API voor een voorspellend model
• Deployment van API’s op een (fleet van) server(s)
• Beheer van API NODES Infrastructuur
• Testen en beheer van verschillende API en API versies
Elke applicatie die een
huisprijs voorspelling
nodig heeft
OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
curl -X POST
http://188.166.112.55:12000/public/api/v1/house_xgboost/pc2model/predict
--data '{ "features" : {
"HouseType": "Tussenwoning",
"kamers": 6,
"Oppervlakte": 134,
"VON": 0,
"PC": "16"
}}'
{"prediction":241287.40,"ignored":false}
Voor PC: "10"
{"prediction":607246.62,"ignored":false}
https://github.com/longhowlam/jaap
https://www.linkedin.com/pulse/huis-te-koop-zet-beleggingsobject-je-huisomschrijving-longhow-lam/
HUISPRIJZEN VOORSPELLEN OP BASIS VAN OMSCHRIJVINGEN
HUISPRIJS
VOORSPELLEN
MET LASSO REGRESSIE OF XGBOOST
TERM DOCUMENT MATRIX
Super sparse: 65.000 rijen en 50.000 kolommen maar heeeeeeel veeeeeeel nullen!
huis vraagprijs aanrecht grote_tuin garage ..(heel veel meer termen).. zwembad
Huis 1 235.000 1 0 1 ... 0
Huis 2 450.000 0 1 0 ... 0
Huis 3 376.000 1 0 0 ... 0
... ... ... ... ... ... ...
... ... ... ... ... ... ...
Huis 65.000 621.000 1 1 ... ... 1
TERM DOCUMENT MATRIX
Te veel kolommen voor normale lineaire regressie, regularization is nodig!
Bijvoorbeeld: “lasso” regression
HUISPRIJS VOORSPELLEN MET LASSO REGRESSIE OF XGBOOST
MANAGED NOTEBOOKS ENVIRONMENT FOR MORE ADVANCED CODE ANALYSIS
R TEXT2VEC PACKAGE MIJN FAVORIETE PACKAGE VOOR SIMPELE TEXT MINING
LASSO REGRESSION NEGATIEVE EN POSITIEVE COEFFICIENTS
R2
= 0.66
Intercept € 238.260
parkkosten € 39.644- familiehuis € 60.168
recreatiebungalow € 32.614- vrijstaande_villa € 48.180
bungalowpark € 31.801- belegging € 45.814
limburgse € 23.483- beleggingsobject € 42.543
2_kamer € 23.034- entree_vestibule € 41.674
plinten € 22.510- rijksmonument € 39.379
overdekt_zwembad € 21.971- recreatief € 39.142
2_kamerappartement € 20.625- verhuurd € 36.171
aannemer € 20.314- detaillering € 35.000
recreatiewoning € 19.748- visgraat € 33.589
proeven € 19.631- eigen_badkamer € 33.454
betaalbaar € 19.621- woningen_1 € 33.321
starterswoning € 19.502- toiletten € 32.836
volwassen € 19.476- rietgedekte € 32.096
kunststofkozijnen € 18.775- representatieve € 31.904
helder € 18.594- alarm € 31.841
verbeterd € 18.488- toplocatie € 31.821
eigen_gebruik € 18.430- gezinshuis € 31.297
XGBOOST BETERE VOORSPELBAARHEID!
XGBOOST wordt een black box model,
Maar uitlegbaarheid is te doen via LIME
Local
Interpretable
Model agnostic
Explanations
Fit lokaal een lineair regressie model!
XGBOOST
R2
= 0.72
ANALYTICS
SOAP
SOAP ANALYTICS TEXT ANALYTICS
Business pain
Kijkend naar GTST waar gaat dit allemaal over?
Zijn er trends in de serie? Is het niet alemaal hetzelfde?
Aanpak
Neem 5000 samenvattingen en pas text mining topics toe
SOAP ANALYTICS MAIN TOPICS
Main topics in 5000 episodes
SOAP ANALYTICS MAIN TOPICS
Main topics in 5000 episodes
SOAP ANALYTICS AFSTAND TUSSEN TOPICS
SOAP ANALYTICS IN ZOOMEN OP EEN TOPIC
SOAP ANALYTICS INZOMEN OP EEN TOPIC
Sub-topics: topic 16 (Ludo, Isabelle, Martine, Janine)
 Harmsen voelt zich alleen.
 Plan van Jack, gevaarlijk
 Afscheidsbrief schrijven
 Paniek, angst
 Vragen over kinderen
 Geld betalen Geld terug krijgen
BELANGRIJK: Business validation!
IK heb mijn vrouw gevraagd, een trouwe GTST watcher
SOAP ANALYTICS TRENDS OVER TIME
 SOAP ANALYTICS ZIJN ALLE AFLEVERINGEN NIET GEWOON HET ZELFDE?
Een 3D UMAP
Uniform
Manifold
Approximation and
Projection
van alle 5000 GTST episodes
Interactief plaatje
WORD EMBEDDINGS IN BOLD & BEAUTIFUL SAMENVATTINGEN
Term Document Matrix
Elk document / samenvatting is een vector van getallen
Word embedding
Elk word is een vector van getallen
Een word embedding moet getrained worden met een collectie van documenten / samenvattingen
Amsterdam = (0.83, 0.89, 0.34, … , 0.63, 0.19)
Steffy = (0.33, 0.19, 0.79, … , 0.13, 0.01)
Germany = (0.72, 0.65, 0.43, … , 0.36, 0.57)
Laugh = (0.85, 0.77, 0.24, … , 0.88, 0.29)
…
…
https://github.com/longhowlam/TBATB
WORD EMBEDDINGS LINGUISTIC REGULARITIES
Closest words
Word relations
250 dimensional space
president
trump
car media
press
house
man
woman
king
queen
vector(“man") − vector(“woman")
is roughly
vector(“king”) − vector(“queen")
Trump speaks with the press
The president talks to the media
WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
4000 dagelijkse samenvattingen
gescraped van de laatste 15 jaar.
We hebben ruim 10.000 unieke
woorden in deze samenvattingen.
WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
Ik maak van elk woord een 250 dimensionale vector (kost 1 uur rekentijd…)
WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
1 steffy steffy 1.00
2 steffy liam 0.82
3 steffy hope 0.79
4 steffy said 0.78
5 steffy wyatt 0.76
6 steffy bill 0.69
7 steffy asked 0.68
8 steffy quinn 0.67
9 steffy agreed 0.65
10 steffy rick 0.65
WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
death furious lastly excused frustration onset
0.223 0.2006 0.1963 0.1958 0.1950 0.1937
Word vectors voor:
Steffy − Liam
WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
liam katie wyatt steffy quinn said
0.5550 0.4845 0.4829 0.4645 0.4491 0.4201
Word vectors voor:
Bill − anger
Kunnen jullie de hand schudden van je twee buren?
EEN STATISTISCH EXPERIMENTJE DOEN
Twee statistieken die ik met jullie wil delen:
50.1% van de mensen
wast hun handen niet na
een toilet bezoek
EEN STATISTISCH EXPERIMENTJE DOEN
84.6% van alle statistieken
worden ter plekke
verzonnen!!
EEN STATISTISCH EXPERIMENTJE DOEN
analytics
THE BILLY INDEX
IKEA WEBSITE HOUD DE BILLY VOORRAAD BIJ
De IKEA Billy Index
Verandering van
de voorraad over tijd
IKEA ANALYTICS THE IKEA BILLY INDEX
IKEA WEBSITE
Start van
nieuwe jaar
IKEA WEBSITE
Zomer gevolgd
door nieuw
schooljaar
IKEA BILLY VERKOOP FORECASTEN IN DE TOEKOMST
THE BILLY INDEX CORRELATIES MET WAT ‘WEER’ VARIABELEN
Elke 1 m/s toename in windsnelheid resulteert in 19 minder Billy’s verkocht :-)
IKEA Product matching
DEEP LEARNING PRE-TRAINED NETWORKS
Deep learning: neurale netwerken met veel hidden layers
De zogenaamde deep convolutional netwerken zijn heel toepasbaar voor plaatjes
Classificatie
VGG16 netwerk bevat miljoenen
parameters, en is getraind op
miljoenen gelabelde plaatjes, met veel
rekenkracht.
Dog
Cat
Car
House
Plane
tree
…
…
…
Castle
chair
Dit is reeds gedaan parameters zijn
bekend en we kunnen dit
hergebruiken
DEEP LEARNING PRE-TRAINED NETWORKS
25.008 dimensional space
IKEA PRODUCT
IMAGES
HACKATON BIJ IKEA DECEMBER 2017
• Scrape 9000 product plaatjes van de Ikea website
• Score elk plaatje met het pre-trained VGG netwerk
• Maak een R shiny app om een plaatje te uploaden
• Bepaal welke Ikea plaatjes dicht bij jouw plaatje zijn
http://145.131.21.163:3838/sample-apps/I_LOVE_IKEA_SHINY_APP/
IENS RESTAURANT PATH ANALYTICS
Business pain
I heb Chinees gegeten welk restaurant moet ik de
volgende keer nemen?
Aanpak
Kijk naar wat anderen hebben gedaan
Op basis van IENS restaurant reviewers!
A FEW FACTS… IENS DATA (TRADITIONELE BI)
Meest voorkomende restaurant naam (39 times)
Onder Nederlandse
restaurants (6 keer)
% Sustainable kitchens
Biological (67%)
French (58%)
Fish (44%)
Vegetarian (39%)
…
…
…
Chinese (3%)
700 reviews op een “normale” zaterdag
Valentijn 2015 had 1200 reviews (1.7 times)
23 keer
12 keer
IENS RESTAURANT ASSOCIATION RULES MINING / MARKET BASKET ANALYSE
IENS RESTAURANT ASSOCIATION RULES MINING / MARKET BASKET ANALYSE
Bedankt voor jullie aandacht. VRAGEN?
Als Freelancer data scientist sta ik open om eens een kop koffie te drinken
CENTRIC STAND 95 echte analytics uses cases
DATAIKU STAND 36 demo en verdere technische vragen
https://www.linkedin.com/in/longhowlam
https://longhowlam.wordpress.com/
@longhowlam

Mais conteúdo relacionado

Semelhante a Jaap Huisprijzen, GTST, The Bold, IKEA en Iens

Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"
Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"
Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"nielssmit
 
Ruud Schuijt (Rednun) @ CMC Video Formats
Ruud Schuijt (Rednun) @ CMC Video FormatsRuud Schuijt (Rednun) @ CMC Video Formats
Ruud Schuijt (Rednun) @ CMC Video FormatsMedia Perspectives
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina
 
Introductie Persistente Identifiers
Introductie Persistente IdentifiersIntroductie Persistente Identifiers
Introductie Persistente Identifiersjuliavytopil
 
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"Peter Vermeulen
 
Circulaire Economie - Erick Wuestman
Circulaire Economie - Erick WuestmanCirculaire Economie - Erick Wuestman
Circulaire Economie - Erick WuestmanDuurzame Scholen
 
Reputatiemanagement verbeteren met SEO
Reputatiemanagement verbeteren met SEOReputatiemanagement verbeteren met SEO
Reputatiemanagement verbeteren met SEORamon Gulikers
 
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU Delft
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU DelftBouwen in de Cloud: Boukje van Reijn - BIM bij TU Delft
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU DelftInterExperts
 
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...Pieter van der Hijden
 
Mechatronic System Design
Mechatronic System DesignMechatronic System Design
Mechatronic System DesignVincent Claes
 
Hoe releasen minder pijnlijk werd bij de ANWB Alarmcentrale
Hoe releasen minder pijnlijk werd bij de ANWB AlarmcentraleHoe releasen minder pijnlijk werd bij de ANWB Alarmcentrale
Hoe releasen minder pijnlijk werd bij de ANWB AlarmcentraleJeroen Reijn
 
24 sept presentatie kpn wilroff to the point in ict (final)
24 sept presentatie kpn   wilroff to the point in ict (final)24 sept presentatie kpn   wilroff to the point in ict (final)
24 sept presentatie kpn wilroff to the point in ict (final)Willem Ellemeet
 

Semelhante a Jaap Huisprijzen, GTST, The Bold, IKEA en Iens (20)

Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"
Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"
Masterclass Kwaliteitsnetwerk Bouw: "BIM in relatie tot kwaliteitsmanagement"
 
Ruud Schuijt (Rednun) @ CMC Video Formats
Ruud Schuijt (Rednun) @ CMC Video FormatsRuud Schuijt (Rednun) @ CMC Video Formats
Ruud Schuijt (Rednun) @ CMC Video Formats
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
 
De Digitale Sprong
De Digitale SprongDe Digitale Sprong
De Digitale Sprong
 
Digital shadowing -case study
Digital shadowing -case studyDigital shadowing -case study
Digital shadowing -case study
 
Webinar Succesvol robotiseren (door Vincent Wiegel en Aart Schoonderbeek)
Webinar Succesvol robotiseren  (door Vincent Wiegel en Aart Schoonderbeek)Webinar Succesvol robotiseren  (door Vincent Wiegel en Aart Schoonderbeek)
Webinar Succesvol robotiseren (door Vincent Wiegel en Aart Schoonderbeek)
 
Introductie Persistente Identifiers
Introductie Persistente IdentifiersIntroductie Persistente Identifiers
Introductie Persistente Identifiers
 
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"
Nationale EuroCloud Monitor 2015 "Tussen Trotski en Troelstra"
 
Circulaire Economie - Erick Wuestman
Circulaire Economie - Erick WuestmanCirculaire Economie - Erick Wuestman
Circulaire Economie - Erick Wuestman
 
Webinar Towards the Digital Factory - Gerlinde Oversluizen
Webinar Towards the Digital Factory - Gerlinde Oversluizen Webinar Towards the Digital Factory - Gerlinde Oversluizen
Webinar Towards the Digital Factory - Gerlinde Oversluizen
 
Monitoring sucks
Monitoring sucksMonitoring sucks
Monitoring sucks
 
Reputatiemanagement verbeteren met SEO
Reputatiemanagement verbeteren met SEOReputatiemanagement verbeteren met SEO
Reputatiemanagement verbeteren met SEO
 
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU Delft
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU DelftBouwen in de Cloud: Boukje van Reijn - BIM bij TU Delft
Bouwen in de Cloud: Boukje van Reijn - BIM bij TU Delft
 
Tiende Meetup: Microservices
Tiende Meetup: MicroservicesTiende Meetup: Microservices
Tiende Meetup: Microservices
 
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...
Internet-of-Things met LoRaWAN; Pieter van der Hijden; HCC!amsterdam, Amstelv...
 
BI-Architectuur
BI-ArchitectuurBI-Architectuur
BI-Architectuur
 
Mechatronic System Design
Mechatronic System DesignMechatronic System Design
Mechatronic System Design
 
Hoe releasen minder pijnlijk werd bij de ANWB Alarmcentrale
Hoe releasen minder pijnlijk werd bij de ANWB AlarmcentraleHoe releasen minder pijnlijk werd bij de ANWB Alarmcentrale
Hoe releasen minder pijnlijk werd bij de ANWB Alarmcentrale
 
Gast College
Gast CollegeGast College
Gast College
 
24 sept presentatie kpn wilroff to the point in ict (final)
24 sept presentatie kpn   wilroff to the point in ict (final)24 sept presentatie kpn   wilroff to the point in ict (final)
24 sept presentatie kpn wilroff to the point in ict (final)
 

Mais de Longhow Lam

Xomia_20220602.pptx
Xomia_20220602.pptxXomia_20220602.pptx
Xomia_20220602.pptxLonghow Lam
 
A Unifying theory for blockchain and AI
A Unifying theory for blockchain and AIA Unifying theory for blockchain and AI
A Unifying theory for blockchain and AILonghow Lam
 
text2vec SatRDay Amsterdam
text2vec SatRDay Amsterdamtext2vec SatRDay Amsterdam
text2vec SatRDay AmsterdamLonghow Lam
 
Dataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamDataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamLonghow Lam
 
Data science in action
Data science in actionData science in action
Data science in actionLonghow Lam
 
MasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsMasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsLonghow Lam
 
Keras on tensorflow in R & Python
Keras on tensorflow in R & PythonKeras on tensorflow in R & Python
Keras on tensorflow in R & PythonLonghow Lam
 
Latent transwarp neural networks
Latent transwarp neural networksLatent transwarp neural networks
Latent transwarp neural networksLonghow Lam
 
MathPaperPublished
MathPaperPublishedMathPaperPublished
MathPaperPublishedLonghow Lam
 
Heliview 29sep2015 slideshare
Heliview 29sep2015 slideshareHeliview 29sep2015 slideshare
Heliview 29sep2015 slideshareLonghow Lam
 
Parameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelParameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelLonghow Lam
 
The analysis of doubly censored survival data
The analysis of doubly censored survival dataThe analysis of doubly censored survival data
The analysis of doubly censored survival dataLonghow Lam
 
Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Longhow Lam
 

Mais de Longhow Lam (13)

Xomia_20220602.pptx
Xomia_20220602.pptxXomia_20220602.pptx
Xomia_20220602.pptx
 
A Unifying theory for blockchain and AI
A Unifying theory for blockchain and AIA Unifying theory for blockchain and AI
A Unifying theory for blockchain and AI
 
text2vec SatRDay Amsterdam
text2vec SatRDay Amsterdamtext2vec SatRDay Amsterdam
text2vec SatRDay Amsterdam
 
Dataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamDataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 Amsterdam
 
Data science in action
Data science in actionData science in action
Data science in action
 
MasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsMasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalytics
 
Keras on tensorflow in R & Python
Keras on tensorflow in R & PythonKeras on tensorflow in R & Python
Keras on tensorflow in R & Python
 
Latent transwarp neural networks
Latent transwarp neural networksLatent transwarp neural networks
Latent transwarp neural networks
 
MathPaperPublished
MathPaperPublishedMathPaperPublished
MathPaperPublished
 
Heliview 29sep2015 slideshare
Heliview 29sep2015 slideshareHeliview 29sep2015 slideshare
Heliview 29sep2015 slideshare
 
Parameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelParameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov model
 
The analysis of doubly censored survival data
The analysis of doubly censored survival dataThe analysis of doubly censored survival data
The analysis of doubly censored survival data
 
Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Machine learning overview (with SAS software)
Machine learning overview (with SAS software)
 

Jaap Huisprijzen, GTST, The Bold, IKEA en Iens

  • 1. ©2017 Dataiku, Inc. | www.dataiku.com | contact@dataiku.com | @dataiku JAAP HUISPRIJZEN, GTST, THE BOLD, IKEA EN IENS. ZOMAAR WAT TOEPASSINGEN VAN MACHINE LEARNING MET DATAIKU https://longhowlam.wordpress.com @longhowlam https://www.linkedin.com/in/longhowlam Freelance data scientist Contact me if you need me :-)
  • 2. AGENDA  DATAIKU INTRODUCTIE  JAAP.NL HUIZEN ANALYTICS  SOAP ANALYTICS: GTST EN THE BOLD  IKEA ANALYTICS  IENS RESTAURANTS ANALYTICS
  • 3. Data Science uitdagingen  die ik bij bedrijven zie Verschillende programmeer talen en machine learning kits ● Wie kent ze allemaal uitvoerig? ● Python, R, Scala, SQL, Java ● H2o, R  Scikit-learn, Tensorflow, SparkMLlib Data science Teams die samenwerken (of niet) Kennis verschil in teams en tussen afdelingen Deployment van analytische resultaten ● Inzichten, visualisaties ● Dashboards ● Predictive models (batch / real-time)
  • 4. Data Engineer Line-of- business Data Consumer Data EngineerData Engineer Data AnalystData Analyst Data ScientistData ScientistData Scientist Data Analyst Business Leader Data Consumer Line-of- business Data Consumer Data Engineer Line-of- business Data Consumer Data Engineer Data Analyst Data ScientistData Scientist Data Analyst Business Leader Data Consumer Line-of- business Data Consumer Data Engineer Data Analyst Data Scientist Horizontale samenwerking vs. Verticale samenwerking
  • 5. Maak Visuals/dashboards Data preparaties Werk met code Werk met een flow GUI Dataiku Data Science Studio The most Advanced Data Science Platform Werk samen!
  • 6. Powerful Data Preparatie Full coding capabilities Comprehensive Data Visualization Advanced Visual Machine Learning Solving the core pains of data science
  • 7. Batch Runs Monitor Workflows Prepare & Analyze data Interactive Machine learning Real Time Model Scoring Dataiku DSS Design Dataiku DSS Batch Automation Dataiku DSS Real Time Deploy Workflows Deploy Models Dataiku: Klaar voor productie!
  • 9. HUISPRIJZEN VOORSPELLEN MET DATAIKU Data van jaap.nl gescraped 130K huizen
  • 10.
  • 11.
  • 12. PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
  • 13. PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
  • 14. PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
  • 15. Parameter Prijs effect (€) Intercept 24,006 Eerste 2 cijfers postcode 10 240,839 96 − 103,000 12 204,591 79 − 49,002 Type huis Villa 173,000 Tussen woning − 41,000 vrijstaand 73,000 Oppervlakte per m2 2,064 Aantal Kamers elke extra kamer 4,500 PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER Lineair regressie model: Simpel maar niet meest accuraat model
  • 16. PREDICTIVE MODEL RESULTATEN VOOR ANDERE MODEL TYPES
  • 17. PREDICTIVE MODEL RESULTATEN VOOR ANDERE MODEL TYPES
  • 18. PREDICTIVE MODEL VISUAL INSPECTION VAN PREDICTIONS RESULTS
  • 19. PREDICTIVE MODEL VISUAL INSPECTION VAN PREDICTIONS RESULTS
  • 20. OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN? Dataiku stroomlijnt het proces van • Het maken van een REST API voor een voorspellend model • Deployment van API’s op een (fleet van) server(s) • Beheer van API NODES Infrastructuur • Testen en beheer van verschillende API en API versies Elke applicatie die een huisprijs voorspelling nodig heeft
  • 21. OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
  • 22. OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN? curl -X POST http://188.166.112.55:12000/public/api/v1/house_xgboost/pc2model/predict --data '{ "features" : { "HouseType": "Tussenwoning", "kamers": 6, "Oppervlakte": 134, "VON": 0, "PC": "16" }}' {"prediction":241287.40,"ignored":false} Voor PC: "10" {"prediction":607246.62,"ignored":false}
  • 24. HUISPRIJS VOORSPELLEN MET LASSO REGRESSIE OF XGBOOST TERM DOCUMENT MATRIX Super sparse: 65.000 rijen en 50.000 kolommen maar heeeeeeel veeeeeeel nullen! huis vraagprijs aanrecht grote_tuin garage ..(heel veel meer termen).. zwembad Huis 1 235.000 1 0 1 ... 0 Huis 2 450.000 0 1 0 ... 0 Huis 3 376.000 1 0 0 ... 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... Huis 65.000 621.000 1 1 ... ... 1
  • 25. TERM DOCUMENT MATRIX Te veel kolommen voor normale lineaire regressie, regularization is nodig! Bijvoorbeeld: “lasso” regression HUISPRIJS VOORSPELLEN MET LASSO REGRESSIE OF XGBOOST
  • 26. MANAGED NOTEBOOKS ENVIRONMENT FOR MORE ADVANCED CODE ANALYSIS
  • 27. R TEXT2VEC PACKAGE MIJN FAVORIETE PACKAGE VOOR SIMPELE TEXT MINING
  • 28. LASSO REGRESSION NEGATIEVE EN POSITIEVE COEFFICIENTS R2 = 0.66 Intercept € 238.260 parkkosten € 39.644- familiehuis € 60.168 recreatiebungalow € 32.614- vrijstaande_villa € 48.180 bungalowpark € 31.801- belegging € 45.814 limburgse € 23.483- beleggingsobject € 42.543 2_kamer € 23.034- entree_vestibule € 41.674 plinten € 22.510- rijksmonument € 39.379 overdekt_zwembad € 21.971- recreatief € 39.142 2_kamerappartement € 20.625- verhuurd € 36.171 aannemer € 20.314- detaillering € 35.000 recreatiewoning € 19.748- visgraat € 33.589 proeven € 19.631- eigen_badkamer € 33.454 betaalbaar € 19.621- woningen_1 € 33.321 starterswoning € 19.502- toiletten € 32.836 volwassen € 19.476- rietgedekte € 32.096 kunststofkozijnen € 18.775- representatieve € 31.904 helder € 18.594- alarm € 31.841 verbeterd € 18.488- toplocatie € 31.821 eigen_gebruik € 18.430- gezinshuis € 31.297
  • 29. XGBOOST BETERE VOORSPELBAARHEID! XGBOOST wordt een black box model, Maar uitlegbaarheid is te doen via LIME Local Interpretable Model agnostic Explanations Fit lokaal een lineair regressie model!
  • 32. SOAP ANALYTICS TEXT ANALYTICS Business pain Kijkend naar GTST waar gaat dit allemaal over? Zijn er trends in de serie? Is het niet alemaal hetzelfde? Aanpak Neem 5000 samenvattingen en pas text mining topics toe
  • 33. SOAP ANALYTICS MAIN TOPICS Main topics in 5000 episodes
  • 34. SOAP ANALYTICS MAIN TOPICS Main topics in 5000 episodes
  • 35. SOAP ANALYTICS AFSTAND TUSSEN TOPICS
  • 36. SOAP ANALYTICS IN ZOOMEN OP EEN TOPIC
  • 37. SOAP ANALYTICS INZOMEN OP EEN TOPIC Sub-topics: topic 16 (Ludo, Isabelle, Martine, Janine)  Harmsen voelt zich alleen.  Plan van Jack, gevaarlijk  Afscheidsbrief schrijven  Paniek, angst  Vragen over kinderen  Geld betalen Geld terug krijgen BELANGRIJK: Business validation! IK heb mijn vrouw gevraagd, een trouwe GTST watcher
  • 39.  SOAP ANALYTICS ZIJN ALLE AFLEVERINGEN NIET GEWOON HET ZELFDE? Een 3D UMAP Uniform Manifold Approximation and Projection van alle 5000 GTST episodes Interactief plaatje
  • 40. WORD EMBEDDINGS IN BOLD & BEAUTIFUL SAMENVATTINGEN Term Document Matrix Elk document / samenvatting is een vector van getallen Word embedding Elk word is een vector van getallen Een word embedding moet getrained worden met een collectie van documenten / samenvattingen Amsterdam = (0.83, 0.89, 0.34, … , 0.63, 0.19) Steffy = (0.33, 0.19, 0.79, … , 0.13, 0.01) Germany = (0.72, 0.65, 0.43, … , 0.36, 0.57) Laugh = (0.85, 0.77, 0.24, … , 0.88, 0.29) … … https://github.com/longhowlam/TBATB
  • 41. WORD EMBEDDINGS LINGUISTIC REGULARITIES Closest words Word relations 250 dimensional space president trump car media press house man woman king queen vector(“man") − vector(“woman") is roughly vector(“king”) − vector(“queen") Trump speaks with the press The president talks to the media
  • 42. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD 4000 dagelijkse samenvattingen gescraped van de laatste 15 jaar. We hebben ruim 10.000 unieke woorden in deze samenvattingen.
  • 43. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD Ik maak van elk woord een 250 dimensionale vector (kost 1 uur rekentijd…)
  • 44. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD 1 steffy steffy 1.00 2 steffy liam 0.82 3 steffy hope 0.79 4 steffy said 0.78 5 steffy wyatt 0.76 6 steffy bill 0.69 7 steffy asked 0.68 8 steffy quinn 0.67 9 steffy agreed 0.65 10 steffy rick 0.65
  • 45. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD death furious lastly excused frustration onset 0.223 0.2006 0.1963 0.1958 0.1950 0.1937 Word vectors voor: Steffy − Liam
  • 46. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD liam katie wyatt steffy quinn said 0.5550 0.4845 0.4829 0.4645 0.4491 0.4201 Word vectors voor: Bill − anger
  • 47. Kunnen jullie de hand schudden van je twee buren? EEN STATISTISCH EXPERIMENTJE DOEN Twee statistieken die ik met jullie wil delen:
  • 48. 50.1% van de mensen wast hun handen niet na een toilet bezoek EEN STATISTISCH EXPERIMENTJE DOEN
  • 49. 84.6% van alle statistieken worden ter plekke verzonnen!! EEN STATISTISCH EXPERIMENTJE DOEN
  • 52. IKEA WEBSITE HOUD DE BILLY VOORRAAD BIJ De IKEA Billy Index Verandering van de voorraad over tijd
  • 53. IKEA ANALYTICS THE IKEA BILLY INDEX
  • 56. IKEA BILLY VERKOOP FORECASTEN IN DE TOEKOMST
  • 57. THE BILLY INDEX CORRELATIES MET WAT ‘WEER’ VARIABELEN
  • 58. Elke 1 m/s toename in windsnelheid resulteert in 19 minder Billy’s verkocht :-)
  • 60. DEEP LEARNING PRE-TRAINED NETWORKS Deep learning: neurale netwerken met veel hidden layers De zogenaamde deep convolutional netwerken zijn heel toepasbaar voor plaatjes Classificatie VGG16 netwerk bevat miljoenen parameters, en is getraind op miljoenen gelabelde plaatjes, met veel rekenkracht. Dog Cat Car House Plane tree … … … Castle chair Dit is reeds gedaan parameters zijn bekend en we kunnen dit hergebruiken
  • 61. DEEP LEARNING PRE-TRAINED NETWORKS 25.008 dimensional space
  • 62. IKEA PRODUCT IMAGES HACKATON BIJ IKEA DECEMBER 2017 • Scrape 9000 product plaatjes van de Ikea website • Score elk plaatje met het pre-trained VGG netwerk • Maak een R shiny app om een plaatje te uploaden • Bepaal welke Ikea plaatjes dicht bij jouw plaatje zijn
  • 63.
  • 65.
  • 66. IENS RESTAURANT PATH ANALYTICS Business pain I heb Chinees gegeten welk restaurant moet ik de volgende keer nemen? Aanpak Kijk naar wat anderen hebben gedaan Op basis van IENS restaurant reviewers!
  • 67. A FEW FACTS… IENS DATA (TRADITIONELE BI) Meest voorkomende restaurant naam (39 times) Onder Nederlandse restaurants (6 keer) % Sustainable kitchens Biological (67%) French (58%) Fish (44%) Vegetarian (39%) … … … Chinese (3%) 700 reviews op een “normale” zaterdag Valentijn 2015 had 1200 reviews (1.7 times) 23 keer 12 keer
  • 68. IENS RESTAURANT ASSOCIATION RULES MINING / MARKET BASKET ANALYSE
  • 69. IENS RESTAURANT ASSOCIATION RULES MINING / MARKET BASKET ANALYSE
  • 70. Bedankt voor jullie aandacht. VRAGEN? Als Freelancer data scientist sta ik open om eens een kop koffie te drinken CENTRIC STAND 95 echte analytics uses cases DATAIKU STAND 36 demo en verdere technische vragen https://www.linkedin.com/in/longhowlam https://longhowlam.wordpress.com/ @longhowlam