Jaap Huisprijzen, GTST, The Bold, IKEA en Iens, zomaar wat toepassingen van machine learning met Dataiku.
Slides of my presentation at BigDataExpo Utrect 20-Sep-2018
3. Data Science uitdagingen
die ik bij bedrijven zie
Verschillende programmeer talen en machine learning kits
● Wie kent ze allemaal uitvoerig?
● Python, R, Scala, SQL, Java
● H2o, R Scikit-learn, Tensorflow, SparkMLlib
Data science Teams die samenwerken (of niet)
Kennis verschil in teams en tussen afdelingen
Deployment van analytische resultaten
● Inzichten, visualisaties
● Dashboards
● Predictive models (batch / real-time)
4. Data Engineer
Line-of-
business
Data
Consumer
Data EngineerData Engineer
Data AnalystData Analyst
Data ScientistData ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data Scientist
Horizontale samenwerking vs. Verticale samenwerking
7. Batch Runs
Monitor Workflows
Prepare & Analyze data
Interactive Machine learning
Real Time
Model Scoring
Dataiku
DSS
Design
Dataiku DSS
Batch
Automation
Dataiku DSS
Real Time
Deploy
Workflows
Deploy
Models
Dataiku: Klaar voor productie!
15. Parameter Prijs effect (€)
Intercept 24,006
Eerste 2 cijfers postcode 10 240,839
96 − 103,000
12 204,591
79 − 49,002
Type huis Villa 173,000
Tussen woning − 41,000
vrijstaand 73,000
Oppervlakte per m2 2,064
Aantal Kamers elke extra kamer 4,500
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
Lineair regressie model: Simpel maar niet meest accuraat model
20. OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
Dataiku stroomlijnt het proces van
• Het maken van een REST API voor een voorspellend model
• Deployment van API’s op een (fleet van) server(s)
• Beheer van API NODES Infrastructuur
• Testen en beheer van verschillende API en API versies
Elke applicatie die een
huisprijs voorspelling
nodig heeft
24. HUISPRIJS
VOORSPELLEN
MET LASSO REGRESSIE OF XGBOOST
TERM DOCUMENT MATRIX
Super sparse: 65.000 rijen en 50.000 kolommen maar heeeeeeel veeeeeeel nullen!
huis vraagprijs aanrecht grote_tuin garage ..(heel veel meer termen).. zwembad
Huis 1 235.000 1 0 1 ... 0
Huis 2 450.000 0 1 0 ... 0
Huis 3 376.000 1 0 0 ... 0
... ... ... ... ... ... ...
... ... ... ... ... ... ...
Huis 65.000 621.000 1 1 ... ... 1
25. TERM DOCUMENT MATRIX
Te veel kolommen voor normale lineaire regressie, regularization is nodig!
Bijvoorbeeld: “lasso” regression
HUISPRIJS VOORSPELLEN MET LASSO REGRESSIE OF XGBOOST
29. XGBOOST BETERE VOORSPELBAARHEID!
XGBOOST wordt een black box model,
Maar uitlegbaarheid is te doen via LIME
Local
Interpretable
Model agnostic
Explanations
Fit lokaal een lineair regressie model!
32. SOAP ANALYTICS TEXT ANALYTICS
Business pain
Kijkend naar GTST waar gaat dit allemaal over?
Zijn er trends in de serie? Is het niet alemaal hetzelfde?
Aanpak
Neem 5000 samenvattingen en pas text mining topics toe
37. SOAP ANALYTICS INZOMEN OP EEN TOPIC
Sub-topics: topic 16 (Ludo, Isabelle, Martine, Janine)
Harmsen voelt zich alleen.
Plan van Jack, gevaarlijk
Afscheidsbrief schrijven
Paniek, angst
Vragen over kinderen
Geld betalen Geld terug krijgen
BELANGRIJK: Business validation!
IK heb mijn vrouw gevraagd, een trouwe GTST watcher
39. SOAP ANALYTICS ZIJN ALLE AFLEVERINGEN NIET GEWOON HET ZELFDE?
Een 3D UMAP
Uniform
Manifold
Approximation and
Projection
van alle 5000 GTST episodes
Interactief plaatje
40. WORD EMBEDDINGS IN BOLD & BEAUTIFUL SAMENVATTINGEN
Term Document Matrix
Elk document / samenvatting is een vector van getallen
Word embedding
Elk word is een vector van getallen
Een word embedding moet getrained worden met een collectie van documenten / samenvattingen
Amsterdam = (0.83, 0.89, 0.34, … , 0.63, 0.19)
Steffy = (0.33, 0.19, 0.79, … , 0.13, 0.01)
Germany = (0.72, 0.65, 0.43, … , 0.36, 0.57)
Laugh = (0.85, 0.77, 0.24, … , 0.88, 0.29)
…
…
https://github.com/longhowlam/TBATB
41. WORD EMBEDDINGS LINGUISTIC REGULARITIES
Closest words
Word relations
250 dimensional space
president
trump
car media
press
house
man
woman
king
queen
vector(“man") − vector(“woman")
is roughly
vector(“king”) − vector(“queen")
Trump speaks with the press
The president talks to the media
42. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
4000 dagelijkse samenvattingen
gescraped van de laatste 15 jaar.
We hebben ruim 10.000 unieke
woorden in deze samenvattingen.
43. WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
Ik maak van elk woord een 250 dimensionale vector (kost 1 uur rekentijd…)
60. DEEP LEARNING PRE-TRAINED NETWORKS
Deep learning: neurale netwerken met veel hidden layers
De zogenaamde deep convolutional netwerken zijn heel toepasbaar voor plaatjes
Classificatie
VGG16 netwerk bevat miljoenen
parameters, en is getraind op
miljoenen gelabelde plaatjes, met veel
rekenkracht.
Dog
Cat
Car
House
Plane
tree
…
…
…
Castle
chair
Dit is reeds gedaan parameters zijn
bekend en we kunnen dit
hergebruiken
62. IKEA PRODUCT
IMAGES
HACKATON BIJ IKEA DECEMBER 2017
• Scrape 9000 product plaatjes van de Ikea website
• Score elk plaatje met het pre-trained VGG netwerk
• Maak een R shiny app om een plaatje te uploaden
• Bepaal welke Ikea plaatjes dicht bij jouw plaatje zijn
66. IENS RESTAURANT PATH ANALYTICS
Business pain
I heb Chinees gegeten welk restaurant moet ik de
volgende keer nemen?
Aanpak
Kijk naar wat anderen hebben gedaan
Op basis van IENS restaurant reviewers!
67. A FEW FACTS… IENS DATA (TRADITIONELE BI)
Meest voorkomende restaurant naam (39 times)
Onder Nederlandse
restaurants (6 keer)
% Sustainable kitchens
Biological (67%)
French (58%)
Fish (44%)
Vegetarian (39%)
…
…
…
Chinese (3%)
700 reviews op een “normale” zaterdag
Valentijn 2015 had 1200 reviews (1.7 times)
23 keer
12 keer
70. Bedankt voor jullie aandacht. VRAGEN?
Als Freelancer data scientist sta ik open om eens een kop koffie te drinken
CENTRIC STAND 95 echte analytics uses cases
DATAIKU STAND 36 demo en verdere technische vragen
https://www.linkedin.com/in/longhowlam
https://longhowlam.wordpress.com/
@longhowlam