Jaap Huisprijzen, GTST, The Bold, IKEA en Iens

©2017 Dataiku, Inc. | www.dataiku.com | contact@dataiku.com | @dataiku
JAAP HUISPRIJZEN, GTST, THE BOLD, IKEA EN IENS.
ZOMAAR WAT TOEPASSINGEN VAN MACHINE LEARNING MET DATAIKU
https://longhowlam.wordpress.com
@longhowlam
https://www.linkedin.com/in/longhowlam
Freelance data scientist Contact me if you need me :-)

AGENDA
 DATAIKU INTRODUCTIE
 JAAP.NL HUIZEN ANALYTICS
 SOAP ANALYTICS: GTST EN THE BOLD
 IKEA ANALYTICS
 IENS RESTAURANTS ANALYTICS

Data Science uitdagingen
die ik bij bedrijven zie
Verschillende programmeer talen en machine learning kits
● Wie kent ze allemaal uitvoerig?
● Python, R, Scala, SQL, Java
● H2o, R Scikit-learn, Tensorflow, SparkMLlib
Data science Teams die samenwerken (of niet)
Kennis verschil in teams en tussen afdelingen
Deployment van analytische resultaten
● Inzichten, visualisaties
● Dashboards
● Predictive models (batch / real-time)

Data Engineer
Line-of-
business
Data
Consumer
Data EngineerData Engineer
Data AnalystData Analyst
Data ScientistData ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data ScientistData Scientist
Data Analyst
Business
Leader
Data
Consumer
Line-of-
business
Data
Consumer
Data Engineer
Data Analyst
Data Scientist
Horizontale samenwerking vs. Verticale samenwerking

Maak Visuals/dashboards
Data preparaties
Werk met code
Werk met een flow GUI
Dataiku Data Science Studio
The most Advanced Data Science Platform
Werk samen!

Powerful
Data Preparatie
Full coding
capabilities
Comprehensive
Data Visualization
Advanced Visual
Machine Learning
Solving the core pains of data science

Batch Runs
Monitor Workflows
Prepare & Analyze data
Interactive Machine learning
Real Time
Model Scoring
Dataiku
DSS
Design
Dataiku DSS
Batch
Automation
Dataiku DSS
Real Time
Deploy
Workflows
Deploy
Models
Dataiku: Klaar voor productie!

HUISPRIJZEN VOORSPELLEN MET DATAIKU
Data van jaap.nl gescraped 130K huizen

PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER

Parameter Prijs effect (€)
Intercept 24,006
Eerste 2 cijfers postcode 10 240,839
96 − 103,000
12 204,591
79 − 49,002
Type huis Villa 173,000
Tussen woning − 41,000
vrijstaand 73,000
Oppervlakte per m2 2,064
Aantal Kamers elke extra kamer 4,500
PREDICTIVE MODEL EEN PAAR KLIKKEN EN JE BENT ER
Lineair regressie model: Simpel maar niet meest accuraat model

PREDICTIVE MODEL RESULTATEN VOOR ANDERE MODEL TYPES

PREDICTIVE MODEL VISUAL INSPECTION VAN PREDICTIONS RESULTS

OK EN NU? WIE WIL MIJN MODEL GEBRUIKEN?
Dataiku stroomlijnt het proces van
• Het maken van een REST API voor een voorspellend model
• Deployment van API’s op een (fleet van) server(s)
• Beheer van API NODES Infrastructuur
• Testen en beheer van verschillende API en API versies
Elke applicatie die een
huisprijs voorspelling
nodig heeft

curl -X POST
http://188.166.112.55:12000/public/api/v1/house_xgboost/pc2model/predict
--data '{ "features" : {
"HouseType": "Tussenwoning",
"kamers": 6,
"Oppervlakte": 134,
"VON": 0,
"PC": "16"
}}'
{"prediction":241287.40,"ignored":false}
Voor PC: "10"
{"prediction":607246.62,"ignored":false}

https://github.com/longhowlam/jaap
https://www.linkedin.com/pulse/huis-te-koop-zet-beleggingsobject-je-huisomschrijving-longhow-lam/
HUISPRIJZEN VOORSPELLEN OP BASIS VAN OMSCHRIJVINGEN

HUISPRIJS
VOORSPELLEN
MET LASSO REGRESSIE OF XGBOOST
TERM DOCUMENT MATRIX
Super sparse: 65.000 rijen en 50.000 kolommen maar heeeeeeel veeeeeeel nullen!
huis vraagprijs aanrecht grote_tuin garage ..(heel veel meer termen).. zwembad
Huis 1 235.000 1 0 1 ... 0
Huis 2 450.000 0 1 0 ... 0
Huis 3 376.000 1 0 0 ... 0
... ... ... ... ... ... ...
... ... ... ... ... ... ...
Huis 65.000 621.000 1 1 ... ... 1

TERM DOCUMENT MATRIX
Te veel kolommen voor normale lineaire regressie, regularization is nodig!
Bijvoorbeeld: “lasso” regression
HUISPRIJS VOORSPELLEN MET LASSO REGRESSIE OF XGBOOST

MANAGED NOTEBOOKS ENVIRONMENT FOR MORE ADVANCED CODE ANALYSIS

R TEXT2VEC PACKAGE MIJN FAVORIETE PACKAGE VOOR SIMPELE TEXT MINING

LASSO REGRESSION NEGATIEVE EN POSITIEVE COEFFICIENTS
R2
= 0.66
Intercept € 238.260
parkkosten € 39.644- familiehuis € 60.168
recreatiebungalow € 32.614- vrijstaande_villa € 48.180
bungalowpark € 31.801- belegging € 45.814
limburgse € 23.483- beleggingsobject € 42.543
2_kamer € 23.034- entree_vestibule € 41.674
plinten € 22.510- rijksmonument € 39.379
overdekt_zwembad € 21.971- recreatief € 39.142
2_kamerappartement € 20.625- verhuurd € 36.171
aannemer € 20.314- detaillering € 35.000
recreatiewoning € 19.748- visgraat € 33.589
proeven € 19.631- eigen_badkamer € 33.454
betaalbaar € 19.621- woningen_1 € 33.321
starterswoning € 19.502- toiletten € 32.836
volwassen € 19.476- rietgedekte € 32.096
kunststofkozijnen € 18.775- representatieve € 31.904
helder € 18.594- alarm € 31.841
verbeterd € 18.488- toplocatie € 31.821
eigen_gebruik € 18.430- gezinshuis € 31.297

XGBOOST BETERE VOORSPELBAARHEID!
XGBOOST wordt een black box model,
Maar uitlegbaarheid is te doen via LIME
Local
Interpretable
Model agnostic
Explanations
Fit lokaal een lineair regressie model!

SOAP ANALYTICS TEXT ANALYTICS
Business pain
Kijkend naar GTST waar gaat dit allemaal over?
Zijn er trends in de serie? Is het niet alemaal hetzelfde?
Aanpak
Neem 5000 samenvattingen en pas text mining topics toe

SOAP ANALYTICS MAIN TOPICS
Main topics in 5000 episodes

SOAP ANALYTICS AFSTAND TUSSEN TOPICS

SOAP ANALYTICS IN ZOOMEN OP EEN TOPIC

SOAP ANALYTICS INZOMEN OP EEN TOPIC
Sub-topics: topic 16 (Ludo, Isabelle, Martine, Janine)
 Harmsen voelt zich alleen.
 Plan van Jack, gevaarlijk
 Afscheidsbrief schrijven
 Paniek, angst
 Vragen over kinderen
 Geld betalen Geld terug krijgen
BELANGRIJK: Business validation!
IK heb mijn vrouw gevraagd, een trouwe GTST watcher

SOAP ANALYTICS TRENDS OVER TIME

SOAP ANALYTICS ZIJN ALLE AFLEVERINGEN NIET GEWOON HET ZELFDE?
Een 3D UMAP
Uniform
Manifold
Approximation and
Projection
van alle 5000 GTST episodes
Interactief plaatje

WORD EMBEDDINGS IN BOLD & BEAUTIFUL SAMENVATTINGEN
Term Document Matrix
Elk document / samenvatting is een vector van getallen
Word embedding
Elk word is een vector van getallen
Een word embedding moet getrained worden met een collectie van documenten / samenvattingen
Amsterdam = (0.83, 0.89, 0.34, … , 0.63, 0.19)
Steffy = (0.33, 0.19, 0.79, … , 0.13, 0.01)
Germany = (0.72, 0.65, 0.43, … , 0.36, 0.57)
Laugh = (0.85, 0.77, 0.24, … , 0.88, 0.29)
…
…
https://github.com/longhowlam/TBATB

WORD EMBEDDINGS LINGUISTIC REGULARITIES
Closest words
Word relations
250 dimensional space
president
trump
car media
press
house
man
woman
king
queen
vector(“man") − vector(“woman")
is roughly
vector(“king”) − vector(“queen")
Trump speaks with the press
The president talks to the media

WORD EMBEDDINGS BOLD & BEAUTIFUL VOORBEELD
4000 dagelijkse samenvattingen
gescraped van de laatste 15 jaar.
We hebben ruim 10.000 unieke
woorden in deze samenvattingen.

Ik maak van elk woord een 250 dimensionale vector (kost 1 uur rekentijd…)

1 steffy steffy 1.00
2 steffy liam 0.82
3 steffy hope 0.79
4 steffy said 0.78
5 steffy wyatt 0.76
6 steffy bill 0.69
7 steffy asked 0.68
8 steffy quinn 0.67
9 steffy agreed 0.65
10 steffy rick 0.65

death furious lastly excused frustration onset
0.223 0.2006 0.1963 0.1958 0.1950 0.1937
Word vectors voor:
Steffy − Liam

liam katie wyatt steffy quinn said
0.5550 0.4845 0.4829 0.4645 0.4491 0.4201
Word vectors voor:
Bill − anger

Kunnen jullie de hand schudden van je twee buren?
EEN STATISTISCH EXPERIMENTJE DOEN
Twee statistieken die ik met jullie wil delen:

50.1% van de mensen
wast hun handen niet na
een toilet bezoek

84.6% van alle statistieken
worden ter plekke
verzonnen!!

IKEA WEBSITE HOUD DE BILLY VOORRAAD BIJ
De IKEA Billy Index
Verandering van
de voorraad over tijd

IKEA ANALYTICS THE IKEA BILLY INDEX

IKEA WEBSITE
Start van
nieuwe jaar

IKEA WEBSITE
Zomer gevolgd
door nieuw
schooljaar

IKEA BILLY VERKOOP FORECASTEN IN DE TOEKOMST

THE BILLY INDEX CORRELATIES MET WAT ‘WEER’ VARIABELEN

Elke 1 m/s toename in windsnelheid resulteert in 19 minder Billy’s verkocht :-)

DEEP LEARNING PRE-TRAINED NETWORKS
Deep learning: neurale netwerken met veel hidden layers
De zogenaamde deep convolutional netwerken zijn heel toepasbaar voor plaatjes
Classificatie
VGG16 netwerk bevat miljoenen
parameters, en is getraind op
miljoenen gelabelde plaatjes, met veel
rekenkracht.
Dog
Cat
Car
House
Plane
tree
…
…
…
Castle
chair
Dit is reeds gedaan parameters zijn
bekend en we kunnen dit
hergebruiken

DEEP LEARNING PRE-TRAINED NETWORKS
25.008 dimensional space

IKEA PRODUCT
IMAGES
HACKATON BIJ IKEA DECEMBER 2017
• Scrape 9000 product plaatjes van de Ikea website
• Score elk plaatje met het pre-trained VGG netwerk
• Maak een R shiny app om een plaatje te uploaden
• Bepaal welke Ikea plaatjes dicht bij jouw plaatje zijn

http://145.131.21.163:3838/sample-apps/I_LOVE_IKEA_SHINY_APP/

IENS RESTAURANT PATH ANALYTICS
Business pain
I heb Chinees gegeten welk restaurant moet ik de
volgende keer nemen?
Aanpak
Kijk naar wat anderen hebben gedaan
Op basis van IENS restaurant reviewers!

A FEW FACTS… IENS DATA (TRADITIONELE BI)
Meest voorkomende restaurant naam (39 times)
Onder Nederlandse
restaurants (6 keer)
% Sustainable kitchens
Biological (67%)
French (58%)
Fish (44%)
Vegetarian (39%)
…
…
…
Chinese (3%)
700 reviews op een “normale” zaterdag
Valentijn 2015 had 1200 reviews (1.7 times)
23 keer
12 keer

IENS RESTAURANT ASSOCIATION RULES MINING / MARKET BASKET ANALYSE

Bedankt voor jullie aandacht. VRAGEN?
Als Freelancer data scientist sta ik open om eens een kop koffie te drinken
CENTRIC STAND 95 echte analytics uses cases
DATAIKU STAND 36 demo en verdere technische vragen
https://www.linkedin.com/in/longhowlam
https://longhowlam.wordpress.com/
@longhowlam

Jaap Huisprijzen, GTST, The Bold, IKEA en Iens

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Jaap Huisprijzen, GTST, The Bold, IKEA en Iens

Semelhante a Jaap Huisprijzen, GTST, The Bold, IKEA en Iens (20)

Mais de Longhow Lam

Mais de Longhow Lam (13)

Jaap Huisprijzen, GTST, The Bold, IKEA en Iens