O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Heliview 29sep2015 slideshare

1.020 visualizações

Publicada em

Slides (in Dutch) of my Heliview Business analytics 2015 presentation

Publicada em: Dados e análise
  • Seja o primeiro a comentar

Heliview 29sep2015 slideshare

  1. 1. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GOEDE TIJDEN SLECHTE TIJDEN, IENS AJAX? TEXT ANALYTICS EN MACHINE LEARNING IN ACTION Longhow Lam -- Data Scientist Heliview – Business Analytics https://www.linkedin.com/today/author/7434679 https://longhowlam.wordpress.com/ @longhowlam http://www.slideshare.net/LonghowLam
  2. 2. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AGENDA  Inleiding Text mining & Machine learning  Ludieke voorbeelden  Goede tijden Slechte tijden  IENS Reviews  Ajax wedstrijden
  3. 3. Copyright © 2012, SAS Institute Inc. All rights reserv ed. INLEIDING TEXT MINING EN MACHINE LEARNING
  4. 4. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING BASIS Document 1: “Ik loop over straat in Amsterdam, 1057DK, met mijn fiets” Document 2: “Zij liep niet maar fietste met haar blauwe fieets, //bitly.com/sdrtw” Document 3: “Mijn tweewieler is kapot, wat een slecht stuk ijzer, @#$%$@!” Terms Doc 1 Doc 2 Doc 3 +Fiets (znmw) 1 1 1 Fietsen (ww) 0 1 0 Blauwe (bvg) 0 1 0 Amsterdam (locatie) 1 0 0 +Lopen (ww) 1 1 0 Straat (znmw) 1 0 0 Kapot (bijw) 0 0 1 Slecht 0 0 1 Stuk Ijzer 0 0 1 1057DK (postcode) 1 0 0 //bitly.com/sdrtw (Internet) 0 1 0 TERM DOCUMENT MATRIX: A • Elk document is een (zeer) lange vector van tellingen (vaak veel nullen!) • Teksten / ongestructureerde data is zijn nu “gewone data” geworden. • Comprimeer / reduceer deze matrix A • Pas machine learning toe op gereduceerde
  5. 5. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING BASIS “Geavanceerd” woordjes tellen  Parse & Filter  Part of speech  Entity detection  Mixed / numeric / abbrev.  Stemming  Spell checks, Stop lijst, Synoniem lijst  Multi-term woorden  Pas Traditionele data mining toe  Clustering  Prediction / machine learning
  6. 6. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING VOORSPELLEN OF CLUSTEREN Combineer teksten en “gewone data” om gedrag te voorspellen (churn / fraude) Pas machine learning toe om gedrag Y te voorspellen met een model f Maak automatisch topics / clusters in hoge stapels documenten Pas cluster technieken toe om documenten in clusters (topics) in te delen Topic 1 Topic 2 Topic 3
  7. 7. Copyright © 2012, SAS Institute Inc. All rights reserv ed. MACHINE LEARNING ENKELE TECHNIEKEN Voorspellen Trees Random Forests Clusteren K-means Hiërarchisch clusteren DBSCAN Lineaire regressie f y = f(x) = a0 + a1x1 + a2x2+…anxn Neurale netwerken y = f(g(h(x)))
  8. 8. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING VOORBEELDEN ECHTE DATA MAAR LUDIEKE VOORBEELDEN Ludieke voorbeelden met directe toepassingen  Goede tijden slechte tijden Soap analytics  Iens Restaurant analytics  Ajax Wedstrijd verslagen
  9. 9. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TEXT ANALYTICS Business pain Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde? Aanpak Neem alle duizenden samenvattingen en pas SAS text mining toe
  10. 10. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TEXT ANALYTICS Business pain Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde? Aanpak Neem alle duizenden samenvattingen en pas SAS text mining toe
  11. 11. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Hoofd topics in 5000 afleveringen
  12. 12. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Hoofd topics in 5000 afleveringen
  13. 13. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RELATIE TUSSEN TOPICS
  14. 14. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS INZOOMEND OP EEN TOPIC
  15. 15. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS INZOOMEND OP EEN TOPIC Sub-topics van een hoofd topic: topic 16 (Ludo, Isabelle, Martine, Janine)  Het eenzaam voelen van Harmsen.  Plan van Jack, gevaarlijk  Afscheidsbrief schrijven  Paniek, angst,  Vragen opdracht kind geven  Geld terug krijgen betalen Business validatie: De trouwe GTST kijker bij SAS kan zich hierin vinden…..
  16. 16. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Trends over tijd m.b.v. een Bayesian belief netwerk
  17. 17. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TRENDS OVER TIJD
  18. 18. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS GELIJKENIS AFLEVERINGEN OVER DE JAREN
  19. 19. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYTICS Business pain Ik heb Chinees gegeten. Waar moet ik de volgende keer eten? Kan ik het sentiment voorspellen? Aanpak Kijk naar wat andere doen, IENS restaurant reviewers!
  20. 20. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYTICS Business pain Ik heb Chinees gegeten. Waar moet ik de volgende keer eten? Kan ik het sentiment voorspellen? Aanpak Kijk naar wat andere doen, IENS restaurant reviewers!
  21. 21. Copyright © 2012, SAS Institute Inc. All rights reserv ed. EERST EEN PAAR LUDIEKE FEITJES IENS DATA (TRADITIONELE BI) Meest voorkomende naam (39 keer) Onder “Hollandse” restaurant (6 keer) Duurzame keukens Biologisch (67%) Frans (58%) Vis (44%) Vegetarisch (39%) Regionaal (36%) … … Chinees (3%) Zo’n 700 reviews op een “normale” zaterdag Valentijn 2015 1200 reviews (1.7 keer) 23 keer 12 keer
  22. 22. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
  23. 23. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
  24. 24. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS VOORSPEL SENTIMENT M.B.V. DE REVIEWS ZELF  Text miner om te parsen, filteren en reduceren  Machine learning om eet cijfer te voorspellen
  25. 25. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS HET EET CIJFER VOORSPELLEN Neuraal network (2 X 20) R2 van 0.65 Random forest (250 trees) R2 van 0.63 Linear regressie model R2 van 0.56
  26. 26. Copyright © 2012, SAS Institute Inc. All rights reserv ed. Voorspelde score versus de Gegeven score IENS REVIEWS HET EET CIJFER VOORSPELLEN
  27. 27. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS SENTIMENT ANALYSE / PREDICTIVE MODELING
  28. 28. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX VOETBAL VERSLAGEN Business pain Ik kan niet mee praten op mijn werk over voetbal Kan ik wat tips meegeven aan ons SAS NL voetbal team? Aanpak Text mine alle Ajax voetbal verslagen en leer wat interessante resultaten uit je hoofd. Er zijn 476 voetbal verslagen. Ik heb gescraped van seizoen 2000/01 tot 2014/15.
  29. 29. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN Het verdedigingstrio van der Wiel, Vertongen, Anita Wie herinnert zich niet de mooie passes van Aldewereld naar Boerrigter Chivu, Machlas en Heitinga worden vaak geassocieerd met overtredingen Zorg niet voor veel balverlies, is een domper zorgt voor onrust en leidt niet tot een overwinning De Jong en Chivu worden vaak met verlies geassocieerd. Knullig spelen levert ook grote kans op verlies….. Score binnen 23 minuten! Leidt vaak tot winst
  30. 30. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN
  31. 31. Copyright © 2012, SAS Institute Inc. All rights reserv ed. WERKT HET ? SAS NEDERLAND VOETBAL TEAM Twee weken geleden 6e geworden i.p.v. altijd laatste !!!!
  32. 32. Copyright © 2012, SAS Institute Inc. All rights reserv ed. SAMENVATTEND  Analyse op teksten is makkelijk te doen.  Snel inzichten uit teksten te halen  Business validatie nodig en belangrijk!  Dit is ludiek! Maar talrijke serieuze toepassingen

×