O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Tutustuminen data-analytiikan ja big datan maailmaan

5.873 visualizações

Publicada em

Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining

Publicada em: Negócios

Tutustuminen data-analytiikan ja big datan maailmaan

  1. 1. Tutustuminen data-analytiikan ja Big Datan maailmaan Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila @EdutechTUT #Data4BizTraining 26.11.2015
  2. 2. ”Suomen talouspolitiikkaa tehdään pahasti vanhentuneiden tietojen varassa, käytännössä sokkona.” Kansanedustaja Jyrki J. J. Kasvi, TkT, Tieken tutkimus- ja kehitysjohtaja, ‘Tietoasiantuntija’-lehti 4/2015 (02.11.2015) https://t.co/piwBtps9Zn ”90 % maailman datasta on tuotettu kahden viime vuoden aikana*. Mutta pystymmekö me hyödyntämään kaikkea tätä dataa, muuttamaan sen informaatioksi, tiedoksi ja päätöksiksi?” ”..suuri osa meidän tietovarannoistamme on niin heikkolaatuisia, ettei niitä voi käyttää mihinkään muuhun kuin siihen tarkoitukseen, jota varten tiedot on alun perin kerätty.” ”Vanhoja tietojärjestelmiä ei ole suunniteltu big datan tarpeisiin, minkä seurauksena tietoaineistot ovat epäyhdenmukaisia ja vanhentuneita, ja määritelmät ja metadata ovat puutteellisia.” * vrt. Mooren laki, 1965 (1975)
  3. 3. Liiketoimintatiedonhallinta •  Liiketoimintatiedon hallinnalla tarkoitetaan toimintaa, jossa –  tietoisesti kerätään omaan liiketoimintaan ja liiketoimintaympäristöön liittyvää tietoa, –  tulkitaan ja –  analysoidaan sitä, –  arvioidaan tiedon merkitystä ja –  käytetään analysoitua tietoa päätöksenteon tukena. (Hannula 2003) 05/12/15 3
  4. 4. Kurssin kannalta keskeisiä termejä ja niiden väliset suhteet P. Virtanen 4 Ulkoinen Sisäinen Tiedon luonne Kilpailutiedon hallinta Kilpailijatiedon hallinta LaajaKapea Tiedon keräämisen näkökulma Pirttimäki 2007 Liiketoimintatiedon hallinta Business (and competitive) intelligence, B(C)I Competitive intelligence, CI Competitor intelligence
  5. 5. Lähtökohtaisesti.. -  Ei ole olemassa kahta samanlaista organisaatiota. à  päätöksenteon tueksi organisaatiossa tarvitaan aina erilaista tietoa. -  Päätöksenteon nopeus kilpailuedun tuottajana on korostunut yritysten nykyisessä toimintaympäristössä (tietotalous) -  Saatavilla olevan tiedon määrä on suuri, mutta sen tyyppi ja laatu vaihtelevat -  Kaikkea tarpeellista tietoa ei kuitenkaan ole saatavilla (..helposti/halvalla/..) -  Kaikki tieto ei ole tarpeellista (infoähky) -  Haasteena on, miten löytää oikea tieto, analysoida ja hyödyntää sitä
  6. 6. Tiedolla johtamista ja tiedon johtamista •  Tietojohtaminen voidaan jakaa tiedon johtamiseen ja tiedolla johtamiseen: P. Virtanen 6 • Tiedon johtaminen • organisaatioiden tietovirtojen ohjaus • tietotuotteiden kehittäminen • tietojärjestelmien hyödyntäminen • jne. • Tiedolla johtaminen • strateginen johtaminen ja arvonluonti • suorituksen johtaminen ja tehokkaampi organisaatio • jne. Esitetty jako ei ole ehdoton, vaan pikemminkin tarkastelutapa. Vrt. kolikon kaksi puolta.
  7. 7. •  Liiketoimintatiedon hallinta käytännön tasolla –  Ilmiö pitää ymmärtää –  Tilaajan/päätöksentekijän toimintaa pitää ymmärtää (myös oikea tahtotila) –  Sitten käytetään työkaluja 05/12/15 7
  8. 8. 05/12/15 8 TOP Business Intelligence and Analytics Platforms Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2ACLP1P&ct=150220&st=sb
  9. 9. 05/12/15 9 TOP Advanced Analytics Platforms Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2AHPOU0&ct=150225&st=sb
  10. 10. Johdanto •  Termit haltuun ja uudet mahdollisuudet –  Big Datan ja analytiikkamaailman käsitteiden läpikäyminen •  Tiedolla johtaminen –  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja analytiikka taipuvat •  Kulttuurin luominen ja organisointi 05/12/15 10
  11. 11. Datan käyttö ja analysointi; terminologiaa Termi Ajanjakso Kuvaus Päätöksenteon tuki [Decision Support Systems] 1970-1985 Hyödynnetään data-analyysiä tukemaan päätöksentekoa Johdon tukijärjestelmät [Executive Support/Information Systems] 1980-1990 Fokus data-analyysissä ylemmän johdon tueksi Kuutioiden mallinnus [Online Analytical Processing, OLAP] 1990-2000 Ohjelmistoja multidimensionaalisten datataulujen analysointiin Liiketoimintatiedon hallinta [Business Intelligence] 1989-2005 Työkaluja tukemaan datalähtöistä päätöksentekoa, painopiste raportoinnissa Analytiikka [Analytics] 2005-2010 Fokus tilastollisessa ja matemaattisessa analyysissä päätöksenteon tueksi Massadata [Big Data] 2010- Fokus erittäin isossa, monimuotoisessa ja nopeasti liikkuvassa datassa 11(Big Data at Work, Davenport, 2014)
  12. 12. Päätöksenteon tukijärjestelmät ja johdon tietojärjestelmät ”1970-1990” •  Säästetään kustannuksia, optimoidaan tiettyä toimintaa,.. •  Tuotannonohjaus (Material Requirements Planning) •  Laajempi tuotannon ohjaus (Manufacturing Resources Planning, MRP II) •  Toiminnanohjaus (Enterprise Resource Planning) •  Erilaiset toimintokohtaiset järjestelmät à Raportteja ja katsauksia 05/12/15 12 Liiketoiminnan odotukset IT:lle (Tallon & Kraemer 2007)
  13. 13. Kuutioiden mallinnus - OLAP (online analytical processing) 05/12/15 13 Tuote Aika Markkinat image Athanasios Kastanidis ”1980-1990” Mm. ERP
  14. 14. OLAP-kuutioiden perusidea •  OLAP-tekniikka poikkeaa perinteisestä tilastoinnista ja raportoinnista siten, että käyttäjä voi vaihtaa näkökulmaa tiedontarpeensa mukaan. •  Esimerkiksi analyytikko voi lähteä 1) tarkastelemaan tuoteryhmien myyntiä maittain, 2) filtteröidä aineisto tiettyihin maihin 3) joista löytää jotain esimerkiksi myyntitavoitteista poikkeavaa. Tämän jälkeen 4) porautua esimerkiksi myyntiin tietyissä kaupungeissa. 5) Vaihtaa näkökulmaa liikevoittoon tuoteryhmittäin, jne. 05/12/15 14 ”1980-1990”
  15. 15. Liiketoimintatiedon hallinnan ulottuvuudet 05/12/15 15 Organisaation sisäinen Organisaation ulkoinenTIEDON KOHDE Määrällinen Laadullinen TIEDON TYYPPI Organisaation sisäinen Organisaation ulkoinen TIEDON LÄHDE (Hannula 2005; image Athanasios Kastanidis) ”1989-2005”
  16. 16. Tiedon arvoketju liiketoimintatiedon hallinnan näkökulmasta 05/12/15 16 (Myllärniemi 2012)
  17. 17. Tiedon tasot esimerkein avattuna 17 InformaatioData Tietämys Ymmärrys A X1 X2 1 1 300 2 0 159 … … … 100 1 501 A X1 X2 1 1 300 2 0 159 … … … 100 1 501 A = asiakasnumero X1 = sukupuoli (0=nainen, 1=mies) X2 = kk-ostot • ”Meillä on tietokannassamme 100 asiakkuutta” • ”85% asiakkaistamme on naisia” • ”Keskimääräiset kk-ostot ovat 250€” • ”Suurin osa asiakkaistamme on naisia, vaikka tuotteemme ovat suunnattu pääasiassa miehille -?!@%!” Väisänen 2011
  18. 18. Tiedonhallinnan tasot 18 Innovoiva Erottuva Arkistoiva Mallinnus Visualisointi Ennustaminen Optimointi Raportointi ”Löytyisikö täältä jotain?” ”Tiedän mitä tarvitsen mutta haluan tehdä sen kilpailijoita paremmin" ”Tätä tarvitaan mutta tällä ei erotuta" (Informaatiosta kilpailuetua teollisuusyrityksiin, Valli & Ahlgren 2013) tieto, joka on tallennettava esimerkiksi määräysten perusteella tieto, jonka avulla voidaan edistää ja parantaa nykyistä liiketoimintaa tieto, jonka avulla voidaan innovoida uutta liiketoimintaa
  19. 19. Visualisointi, Broad Street, Lontoo 1854 Koleraepidemia, John Snow (vrt. myös Jukka Huhtamäki) 19 Kuva Robin Wilson
  20. 20. Organisaation tietoresurssien tarve Tiedetään, että tiedetään 05/12/15 20 Ei tiedetä, että ei tiedetä Ei tiedetä, että tiedetään Tiedetään, että ei tiedetä P. Virtanen
  21. 21. Mitä seuraavista keinoista hyödynnät pyrkiessäsi tunnistamaan asiakkaiden kriittiset tietotarpeet? (N=79) (1 = ei lainkaan, 5 = erittäin paljon) Kunnari 2014 tietojohtamisen erikoistyö
  22. 22. Liiketoimintatiedon hallinnan prosessimalli ja keskeiset tehtävät 05/12/15 22 Tietojohtaminen (Laihonen et al. 2013)
  23. 23. Tiedonlouhinta, knowledge discovery in databases (KDD) ”1990-2007” 05/12/15 23 10-20 % 20-30 % 50-70 % 10-20 % 10-20 % 5-10 % 1. Liiketoiminnan ymmärtäminen 2. Datan ymmärtäminen 3. Datan valmistelu 3. Mallinnus, tiedonlouhinta 5. Arviointi 6. Tulosten julkaisu (The CRISP-DM Model; Shearer 2000, Aho 2014)
  24. 24. Analytiikka ”2005-2010” •  Deskriptiivinen analytiikka •  Diagnostiivinen analytiikka •  Prediktiivinen analytiikka •  Preskriptiivinen analytiikka •  Päätöksentekoa tukeva analytiikka 05/12/15 24 (Big Data and Analytics, Kaisler et al. 2014)
  25. 25. Arvioi seuraavien analyysimenetelmien ja - työkalujen tärkeyttä omassa työssäsi. (N=78) (1 = ei lainkaan tärkeä, 5 = erittäin tärkeä) Kunnari 2014 tietojohtamisen erikoistyö
  26. 26. Käytettyjä järjestelmiä (esim. ERP, DW, …)? (N=61) •  ERP (SAP) •  DW •  ETL •  DB •  Business warehouse •  Office-työkalut •  Qlikview •  CRM •  Cognos •  Data mining •  Sharepoint •  Hadoop •  Nosql •  ennakoiva analytiikka •  Kaupankäyntijärjestelmät •  HR-järjestelmä •  Master-data Kunnari 2014 tietojohtamisen erikoistyö
  27. 27. Kuinka paljon hyödynnät seuraavia menetelmiä tietojärjestelmistä saatavien tietojen analysoinnissa? (N=78) (1 = ei lainkaan, 5 = erittäin paljon) Kunnari 2014 tietojohtamisen erikoistyö
  28. 28. Big Data ”2010-” 05/12/15 28 Volyymi Vauhti Variaatio Varmuus Data at Rest Data in Motion Data in Many Forms Data in Doubt Terabittejä olemassa olevaa dataa prosessoitavaksi Striimattua dataa, nopea vasteaika millisekunneista sekunteihin Strukturoitua, ei- strukturoitua, ja semistrukturoitua dataa Epävarmuutta liittyen datan epätäydellisyyteen, puutteellisuuteen, tai virheellisyyteen (Breuker 2014; Laney, Meta Group 2001 (3V:tä))
  29. 29. Big Data transaktioista interaktioihin 05/12/15 29 WEB BIG DATA (mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013) ERP CRM ostotiedot maksutiedot segmentointi tarjoustiedot asiakaskohtaamiset tukikontaktit weblogit tarjoushistoria A/B testaaminen Dynaaminen hinnoittelu Hakukonemarkkinointi ja optimointi Mainosverkostot Käyttäytymispohjainen kohdentaminen Dynaamiset funnellit Sentimentti Ulkopuolinen demografia Kuvat ja videot Puheen muuttaminen tekstiksi Feedit Anturi/sensoridata Tuote / palvelu logit SMS/MMS Sosiaaliset verkostot Sosiaalinen media Käyttäjien luoma sisältö Mobiilidata Klikkivirran analyysi Sijaintidata
  30. 30. Datan lajeja Datan laji Muoto Volyymi Kuvaus Esimerkkejä Master Data Strukturoitu Matala Yritystason dataa jolla on strategista arvoa organisaatiolle Asiakas, tuote, toimittaja Transaktiodata Struktoroitu & semi- strukturoitu Keskinkertainen - korkea Transaktiot joita syntyy liiketoiminta-prosesseissa Tilaukset, ostot, maksut Referenssidata Struktoroitu & semi- strukturoitu Matala – keskin- kertainen Faktoja jotka tukevat organisaation kykyä tehokkaasti prosessoida transaktioita, hallita masterdataa ja tukea päätöksiä Demografiset kentät Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan dimensiot tai yksiköt, ym. Analytiikkadata Strukturoitu Keskinkertainen - korkea Liiketoimintaoperaatiosta tai transaktioista jalostettua tietoa raportoinnin ja analytiikan tarpeisiin Data joka sijaitsee tietovarastoissa ja päätöksenteon tukijärjestelmissä Big Data Struktoroitu, semi- strukturoitu ja ei strukturoitu Korkea Isoja data settejä, joita on haastava tallentaa, etsiä, jakaa, visualisoida ja analysoida Ihmisten ja koneiden luomaa dataa sosiaalisesta mediasta, webistä, mobiililaitteista, sensoreista, ym. 05/12/15 30 (Big Data and Analytics, Kaisler et al. 2014)
  31. 31. Kuinka liiketoimintatiedon hallinta on muuttunut massadatan myötä? Massadata Business analytiikka Liiketoimintatiedon hallinta Vanhaa •  Relaatiotietokannat •  SQL •  Tietovarastot •  Tiedonlouhinta •  Kvantitatiivinen analyysi •  Tilastotiede •  Operaatiotutkimus •  Päätöksenteon tukijärjestelmät •  Johdon tietojärjestelmät •  OLAP Uutta •  4V:tä •  Monimuotoista dataa •  Vähemmän struktuuria •  Big Data teknologiat (MapReduce, Hadoop, NoSQL, ym.) •  Ei strukturoitua dataa •  Dataa monesta lähteestä •  Monimuotoista dataa •  Data liikkeessä •  Tekstianalytiikka •  Visuaalinen analytiikka •  Sosiaalisen median analytiikka •  Helppokäyttöisyys •  Visuaalisuus •  Dynaamisuus •  Kattaa organisaation prosessit •  Koneoppiminen •  RTAP 05/12/15 31 (mukailtu Introduction to Big Data, Kaisler et al. 2014)
  32. 32. Lähteitä •  Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain- Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences. •  Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review. October 2012. •  Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business Review. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January 6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January 6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global Environment. 47th Hawaii International Conference on System Sciences. •  Hannula, M. 2005. Tieto- ja liiketoiminta. Tekniset välineet ja sovellukset. Luento 23.10.2005. •  Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi, J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen yliopisto. http://dspace.cc.tut.fi/dpub/bitstream/handle/123456789/21534/tietojohtaminen.pdf •  Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February 2001. •  Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-content/uploads/2013/05/What_Is_Data_Science.pdf •  Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era. Teradata •  Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus. http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html •  Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A Step-wise Approach. 46th Hawaii International Conference on System Sciences. 05/12/15 32
  33. 33. Tiedolla johtaminen •  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja analytiikka taipuvat •  Verkon ja sosiaalisen median analytiikka esimerkkejä 05/12/15 33
  34. 34. Analytiikan eri muodot 05/12/15 34 Analyysi Informaatio Mitä on tapahtumassa? Miksi se tapahtui? Mitä tulee todennäköisesti tapahtumaan? Mitä minun pitäisi tehdä sille? Prediktiivinen analytiikkaDiagnostiivinen analytiikka Deskriptiivinen analytiikka Preskriptiivinen analytiikka Lähde: Gartner
  35. 35. Analytiikan muodot yritysten (liike)toiminnassa 05/12/15 35 Raportit RAPORTOIDAAN MITÄ tapahtui? ANALYSOIDAAN MIKSI se tapahtui? Ad hoc BI työkalut ENNUSTETAAN MITÄ TULEE tapahtumaan? Ennustavat mallit OPERATIONALISOIDAAN MITÄ ON tapahtumassa nyt? Linkki operatiivisiin järjestelmiin AKTIVOIDAAN PISTETÄÄN tapahtumaan Automaattiset linkitykset STRATEGINEN ÄLYKKYYS OPERATIONAALINEN ÄLYKKYYS Lähde: mukaillen Yli-Pietilä & Backman 2013
  36. 36. Deskriptiivinen analytiikka 05/12/15 36 http://www.tableau.com/solutions/data-discovery
  37. 37. Diagnostiivinen analytiikka 05/12/15 37 Lähde: McDaniel 2009 Mitä on tapahtunut? Miksi?
  38. 38. Prediktiivinen analytiikka 05/12/15 38 Predicting the future: IBM:n 4 osainen sarja
  39. 39. Louhian Mika Laukkasen näkökulma prediktiiviseen analytiikkaan •  Millä ohjelmistoilla ennakoiva analytiikka onnistuu ja millä ei? –  Onnistuu: RapidMiner, SAS, SPSS, MS analysis services, R, AnyLogic.. –  Ei onnistu: IBM Cognos, Qlikview, Business Objects, MS reporting services, Tableau, Oracle OBIEE… •  Vinkkinä ennustemenetelmiä ovat muun muassa seuraavat: –  Luokittelumuuttujille - naive bayes, neuroverkko, logistinen regressio, päätöspuut.. –  Jatkuville muuttujille - erilaiset regressioanalyysit, neuroverkot.. •  Jos näitä ominaisuuksia ei löydy, niin kyseessä on raportointiin / (päätöksentekoa tukevaan) visualisointiin tarkoitettu ohjelmisto •  Milloin kannattaisi investoida prediktiiviseen analytiikkaan? Silloin kun sinulla on edellytyksiä hyödyntää sen tuloksia, esim. •  Voit toteuttaa ennakoivan huollon ennen laitteen vikaantumista •  Voit torjua asiakaspoistumaa tai ostoskorin hylkäämistä aktiivisilla toimenpiteillä •  Kykenet kohdistettuun myyntiin ja markkinointiin 05/12/15 39Muokattu lähteestä: [Louhia]
  40. 40. Prediktiivinen analytiika, esim. päätöspuut •  Yhdistetään regressio ja klusterointi –  Jaetaan havaintoja osajoukkoihin (klusterointi) tietyn ennustettavan muuttujan mukaan (regressio) •  Käytetään usein asiakkaiden luokitteluun, kun tiedetään, minkä ominaisuuden mukaan halutaan luokitella –  Puhelinoperaattorilla tiedossa, että 70 % asiakkaista maksaa laskunsa myöhässä, ja nyt halutaan tietää, keitä nämä ihmiset oikein ovat, ja miten voidaan ennustaa, maksaako uusi asiakas mahdollisesti laskunsa ajoissa –  Asiakastiedoista valitaan ne muuttujat, joiden arvellaan olevan keskeisessä roolissa. Oletetaan, että seuraavat muuttujat voisivat vaikuttaa siihen, maksaako asiakas laskunsa ajoissa (0= ei maksa ajoissa, 1= maksaa ajoissa) 1.  Keskimääräinen puhelimen käyttöaste (min/kk) 2.  Ikä (1 = alle, 30v. 2 = yli 30v.) 3.  Siviilisääty (1 = naimaton, 2 = naimisissa) 05/12/15 40
  41. 41. 05/12/15 41 •  Puhelinoperaattoriesimerkki jatkuu… –  Alussa meillä on kaikki havainnot (10 000) yhdessä, joista siis 3 000 maksaa laskunsa ajoissa –  Puumalli jaottelee kaikki 10 000 havaintoa parhaiten kohdemuuttujaa (laskun ajoissa maksu) luokittelevalla muuttujalla 1: 30% 3000 0: 70% 7000 Yht. 100% 10000 1: 30% 3000 0: 70% 7000 Yht. 100% 10000 1: 11.7% 460 0: 88.3% 3480 Yht. 100% 3940 1: 41.9% 2540 0: 58.1% 3520 Yht. 100% 6060 Ikä 2 1 Ikä (1 = alle, 30v. 2 = yli 30v.) Päätöspuut 1 = maksaa ajoissa 0 = ei maksa ajoissa 1 = maksaa ajoissa 0 = ei maksa ajoissa
  42. 42. 05/12/15 42 1: 30% 3000 0: 70% 7000 Yht. 100% 10000 1: 11.7% 460 0: 88.3% 3480 Yht. 100% 3940 1: 41.9% 2540 0: 58.1% 3520 Yht. 100% 6060 2 1 1: 67.1% 490 0: 32.9% 240 Yht. 100% 730 1: 38.5% 2050 0: 61.5% 3280 Yht. 100% 5330 1: 9.3% 310 0: 90.7% 3030 Yht. 100% 3340 1: 25.0% 150 0: 75.0% 450 Yht. 100% 600 Puh. käyttö Ikä Siviili- sääty 1 2 1 2 •  Puhelinoperaattoriesimerkki jatkuu… •  Lopullinen malli voi näyttää tältä Siviilisääty (1 = naimaton, 2 = naimisissa) Ikä (1 = alle, 30v. 2 = yli 30v.) Keskimääräinen puhelimen käyttöaste (1 = <300, 2 = >300 ) Päätöspuut 1 = maksaa ajoissa 0 = ei maksa ajoissa 1 = maksaa ajoissa 0 = ei maksa ajoissa 1 = maksaa ajoissa 0 = ei maksa ajoissa 1 = maksaa ajoissa 0 = ei maksa ajoissa
  43. 43. Päätöspuut •  Mitä saatiin selville? – 91 % alle kolmekymppisistä naimattomista ei maksa laskuaan ajoissa – Ainoa ryhmä, joka maksaa laskunsa ennemmin ajoissa kuin myöhässä on yli kolmekymppiset alle 300min/kk puhujat – Ikä on silti tärkein kriteeri 05/12/15 43 Asiakaspoistuman korjaamiseen telekommunikaatioalalla opas PwC:ltä: Curing Customer Churn
  44. 44. Preskriptiivinen analytiikka •  Suosittelujärjestelmät, esim. Amazonin automaattiset tuotesuositukset •  Vakutuusalalla esimerkiksi ajoneuvovakuutusten hinnoittelussa pyritään tunnistamaan tekijät, jotka ennustavat, mitä tietylle kuljettaja-ajoneuvo-yhdistelmälle tulee ensi vuonna tapahtumaan. Käytännössä jokaiselle asiakkaalle tulee eri hinta. (Timo Ahvonen, Vakuutusyhtiö Fennia) 05/12/15 44
  45. 45. Miten analytiikkaa tehdään? Mikä avuksi? 05/12/15 45
  46. 46. CRISP-DM referenssimalli CRISP-DM referenssimallin tehtävät Liiketoiminnan ymmärtäminen Datan ymmärtäminen Datan valmistelu Mallinnus, tiedonlouhinta Arviointi Tulosten julkaisu Määritä liiketoiminnan tavoitteet Tee tilannearvio Määritä tiedonlouhinnan tavoitteet Laadi projektisuunnitelma Kerää alustava data Kuvaa data Tutki dataa Varmista datan laatu Datasetin kuvaus Datan valinta Datan siivous Datan rakentaminen Datan integrointi Datan formatointi Valitse mallinnus menetelmä Suunnittele koe Rakenna malli Arvioi mallia Arvioi tuloksia Arvioi ja varmista tiedonlouhinta prosessin laatu Määrittele seuraavat stepit Suunnittele mallin julkaisu (esim. verkkosivuna) asiakkaalle Suunnittele mallin ylläpito Laadi loppuraportti Arvioi projekti 05/12/15 46 Lähde: The CRISP-DM Model (Shearer 2000), ks. myös CRISP-DM 1.0 Step-by-step data mining guide: https://the-modeling-agency.com/crisp-dm.pdf
  47. 47. Analytiikkasykli 1.  Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen 2.  Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten 3.  Deskriptiivinen analytiikka –  Perehdy dataan (descriptives, correlations, factor analysis, cluster analysis, ym.) –  Luo mahdollisia hypoteeseja (data mining ym.) 4.  Prediktiivinen analytiikka –  Muodosta hypoteesit –  Tunnista soveltuvimmat analytiikkamenetelmät –  Kehitä analyyttiset mallit (multivariate regression, logistic regression, forecasting, non-linear models, decision trees, ym.) –  Aja mallit ja luo ennusteet 5.  Preskriptiivinen analytiikka –  Kehitä päätös- ja optimointimallit –  Hyödynnä koneoppimista päätöksien ohjelmointiin 6.  Kirjoita johtopäätökset ja suositukset 05/12/15 47 Lähde: Introduction to Big Data (Kaisler et al. 2014)
  48. 48. Analytiikkaan pohjautuva päätöksenteko: 6 vaihetta 48/6 Liiketoiminta- ongelman tai –kysymyksen tunnistaminen Aikaisempien löydöksien läpikäynti 1. 2. 3. 4. 5. 6. Ratkaisun mallintaminen ja muuttujien valinta Datan kerääminen Datan analysointi Tuloksien esittäminen ja niiden pohjalta toimiminen Kun käytetään big dataa päätöksenteossa, liiketoimintaihmisten (”non-quants”) pitäisi keskittyä prosessin ensimmäiseen ja viimeiseen vaiheeseen. Numeroihmiset tyypillisesti hoitaa yksityiskohdat välissä, mutta (viisaat) liiketoimintaihmiset esittävät paljon kysymyksiä matkan varrella. Analytics-Based Decision Making – in Six Key Steps (Daveport, 2013) Analytiikka liiketoiminnassa
  49. 49. Tiedonlouhinnan menetelmiä 05/12/15 49 Suunnattu Ei-suunnattu Ad Hoc Strateginen suunnittelu Ennustaminen Segmentointi Klusterointi Visualisointi OLAP Neuroverkot Regressio Lähde: (Kudyba & Hoptroff, 2001; Väisänen, 2011])
  50. 50. Klusterointi •  Kuvailevaa tiedonlouhintaa / deskriptiivistä analytiikkaa •  Tavoitteena klusteroida (luokitella) datamatriisin havainnot siten, että jokaisen klusterin sisällä olevat havainnot ovat mahdollisimman homogeenisia, ja jokainen klusteri mahdollisimman heterogeeninen muiden klusterien kanssa •  Yleisiä käyttötarkoituksia –  asiakkaiden segmentointi –  myymälöiden ryhmittely menestyksen mukaan esimerkiksi kolmeen ryhmään: menestyjiin, keskinkertaisiin ja huonoihin (Niemijärvi 2013) 05/12/15 50
  51. 51. Esimerkki hierarkkisesta klusteroinnista 05/12/15 51 Klusterien lukumäärä Klusterit 5 (1) (2) (3) (4) (5) 4 (1,2) (3) (4) (5) 3 (1,2) (3,4) (5) 2 (1,2) (3,4,5) 1 (1,2,3,4,5) 1 2 3 4 5 Lähde: (Väisänen, 2011)
  52. 52. Assosiaatiosäännöt •  Prediktiivistä analytiikkaa •  Tarkoituksena löytää havaintoja, jotka esiintyvät yhdessä useammin kuin muut •  Usein käytettyjä sovelluksia –  Ostoskorianalyysi, engl. market basket analysis (MBA), ks. Esim. (Niemijärvi 2014); (Ollikainen 2013) –  Klikkivirran analyysi, engl. web clickstream analysis (WCA) (Paananen 2006) •  Normaaleista tietokannoista poiketen assosiaatiosääntöjä tarkastellaan transaktio- ei asiakaspohjaisesti –  MBA:ssa yksi datamatriisin rivi vastaa yhtä kassalla käyntiä –  WCA:ssa yksi datamatriisin rivi vastaa yhtä vierailua verkkosivuille 05/12/15 52
  53. 53. Assosiaatiosäännöt •  Assosiaatiosääntö on todennäköisyyteen perustuva lausuma tiettyjen tapahtumien samanaikaisesta tapahtumisesta: •  JOS A=1 ja B=1, NIIN (tietyllä todennäköisyydellä p) C=1 •  Todennäköisyys, että ostetaan tavara X, kun tavara Y on ostettu: X → Y •  Esim. (Maito & Tee) → Keksejä (assosioaatiosääntö) •  Säännön oikealla puolella yleensä vain yksi tekijä •  Säännön vasemmalla puolella harvoin kolmea tekijää enempää (3. asteen sääntö) •  Todennäköisyydet tavaroiden ostamiselle saadaan jakamalla ostotapahtumien esiintymistiheys kaikkien ostotapahtumien lukumäärällä 05/12/15 53 Lähde: (Väisänen, 2011)
  54. 54. •  Tuki (”Support”) {A → B} = P(A ja B) –  Todennäköisyys, että tuotteet A ja B löytyvät satunnaisesta ostoskorista. Jos 40% ostoksista sisältää sekä maitoa että leipää, tuki {maitoa→ leipää} = 0.4 •  Symmetrinen, eli tuki {leipää → juustoa} = tuki {juustoa → leipää} •  Jos tuki kovin alhainen, ei säännöllä välttämättä ole kovin suurta käytännön merkitystä •  Luottamus (”Confidence”) {A → B} = tuki {A → B} / tuki {A} –  Todennäköisyys, että satunnaisesta ostoskorista löytyy tuote B, jos siellä on tuote A –  Jos 80 % ostoksista sisältää leipää, mutta vain 40 % sisältää sekä leipää että maitoa, luottamus {leipää → maitoa} = 0.4 / 0.8 = 0.5 –  Luku ei välttämättä ole symmetrinen •  Noste (”Lift”) {A → B} = luottamus {A → B} / tuki {B} –  Normalisoitu luku, joka ilmaisee, kuinka paljon tuotteen A ostaminen vaikuttaa tuotteen B ostamiseen –  Jos luottamus {leipää → maitoa} = 0.5 ja 40 % ostoksista sisältää maitoa, noste {leipää → maitoa} = 0.5 / 0.4 = 1.25 –  Eli henkilöt, jotka ostelevat leipää, ostelevat 1.25-kertaisesti maitoa verrattuna koko porukkaan 05/12/15 54 Assosiaatiosäännöt Lähde: (Väisänen, 2011)
  55. 55. Regressio •  Lineaarinen regressio auttaa ennustamaan toisen muuttujan arvoja toisen muuttujan arvoilla •  Logistisen regression avulla voidaan selittää/ ennustaa binääristä muuttujaa •  Kuinka mallinnuksen avulla ennustetaan asiakkaan ostotodennäköisyys? (esim. Ollikainen 2014) 05/12/15 55
  56. 56. Kulttuurin luominen ja organisointi 05/12/15 56
  57. 57. BI-prosessimallit 1/5, tiedon jalostumisprosessi P. Virtanen 57 Hannula & Pirttimäki 2005 Aiempi tieto Aiempi tietämys Informaatio (maksaa…) Data (0, 0, 1, 0, 1, 0, ..) Tieto (hintakehitys…) Tietämys (kannattaa…) Jalostumisprosessi
  58. 58. BI-prosessimallit 2/5 P. Virtanen 58 Tietotarpeet Tiedon organisointi ja varastointi Tiedon hankinta Tietotuotteet ml. -palvelut Tiedon jakaminen Tiedon käyttö Toiminnan mukauttaminen Choo 2001
  59. 59. BI-prosessimallit 3/5 P. Virtanen 59 2. Tiedon tunnistus 1. Tietotarve ja määrittely 3. Työkalujen valinta 4. Käyttöön- otto 5. Käyttö TOTEUTUS 5. Hyötykäyttö 6. Analysointi ja seuranta 9. Muutokset toiminnassa 8. Päätöksen- teko 7. Vaihto- ehtojen muotoilu KÄYTTÖ Hannula 2011
  60. 60. BI-prosessimallit 4/5 P. Virtanen 60 Chaudhuri & Dayal, 1997 Valvonta ja hallinto Metadata ETL, Extract Transform Load (refresh) DWH Datamartit Datan lähteet Operatiiviset tietokannat Ulkoiset lähteet Kyselyt ja raportit Analyysi OLAP palvelimet toimittaa Tiedon louhinta DWH Loppukäyttö
  61. 61. BI-prosessimallit 5/5 P. Virtanen 61 Myllärniemi et al. 2009 tietomassa ymmärrys ja toiminta tiedon lähteiden määrittely ja etsintä prosessoitu tieto tietotuote 5. Tiedon hyödyntäminen ja palaute 1. Tietotarpeiden määrittely 3. Tiedon prosessointi 2. Tiedon kerääminen 4. Tiedon jakaminen
  62. 62. BI-prosessimalli käytännössä P. Virtanen 62 PotilasvirratPotilasvirratPotilasvirrat Henkilöstö Potilasdata Resurssit Tilat Laitteet Materiaalit Aineeton po Mahdollistaa Tuottaa Syötteenä Muuntaa Päätöksenteon tukena Potilasvirtojen hallinnan tehostaminen Raportointi Mallinnus ja simulointi Potilas- informaation käyttö Väihinpää et al. 2008
  63. 63. Kulttuurin luominen •  5 hyvää käytäntöä analytiikkakulttuurin luomiseksi: 1.  Tunnista (liike-)toimintaongelmat ja alueet, jotka hyötyisivät analytiikkatyökaluista ja/tai –strategiasta 2.  Johdon asetettavat selkeät odotukset (ja insentiivit) 3.  Aloita pienestä ja rakenna iteratiivisesti à kevyet lähdöt 4.  Rakenna/tue/rekrytoi asian puolestapuhujia (champions) ja juhli pieniä voittoja 5.  Tunnusta että epäonnistumiset ovat hyväksyttävä tapa oppia 05/12/15 63 Helms 2015. Five Myths and Five Ways to Create an Analytics Culture. http://www.businessofgovernment.org/blog/business-government/five-myths-and-five-ways-create- analytics-culture
  64. 64. Mitä voidaan oppia parhailta? 05/12/15 64 Raportti saatavissa: https://hbr.org/resources/pdfs/tools/17568_HBR_SAS %20Report_webview.pdf
  65. 65. Analytiikkajohtajat käyttävät oikeanlaisia mittareita 05/12/15 65 Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture
  66. 66. Mitkä ovat analytiikkajohtajien keskeisiä piirteitä? Ø  Ylin johto edellyttää analytiikan käyttöä ja hyvin määriteltyjä päätöksentekoprosesseja Ø  Analytiikkajohtajat käyttävät oikeanlaisia mittareita Ø  Analytiikkajohtajat korostavat päätöksenteon läpinäkyvyyttä Ø  Analytiikkajohtajat jakavat KPIt läpi organisaation Ø  Analytiikkajohtajat panostavat koulutukseen Ø  Analytiikkajohtajilla on analytiikka-ammattilaisia organisaation eri tasoilla ja funktioissa 05/12/15 66 Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture

×