Tutustuminen data-analytiikan ja big datan maailmaan. Valikoitua sisältöä Edutech Data ja analytiikka liiketoiminnan kehittämisessä koulutuspäivästä. Kouluttajina Pasi Hellsten & Jari Jussila. @EdutechTUT #Data4BizTraining
2. ”Suomen talouspolitiikkaa tehdään pahasti
vanhentuneiden tietojen varassa,
käytännössä sokkona.”
Kansanedustaja Jyrki J. J. Kasvi, TkT, Tieken
tutkimus- ja kehitysjohtaja, ‘Tietoasiantuntija’-lehti
4/2015 (02.11.2015) https://t.co/piwBtps9Zn
”90 % maailman datasta on tuotettu kahden viime vuoden aikana*. Mutta
pystymmekö me hyödyntämään kaikkea tätä dataa, muuttamaan sen
informaatioksi, tiedoksi ja päätöksiksi?”
”..suuri osa meidän tietovarannoistamme on niin heikkolaatuisia, ettei niitä voi
käyttää mihinkään muuhun kuin siihen tarkoitukseen, jota varten tiedot on alun
perin kerätty.”
”Vanhoja tietojärjestelmiä ei ole suunniteltu big datan tarpeisiin, minkä
seurauksena tietoaineistot ovat epäyhdenmukaisia ja vanhentuneita, ja
määritelmät ja metadata ovat puutteellisia.”
* vrt. Mooren laki, 1965 (1975)
3. Liiketoimintatiedonhallinta
• Liiketoimintatiedon hallinnalla tarkoitetaan toimintaa, jossa
– tietoisesti kerätään omaan liiketoimintaan ja liiketoimintaympäristöön
liittyvää tietoa,
– tulkitaan ja
– analysoidaan sitä,
– arvioidaan tiedon merkitystä ja
– käytetään analysoitua tietoa päätöksenteon tukena.
(Hannula 2003)
05/12/15 3
4. Kurssin kannalta keskeisiä termejä ja niiden
väliset suhteet
P. Virtanen 4
Ulkoinen
Sisäinen
Tiedon
luonne
Kilpailutiedon
hallinta
Kilpailijatiedon
hallinta
LaajaKapea
Tiedon keräämisen
näkökulma
Pirttimäki 2007
Liiketoimintatiedon
hallinta
Business (and
competitive) intelligence,
B(C)I
Competitive intelligence,
CI
Competitor intelligence
5. Lähtökohtaisesti..
- Ei ole olemassa kahta samanlaista organisaatiota.
à päätöksenteon tueksi organisaatiossa tarvitaan aina erilaista tietoa.
- Päätöksenteon nopeus kilpailuedun tuottajana on korostunut yritysten
nykyisessä toimintaympäristössä (tietotalous)
- Saatavilla olevan tiedon määrä on suuri, mutta sen tyyppi ja laatu
vaihtelevat
- Kaikkea tarpeellista tietoa ei kuitenkaan ole saatavilla (..helposti/halvalla/..)
- Kaikki tieto ei ole tarpeellista (infoähky)
- Haasteena on, miten löytää oikea tieto, analysoida ja hyödyntää sitä
6. Tiedolla johtamista ja tiedon johtamista
• Tietojohtaminen voidaan jakaa tiedon johtamiseen ja
tiedolla johtamiseen:
P. Virtanen 6
• Tiedon johtaminen
• organisaatioiden tietovirtojen ohjaus
• tietotuotteiden kehittäminen
• tietojärjestelmien hyödyntäminen
• jne.
• Tiedolla johtaminen
• strateginen johtaminen ja arvonluonti
• suorituksen johtaminen ja tehokkaampi organisaatio
• jne.
Esitetty jako ei ole ehdoton, vaan pikemminkin tarkastelutapa. Vrt.
kolikon kaksi puolta.
7. • Liiketoimintatiedon hallinta käytännön tasolla
– Ilmiö pitää ymmärtää
– Tilaajan/päätöksentekijän toimintaa pitää ymmärtää (myös
oikea tahtotila)
– Sitten käytetään työkaluja
05/12/15 7
8. 05/12/15 8
TOP Business Intelligence and Analytics Platforms
Lähde: Gartner 2015
http://www.gartner.com/technology/reprints.do?id=1-2ACLP1P&ct=150220&st=sb
10. Johdanto
• Termit haltuun ja uudet mahdollisuudet
– Big Datan ja analytiikkamaailman käsitteiden läpikäyminen
• Tiedolla johtaminen
– Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja
analytiikka taipuvat
• Kulttuurin luominen ja organisointi
05/12/15 10
11. Datan käyttö ja analysointi; terminologiaa
Termi Ajanjakso Kuvaus
Päätöksenteon tuki
[Decision Support Systems]
1970-1985 Hyödynnetään data-analyysiä
tukemaan päätöksentekoa
Johdon tukijärjestelmät
[Executive Support/Information
Systems]
1980-1990 Fokus data-analyysissä
ylemmän johdon tueksi
Kuutioiden mallinnus
[Online Analytical Processing,
OLAP]
1990-2000 Ohjelmistoja
multidimensionaalisten
datataulujen analysointiin
Liiketoimintatiedon hallinta
[Business Intelligence]
1989-2005 Työkaluja tukemaan
datalähtöistä päätöksentekoa,
painopiste raportoinnissa
Analytiikka
[Analytics]
2005-2010 Fokus tilastollisessa ja
matemaattisessa analyysissä
päätöksenteon tueksi
Massadata
[Big Data]
2010- Fokus erittäin isossa,
monimuotoisessa ja nopeasti
liikkuvassa datassa
11(Big Data at Work, Davenport, 2014)
12. Päätöksenteon tukijärjestelmät ja johdon
tietojärjestelmät ”1970-1990”
• Säästetään kustannuksia, optimoidaan tiettyä toimintaa,..
• Tuotannonohjaus (Material Requirements Planning)
• Laajempi tuotannon ohjaus (Manufacturing Resources Planning, MRP II)
• Toiminnanohjaus (Enterprise Resource Planning)
• Erilaiset toimintokohtaiset järjestelmät
à Raportteja ja katsauksia
05/12/15 12
Liiketoiminnan
odotukset IT:lle
(Tallon & Kraemer 2007)
13. Kuutioiden mallinnus - OLAP (online analytical
processing)
05/12/15 13
Tuote
Aika
Markkinat
image Athanasios Kastanidis
”1980-1990”
Mm. ERP
14. OLAP-kuutioiden perusidea
• OLAP-tekniikka poikkeaa perinteisestä tilastoinnista ja
raportoinnista siten, että käyttäjä voi vaihtaa näkökulmaa
tiedontarpeensa mukaan.
• Esimerkiksi analyytikko voi lähteä
1) tarkastelemaan tuoteryhmien myyntiä maittain,
2) filtteröidä aineisto tiettyihin maihin
3) joista löytää jotain esimerkiksi myyntitavoitteista poikkeavaa.
Tämän jälkeen
4) porautua esimerkiksi myyntiin tietyissä kaupungeissa.
5) Vaihtaa näkökulmaa liikevoittoon tuoteryhmittäin, jne.
05/12/15 14
”1980-1990”
15. Liiketoimintatiedon hallinnan ulottuvuudet
05/12/15 15
Organisaation
sisäinen
Organisaation
ulkoinenTIEDON
KOHDE
Määrällinen
Laadullinen
TIEDON
TYYPPI
Organisaation
sisäinen
Organisaation
ulkoinen
TIEDON
LÄHDE
(Hannula 2005; image Athanasios Kastanidis)
”1989-2005”
24. Analytiikka ”2005-2010”
• Deskriptiivinen analytiikka
• Diagnostiivinen analytiikka
• Prediktiivinen analytiikka
• Preskriptiivinen analytiikka
• Päätöksentekoa tukeva analytiikka
05/12/15 24
(Big Data and Analytics, Kaisler et al. 2014)
25. Arvioi seuraavien analyysimenetelmien ja -
työkalujen tärkeyttä omassa työssäsi.
(N=78)
(1 = ei lainkaan tärkeä, 5 = erittäin tärkeä)
Kunnari 2014 tietojohtamisen erikoistyö
26. Käytettyjä järjestelmiä (esim. ERP, DW, …)?
(N=61)
• ERP (SAP)
• DW
• ETL
• DB
• Business warehouse
• Office-työkalut
• Qlikview
• CRM
• Cognos
• Data mining
• Sharepoint
• Hadoop
• Nosql
• ennakoiva analytiikka
• Kaupankäyntijärjestelmät
• HR-järjestelmä
• Master-data
Kunnari 2014 tietojohtamisen erikoistyö
27. Kuinka paljon hyödynnät seuraavia menetelmiä
tietojärjestelmistä saatavien tietojen
analysoinnissa? (N=78)
(1 = ei lainkaan, 5 = erittäin paljon)
Kunnari 2014 tietojohtamisen erikoistyö
28. Big Data ”2010-”
05/12/15 28
Volyymi Vauhti Variaatio Varmuus
Data at Rest Data in Motion Data in Many Forms Data in Doubt
Terabittejä olemassa
olevaa dataa
prosessoitavaksi
Striimattua dataa, nopea
vasteaika millisekunneista
sekunteihin
Strukturoitua, ei-
strukturoitua, ja
semistrukturoitua dataa
Epävarmuutta liittyen
datan epätäydellisyyteen,
puutteellisuuteen, tai
virheellisyyteen
(Breuker 2014; Laney, Meta Group 2001 (3V:tä))
29. Big Data transaktioista interaktioihin
05/12/15 29
WEB
BIG DATA
(mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013)
ERP
CRM
ostotiedot
maksutiedot
segmentointi
tarjoustiedot
asiakaskohtaamiset
tukikontaktit
weblogit
tarjoushistoria A/B testaaminen
Dynaaminen
hinnoittelu
Hakukonemarkkinointi
ja optimointi
Mainosverkostot
Käyttäytymispohjainen
kohdentaminen
Dynaamiset
funnellit
Sentimentti
Ulkopuolinen demografia
Kuvat ja videot
Puheen muuttaminen tekstiksi
Feedit
Anturi/sensoridata
Tuote / palvelu logit
SMS/MMS
Sosiaaliset verkostot
Sosiaalinen media
Käyttäjien luoma sisältö
Mobiilidata
Klikkivirran analyysi
Sijaintidata
30. Datan lajeja
Datan laji Muoto Volyymi Kuvaus Esimerkkejä
Master Data Strukturoitu Matala Yritystason dataa jolla on
strategista arvoa organisaatiolle
Asiakas, tuote,
toimittaja
Transaktiodata Struktoroitu & semi-
strukturoitu
Keskinkertainen -
korkea
Transaktiot joita syntyy
liiketoiminta-prosesseissa
Tilaukset, ostot,
maksut
Referenssidata Struktoroitu & semi-
strukturoitu
Matala – keskin-
kertainen
Faktoja jotka tukevat
organisaation kykyä tehokkaasti
prosessoida transaktioita,
hallita masterdataa ja tukea
päätöksiä
Demografiset kentät
Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan
dimensiot tai yksiköt,
ym.
Analytiikkadata Strukturoitu Keskinkertainen -
korkea
Liiketoimintaoperaatiosta tai
transaktioista jalostettua tietoa
raportoinnin ja analytiikan
tarpeisiin
Data joka sijaitsee
tietovarastoissa ja
päätöksenteon
tukijärjestelmissä
Big Data Struktoroitu, semi-
strukturoitu ja ei
strukturoitu
Korkea Isoja data settejä, joita on
haastava tallentaa, etsiä, jakaa,
visualisoida ja analysoida
Ihmisten ja koneiden
luomaa dataa
sosiaalisesta
mediasta, webistä,
mobiililaitteista,
sensoreista, ym.
05/12/15 30
(Big Data and Analytics, Kaisler et al. 2014)
31. Kuinka liiketoimintatiedon hallinta on
muuttunut massadatan myötä?
Massadata Business analytiikka Liiketoimintatiedon
hallinta
Vanhaa • Relaatiotietokannat
• SQL
• Tietovarastot
• Tiedonlouhinta
• Kvantitatiivinen
analyysi
• Tilastotiede
• Operaatiotutkimus
• Päätöksenteon
tukijärjestelmät
• Johdon
tietojärjestelmät
• OLAP
Uutta • 4V:tä
• Monimuotoista dataa
• Vähemmän struktuuria
• Big Data teknologiat
(MapReduce, Hadoop,
NoSQL, ym.)
• Ei strukturoitua dataa
• Dataa monesta
lähteestä
• Monimuotoista dataa
• Data liikkeessä
• Tekstianalytiikka
• Visuaalinen analytiikka
• Sosiaalisen median
analytiikka
• Helppokäyttöisyys
• Visuaalisuus
• Dynaamisuus
• Kattaa organisaation
prosessit
• Koneoppiminen
• RTAP
05/12/15 31
(mukailtu Introduction to Big Data, Kaisler et al. 2014)
32. Lähteitä
• Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-
Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences.
• Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.
October 2012.
• Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business
Review.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January
6, 2014, Waikoloa, Hawai’i.
• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global
Environment. 47th Hawaii International Conference on System Sciences.
• Hannula, M. 2005. Tieto- ja liiketoiminta. Tekniset välineet ja sovellukset. Luento 23.10.2005.
• Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,
J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen
yliopisto. http://dspace.cc.tut.fi/dpub/bitstream/handle/123456789/21534/tietojohtaminen.pdf
• Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February
2001.
• Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge.
http://www.kiwidatascience.it/wp-content/uploads/2013/05/What_Is_Data_Science.pdf
• Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era.
Teradata
• Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus.
http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html
• Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A
Step-wise Approach. 46th Hawaii International Conference on System Sciences.
05/12/15 32
33. Tiedolla johtaminen
• Toiminnan kehittämisen eri ulottuvuudet,
mihin kaikkeen data ja analytiikka taipuvat
• Verkon ja sosiaalisen median analytiikka
esimerkkejä
05/12/15 33
34. Analytiikan eri muodot
05/12/15 34
Analyysi
Informaatio
Mitä on
tapahtumassa?
Miksi se tapahtui?
Mitä tulee
todennäköisesti
tapahtumaan?
Mitä minun pitäisi
tehdä sille?
Prediktiivinen analytiikkaDiagnostiivinen analytiikka
Deskriptiivinen analytiikka Preskriptiivinen analytiikka
Lähde: Gartner
35. Analytiikan muodot yritysten
(liike)toiminnassa
05/12/15 35
Raportit
RAPORTOIDAAN
MITÄ
tapahtui?
ANALYSOIDAAN
MIKSI
se tapahtui?
Ad hoc
BI työkalut
ENNUSTETAAN
MITÄ TULEE
tapahtumaan?
Ennustavat
mallit
OPERATIONALISOIDAAN
MITÄ ON
tapahtumassa nyt?
Linkki operatiivisiin
järjestelmiin
AKTIVOIDAAN
PISTETÄÄN
tapahtumaan
Automaattiset
linkitykset
STRATEGINEN ÄLYKKYYS
OPERATIONAALINEN ÄLYKKYYS
Lähde: mukaillen Yli-Pietilä & Backman 2013
39. Louhian Mika Laukkasen näkökulma
prediktiiviseen analytiikkaan
• Millä ohjelmistoilla ennakoiva analytiikka onnistuu ja millä ei?
– Onnistuu: RapidMiner, SAS, SPSS, MS analysis services, R, AnyLogic..
– Ei onnistu: IBM Cognos, Qlikview, Business Objects, MS reporting services,
Tableau, Oracle OBIEE…
• Vinkkinä ennustemenetelmiä ovat muun muassa seuraavat:
– Luokittelumuuttujille - naive bayes, neuroverkko, logistinen regressio,
päätöspuut..
– Jatkuville muuttujille - erilaiset regressioanalyysit, neuroverkot..
• Jos näitä ominaisuuksia ei löydy, niin kyseessä on raportointiin /
(päätöksentekoa tukevaan) visualisointiin tarkoitettu ohjelmisto
• Milloin kannattaisi investoida prediktiiviseen analytiikkaan? Silloin
kun sinulla on edellytyksiä hyödyntää sen tuloksia, esim.
• Voit toteuttaa ennakoivan huollon ennen laitteen vikaantumista
• Voit torjua asiakaspoistumaa tai ostoskorin hylkäämistä aktiivisilla toimenpiteillä
• Kykenet kohdistettuun myyntiin ja markkinointiin
05/12/15 39Muokattu lähteestä: [Louhia]
40. Prediktiivinen analytiika, esim.
päätöspuut
• Yhdistetään regressio ja klusterointi
– Jaetaan havaintoja osajoukkoihin (klusterointi) tietyn
ennustettavan muuttujan mukaan (regressio)
• Käytetään usein asiakkaiden luokitteluun, kun tiedetään,
minkä ominaisuuden mukaan halutaan luokitella
– Puhelinoperaattorilla tiedossa, että 70 % asiakkaista maksaa
laskunsa myöhässä, ja nyt halutaan tietää, keitä nämä ihmiset
oikein ovat, ja miten voidaan ennustaa, maksaako uusi asiakas
mahdollisesti laskunsa ajoissa
– Asiakastiedoista valitaan ne muuttujat, joiden arvellaan olevan
keskeisessä roolissa. Oletetaan, että seuraavat muuttujat
voisivat vaikuttaa siihen, maksaako asiakas laskunsa ajoissa (0=
ei maksa ajoissa, 1= maksaa ajoissa)
1. Keskimääräinen puhelimen käyttöaste (min/kk)
2. Ikä (1 = alle, 30v. 2 = yli 30v.)
3. Siviilisääty (1 = naimaton, 2 = naimisissa)
05/12/15 40
41. 05/12/15 41
• Puhelinoperaattoriesimerkki jatkuu…
– Alussa meillä on kaikki havainnot (10 000) yhdessä, joista
siis 3 000 maksaa laskunsa ajoissa
– Puumalli jaottelee kaikki 10 000 havaintoa parhaiten
kohdemuuttujaa (laskun ajoissa maksu) luokittelevalla
muuttujalla
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 11.7% 460
0: 88.3% 3480
Yht. 100% 3940
1: 41.9% 2540
0: 58.1% 3520
Yht. 100% 6060
Ikä
2 1
Ikä (1 = alle, 30v. 2 = yli 30v.)
Päätöspuut
1 = maksaa ajoissa
0 = ei maksa ajoissa
1 = maksaa ajoissa
0 = ei maksa ajoissa
42. 05/12/15 42
1: 30% 3000
0: 70% 7000
Yht. 100% 10000
1: 11.7% 460
0: 88.3% 3480
Yht. 100% 3940
1: 41.9% 2540
0: 58.1% 3520
Yht. 100% 6060
2 1
1: 67.1% 490
0: 32.9% 240
Yht. 100% 730
1: 38.5% 2050
0: 61.5% 3280
Yht. 100% 5330
1: 9.3% 310
0: 90.7% 3030
Yht. 100% 3340
1: 25.0% 150
0: 75.0% 450
Yht. 100% 600
Puh.
käyttö
Ikä
Siviili-
sääty
1 2 1 2
• Puhelinoperaattoriesimerkki jatkuu…
• Lopullinen malli voi näyttää tältä
Siviilisääty (1 = naimaton, 2 = naimisissa)
Ikä (1 = alle, 30v. 2 = yli 30v.)
Keskimääräinen puhelimen käyttöaste (1 = <300, 2 = >300 )
Päätöspuut
1 = maksaa ajoissa
0 = ei maksa ajoissa
1 = maksaa ajoissa
0 = ei maksa ajoissa
1 = maksaa ajoissa
0 = ei maksa ajoissa
1 = maksaa ajoissa
0 = ei maksa ajoissa
43. Päätöspuut
• Mitä saatiin selville?
– 91 % alle kolmekymppisistä naimattomista ei
maksa laskuaan ajoissa
– Ainoa ryhmä, joka maksaa laskunsa
ennemmin ajoissa kuin myöhässä on yli
kolmekymppiset alle 300min/kk puhujat
– Ikä on silti tärkein kriteeri
05/12/15 43
Asiakaspoistuman korjaamiseen telekommunikaatioalalla opas
PwC:ltä: Curing Customer Churn
44. Preskriptiivinen analytiikka
• Suosittelujärjestelmät, esim. Amazonin
automaattiset tuotesuositukset
• Vakutuusalalla esimerkiksi
ajoneuvovakuutusten hinnoittelussa pyritään
tunnistamaan tekijät, jotka ennustavat, mitä
tietylle kuljettaja-ajoneuvo-yhdistelmälle tulee
ensi vuonna tapahtumaan. Käytännössä
jokaiselle asiakkaalle tulee eri hinta. (Timo
Ahvonen, Vakuutusyhtiö Fennia)
05/12/15 44
46. CRISP-DM referenssimalli
CRISP-DM referenssimallin tehtävät
Liiketoiminnan
ymmärtäminen
Datan
ymmärtäminen
Datan
valmistelu
Mallinnus,
tiedonlouhinta
Arviointi Tulosten
julkaisu
Määritä
liiketoiminnan
tavoitteet
Tee tilannearvio
Määritä
tiedonlouhinnan
tavoitteet
Laadi
projektisuunnitelma
Kerää alustava
data
Kuvaa data
Tutki dataa
Varmista datan
laatu
Datasetin
kuvaus
Datan valinta
Datan siivous
Datan
rakentaminen
Datan
integrointi
Datan
formatointi
Valitse mallinnus
menetelmä
Suunnittele koe
Rakenna malli
Arvioi mallia
Arvioi tuloksia
Arvioi ja
varmista
tiedonlouhinta
prosessin laatu
Määrittele
seuraavat
stepit
Suunnittele
mallin julkaisu
(esim.
verkkosivuna)
asiakkaalle
Suunnittele
mallin ylläpito
Laadi
loppuraportti
Arvioi projekti
05/12/15 46
Lähde: The CRISP-DM Model (Shearer 2000), ks. myös CRISP-DM 1.0 Step-by-step data mining guide:
https://the-modeling-agency.com/crisp-dm.pdf
47. Analytiikkasykli
1. Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen
2. Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten
3. Deskriptiivinen analytiikka
– Perehdy dataan (descriptives, correlations, factor analysis, cluster
analysis, ym.)
– Luo mahdollisia hypoteeseja (data mining ym.)
4. Prediktiivinen analytiikka
– Muodosta hypoteesit
– Tunnista soveltuvimmat analytiikkamenetelmät
– Kehitä analyyttiset mallit (multivariate regression, logistic regression,
forecasting, non-linear models, decision trees, ym.)
– Aja mallit ja luo ennusteet
5. Preskriptiivinen analytiikka
– Kehitä päätös- ja optimointimallit
– Hyödynnä koneoppimista päätöksien ohjelmointiin
6. Kirjoita johtopäätökset ja suositukset
05/12/15 47
Lähde: Introduction to Big Data (Kaisler et al. 2014)
48. Analytiikkaan pohjautuva
päätöksenteko: 6 vaihetta
48/6
Liiketoiminta-
ongelman tai
–kysymyksen
tunnistaminen
Aikaisempien
löydöksien
läpikäynti
1. 2. 3. 4. 5. 6.
Ratkaisun
mallintaminen
ja muuttujien
valinta
Datan
kerääminen
Datan
analysointi
Tuloksien
esittäminen
ja niiden
pohjalta
toimiminen
Kun käytetään big dataa päätöksenteossa, liiketoimintaihmisten (”non-quants”) pitäisi
keskittyä prosessin ensimmäiseen ja viimeiseen vaiheeseen.
Numeroihmiset tyypillisesti hoitaa yksityiskohdat välissä, mutta (viisaat)
liiketoimintaihmiset esittävät paljon kysymyksiä matkan varrella.
Analytics-Based Decision Making – in Six Key Steps (Daveport, 2013)
Analytiikka liiketoiminnassa
50. Klusterointi
• Kuvailevaa tiedonlouhintaa / deskriptiivistä analytiikkaa
• Tavoitteena klusteroida (luokitella) datamatriisin
havainnot siten, että jokaisen klusterin sisällä olevat
havainnot ovat mahdollisimman homogeenisia, ja
jokainen klusteri mahdollisimman heterogeeninen
muiden klusterien kanssa
• Yleisiä käyttötarkoituksia
– asiakkaiden segmentointi
– myymälöiden ryhmittely menestyksen mukaan esimerkiksi
kolmeen ryhmään: menestyjiin, keskinkertaisiin ja huonoihin
(Niemijärvi 2013)
05/12/15 50
52. Assosiaatiosäännöt
• Prediktiivistä analytiikkaa
• Tarkoituksena löytää havaintoja, jotka esiintyvät yhdessä
useammin kuin muut
• Usein käytettyjä sovelluksia
– Ostoskorianalyysi, engl. market basket analysis (MBA), ks. Esim.
(Niemijärvi 2014); (Ollikainen 2013)
– Klikkivirran analyysi, engl. web clickstream analysis (WCA)
(Paananen 2006)
• Normaaleista tietokannoista poiketen
assosiaatiosääntöjä tarkastellaan transaktio- ei
asiakaspohjaisesti
– MBA:ssa yksi datamatriisin rivi vastaa yhtä kassalla käyntiä
– WCA:ssa yksi datamatriisin rivi vastaa yhtä vierailua
verkkosivuille
05/12/15 52
53. Assosiaatiosäännöt
• Assosiaatiosääntö on todennäköisyyteen perustuva
lausuma tiettyjen tapahtumien samanaikaisesta
tapahtumisesta:
• JOS A=1 ja B=1, NIIN (tietyllä todennäköisyydellä p) C=1
• Todennäköisyys, että ostetaan tavara X, kun tavara Y on ostettu:
X → Y
• Esim. (Maito & Tee) → Keksejä (assosioaatiosääntö)
• Säännön oikealla puolella yleensä vain yksi tekijä
• Säännön vasemmalla puolella harvoin kolmea tekijää enempää (3.
asteen sääntö)
• Todennäköisyydet tavaroiden ostamiselle saadaan jakamalla
ostotapahtumien esiintymistiheys kaikkien ostotapahtumien
lukumäärällä
05/12/15 53
Lähde: (Väisänen, 2011)
54. • Tuki (”Support”) {A → B} = P(A ja B)
– Todennäköisyys, että tuotteet A ja B löytyvät satunnaisesta ostoskorista. Jos 40%
ostoksista sisältää sekä maitoa että leipää, tuki {maitoa→ leipää} = 0.4
• Symmetrinen, eli tuki {leipää → juustoa} = tuki {juustoa → leipää}
• Jos tuki kovin alhainen, ei säännöllä välttämättä ole kovin suurta käytännön
merkitystä
• Luottamus (”Confidence”) {A → B} = tuki {A → B} / tuki {A}
– Todennäköisyys, että satunnaisesta ostoskorista löytyy tuote B, jos siellä on tuote A
– Jos 80 % ostoksista sisältää leipää, mutta vain 40 % sisältää sekä leipää että maitoa,
luottamus {leipää → maitoa} = 0.4 / 0.8 = 0.5
– Luku ei välttämättä ole symmetrinen
• Noste (”Lift”) {A → B} = luottamus {A → B} / tuki {B}
– Normalisoitu luku, joka ilmaisee, kuinka paljon tuotteen A ostaminen vaikuttaa tuotteen
B ostamiseen
– Jos luottamus {leipää → maitoa} = 0.5 ja 40 % ostoksista sisältää maitoa, noste {leipää
→ maitoa} = 0.5 / 0.4 = 1.25
– Eli henkilöt, jotka ostelevat leipää, ostelevat 1.25-kertaisesti maitoa verrattuna koko
porukkaan
05/12/15 54
Assosiaatiosäännöt
Lähde: (Väisänen, 2011)
55. Regressio
• Lineaarinen regressio auttaa ennustamaan
toisen muuttujan arvoja toisen muuttujan arvoilla
• Logistisen regression avulla voidaan selittää/
ennustaa binääristä muuttujaa
• Kuinka mallinnuksen avulla ennustetaan
asiakkaan ostotodennäköisyys? (esim.
Ollikainen 2014)
05/12/15 55
57. BI-prosessimallit 1/5,
tiedon jalostumisprosessi
P. Virtanen 57
Hannula & Pirttimäki 2005
Aiempi tieto
Aiempi tietämys
Informaatio (maksaa…)
Data (0, 0, 1, 0, 1, 0, ..)
Tieto (hintakehitys…)
Tietämys (kannattaa…)
Jalostumisprosessi
58. BI-prosessimallit 2/5
P. Virtanen 58
Tietotarpeet
Tiedon organisointi ja
varastointi
Tiedon
hankinta
Tietotuotteet ml.
-palvelut
Tiedon jakaminen
Tiedon käyttö
Toiminnan
mukauttaminen
Choo 2001
59. BI-prosessimallit 3/5
P. Virtanen 59
2.
Tiedon
tunnistus
1.
Tietotarve ja
määrittely
3.
Työkalujen
valinta
4.
Käyttöön-
otto
5.
Käyttö
TOTEUTUS
5.
Hyötykäyttö
6.
Analysointi
ja seuranta
9.
Muutokset
toiminnassa
8.
Päätöksen-
teko
7.
Vaihto-
ehtojen
muotoilu
KÄYTTÖ
Hannula 2011
60. BI-prosessimallit 4/5
P. Virtanen 60
Chaudhuri & Dayal, 1997
Valvonta ja hallinto
Metadata
ETL,
Extract
Transform
Load (refresh)
DWH
Datamartit
Datan lähteet
Operatiiviset
tietokannat
Ulkoiset lähteet
Kyselyt ja raportit
Analyysi
OLAP palvelimet
toimittaa
Tiedon louhinta
DWH
Loppukäyttö
61. BI-prosessimallit 5/5
P. Virtanen 61
Myllärniemi et al. 2009
tietomassa ymmärrys ja toiminta
tiedon lähteiden määrittely ja etsintä
prosessoitu
tieto
tietotuote
5. Tiedon hyödyntäminen
ja palaute
1. Tietotarpeiden määrittely
3. Tiedon prosessointi
2. Tiedon kerääminen
4. Tiedon jakaminen
62. BI-prosessimalli käytännössä
P. Virtanen 62
PotilasvirratPotilasvirratPotilasvirrat
Henkilöstö
Potilasdata
Resurssit
Tilat
Laitteet
Materiaalit
Aineeton po
Mahdollistaa
Tuottaa
Syötteenä
Muuntaa
Päätöksenteon
tukena
Potilasvirtojen
hallinnan
tehostaminen
Raportointi
Mallinnus ja simulointi
Potilas-
informaation
käyttö
Väihinpää et al. 2008
63. Kulttuurin luominen
• 5 hyvää käytäntöä analytiikkakulttuurin
luomiseksi:
1. Tunnista (liike-)toimintaongelmat ja alueet, jotka
hyötyisivät analytiikkatyökaluista ja/tai –strategiasta
2. Johdon asetettavat selkeät odotukset (ja insentiivit)
3. Aloita pienestä ja rakenna iteratiivisesti à kevyet
lähdöt
4. Rakenna/tue/rekrytoi asian puolestapuhujia
(champions) ja juhli pieniä voittoja
5. Tunnusta että epäonnistumiset ovat hyväksyttävä
tapa oppia
05/12/15 63
Helms 2015. Five Myths and Five Ways to Create an Analytics Culture.
http://www.businessofgovernment.org/blog/business-government/five-myths-and-five-ways-create-
analytics-culture
64. Mitä voidaan oppia parhailta?
05/12/15 64
Raportti saatavissa:
https://hbr.org/resources/pdfs/tools/17568_HBR_SAS
%20Report_webview.pdf
66. Mitkä ovat analytiikkajohtajien
keskeisiä piirteitä?
Ø Ylin johto edellyttää analytiikan käyttöä ja hyvin
määriteltyjä päätöksentekoprosesseja
Ø Analytiikkajohtajat käyttävät oikeanlaisia mittareita
Ø Analytiikkajohtajat korostavat päätöksenteon
läpinäkyvyyttä
Ø Analytiikkajohtajat jakavat KPIt läpi organisaation
Ø Analytiikkajohtajat panostavat koulutukseen
Ø Analytiikkajohtajilla on analytiikka-ammattilaisia
organisaation eri tasoilla ja funktioissa
05/12/15 66
Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading
Organizations Are Adopting a Data-Driven Culture