Peter Ylén: Voisiko tekoäly yksinkertaistaa monimutkaisen?
Big data esitys, 14.11.2013, Ivorio Oy
1.
2. Ivorion missio
Ivorio on Suomen johtava riippumaton big data asiantuntija.
Autamme asiakkaitamme selvitymään tiedon
vallankumouksesta voittajina.
3. Mitä tarkoittaa big data?
● Big data tarkoittaa kahta asiaa:
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelee suuresti
2. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
4. Big datan 3 V:tä, se käytetyin määritelmä
1.
Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä
tallentamaan ja hyödyntämään.
2. Velocity
Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi
pystyä tekemään nopeasti.
3. Variety
Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä,
eikä se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.
11. Big datan hyödyntämiskohteita
● Markkinointi
● Suositukset (recommendation engine)
● Tilastollinen analyysi
● Tutkimus- ja kehitystyö
● Mallintaminen ja ennustaminen
● Resurssien kohdentaminen
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä.
12. Kuinka suuret ovat big data -markkinat?
● Yleisin luku on välillä 15-50 mrd €
○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden
koko on n. 26 mrd $
○ Gartner sanoo (10/2012), että vuonna 2012 big data markkinat olivat n. 28 mrd $
○ Wikibon ennustaa (02/2012), että big data -markkinat
ovat vuonna 2015 n. 54 mrd $
○ McKinseyn raportissa (05/2011) arvioitiin big datan
vuotuisen lisäarvo- ja kustannussäästöpotentiaalin
olevan vuonna 2011 arviolta 1 000 mrd €
13. “
McKinsey 2011:
Big data: The next frontier for innovation, competition and productivity
€250 billion - potential annual value
to Europe’s public sector
administration in use of big data more
efficiently.
14. “
General Electrics 2012
Industrial Internet: Pushing the Boundaries of Minds and Machines
Today, the people that manage big
data systems or perform advanced
analytics have developed unique
talents through self-driven
specialization, rather than through any
programs that build a standard set of
skills or principles
15. “
Gartner, 2013:
Survey Analysis: Big Data Adoption in 2013
64 % of organizations investing or
planning to invest in big data
technology.
16. “
Tieto Oyj, Q3/2013:
Osavuosikatsaus Q3 2013
Big datan odotetaan olevan yksi
tietotekniikkapalvelujen nopeimmin
kasvavista alueista keskipitkällä
aikavälillä.
17. Big datan haasteet Suomessa
1. Osaajapula (teknologiat, datatieteilijät)
2. Lähdedatan vaihteleva laatu ja kasvava määrä
3. Ilmiön ja teknologioiden jäsentymättömyys
%
Lähde: LVM:n Big data Suomessa -selvitys 09/2013
18. “
McKinsey, 2011:
Big data: The next frontier for innovation, competition and productivity
By 2018, the United States alone could
face a shortage of 140,000 to
190,000 people with deep analytical
skills.
19. “
Opetus- ja kulttuuriministeriö:
Huippuosaamisella on vaikutusta niin
julkishallinnon sisäiseen toiminnan
tehokkuuteen ja läpinäkyvyyteen kuin
pysyvän kilpailuedun saavuttamiseen
globaaleilla markkinoilla.
20. Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● “Appliancet” (valmisratkaisut)
● In-memory-, In-database analytics
● Pilvipalvelut
○ Amazon Elastic MapReduce
○ Google BigQuery
○ Microsoft HDInsight
23. Innoittajana Google
Googlen
julkaisu
Vuosi
Avoimen
lähdekoodi
n projekti
Vuosi
Mihin tarkoitukseen?
GFS ja
MapReduce
2004 Hadoop
2006
Datan tallentaminen ja
analysointi (klusteri)
Sawzall
2005 Pig ja Hive
2008
Massa-analytiikka
BigTable
2006 HBase
2008
Avain-arvopari -tietokanta
(NoSQL)
Pregel
2010
Giraph
2011
Graph-tietokanta
Dremel / F1
2010
Cloudera
Impala
2012
Nopeat kyselyt
(SQL)
Spanner
2012
?
????
Transaktiot
31. 1. http://hadoop.apache.org
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
“Harva organisaatio päätyy käyttämään
Hadoopia näin. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.”
32. 2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Amazon
(AWS EMR)
Cloudera
(CHD)
Hortonworks (HDP)
MapR
(M7)
Microsoft
(HDInsight)
Pivotal
(Pivotal HD)
IBM
(IHC)
Intel
(Intel Distribution for Apache Hadoop)
33. 2. Valmis jakelu
Vahvuudet (+)
Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-)
Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa
Hadoop käyttöön. Objektiivinen vertailu
hankalaa, tietoa vaikea saada.”
35. 3. Hadoop osana Appliance-ratkaisua
Big data Appliancet (esimerkkilista tunnetuista)
HP
(HAVEn)
IBM
(Infosphere BigInsights)
Microsoft
(Parallel Datawarehouse)
Oracle
(Big Data Appliance)
Pivotal
(Pivotal)
SAP
(SAP HANA Platform)
Teradata
(Teradata Aster Big Analytics Appliance)
36. 3. Hadoop osana Appliance-ratkaisua
Hadoop-kytkökset
HP
(all leading distros)
IBM
(Cloudera)
Microsoft
(Hortonworks)
Oracle
(Cloudera)
Pivotal
(Pivotal HD)
SAP
(Intel, Hortonworks)
Teradata
(Hortonworks)
37. 3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+)
Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-)
Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla
Hadoop hiipii yrityksiin osana isompaa
kokonaisuutta.”
38. 4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon
(AWS Elastic MapReduse, EC2)
Microsoft
(Windows Azure HDInsight)
Joyent
(Joyent Hadoop)
Lisäksi esim. MapR M7:lla tehty terasortin
maailmanennätys
Google
(Google Compute Cloud)
40. 4. Hadoop pilvipalveluna
Vahvuudet (+)
Nopea käyttöönotto, joustavuus
Heikkoudet (-)
Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto
myös tuotantokäyttöön.”
43. Kannattaako versio 2 ottaa
käyttöön?
Kyllä.
Nyt liikkeelle lähdettäessä ei ole mielekästä
takertua versioon 1.x. Harjoitteluun,
konseptointiin ja pilotointiin versio 1.x käy hyvin
tietenkin edelleen.
44. Ivorio tarjoaa Pohjoismaiden ensimmäisen
Hadoop-sertifikaatin. Ensimmäinen versio tuli
saataville syyskuussa 2013 suomeksi ja
myöhemmin sertifikaatista tulevat myös ruotsinja englanninkieliset versiot.
46. Ehdotus 1: Lähteä liikkeelle
Pilvipalveluiden kohdalla mm. Accenture
suositteli jo vuonna 2009, että liikkeelle
kannattaa lähteä heti ja ei niille
vähäarvoisimmilla sovelluksilla, vaan
liiketoiminnalle merkityksellisillä.
Kuunneltiinko? Olisko kannattanut?
48. Ehdotus 3: Teknologiakartoitus
Peilataan omien datalähteiden mahdollisuuksia
tarjolla olevien teknologioiden tarjoamiin
vaihtoehtoihin. Otetaan huomioon osaaminen,
teknologioiden kypsyys, kustannuskset (elinkaari)
ja odotettavissa olevat hyödyt.
49. Ehdotus 4: Laaditaan datastrategia
Laaditaan strateginen kartta tulevaisuuteen.
Miten tulevaisuuden markkinoilla aiotaan tuottaa
lisäarvoa ja pitää sekä parantaa omaa asemaa
arvoketjussa?