3. Gartnerin
top
10
strategista
teknologiaa
1. Media
Tablets
and
Beyond
2. Mobile-‐Centric
Applica9ons
and
Interfaces
3. Contextual
and
Social
User
Experience
4. Internet
of
Things
5. App
Stores
and
Marketplaces
6. Next-‐Genera9on
Analy9cs
7. Big
Data
8. In-‐Memory
Compu9ng
9. Extreme
Low-‐Energy
Servers
10.Cloud
Compu9ng
4. Big
Data
ja
Cloud
CompuEng
• Vuodet
2009-‐2011
olivat
ak2ivista
Cloud
Compu2ng-‐
markkinoin2a
• Vuonna
2012
fokus
on
siirtynyt
Big
Dataan
• Osa
toimijoista
on
samoja
ja
osa
tarjoomista
en2siä
uudelleen
nimeAyinä
Cloud Envy Big Data Envy
6. Mitä
on
Big
Data?
• Big
Data
on
kaAokäsite
joukolle
teknologioita
Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
7. Mitä
on
Big
Data?
• Se
on
markkinoin2termi,
aivan
kuten
Cloud
Compu2ng
Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
8. Big
Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and
architectures, designed to economically extract value from very large
volumes of a wide variety of data, by enabling high-velocity capture,
discovery, and/or analysis"
IDC
"Big Data is a technlogy that helps extract value from the digital universe.”
IDC
"Techniques and technologies that make handling data at extreme scale
economical."
Forrester
9. Miksi
Big
Datan
pitäisi
kiinnostaa?
• McKinseyn
ennustus:
• $250
mrd/vuosi
säästöpoten5aali
EU-‐alueen
julkisella
sektorilla
• $600
mrd/vuosi
poten5aalinen
taloudellinen
lisäarvopoten5aali
paikka5etojen
hyödyntämisessä
• Tiedon
määrä
kasvaa
vauhdilla
• Datan
määrä
50-‐kertaistuu(!)
seuraavan
kymmenen
vuoden
aikana
maailmassa
10. Mistä
dataa
oikein
tulee?
Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
11. Osaajapula
uhkaa
“There will be a shortage of talent necessary for
organizations to take advantage of big data. By 2018,
the United States alone could face a shortage of
140,000 to 190,000 people with deep analytical skills
as well as 1.5 million managers and analysts with the
know-how to use the analysis of big data to make
effective decisions.”
Lähde: McKinsey
13. Big
Datan
ABC
• Analy2cs
(analy5ikka)
• Data
pitää
jalostaa
informaa2oksi,
2edoksi
ja
ymmärrykseksi.
Visualisoin2,
konkre2soin2,
ennusteiden
tekeminen,
tunnuslukujen
laskeminen,
korrelaa2oiden
hakeminen...
• Bandwidth
(5etoliikenne)
• Suurten
2etomäärien
liikuAelu
on
yhä
useammin
pullonkaula.
Lähtökohtainen
päätös
siitä,
missä
2etoja
säilytetään
ja
missä
niitä
prosessoidaan
on
yhtä
merkiAävä
kuin
käytetyt
teknologiat
ja
analyysin
hyödyntämiskohteet.
• Content
(sisältö)
• Edelleen
suuri
osa
2edosta
säilytetään,
muAa
jätetään
käyAämäAä
tai
vielä
pahempaa:
heitetään
hukkaan
ilman
ensimmäistäkään
analyysia.
Lähde: Netapp.com
14. Big
Datan
kolme
V-‐kirjainta
(3V)
• Variety
(vaihtelevuus)
• Dataa
on
strukturoitua
ja
strukturoimatonta.
Molempia
pitää
pystyä
hyödyntämään.
• Velocity
(vauh5)
• Datan
määrä
kasvaa
vauhdilla
ja
sitä
tulee
lukemaAomista
lähteistä.
Lähes
reaaliaikaisen
analyysi
tavoiAeena.
• Volume
(voluumi)
• Data
pitää
pystyä
analysoimaan
ja
säilyAämään
myöhempää
käyAöä
varten.
Lähde: Netapp.com
15. Kaksi
V-‐kirjainta
lisää
(3V+2V
=
5V)
• Viscosity
(viskositeeD)
• MiAaa
sitä,
miten
nopeas2
datasta
saadaan
jalosteAua
jotain
liiketoiminnalle
hyödyllistä.
• Virality
(viraalisuus)
• Kuvaa
2edon
siirtymisen
nopeuAa
ihmiseltä
toiselle
(viraalisuuAa)
organisaa2on
sisällä
tai
sen
toimintaverkostossa.
Lähde: Netapp.com
17. Hadoop
• Avoimen
lähdekoodin
Apache-‐projek2,
joka
on
ehkä
tunnetuin
yksiAäinen
tuotenimi
Big
Data-‐tarjoomista
• TarkoiteAu
suurten
datamäärien
hajauteAuun
prosessoin2in
• Asennetaan
palvelinklusteriin,
joka
on
vikasietoinen
eli
yksiAäisen
palvelimen
vikaantuminen
ei
haiAaa
• Kolme
alaprojek2a
1. Hadoop
Common
2. Hadoop
Distributed
Filesystem
3. Hadoop
MapReduce
18. Esimerkki:
Facebook
• Facebook
on
yksi
suurista
Hadoopin
käyAäjistä.
KäyAäjien
vies2en
osalta
HBaseen
yritys
siirtyi
täysin
kesällä
2011.
Luvut
ovat
massiivisia:
• 8
miljardia(!)
vies9ä
päivässä
• yli
75
miljardia
luku-‐/kirjoitustapahtumaa
päivässä
• ruuhka-‐aikoina
1.5
miljoonaa
luku-‐/kirjoitustapahtumaa
sekunnissa(!)
• 2
petatavua
online
dataa
(ja
6
petatavua
varmuuskopioita)
• datan
määrä
kasvaa
250
teratavua
kuukaudessa
20. NoSQL
• Määritelmä
1:
“Next Generation Databases mostly addressing some of the points: being
non-relational, distributed, open-source and horizontally scalable. The
original intention has been modern web-scale databases. The movement
began early 2009 and is growing rapidly. Often more characteristics apply
as: schema-free, easy replication support, simple API, eventually
consistent, a huge data amount, and more.”
Nosql-database.org
21. NoSQL
• Määritelmä
2:
“In computing, NoSQL (sometimes expanded to "not only SQL") is a broad
class of database management systems that differ from the classic model
of the relational database management system (RDBMS) in some significant
ways. These data stores may not require fixed table schemas, usually avoid
join operations, and typically scale horizontally.”
Wikipedia.org
23. Oracle
Big
Data
Appliance
• Hinta
n.
500
000
$
18 Oracle Sun Servers
• 864 GB main memory;
• 216 CPU cores;
• 648 TB of raw disk storage;
• 40 Gb/s InfiniBand connectivity between nodes and engineered systems;
• 10 Gb/s Ethernet connectivity.
24. Autonomy
IDOL
10
"For far too long, organizations have confined structured data to relational databases
and unstructured data to simplistic keyword matching technologies..."
“IDOL 10 brings these worlds together, allowing organizations to automatically
process, understand, and act on 100 percent of their data, in real-time. The results will
be dramatic, as businesses can develop entirely new applications that explore the
richness and color of Human Information that live in unstructured, semi-structured,
and structured forms.”
Hinta?
25. IBM
InfoSphere
BigInsights
• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is
inspired by, and is compatible with, open source Apache Hadoop and used to store,
manage, and gain insights from Internet-scale data at rest...”
• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data
approaches with Apache Hadoop-based workloads.”
• Lisenssihinta n. 24 000 € / vuosi
• Ominaisuudet:
http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
26. SAP
HANA
“Why wait for old-fashioned data analysis? Tap into huge volumes of detailed
information as events unfold with the SAP HANA appliance - our new flexible,
multipurpose, game-changing in-memory computing software.”
Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika
putosi 2-3 tunnista 4 minuuttiin.
Lähde: Tietoviikko.fi
33. Google
BigQuery
ja
Cloud
SQL
• Google
BigQuery
• OLAP
Online
Analy5cal
Processing
• Tällä
hetkellä
(maaliskuu
2012)
vain
beta-‐testaajille
• Google
Cloud
SQL
• Hosted
MySQL
• OLTP
Online
Transac5onal
Processing
• Toimii
ainoastaan
App
Engine-‐sovellusten
kanssa
34. Google
BigQuery
esimerkki
Aineisto:
Wikipedia
Kysymys:
“Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?”
Aika:
7,6 sekuntia