SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
Mitä	
  on	
  Big	
  Data?
13.03.2012
Immo	
  Salo
Eufris
Big	
  Data:	
  yleisesi>ely
Gartnerin	
  top	
  10	
  
strategista	
  teknologiaa
1. Media	
  Tablets	
  and	
  Beyond
2. Mobile-­‐Centric	
  Applica9ons	
  and	
  Interfaces
3. Contextual	
  and	
  Social	
  User	
  Experience
4. Internet	
  of	
  Things
5. App	
  Stores	
  and	
  Marketplaces
6. Next-­‐Genera9on	
  Analy9cs
7. Big	
  Data
8. In-­‐Memory	
  Compu9ng
9. Extreme	
  Low-­‐Energy	
  Servers
10.Cloud	
  Compu9ng
Big	
  Data	
  ja	
  Cloud	
  CompuEng
• Vuodet	
  2009-­‐2011	
  olivat	
  ak2ivista	
  Cloud	
  Compu2ng-­‐
  markkinoin2a
• Vuonna	
  2012	
  fokus	
  on	
  siirtynyt	
  Big	
  Dataan
• Osa	
  toimijoista	
  on	
  samoja	
  ja	
  osa	
  tarjoomista	
  en2siä	
  
  uudelleen	
  nimeAyinä


 Cloud Envy                             Big Data Envy
Pari	
  yleistä	
  kuvaa




 2012       2015           2020
Mitä	
  on	
  Big	
  Data?
• Big	
  Data	
  on	
  kaAokäsite	
  joukolle	
  teknologioita




                                         Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
Mitä	
  on	
  Big	
  Data?
• Se	
  on	
  markkinoin2termi,	
  aivan	
  kuten	
  Cloud	
  Compu2ng




                                        Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
Big	
  Data-­‐määritelmiä
"Big data technologies describe a new generation of technologies and
architectures, designed to economically extract value from very large
volumes of a wide variety of data, by enabling high-velocity capture,
discovery, and/or analysis"
IDC



"Big Data is a technlogy that helps extract value from the digital universe.”
IDC



"Techniques and technologies that make handling data at extreme scale
economical."
Forrester
Miksi	
  Big	
  Datan	
  pitäisi	
  kiinnostaa?
• McKinseyn	
  ennustus:
  • $250	
  mrd/vuosi	
  säästöpoten5aali	
  EU-­‐alueen	
  julkisella	
  sektorilla
  • $600	
  mrd/vuosi	
  poten5aalinen	
  taloudellinen	
  lisäarvopoten5aali	
  
     paikka5etojen	
  hyödyntämisessä


• Tiedon	
  määrä	
  kasvaa	
  vauhdilla
  • Datan	
  määrä	
  50-­‐kertaistuu(!)	
  seuraavan	
  kymmenen	
  vuoden	
  
     aikana	
  maailmassa
Mistä	
  dataa	
  oikein	
  tulee?




                                     Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
Osaajapula	
  uhkaa
 “There will be a shortage of talent necessary for
 organizations to take advantage of big data. By 2018,
 the United States alone could face a shortage of
 140,000 to 190,000 people with deep analytical skills
 as well as 1.5 million managers and analysts with the
 know-how to use the analysis of big data to make
 effective decisions.”
 Lähde: McKinsey
Big	
  Data:	
  viitekehyksiä
Big	
  Datan	
  ABC
• Analy2cs	
  (analy5ikka)
  • Data	
  pitää	
  jalostaa	
  informaa2oksi,	
  2edoksi	
  ja	
  ymmärrykseksi.	
  Visualisoin2,	
  
      konkre2soin2,	
  ennusteiden	
  tekeminen,	
  tunnuslukujen	
  laskeminen,	
  korrelaa2oiden	
  
      hakeminen...



• Bandwidth	
  (5etoliikenne)
  • Suurten	
  2etomäärien	
  liikuAelu	
  on	
  yhä	
  useammin	
  pullonkaula.	
  Lähtökohtainen	
  päätös	
  
      siitä,	
  missä	
  2etoja	
  säilytetään	
  ja	
  missä	
  niitä	
  prosessoidaan	
  on	
  yhtä	
  merkiAävä	
  kuin	
  
      käytetyt	
  teknologiat	
  ja	
  analyysin	
  hyödyntämiskohteet.



• Content	
  (sisältö)
  • Edelleen	
  suuri	
  osa	
  2edosta	
  säilytetään,	
  muAa	
  jätetään	
  käyAämäAä	
  tai	
  vielä	
  
      pahempaa:	
  heitetään	
  hukkaan	
  ilman	
  ensimmäistäkään	
  analyysia.


                                                                                                                            Lähde: Netapp.com
Big	
  Datan	
  kolme	
  V-­‐kirjainta	
  (3V)
• Variety	
  (vaihtelevuus)
   • Dataa	
  on	
  strukturoitua	
  ja	
  strukturoimatonta.	
  Molempia	
  pitää	
  pystyä	
  hyödyntämään.



• Velocity	
  (vauh5)
   • Datan	
  määrä	
  kasvaa	
  vauhdilla	
  ja	
  sitä	
  tulee	
  lukemaAomista	
  lähteistä.	
  Lähes	
  
       reaaliaikaisen	
  analyysi	
  tavoiAeena.



• Volume	
  (voluumi)
   • Data	
  pitää	
  pystyä	
  analysoimaan	
  ja	
  säilyAämään	
  myöhempää	
  käyAöä	
  varten.




                                                                                                                Lähde: Netapp.com
Kaksi	
  V-­‐kirjainta	
  lisää	
  (3V+2V	
  =	
  5V)
• Viscosity	
  (viskositeeD)
   • MiAaa	
  sitä,	
  miten	
  nopeas2	
  datasta	
  saadaan	
  jalosteAua	
  jotain	
  liiketoiminnalle	
  
       hyödyllistä.



• Virality	
  (viraalisuus)
   • Kuvaa	
  2edon	
  siirtymisen	
  nopeuAa	
  ihmiseltä	
  toiselle	
  (viraalisuuAa)	
  organisaa2on	
  sisällä	
  
       tai	
  sen	
  toimintaverkostossa.




                                                                                                                Lähde: Netapp.com
Big	
  Data:	
  käsi>eitä
Hadoop
• Avoimen	
  lähdekoodin	
  Apache-­‐projek2,	
  joka	
  on	
  ehkä	
  
  tunnetuin	
  yksiAäinen	
  tuotenimi	
  Big	
  Data-­‐tarjoomista
• TarkoiteAu	
  suurten	
  datamäärien	
  hajauteAuun	
  prosessoin2in
• Asennetaan	
  palvelinklusteriin,	
  joka	
  on	
  vikasietoinen	
  eli	
  
  yksiAäisen	
  palvelimen	
  vikaantuminen	
  ei	
  haiAaa


• Kolme	
  alaprojek2a
  1. Hadoop	
  Common
  2. Hadoop	
  Distributed	
  Filesystem
  3. Hadoop	
  MapReduce
Esimerkki:	
  Facebook
• Facebook	
  on	
  yksi	
  suurista	
  Hadoopin	
  käyAäjistä.	
  KäyAäjien	
  
  vies2en	
  osalta	
  HBaseen	
  yritys	
  siirtyi	
  täysin	
  kesällä	
  2011.	
  
  Luvut	
  ovat	
  massiivisia:
    • 8	
  miljardia(!)	
  vies9ä	
  päivässä
    • yli	
  75	
  miljardia	
  luku-­‐/kirjoitustapahtumaa	
  päivässä
    • ruuhka-­‐aikoina	
  1.5	
  miljoonaa	
  luku-­‐/kirjoitustapahtumaa	
  
      sekunnissa(!)
    • 2	
  petatavua	
  online	
  dataa	
  (ja	
  6	
  petatavua	
  varmuuskopioita)
    • datan	
  määrä	
  kasvaa	
  250	
  teratavua	
  kuukaudessa
MapReduce
• Googlen	
  vuonna	
  2004	
  esiAelemä	
  laskentamalli

                                     2
                                     2

                Map                  2        Reduce        3
                                                            4
                                     1
                                                            5
                                     2
                                     3
NoSQL
• Määritelmä	
  1:

  “Next Generation Databases mostly addressing some of the points: being
  non-relational, distributed, open-source and horizontally scalable. The
  original intention has been modern web-scale databases. The movement
  began early 2009 and is growing rapidly. Often more characteristics apply
  as: schema-free, easy replication support, simple API, eventually
  consistent, a huge data amount, and more.”

  Nosql-database.org
NoSQL
• Määritelmä	
  2:

  “In computing, NoSQL (sometimes expanded to "not only SQL") is a broad
  class of database management systems that differ from the classic model
  of the relational database management system (RDBMS) in some significant
  ways. These data stores may not require fixed table schemas, usually avoid
  join operations, and typically scale horizontally.”

  Wikipedia.org
Big	
  Data	
  tuo>eita
Oracle	
  Big	
  Data	
  Appliance
• Hinta	
  n.	
  500	
  000	
  $




18 Oracle Sun Servers
 • 864 GB main memory;
 • 216 CPU cores;
 • 648 TB of raw disk storage;
 • 40 Gb/s InfiniBand connectivity between nodes and engineered systems;
 • 10 Gb/s Ethernet connectivity.
Autonomy	
  IDOL	
  10




"For far too long, organizations have confined structured data to relational databases
and unstructured data to simplistic keyword matching technologies..."

“IDOL 10 brings these worlds together, allowing organizations to automatically
process, understand, and act on 100 percent of their data, in real-time. The results will
be dramatic, as businesses can develop entirely new applications that explore the
richness and color of Human Information that live in unstructured, semi-structured,
and structured forms.”

Hinta?
IBM	
  InfoSphere	
  BigInsights
• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is
  inspired by, and is compatible with, open source Apache Hadoop and used to store,
  manage, and gain insights from Internet-scale data at rest...”


• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data
  approaches with Apache Hadoop-based workloads.”


• Lisenssihinta n. 24 000 € / vuosi


• Ominaisuudet:
  http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
SAP	
  HANA




 “Why wait for old-fashioned data analysis? Tap into huge volumes of detailed
 information as events unfold with the SAP HANA appliance - our new flexible,
 multipurpose, game-changing in-memory computing software.”


 Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika
 putosi 2-3 tunnista 4 minuuttiin.
 Lähde: Tietoviikko.fi
Big	
  Data	
  pilvipalveluna
MapReduce	
  ja	
  NoSQL	
  pilvessä


                                       EC2
                                       S3
                                       + DynamoDB
Amazon	
  ElasEc	
  MapReduce
• Hadoop-­‐klusteri	
  palveluna
• Ei	
  sitoutumista,	
  ei	
  kiinteitä	
  kustannuksia
Amazon	
  ElasEc	
  MapReduce	
  hinnat




Käyttöönotto 0 €, ei sitoumuksia.
Amazon	
  DynamicDB
• NoSQL-­‐2etokanta	
  palveluna
• Ei	
  sitoutumista,	
  ei	
  kiinteitä	
  kustannuksia

• Saatavilla	
  EU-­‐alueella	
  maaliskuusta	
  2012	
  alkaen
Amazon	
  DynamoDB	
  hinnat




Käyttöönotto 0 €, ei sitoumuksia.
Google	
  BigQuery	
  ja	
  Cloud	
  SQL
• Google	
  BigQuery
  • OLAP	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Online	
  Analy5cal	
  Processing
  • Tällä	
  hetkellä	
  (maaliskuu	
  2012)	
  vain	
  beta-­‐testaajille



• Google	
  Cloud	
  SQL
  • Hosted	
  MySQL
  • OLTP	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Online	
  Transac5onal	
  Processing
  • Toimii	
  ainoastaan	
  App	
  Engine-­‐sovellusten	
  kanssa
Google	
  BigQuery	
  esimerkki
                             Aineisto:
                             Wikipedia

                             Kysymys:
                             “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?”

                             Aika:
                             7,6 sekuntia
KIITOS!

Mais conteúdo relacionado

Mais procurados

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...ivoriofinland
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...ivoriofinland
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorioivoriofinland
 
Big data liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...
Big data   liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...Big data   liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...
Big data liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...ivoriofinland
 
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014ivoriofinland
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Digitalmikkeli
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...ivoriofinland
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013ivoriofinland
 

Mais procurados (9)

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, ...
 
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
Tietoyhteiskuntasektorin huippuseminaari 8.10.2013 Helsingissä, aiheena "Osaa...
 
Pilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, IvorioPilvi ja big data 3.10.2013, Ivorio
Pilvi ja big data 3.10.2013, Ivorio
 
Big data liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...
Big data   liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...Big data   liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...
Big data liiketoiminnan johtamiseen tarvitaan tietoa, Microsoft-tilaisuus 1...
 
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
My Data -selvitys, Liikenne- ja viestintäministeriö (LVM), 09-2014
 
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjastoPilvipalvelut 25.4.2016 Jyväskylän kirjasto
Pilvipalvelut 25.4.2016 Jyväskylän kirjasto
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
 
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
Ivorion esitys Hitachin tilaisuudessa 27.11.2013 Helsingin Casinolla, aiheena...
 
Big data tietoisku julkishallinnolle 2.10.2013
Big data  tietoisku julkishallinnolle 2.10.2013Big data  tietoisku julkishallinnolle 2.10.2013
Big data tietoisku julkishallinnolle 2.10.2013
 

Semelhante a Mitä on big data, Aamiaistilaisuus 13.03.2012

Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaanTalent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaanLoihde Advisory
 
Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläivoriofinland
 
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...Management Institute of Finland MIF
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Mika Aho
 
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014Lari Hotari
 
Edge Computing 0204020, Telia Inmics-Nebula
Edge Computing 0204020, Telia Inmics-NebulaEdge Computing 0204020, Telia Inmics-Nebula
Edge Computing 0204020, Telia Inmics-NebulaTelia Inmics-Nebula
 
Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016Riku E. Järvinen
 
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihinforumvirium
 
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminenYhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminenFinceptum Oy
 
Data kasvuryhma es-2021
Data kasvuryhma es-2021Data kasvuryhma es-2021
Data kasvuryhma es-2021Eero Siljander
 
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...Bilot
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master DatanLoihde Advisory
 
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...Accountor Enterprise Solutions Oy
 
KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013Kari Lehtomaa
 
Svenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataSvenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataMicke Hindsberg
 
Granlund Virtual Property
Granlund Virtual PropertyGranlund Virtual Property
Granlund Virtual PropertyTero Järvinen
 

Semelhante a Mitä on big data, Aamiaistilaisuus 13.03.2012 (20)

Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaanTalent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
Talent Base: Mitä on Big Data - teknologianäkökulma Big Datan hallintaan
 
Big data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:lläBig data -tilaisuus, 19.03.2013 IBM:llä
Big data -tilaisuus, 19.03.2013 IBM:llä
 
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...
Uusi MIF -kiertue. Kai Lehtonen: IT –infrastruktuurin uudistaminen IaaS –pilv...
 
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?
 
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014
Microservices - Palveluarkkitehtuurin uusi tuleminen - EMC Forum 2014
 
Edge Computing 0204020, Telia Inmics-Nebula
Edge Computing 0204020, Telia Inmics-NebulaEdge Computing 0204020, Telia Inmics-Nebula
Edge Computing 0204020, Telia Inmics-Nebula
 
Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016Pilvipalveluiden perusteita, luento 25.4.2016
Pilvipalveluiden perusteita, luento 25.4.2016
 
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin
6Aika: Datalähtöistä liiketoimintaa kuutoskaupunkeihin
 
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminenYhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
Yhä lisääntyvän tietoturvainformaation tehokas hallinta ja hyödyntäminen
 
Data kasvuryhma es-2021
Data kasvuryhma es-2021Data kasvuryhma es-2021
Data kasvuryhma es-2021
 
Valtio Expo 2019 - Pilvi tuli jo, oletko valmis?
Valtio Expo 2019 - Pilvi tuli jo, oletko valmis?Valtio Expo 2019 - Pilvi tuli jo, oletko valmis?
Valtio Expo 2019 - Pilvi tuli jo, oletko valmis?
 
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...
Case Ruukki Constructions: Tehokas tiedon keräys, jalostaminen ja visualisoin...
 
Maakuntien tietojohtamisen ratkaisukokonaisuus MATI-hanke
Maakuntien tietojohtamisen ratkaisukokonaisuus MATI-hankeMaakuntien tietojohtamisen ratkaisukokonaisuus MATI-hanke
Maakuntien tietojohtamisen ratkaisukokonaisuus MATI-hanke
 
Big data -strategia
Big data  -strategiaBig data  -strategia
Big data -strategia
 
Big Data kohtaa Master Datan
Big Data kohtaa Master DatanBig Data kohtaa Master Datan
Big Data kohtaa Master Datan
 
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...
Microsoft Power BI -webinaarin materiaali 6.9.2018: Accountor Enterprise Solu...
 
KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013
 
Hadoop
HadoopHadoop
Hadoop
 
Svenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataSvenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen data
 
Granlund Virtual Property
Granlund Virtual PropertyGranlund Virtual Property
Granlund Virtual Property
 

Mais de Immo Salo

Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Immo Salo
 
Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Immo Salo
 
Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Immo Salo
 
Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Immo Salo
 
Smart machines -presentation, April 2015
Smart machines  -presentation, April 2015Smart machines  -presentation, April 2015
Smart machines -presentation, April 2015Immo Salo
 
Try out Hadoop
Try out HadoopTry out Hadoop
Try out HadoopImmo Salo
 
Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Immo Salo
 
Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Immo Salo
 
Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Immo Salo
 
Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Immo Salo
 
Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Immo Salo
 
Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Immo Salo
 
Smart Machines Oct 2014
Smart Machines Oct 2014Smart Machines Oct 2014
Smart Machines Oct 2014Immo Salo
 
Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Immo Salo
 
Smart machines - The Next Hype
Smart machines - The Next HypeSmart machines - The Next Hype
Smart machines - The Next HypeImmo Salo
 
Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Immo Salo
 
Smart machines - THe Future Is Here
Smart machines - THe Future Is HereSmart machines - THe Future Is Here
Smart machines - THe Future Is HereImmo Salo
 
Smart Machines Sep 2014
Smart Machines Sep 2014Smart Machines Sep 2014
Smart Machines Sep 2014Immo Salo
 
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloCloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloImmo Salo
 

Mais de Immo Salo (20)

Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)
 
Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021
 
Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016
 
Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Smart Machines -presentation May 2015
Smart Machines -presentation May 2015
 
Smart machines -presentation, April 2015
Smart machines  -presentation, April 2015Smart machines  -presentation, April 2015
Smart machines -presentation, April 2015
 
Try out Hadoop
Try out HadoopTry out Hadoop
Try out Hadoop
 
Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015
 
Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Smart machines -presentation, January 2015
Smart machines -presentation, January 2015
 
Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014
 
Haiku Deck
Haiku DeckHaiku Deck
Haiku Deck
 
Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Smart machines -presentation, November 2014
Smart machines -presentation, November 2014
 
Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014
 
Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015
 
Smart Machines Oct 2014
Smart Machines Oct 2014Smart Machines Oct 2014
Smart Machines Oct 2014
 
Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?
 
Smart machines - The Next Hype
Smart machines - The Next HypeSmart machines - The Next Hype
Smart machines - The Next Hype
 
Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Smart machines - The Hype of 2015
Smart machines - The Hype of 2015
 
Smart machines - THe Future Is Here
Smart machines - THe Future Is HereSmart machines - THe Future Is Here
Smart machines - THe Future Is Here
 
Smart Machines Sep 2014
Smart Machines Sep 2014Smart Machines Sep 2014
Smart Machines Sep 2014
 
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloCloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
 

Mitä on big data, Aamiaistilaisuus 13.03.2012

  • 1. Mitä  on  Big  Data? 13.03.2012 Immo  Salo Eufris
  • 3. Gartnerin  top  10   strategista  teknologiaa 1. Media  Tablets  and  Beyond 2. Mobile-­‐Centric  Applica9ons  and  Interfaces 3. Contextual  and  Social  User  Experience 4. Internet  of  Things 5. App  Stores  and  Marketplaces 6. Next-­‐Genera9on  Analy9cs 7. Big  Data 8. In-­‐Memory  Compu9ng 9. Extreme  Low-­‐Energy  Servers 10.Cloud  Compu9ng
  • 4. Big  Data  ja  Cloud  CompuEng • Vuodet  2009-­‐2011  olivat  ak2ivista  Cloud  Compu2ng-­‐ markkinoin2a • Vuonna  2012  fokus  on  siirtynyt  Big  Dataan • Osa  toimijoista  on  samoja  ja  osa  tarjoomista  en2siä   uudelleen  nimeAyinä Cloud Envy Big Data Envy
  • 5. Pari  yleistä  kuvaa 2012 2015 2020
  • 6. Mitä  on  Big  Data? • Big  Data  on  kaAokäsite  joukolle  teknologioita Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
  • 7. Mitä  on  Big  Data? • Se  on  markkinoin2termi,  aivan  kuten  Cloud  Compu2ng Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
  • 8. Big  Data-­‐määritelmiä "Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis" IDC "Big Data is a technlogy that helps extract value from the digital universe.” IDC "Techniques and technologies that make handling data at extreme scale economical." Forrester
  • 9. Miksi  Big  Datan  pitäisi  kiinnostaa? • McKinseyn  ennustus: • $250  mrd/vuosi  säästöpoten5aali  EU-­‐alueen  julkisella  sektorilla • $600  mrd/vuosi  poten5aalinen  taloudellinen  lisäarvopoten5aali   paikka5etojen  hyödyntämisessä • Tiedon  määrä  kasvaa  vauhdilla • Datan  määrä  50-­‐kertaistuu(!)  seuraavan  kymmenen  vuoden   aikana  maailmassa
  • 10. Mistä  dataa  oikein  tulee? Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
  • 11. Osaajapula  uhkaa “There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.” Lähde: McKinsey
  • 13. Big  Datan  ABC • Analy2cs  (analy5ikka) • Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,   konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden   hakeminen... • Bandwidth  (5etoliikenne) • Suurten  2etomäärien  liikuAelu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös   siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merkiAävä  kuin   käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet. • Content  (sisältö) • Edelleen  suuri  osa  2edosta  säilytetään,  muAa  jätetään  käyAämäAä  tai  vielä   pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia. Lähde: Netapp.com
  • 14. Big  Datan  kolme  V-­‐kirjainta  (3V) • Variety  (vaihtelevuus) • Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään. • Velocity  (vauh5) • Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukemaAomista  lähteistä.  Lähes   reaaliaikaisen  analyysi  tavoiAeena. • Volume  (voluumi) • Data  pitää  pystyä  analysoimaan  ja  säilyAämään  myöhempää  käyAöä  varten. Lähde: Netapp.com
  • 15. Kaksi  V-­‐kirjainta  lisää  (3V+2V  =  5V) • Viscosity  (viskositeeD) • MiAaa  sitä,  miten  nopeas2  datasta  saadaan  jalosteAua  jotain  liiketoiminnalle   hyödyllistä. • Virality  (viraalisuus) • Kuvaa  2edon  siirtymisen  nopeuAa  ihmiseltä  toiselle  (viraalisuuAa)  organisaa2on  sisällä   tai  sen  toimintaverkostossa. Lähde: Netapp.com
  • 17. Hadoop • Avoimen  lähdekoodin  Apache-­‐projek2,  joka  on  ehkä   tunnetuin  yksiAäinen  tuotenimi  Big  Data-­‐tarjoomista • TarkoiteAu  suurten  datamäärien  hajauteAuun  prosessoin2in • Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli   yksiAäisen  palvelimen  vikaantuminen  ei  haiAaa • Kolme  alaprojek2a 1. Hadoop  Common 2. Hadoop  Distributed  Filesystem 3. Hadoop  MapReduce
  • 18. Esimerkki:  Facebook • Facebook  on  yksi  suurista  Hadoopin  käyAäjistä.  KäyAäjien   vies2en  osalta  HBaseen  yritys  siirtyi  täysin  kesällä  2011.   Luvut  ovat  massiivisia: • 8  miljardia(!)  vies9ä  päivässä • yli  75  miljardia  luku-­‐/kirjoitustapahtumaa  päivässä • ruuhka-­‐aikoina  1.5  miljoonaa  luku-­‐/kirjoitustapahtumaa   sekunnissa(!) • 2  petatavua  online  dataa  (ja  6  petatavua  varmuuskopioita) • datan  määrä  kasvaa  250  teratavua  kuukaudessa
  • 19. MapReduce • Googlen  vuonna  2004  esiAelemä  laskentamalli 2 2 Map 2 Reduce 3 4 1 5 2 3
  • 20. NoSQL • Määritelmä  1: “Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.” Nosql-database.org
  • 21. NoSQL • Määritelmä  2: “In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.” Wikipedia.org
  • 23. Oracle  Big  Data  Appliance • Hinta  n.  500  000  $ 18 Oracle Sun Servers • 864 GB main memory; • 216 CPU cores; • 648 TB of raw disk storage; • 40 Gb/s InfiniBand connectivity between nodes and engineered systems; • 10 Gb/s Ethernet connectivity.
  • 24. Autonomy  IDOL  10 "For far too long, organizations have confined structured data to relational databases and unstructured data to simplistic keyword matching technologies..." “IDOL 10 brings these worlds together, allowing organizations to automatically process, understand, and act on 100 percent of their data, in real-time. The results will be dramatic, as businesses can develop entirely new applications that explore the richness and color of Human Information that live in unstructured, semi-structured, and structured forms.” Hinta?
  • 25. IBM  InfoSphere  BigInsights • “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...” • “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.” • Lisenssihinta n. 24 000 € / vuosi • Ominaisuudet: http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
  • 26. SAP  HANA “Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.” Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin. Lähde: Tietoviikko.fi
  • 28. MapReduce  ja  NoSQL  pilvessä EC2 S3 + DynamoDB
  • 29. Amazon  ElasEc  MapReduce • Hadoop-­‐klusteri  palveluna • Ei  sitoutumista,  ei  kiinteitä  kustannuksia
  • 30. Amazon  ElasEc  MapReduce  hinnat Käyttöönotto 0 €, ei sitoumuksia.
  • 31. Amazon  DynamicDB • NoSQL-­‐2etokanta  palveluna • Ei  sitoutumista,  ei  kiinteitä  kustannuksia • Saatavilla  EU-­‐alueella  maaliskuusta  2012  alkaen
  • 33. Google  BigQuery  ja  Cloud  SQL • Google  BigQuery • OLAP                      Online  Analy5cal  Processing • Tällä  hetkellä  (maaliskuu  2012)  vain  beta-­‐testaajille • Google  Cloud  SQL • Hosted  MySQL • OLTP                      Online  Transac5onal  Processing • Toimii  ainoastaan  App  Engine-­‐sovellusten  kanssa
  • 34. Google  BigQuery  esimerkki Aineisto: Wikipedia Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?” Aika: 7,6 sekuntia