SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
COSA SONO I BIG DATA?
Luca Naso
3 novembre 2018 @ Acadevmy
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
AGENDA
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
AGENDA
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
GOOGLE TRENDS
Google Trends (trends.google.it/trends) riporta quante volte è stata cercata una
certa keyword, in una certa nazione ed in un certo periodo di tempo.
E’ un modo di misurare l’interesse diffuso della società.
Ad esempio, se cercassimo "Facebook" cosa vi aspettate di trovare?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
FACEBOOK TRENDS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
IPHONE 8 VS IPHONE 5
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
BUSINESS INTELLIGENCE
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
QUANDO SONO NATI I BIG DATA?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DEFINIZIONE
Big Data secondo l’Oxford Dictionary:
big data n. Computing (also with capital initials) data of a very large size,
typically to the extent that its manipulation and management present significant
logistical challenges; (also) the branch of computing involving such data.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DEFINIZIONE
Big Data secondo Gartner:
Big data is high-volume, high-velocity and high-variety information assets that
demand cost-effective, innovative forms of information processing for
enhanced insight and decision making.
Da qui sono nate le famose 3 V dei Big Data:
Volume Velocità Varietà
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
QUANTI DATI CI SONO OGGI (2013)?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VOLUME
2.5 Exabytes di dati creati ogni giorno
Facebook: 200 PB di dati nel 2012, (+ 0.5 PB ogni giorno)
In 3 anni il CERN ha raccolto 75 PB di data (LHC)
La maggior parte delle aziende USA ha 100 TB di dati
1 EB = 1000 PB = 10002 TB = 10003 GB
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VELOCITÀ
“Velocità” ha due possibili interpre-
tazioni:
1 Generazione dei dati
2 Elaborazione dei dati
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COSA SUCCEDE SU INTERNET IN 1 MINUTO?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VARIETÀ
Si referisce alla natura dei dati. Ce ne sono di 3 tipi:
1 Strutturati
2 Semi-Strutturati
3 Non-Strutturati
Tutti possono essere Big Data.
La principale novità sono quelli non-strutturati.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI STRUTTURATI
1 Dati in campi fissi all’interno di record (fogli di calcolo, Database
Relazionali)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI NON-STRUTTURATI
2 Data conservati senza alcun modello, o che non hanno alcuna
organizzazione (tetso libero)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI SEMI-STRUTTURATI
3 XML, JSON, CSV (Testo con colonne, con un separatore, con dei tag)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
Due progetti
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Problema: squilibrio tra richiesta e disponibilità
Troppe chiamate (25k l’anno)
Troppo pochi ispettori (200)
Non si riescono a gestire tutte le chiamate
Come scegliere dove mandare gli ispettori?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Soluzione
1 Raccolta di quante più informazioni possibile sugli edifici (tasso di
criminalità, chiamate al pronto soccorso, utilizzo di corrente, acqua, gas,
regolarità nei pagamenti, ...)
2 Confronto con lo storico degli incendi dei medesimi edifici, alla ricerca di
correlazioni (tra il punto 1 e gli incendi)
3 Previsione di rischio (stima la probabilità di incendio) per ogni nuova
chiamata
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Risultati
L’efficienza degli ispettori è aumentata dal 13% al 70%
Il confronto con lo storico ha mostrato che:
tipo di edificio ed anno di costruzione influenza il rischio d’incendio
aver un permesso per lavori di muratura esterni correla con minori rischi
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
I metodi tradizionali sono troppo lenti (~2 settimane). Per questo Google ha
sviluppato un metodo molto alternativo.
Ogni giorno, milioni di utenti nel mondo si informano online riguardo la loro
salute.
E’ quindi naturale aspettarsi che durante la stagione invernale si cerchino più
termini relativi all’influenza.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
Soluzione
1 Raccolta delle ricerche effettuate su Google sulle top 50M keyword
2 Confronto con i dati storici (2003-2008), raccolti dalle Autorità Sanitarie
(CDC negli US), alla ricerca di correlazioni tra il numero di malati e le
keywords
3 Previsione del numero di malati sulla base delle ricerche effettuate nel
giorno stesso
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
Risultati
Tra le 50M di keywords analizzate 45 correlano bene con i dati
La correlazione è sia temporale, che spaziale (diverse nazioni coinvolte)
Il lavoro è stato pubblicato su Nature nel 2009
Le previsioni fatte in questo modo sono state più accurate fino al 50%
[Royal Society Open Science, 2014]
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
RISULTATI
Google Flu Trend GFT Project: www.google.org/flutrends/
Esempio della potenza e del fallimento dei Big Data
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
E MOLTI ALTRI ANCORA
Finanza
Retail
Telecomunicazioni
Energia
Sport
Automotive
Pubblicità
Sanità
Sicurezza
Politica
Formula 1
Giochi Online
Social Media
Scienza
. . .
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
FACCIAMO UN TEST!
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COSA È IL CALCOLO PARALLELO?
Un nuovo modo di risolvere problemi esistenti.
Suddivisione del problema iniziale in parti independenti
Molti “lavoratori” da assegnare a ciascuna delle parti:
tutte le parti vengono risolte contemporaneamente, e non una dopo l’altra
Un “master” che gestisca e coordini il lavoro di tutti come un unico
processo
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
CALCOLO PARALLELO - SCHEMA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SOLUZIONE SERIALE - UNA LUNGA CODA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SOLUZIONE PARALLELA - MOLTE CODE CORTE
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
STRUMENTI BIG DATA
Il calcolo parallelo consente di analizzare grandi moli di dati e in tempi
ragionevoli. La prima tecnologia ad usare questo sistema era fatta da Hadoop
+ MapReduce.
Hadoop rappresenta il cluster di computer (lavoratore = computer);
MapReduce rappresenta l’algoritmo di parallellizazione del lavoro
(distribuisce il lavoro ed esegue su ciascun computer).
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
HADOOP - DEFINIZIONE
Hadoop è un framework software open-source (Apache)
per storage distribuito e processing distribuito
di Big Data su cluster di hardware di base (economico).
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
ECOSISTEMA HADOOP
A partire dal 2012, il ter-
mine "Hadoop" si riferisce
all’"Ecosistema Hadoop".
Include tutto il software
addizionale che può essere
installato ed utilizzato su
Hadoop.
Sono coinvolte migliaia di aziende, tra loro connesse.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
ALCUNI STRUMENTI DELL’ECOSISTEMA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SERVONO VERAMENTE TUTTI?
Una ricerca del 2014 di O’Reilly mostra che:
esistono più di 300 strumenti per lavorare con Big Data
la maggior parte dei professionisti ne usa tra 6 e 10
i più pagati ne usano più di 20
gli stumenti più comuni sono: SQL, Excel, R, Python
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
BIG DATA VS BUSINESS INTELLIGENCE VS HADOOP
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
Riflessioni e nuovi lavori
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PERCHÈ ADESSO?
Per 4 motivi, tutti interconessi:
1 Nuove tecnologie (Hadoop, MapReduce, NoSQL, . . . )
2 Nuove conoscenze (Machine Learning, Data Science, . . . )
3 Le aziende stanno investendo davvero tante risorse (soldi, tempo,
persone)
4 Si sta diffondendo una cultura dei dati (data-driven business)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
NUOVI PARADIGMI
I Big Data richiedono implicitamente 3 cambi di paradigma:
1 da “alcuni” a “tutti”
2 dall’ “ordinato” al “disordinato”
3 dalla “causazione” alla
“correlazione”
1 campione -> popolazione
2 alta qualità -> bassa qualità
3 perchè? -> cosa?
Attenzione al punto 3: il rapporto di causa ed effetto va sempre considerato!
Altrimenti . . .
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
UNA FORTE CORRELAZIONE?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
IL NUOVO LAVORO: “DATA SCIENTIST”
McKinsey: “By 2018, US alone shortage of 140k to 190k people with deep
analytical skills as well as 1.5 million managers and analysts with the
know-how to use the analysis of big data to make effective decisions.”
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COMPETENZE MULTIDISCIPLINARI
McKinsey stima per il settore IT la creazione di 4.4 milioni di posti di lavoro in
tutto il mondo (2015). I più ricercati tra questi saranno sicuramente i Data
Scientist.
I Data Scientist devono avere molte qualità, provenienti da 3 grandi macro
aree:
1 Matematica e Statistica
2 Tecnologia e Programmazione
3 Comunicazione e Business
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
RIEPILOGO
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
Due progetti
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
Riflessioni e nuovi lavori
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
4 PUNTI DA RICORDARE
1 Le 3 V dei Big Data:
Volume, Velocità, Varietà
2 Caratteristiche dei progetti Big Data:
Raccogliere, Analizzare (correlazioni), Utilizzare (previsioni)
3 Calcolo parallelo ed ecosistema Hadoop
4 Cambi di pardigma e multidisciplinarietà
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SAPERNE DI PIÙ SUI BIG DATA
www.facebook.com/bigdata4you/

Mais conteúdo relacionado

Mais procurados

Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Neo4j
 
Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyRohit Dubey
 
Introduction to Knowledge Graphs and Semantic AI
Introduction to Knowledge Graphs and Semantic AIIntroduction to Knowledge Graphs and Semantic AI
Introduction to Knowledge Graphs and Semantic AISemantic Web Company
 
Modern Data Challenges require Modern Graph Technology
Modern Data Challenges require Modern Graph TechnologyModern Data Challenges require Modern Graph Technology
Modern Data Challenges require Modern Graph TechnologyNeo4j
 
Big data introduction
Big data introductionBig data introduction
Big data introductionChirag Ahuja
 
Data Modeling for Big Data
Data Modeling for Big DataData Modeling for Big Data
Data Modeling for Big DataDATAVERSITY
 
Data Catalog as the Platform for Data Intelligence
Data Catalog as the Platform for Data IntelligenceData Catalog as the Platform for Data Intelligence
Data Catalog as the Platform for Data IntelligenceAlation
 
Knowledge Graphs and Generative AI
Knowledge Graphs and Generative AIKnowledge Graphs and Generative AI
Knowledge Graphs and Generative AINeo4j
 
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)Sergey Karayev
 
Big Data - Applications and Technologies Overview
Big Data - Applications and Technologies OverviewBig Data - Applications and Technologies Overview
Big Data - Applications and Technologies OverviewSivashankar Ganapathy
 
A Statistician's View on Big Data and Data Science (Version 1)
A Statistician's View on Big Data and Data Science (Version 1)A Statistician's View on Big Data and Data Science (Version 1)
A Statistician's View on Big Data and Data Science (Version 1)Prof. Dr. Diego Kuonen
 
Big data 2017 final
Big data 2017   finalBig data 2017   final
Big data 2017 finalAmjid Ali
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesAshraf Uddin
 
Transforming BT’s Infrastructure Management with Graph Technology
Transforming BT’s Infrastructure Management with Graph TechnologyTransforming BT’s Infrastructure Management with Graph Technology
Transforming BT’s Infrastructure Management with Graph TechnologyNeo4j
 
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?Neo4j
 

Mais procurados (20)

Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
 
Big data
Big dataBig data
Big data
 
Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit Dubey
 
Introduction to Knowledge Graphs and Semantic AI
Introduction to Knowledge Graphs and Semantic AIIntroduction to Knowledge Graphs and Semantic AI
Introduction to Knowledge Graphs and Semantic AI
 
Modern Data Challenges require Modern Graph Technology
Modern Data Challenges require Modern Graph TechnologyModern Data Challenges require Modern Graph Technology
Modern Data Challenges require Modern Graph Technology
 
Big data introduction
Big data introductionBig data introduction
Big data introduction
 
Big data
Big dataBig data
Big data
 
Data Modeling for Big Data
Data Modeling for Big DataData Modeling for Big Data
Data Modeling for Big Data
 
Data Catalog as the Platform for Data Intelligence
Data Catalog as the Platform for Data IntelligenceData Catalog as the Platform for Data Intelligence
Data Catalog as the Platform for Data Intelligence
 
Knowledge Graphs and Generative AI
Knowledge Graphs and Generative AIKnowledge Graphs and Generative AI
Knowledge Graphs and Generative AI
 
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)
Lecture 4: Transformers (Full Stack Deep Learning - Spring 2021)
 
Big Data - Applications and Technologies Overview
Big Data - Applications and Technologies OverviewBig Data - Applications and Technologies Overview
Big Data - Applications and Technologies Overview
 
A Statistician's View on Big Data and Data Science (Version 1)
A Statistician's View on Big Data and Data Science (Version 1)A Statistician's View on Big Data and Data Science (Version 1)
A Statistician's View on Big Data and Data Science (Version 1)
 
Big data 2017 final
Big data 2017   finalBig data 2017   final
Big data 2017 final
 
Our big data
Our big dataOur big data
Our big data
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture Capabilities
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Transforming BT’s Infrastructure Management with Graph Technology
Transforming BT’s Infrastructure Management with Graph TechnologyTransforming BT’s Infrastructure Management with Graph Technology
Transforming BT’s Infrastructure Management with Graph Technology
 
Big data
Big dataBig data
Big data
 
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?
Pourquoi Leroy Merlin a besoin d'un Knowledge Graph ?
 

Semelhante a Big Data - Breve panoramica

Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiVincenzo Manzoni
 
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Free Your Talent
 
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Vincenzo Manzoni
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data MiningAndrea Frison
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data Consulthinkspa
 
Big data segnali dal futuro
Big data segnali dal futuroBig data segnali dal futuro
Big data segnali dal futuroMarco Domizio
 
Big data and science
Big data and scienceBig data and science
Big data and scienceGiulia Annovi
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiFilippo Ragazzo
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Carlo Vaccari
 
Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaValerio Torriero
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big DataMartinaSalvini
 
Industria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiIndustria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiGemax Consulting
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata MadeeGianluigi Cogo
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger PracticesEmanuela Zaccone
 
Big data, bigger practices
Big data, bigger practicesBig data, bigger practices
Big data, bigger practicesAIDA Monitoring
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaGianluigi Cogo
 
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...Denodo
 

Semelhante a Big Data - Breve panoramica (20)

Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei dati
 
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
 
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
 
FANTIN BIG DATA (1)
FANTIN BIG DATA (1)FANTIN BIG DATA (1)
FANTIN BIG DATA (1)
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data
 
Big data segnali dal futuro
Big data segnali dal futuroBig data segnali dal futuro
Big data segnali dal futuro
 
Big data and science
Big data and scienceBig data and science
Big data and science
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggi
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social Media
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big Data
 
Industria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiIndustria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficienti
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Zeebra big dataanalytics_v1.1
Zeebra big dataanalytics_v1.1Zeebra big dataanalytics_v1.1
Zeebra big dataanalytics_v1.1
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger Practices
 
Big data, bigger practices
Big data, bigger practicesBig data, bigger practices
Big data, bigger practices
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...
La Data Virtualization a supporto della Data Science: "Da grandi poteri deriv...
 

Mais de Luca Naso

Workshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonWorkshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonLuca Naso
 
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsMachine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsLuca Naso
 
Machine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieMachine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieLuca Naso
 
Machine Learning - Breve panoramica
Machine Learning - Breve panoramicaMachine Learning - Breve panoramica
Machine Learning - Breve panoramicaLuca Naso
 
Cos'è il Machine Learning?
Cos'è il Machine Learning?Cos'è il Machine Learning?
Cos'è il Machine Learning?Luca Naso
 
Introduzione sul Machine Learning
Introduzione sul Machine LearningIntroduzione sul Machine Learning
Introduzione sul Machine LearningLuca Naso
 
Problem Solving
Problem SolvingProblem Solving
Problem SolvingLuca Naso
 
The What, Why and How of Big Data
The What, Why and How of Big DataThe What, Why and How of Big Data
The What, Why and How of Big DataLuca Naso
 
How to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsHow to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsLuca Naso
 

Mais de Luca Naso (9)

Workshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonWorkshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in Python
 
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsMachine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
 
Machine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieMachine learning: Definizione e Tipologie
Machine learning: Definizione e Tipologie
 
Machine Learning - Breve panoramica
Machine Learning - Breve panoramicaMachine Learning - Breve panoramica
Machine Learning - Breve panoramica
 
Cos'è il Machine Learning?
Cos'è il Machine Learning?Cos'è il Machine Learning?
Cos'è il Machine Learning?
 
Introduzione sul Machine Learning
Introduzione sul Machine LearningIntroduzione sul Machine Learning
Introduzione sul Machine Learning
 
Problem Solving
Problem SolvingProblem Solving
Problem Solving
 
The What, Why and How of Big Data
The What, Why and How of Big DataThe What, Why and How of Big Data
The What, Why and How of Big Data
 
How to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsHow to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 steps
 

Big Data - Breve panoramica

  • 1. COSA SONO I BIG DATA? Luca Naso 3 novembre 2018 @ Acadevmy
  • 2. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI AGENDA 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 3. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI AGENDA 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 4. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI GOOGLE TRENDS Google Trends (trends.google.it/trends) riporta quante volte è stata cercata una certa keyword, in una certa nazione ed in un certo periodo di tempo. E’ un modo di misurare l’interesse diffuso della società. Ad esempio, se cercassimo "Facebook" cosa vi aspettate di trovare?
  • 5. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI FACEBOOK TRENDS
  • 6. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI IPHONE 8 VS IPHONE 5
  • 7. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI BUSINESS INTELLIGENCE
  • 8. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI QUANDO SONO NATI I BIG DATA?
  • 9. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 10. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DEFINIZIONE Big Data secondo l’Oxford Dictionary: big data n. Computing (also with capital initials) data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data.
  • 11. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DEFINIZIONE Big Data secondo Gartner: Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. Da qui sono nate le famose 3 V dei Big Data: Volume Velocità Varietà
  • 12. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI QUANTI DATI CI SONO OGGI (2013)?
  • 13. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VOLUME 2.5 Exabytes di dati creati ogni giorno Facebook: 200 PB di dati nel 2012, (+ 0.5 PB ogni giorno) In 3 anni il CERN ha raccolto 75 PB di data (LHC) La maggior parte delle aziende USA ha 100 TB di dati 1 EB = 1000 PB = 10002 TB = 10003 GB
  • 14. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VELOCITÀ “Velocità” ha due possibili interpre- tazioni: 1 Generazione dei dati 2 Elaborazione dei dati
  • 15. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COSA SUCCEDE SU INTERNET IN 1 MINUTO?
  • 16. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VARIETÀ Si referisce alla natura dei dati. Ce ne sono di 3 tipi: 1 Strutturati 2 Semi-Strutturati 3 Non-Strutturati Tutti possono essere Big Data. La principale novità sono quelli non-strutturati.
  • 17. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI STRUTTURATI 1 Dati in campi fissi all’interno di record (fogli di calcolo, Database Relazionali)
  • 18. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI NON-STRUTTURATI 2 Data conservati senza alcun modello, o che non hanno alcuna organizzazione (tetso libero)
  • 19. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI SEMI-STRUTTURATI 3 XML, JSON, CSV (Testo con colonne, con un separatore, con dei tag)
  • 20. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA Due progetti 3 TECNOLOGIE 4 BONUS
  • 21.
  • 22. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Problema: squilibrio tra richiesta e disponibilità Troppe chiamate (25k l’anno) Troppo pochi ispettori (200) Non si riescono a gestire tutte le chiamate Come scegliere dove mandare gli ispettori?
  • 23. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Soluzione 1 Raccolta di quante più informazioni possibile sugli edifici (tasso di criminalità, chiamate al pronto soccorso, utilizzo di corrente, acqua, gas, regolarità nei pagamenti, ...) 2 Confronto con lo storico degli incendi dei medesimi edifici, alla ricerca di correlazioni (tra il punto 1 e gli incendi) 3 Previsione di rischio (stima la probabilità di incendio) per ogni nuova chiamata
  • 24. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Risultati L’efficienza degli ispettori è aumentata dal 13% al 70% Il confronto con lo storico ha mostrato che: tipo di edificio ed anno di costruzione influenza il rischio d’incendio aver un permesso per lavori di muratura esterni correla con minori rischi
  • 25.
  • 26. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE I metodi tradizionali sono troppo lenti (~2 settimane). Per questo Google ha sviluppato un metodo molto alternativo. Ogni giorno, milioni di utenti nel mondo si informano online riguardo la loro salute. E’ quindi naturale aspettarsi che durante la stagione invernale si cerchino più termini relativi all’influenza.
  • 27. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE Soluzione 1 Raccolta delle ricerche effettuate su Google sulle top 50M keyword 2 Confronto con i dati storici (2003-2008), raccolti dalle Autorità Sanitarie (CDC negli US), alla ricerca di correlazioni tra il numero di malati e le keywords 3 Previsione del numero di malati sulla base delle ricerche effettuate nel giorno stesso
  • 28. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE Risultati Tra le 50M di keywords analizzate 45 correlano bene con i dati La correlazione è sia temporale, che spaziale (diverse nazioni coinvolte) Il lavoro è stato pubblicato su Nature nel 2009 Le previsioni fatte in questo modo sono state più accurate fino al 50% [Royal Society Open Science, 2014]
  • 29. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI RISULTATI Google Flu Trend GFT Project: www.google.org/flutrends/ Esempio della potenza e del fallimento dei Big Data
  • 30. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI E MOLTI ALTRI ANCORA Finanza Retail Telecomunicazioni Energia Sport Automotive Pubblicità Sanità Sicurezza Politica Formula 1 Giochi Online Social Media Scienza . . .
  • 31. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS
  • 32. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI FACCIAMO UN TEST!
  • 33. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COSA È IL CALCOLO PARALLELO? Un nuovo modo di risolvere problemi esistenti. Suddivisione del problema iniziale in parti independenti Molti “lavoratori” da assegnare a ciascuna delle parti: tutte le parti vengono risolte contemporaneamente, e non una dopo l’altra Un “master” che gestisca e coordini il lavoro di tutti come un unico processo
  • 34. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI CALCOLO PARALLELO - SCHEMA
  • 35. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SOLUZIONE SERIALE - UNA LUNGA CODA
  • 36. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SOLUZIONE PARALLELA - MOLTE CODE CORTE
  • 37. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS
  • 38. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI STRUMENTI BIG DATA Il calcolo parallelo consente di analizzare grandi moli di dati e in tempi ragionevoli. La prima tecnologia ad usare questo sistema era fatta da Hadoop + MapReduce. Hadoop rappresenta il cluster di computer (lavoratore = computer); MapReduce rappresenta l’algoritmo di parallellizazione del lavoro (distribuisce il lavoro ed esegue su ciascun computer).
  • 39. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI HADOOP - DEFINIZIONE Hadoop è un framework software open-source (Apache) per storage distribuito e processing distribuito di Big Data su cluster di hardware di base (economico).
  • 40. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI ECOSISTEMA HADOOP A partire dal 2012, il ter- mine "Hadoop" si riferisce all’"Ecosistema Hadoop". Include tutto il software addizionale che può essere installato ed utilizzato su Hadoop. Sono coinvolte migliaia di aziende, tra loro connesse.
  • 41.
  • 42. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI ALCUNI STRUMENTI DELL’ECOSISTEMA
  • 43. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SERVONO VERAMENTE TUTTI? Una ricerca del 2014 di O’Reilly mostra che: esistono più di 300 strumenti per lavorare con Big Data la maggior parte dei professionisti ne usa tra 6 e 10 i più pagati ne usano più di 20 gli stumenti più comuni sono: SQL, Excel, R, Python
  • 44. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI BIG DATA VS BUSINESS INTELLIGENCE VS HADOOP
  • 45. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS Riflessioni e nuovi lavori
  • 46. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PERCHÈ ADESSO? Per 4 motivi, tutti interconessi: 1 Nuove tecnologie (Hadoop, MapReduce, NoSQL, . . . ) 2 Nuove conoscenze (Machine Learning, Data Science, . . . ) 3 Le aziende stanno investendo davvero tante risorse (soldi, tempo, persone) 4 Si sta diffondendo una cultura dei dati (data-driven business)
  • 47. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI NUOVI PARADIGMI I Big Data richiedono implicitamente 3 cambi di paradigma: 1 da “alcuni” a “tutti” 2 dall’ “ordinato” al “disordinato” 3 dalla “causazione” alla “correlazione” 1 campione -> popolazione 2 alta qualità -> bassa qualità 3 perchè? -> cosa? Attenzione al punto 3: il rapporto di causa ed effetto va sempre considerato! Altrimenti . . .
  • 48. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI UNA FORTE CORRELAZIONE?
  • 49.
  • 50. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI IL NUOVO LAVORO: “DATA SCIENTIST” McKinsey: “By 2018, US alone shortage of 140k to 190k people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
  • 51. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COMPETENZE MULTIDISCIPLINARI McKinsey stima per il settore IT la creazione di 4.4 milioni di posti di lavoro in tutto il mondo (2015). I più ricercati tra questi saranno sicuramente i Data Scientist. I Data Scientist devono avere molte qualità, provenienti da 3 grandi macro aree: 1 Matematica e Statistica 2 Tecnologia e Programmazione 3 Comunicazione e Business
  • 52. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI RIEPILOGO 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA Due progetti 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS Riflessioni e nuovi lavori
  • 53. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 4 PUNTI DA RICORDARE 1 Le 3 V dei Big Data: Volume, Velocità, Varietà 2 Caratteristiche dei progetti Big Data: Raccogliere, Analizzare (correlazioni), Utilizzare (previsioni) 3 Calcolo parallelo ed ecosistema Hadoop 4 Cambi di pardigma e multidisciplinarietà
  • 54. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SAPERNE DI PIÙ SUI BIG DATA www.facebook.com/bigdata4you/