Big: alla scoperta dei Big Data

BIG
BIG DATA
Cosa sono?
Quanti sono?
Che informazioni danno?
Hanno una forma?
Chi li crea?
Che valore hanno?

Cosa sono i BIG DATA?
(Wikipedia)
Termine adoperato per descrivere l'insieme delle tecnologie e delle metodologie di
analisi di dati massivi. Il termine indica la capacità di estrapolare, analizzare e
mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati,
per scoprire i legami tra fenomeni diversi e prevedere quelli futuri.
Insieme di informazioni molto grande (nell’ordine degli Zettabyte,) che necessita di
metodi analitici ad hoc per le estrazioni di valore.
1 megabyte = 106 byte
1 gigabyte = 109 byte
1 terabyte = 1012 byte
1 zettabyte = 1021 byte,

Modello delle 3V (Douglas Laney, 2001)
• Volume: quantità di dati (strutturati, non strutturati) generati, ogni secondo, da
sorgenti di vario tipo.
• Varietà: differente tipologia dei dati che vengono generati, collezionati ed
utilizzati.
• Velocità: velocità con cui i nuovi dati vengono generati e necessità che questi
dati arrivino in tempo reale al ﬁne di effettuare analisi su di essi.
In seguito
• Veridicità: misura dell’afﬁdabilità.
• Valore: capacità di trasformare i dati in valore.
ed ancora altre caratteristiche…

ESEMPI
Dati elaborati quando si utilizza Google
• Ad esempio, quando cerchi un ristorante su Google Maps o guardi un video
su YouTube, elaboriamo le informazioni relative a quella attività, che possono
includere il video visualizzato, gli ID del dispositivo, gli indirizzi IP, i dati dei
cookie e la posizione.
• I tipi di informazioni sopra descritti vengono elaborati anche quando utilizzi
app o siti che ricorrono a servizi Google, come gli annunci, Analytics e il video
player di YouTube.
(Promemoria sulla Privacy di Google)
Immagini digitali = insieme di pixel —> insieme di numeri (scala di grigio o
colore)

Chi crea i BIG DATA?
Numerose fonti
• Human generated: social networks, portale di e-commerce, siti di recensioni,
news…
• Machine generated: sensori GPS, IoT, centrali di monitoraggio…
• Business generated: pagamenti, ordini, dati di produzione, inventario…

Chi crea i BIG DATA?
• Dati strutturati: dati conservati in database, organizzati secondo schemi rigidi
• Dati NON strutturati: dati conservati senza alcuno schema (es. ﬁle di testo,
immagini)

BIG DATA Analytics
Problemi
• immagazzinare
• trasmettere
• visualizzare
• “dimensione” molto alta
• analizzare e costruire modelli predittivi
informazioni —> valore

BIG DATA Analytics
informazioni —> valore

Verso forme nascoste…
Può la matematica mettere un po’ di ordine?
• Statistica descrittiva: Regressione lineare, clustering
• Topological Data Analysis (TDA)
convertire dati grezzi in valore e
conoscenza

Cassetta degli attrezzi matematici
• vettori —> riferimento cartesiano e coordinate
• distanza tra punti —> misure
• forme
BIG DATA

dato —> vettore
equazione —> compressione dati
• ax+by+c=0 • x2+y2+ax+by+c=0

Regressione lineare
(Legendre, Gauss 1805) determinare, sulla base di osservazioni
astronomiche, le orbite di corpi celesti intorno al sole
Problema trovare la “migliore” retta, cioè la retta che passa il più “vicino” possibile ai
punti dati

Regressione lineare
Coordinate —> proiezione —> passaggio ad una dimensione minore
Metodo dei minimi quadrati —> calcolo dell’errore —> migliore retta
min
X
i=1,...,n
(yi axi b)2

Cluster analysis
Cosa accade se i dati non si avvicinano ad una retta?
Ripartire/raggruppare i dati secondo criteri di similarità —> Distanza —> intorni

Cluster analysis
distanza euclidea
s X
i=1,...,n
(xi yi)2
Centro del cluster = media dei dati
distanza di Manhattan
X
i=1,...,n
|xi yi|
P1 + P2 + ... + Pn
n
Ampiezza e forma del cluster —> scelta della distanza

Cluster analysis
Problemi
• Gli algoritmi di clustering dipendono dalla distanza
• Scelta a priori della forma dei cluster
• Numero dei cluster (regioni ad alta densità)
• Le regioni a bassa densità costituiscono rumore
Gli algoritmi di clustering si possono riguardare come un tentativo
di costruzione delle “componenti connesse” di un oggetto
(es. carta geograﬁca)

Topological data analysis
Topologia: studio delle proprietà delle ﬁgure e delle forme che non cambiano
quando viene effettuata una deformazione.
Classiﬁcazione
indipendentemente da coordinate e distanze
(Eulero 1736) Problema dei ponti di Könisberg: attraversare tutti i 7 ponti della città
una sola volta ed in una sola passeggiata

• Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti
• Es. Classiﬁcazione dell’alfabeto
{A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z}

• Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti
• Es. Classiﬁcazione dell’alfabeto
{A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z}
1 buco 0 buchi
• Es. Tazza = Ciambella
Numeri di Betti1 buco

Clustering e TDA
Variazione dei numeri di Betti
Al variare del raggio, si passa da un insieme discreto di 6 punti a 3 cluster
ed inﬁne ad 1 cluster
La TDA non ripartisce necessariamente i dati, ma cerca un “modello
topologico” dei dati

TDA E NATURAL IMAGE STATISTICS
G.Carlsson, A.B. Lee, K.S.Pedersen, D. Mumford, A. Zomorodian …..
• Immagine effettuata da una fotocamera digitale vista come un insieme di vettori in un
spazio di dimensione molto alta
• se p è il numero di pixel, l’immagine è un insieme di vettori di Rp —> insieme di
dati non strutturato
Problema
Questo insieme di vettori ha una forma?

Idea (Mumford, Pedersen, Lee)
Insieme di dati = database di immagini in bianco e nero della città di Groningen
• in ogni immagine vengono considerati patch 3x3 (vettori di R9)
• ogni pixel ha un valore che può variare da 0 a 255
http://www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
Predominanza di matrici “costanti” in cui il
tono di grigio non varia in modo evidente
(basso contrasto)
—> poco contributo alla struttura (rumore)

• deﬁnizione di una “norma” (lunghezza di un vettore) —> misura del contrasto
• selezione casuale di 5000 patch e scelta del 20% con norma più grande —>
database di patch ad alto contrasto
• trasformazione dei dati per passare da 9 dimensioni a 7 dimensioni
i dati sono concentrati su una sfera o su un toro
• studio della topologia/forma della porzione ad alta densità

Modello dei tre cerchi
Sono presenti zone con densità più alta, che corrispondono a patch più frequenti
www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf

Modello topologico associato
www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
Bottiglia di Klein

Big: alla scoperta dei Big Data

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Big: alla scoperta dei Big Data

Semelhante a Big: alla scoperta dei Big Data (20)

Mais de Alumni Mathematica

Mais de Alumni Mathematica (20)

Big: alla scoperta dei Big Data