3. Cosa sono i BIG DATA?
(Wikipedia)
Termine adoperato per descrivere l'insieme delle tecnologie e delle metodologie di
analisi di dati massivi. Il termine indica la capacità di estrapolare, analizzare e
mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati,
per scoprire i legami tra fenomeni diversi e prevedere quelli futuri.
Insieme di informazioni molto grande (nell’ordine degli Zettabyte,) che necessita di
metodi analitici ad hoc per le estrazioni di valore.
1 megabyte = 106 byte
1 gigabyte = 109 byte
1 terabyte = 1012 byte
1 zettabyte = 1021 byte,
4. Cosa sono i BIG DATA?
Modello delle 3V (Douglas Laney, 2001)
• Volume: quantità di dati (strutturati, non strutturati) generati, ogni secondo, da
sorgenti di vario tipo.
• Varietà: differente tipologia dei dati che vengono generati, collezionati ed
utilizzati.
• Velocità: velocità con cui i nuovi dati vengono generati e necessità che questi
dati arrivino in tempo reale al fine di effettuare analisi su di essi.
In seguito
• Veridicità: misura dell’affidabilità.
• Valore: capacità di trasformare i dati in valore.
ed ancora altre caratteristiche…
5. Cosa sono i BIG DATA?
ESEMPI
Dati elaborati quando si utilizza Google
• Ad esempio, quando cerchi un ristorante su Google Maps o guardi un video
su YouTube, elaboriamo le informazioni relative a quella attività, che possono
includere il video visualizzato, gli ID del dispositivo, gli indirizzi IP, i dati dei
cookie e la posizione.
• I tipi di informazioni sopra descritti vengono elaborati anche quando utilizzi
app o siti che ricorrono a servizi Google, come gli annunci, Analytics e il video
player di YouTube.
(Promemoria sulla Privacy di Google)
Immagini digitali = insieme di pixel —> insieme di numeri (scala di grigio o
colore)
6. Chi crea i BIG DATA?
Numerose fonti
• Human generated: social networks, portale di e-commerce, siti di recensioni,
news…
• Machine generated: sensori GPS, IoT, centrali di monitoraggio…
• Business generated: pagamenti, ordini, dati di produzione, inventario…
7. Chi crea i BIG DATA?
• Dati strutturati: dati conservati in database, organizzati secondo schemi rigidi
• Dati NON strutturati: dati conservati senza alcuno schema (es. file di testo,
immagini)
8. BIG DATA Analytics
Problemi
• immagazzinare
• trasmettere
• visualizzare
• “dimensione” molto alta
• analizzare e costruire modelli predittivi
informazioni —> valore
10. Verso forme nascoste…
Può la matematica mettere un po’ di ordine?
• Statistica descrittiva: Regressione lineare, clustering
• Topological Data Analysis (TDA)
convertire dati grezzi in valore e
conoscenza
11. Verso forme nascoste…
Cassetta degli attrezzi matematici
• vettori —> riferimento cartesiano e coordinate
• distanza tra punti —> misure
• forme
BIG DATA
13. Regressione lineare
(Legendre, Gauss 1805) determinare, sulla base di osservazioni
astronomiche, le orbite di corpi celesti intorno al sole
Problema trovare la “migliore” retta, cioè la retta che passa il più “vicino” possibile ai
punti dati
14. Regressione lineare
Coordinate —> proiezione —> passaggio ad una dimensione minore
Metodo dei minimi quadrati —> calcolo dell’errore —> migliore retta
min
X
i=1,...,n
(yi axi b)2
15. Cluster analysis
Cosa accade se i dati non si avvicinano ad una retta?
Ripartire/raggruppare i dati secondo criteri di similarità —> Distanza —> intorni
16. Cluster analysis
distanza euclidea
s X
i=1,...,n
(xi yi)2
Centro del cluster = media dei dati
distanza di Manhattan
X
i=1,...,n
|xi yi|
P1 + P2 + ... + Pn
n
Ampiezza e forma del cluster —> scelta della distanza
17. Cluster analysis
Problemi
• Gli algoritmi di clustering dipendono dalla distanza
• Scelta a priori della forma dei cluster
• Numero dei cluster (regioni ad alta densità)
• Le regioni a bassa densità costituiscono rumore
Gli algoritmi di clustering si possono riguardare come un tentativo
di costruzione delle “componenti connesse” di un oggetto
(es. carta geografica)
18. Topological data analysis
Topologia: studio delle proprietà delle figure e delle forme che non cambiano
quando viene effettuata una deformazione.
Classificazione
indipendentemente da coordinate e distanze
(Eulero 1736) Problema dei ponti di Könisberg: attraversare tutti i 7 ponti della città
una sola volta ed in una sola passeggiata
19. Topological data analysis
• Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti
• Es. Classificazione dell’alfabeto
{A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z}
20. Topological data analysis
• Agli spazi vengono associati oggetti algebrici (es. numeri) detti invarianti
• Es. Classificazione dell’alfabeto
{A,D,O,P,Q,R} {B} {C,E,F,G,H,I,L,M,N,S,T,U,V,X,Y,W,Z}
1 buco 0 buchi
• Es. Tazza = Ciambella
Numeri di Betti1 buco
21. Clustering e TDA
Variazione dei numeri di Betti
Al variare del raggio, si passa da un insieme discreto di 6 punti a 3 cluster
ed infine ad 1 cluster
La TDA non ripartisce necessariamente i dati, ma cerca un “modello
topologico” dei dati
22. TDA E NATURAL IMAGE STATISTICS
G.Carlsson, A.B. Lee, K.S.Pedersen, D. Mumford, A. Zomorodian …..
• Immagine effettuata da una fotocamera digitale vista come un insieme di vettori in un
spazio di dimensione molto alta
• se p è il numero di pixel, l’immagine è un insieme di vettori di Rp —> insieme di
dati non strutturato
Problema
Questo insieme di vettori ha una forma?
23. TDA E NATURAL IMAGE STATISTICS
Idea (Mumford, Pedersen, Lee)
Insieme di dati = database di immagini in bianco e nero della città di Groningen
• in ogni immagine vengono considerati patch 3x3 (vettori di R9)
• ogni pixel ha un valore che può variare da 0 a 255
http://www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
Predominanza di matrici “costanti” in cui il
tono di grigio non varia in modo evidente
(basso contrasto)
—> poco contributo alla struttura (rumore)
24. TDA E NATURAL IMAGE STATISTICS
• definizione di una “norma” (lunghezza di un vettore) —> misura del contrasto
• selezione casuale di 5000 patch e scelta del 20% con norma più grande —>
database di patch ad alto contrasto
• trasformazione dei dati per passare da 9 dimensioni a 7 dimensioni
i dati sono concentrati su una sfera o su un toro
• studio della topologia/forma della porzione ad alta densità
25. TDA E NATURAL IMAGE STATISTICS
Modello dei tre cerchi
Sono presenti zone con densità più alta, che corrispondono a patch più frequenti
www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
26. TDA E NATURAL IMAGE STATISTICS
Modello topologico associato
www.ams.org/journals/bull/2009-46-02/S0273-0979-09-01249-X/S0273-0979-09-01249-X.pdf
Bottiglia di Klein