Applicazione dell'algoritmo di clustering DBSCAN allo studio di traiettorie a...
Project work disd marconi
1. DISD - Relazione Project Work
Big Data Oriented Models for ITS
Authors:
Michele Marconi
2. PULIZIA DEI DATI
• Separazioni delle colonne ID e ID veicolo che nel
dataset risultano nella stessa colonna
• Le coordinate devono essere separate dal punto
• Si mettono nella stessa colonna i valori delle date e
delle ore
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 2
3. NUOVE COLONNE
• Si procede ricavando delle flag (O, D, P) per ogni
punto. Origine, Destinazione e Passaggio o
Transito
• Se la differenza fra due punti successivi è inferiore
a 15 min. avrò un punto di transito. Altrimenti
verifico che il punto sia l’inzio o la fine di uno
spostamento e quindi sarà O oppure D.
19/03/18 Pagina 3
Michele Marconi
Big Data Oriented Models for ITS
4. ZONIZZAZIONE TRAMITE CLUSTER
• Con i soli dati O,D si utilizza l’algoritmo K-means
per suddividere i dati in 30 zone
• Grazie a questa zonizzazione ogni dato può essere
collocato in una specifica zona.
• Si possono quindi ottenere sia la matrice O/D che
una rappresentazione grafica della zonizzazione
sulla mappa.
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 4
7. PERCORSI PER UNA SPEFICICA O/D
• Si selezionano una zona di origine ed una di
destinazione e si conteggiano gli spostamenti totali
tra queste due zone.
• Tra le due zone si individuano diversi percorsi.
• Per poter differenziare i percorsi si costruisce una
matrice di coefficienti di correlazione tra tutti gli
spostamenti per la coppia O/D selezionata.
• Tramite algoritmo K-means vengono raggruppati
tutti gli spostamenti con lo stesso percorso
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 7
8. CLUSTER A 2 PERCORSI
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 8
9. CLUSTER A 3 PERCORSI
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 9
10. UTILIZZO DEL SUPERCOMPUTER
• Parte dello script è stato riscritto in parallelo in
modo da poter essere elaborato dal
Sumpercomputer.
• Tutto i dati disponibili sono stati analizzati.
• Si sono selezionati i dati appartenenti ad una
specifica zona (EUR) ed ad una fascia oraria
stabilita (6-9).
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 10
11. ZONA SELEZIONATA
Zona dell’EUR selezionata tramite il Supercomputer
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 11
13. DIAGRAMMA DI VORONOI
Diagramma utile per visualizzare la suddivisione in cluster della
zona prescelta
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 13
14. FILTRAGGIO DEGLI OUTLIERS
• I percorsi ottenuti tramite cluster della matrice dei
coefficienti di correlazione non separano i dati come
ci spettiamo.
• E’ stato perciò utilizzato un filtro pur pulire il dataset
da eventuali outliers.
• Dai risultati ottenuti si evince una separazione netta
tra i percorsi.
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 14
15. PERCORSI OTTENUTI CON OUTLIERS
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 15
16. PERCORSI OTTENUTI SENZA OUTLIERS
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 16
17. TABELLE DEI TEMPI DI PERCORRENZA
Dati dei tempi di percorrenza madia per quarti d’ora per ogni
giorno della settimana.
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 17
18. PREVISIONE OTTENUTA TRAMITE ARIMA
Previsione ottenuta dai dati medi di percorrenza per
gli 8 quarti d’ora successivi.
19/03/18Michele Marconi
Big Data Oriented Models for ITS
Pagina 18