O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

CERVED - Neo4J e Real-Time Algorithms come abbiamo integrato i grafi nella nostra Fast Data Platform

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Carregando em…3
×

Confira estes a seguir

1 de 27 Anúncio
Anúncio

Mais Conteúdo rRelacionado

Mais de Neo4j (20)

Mais recentes (20)

Anúncio

CERVED - Neo4J e Real-Time Algorithms come abbiamo integrato i grafi nella nostra Fast Data Platform

  1. 1. Neo4J e Real-Time Algorithms Come abbiamo integrato i grafi nella nostra Fast Data Platform Il caso del Titolare Effettivo
  2. 2. Chi Siamo Antonello Mantuano (Cerved Group) Head of Software Engineering Stefano Iacino (Cerved Group) Resp. Innovative Data Integration antonellomantuano @manant74 stefanoiacino
  3. 3. 3 Cerved, la data-driven company Oltre 2.600 professionisti 250 IT Specialist 35.000 clienti Da oltre 40 anni Aiutiamo il sistema economico a proteggersi dal rischio e a crescere in maniera sostenibile. Lo facciamo mettendo dati, tecnologia e talento al servizio di persone, imprese, banche e istituzioni A settembre 2021, Cerved Group Spa entra in ION Group, uno dei più grandi operatori FinTech sul mercato a livello internazionale, a seguito dell’Offerta Pubblica di Acquisto sul capitale di Cerved.
  4. 4. ECOSISTEMA DATI TECNOLOGIE DI FRONTIERA APP VALUE BASED Il più grande ecosistema di dati economici in Italia, integrabile con quello dei nostri partner e dei nostri clienti Patrimonio informativo ricco, unico, distintivo e costantemente in crescita Le Tecnologie più innovative ed avanzate per la gestione, elaborazione e visualizzazione dei dati Machine Learning, Advanced Analytics e Motori Semantici per trasformare i dati in soluzioni di valore «App» pronte all’uso, che non necessitano di attività di integrazione sui sistemi ❨IT Independent❩ App Cerved per generare valore 4 I nostri elementi distintivi 1 2 3
  5. 5. 5 Ecosistema dati unico, distintivo e in crescita Bilanci 19,9M - storico dal 1984 Visure camerali 13,9M visure valide Protesti 0,8M anagrafiche valide Procedure da visura 2,6M fallimenti, liquidazioni…. Elenco Soci 9,7M soci validi Cariche societarie 12M di esponenti e soci DATI UFFICIALI CAMERALI Dati immobiliari (Catasto) 114M di immobili censiti, 91% di copertura Nazionale (stima) Pregiudizievoli (Conservatoria) 1,1M atti validi associati a 875K soggetti Addetti imprese (INPS) 4,9M aziende con N° addetti, dettaglio qualifica e tipo contratto Elenco soci (CONSOB) Soci e partecipazioni relative alle società di capitale DATI UFFICIALI NON CAMERALI News 70K analizzate al giorno Corporate Website 1,2M siti aziende italiane Social Feed 90K analizzati al giorno Social Page aziendali 750K referenze social Web Pages 500M analizzate a settimana Contatti E-mail (15M) & Telefoni (5M) WEB/SOCIAL DATA Arricchimento con Dati clienti CLIENTI PARTNERSHIP VODAFONE Dati statistici mobilità delle SIM EXPERIAN Credit Bureau: finanziamenti richiesti ed erogati HAWK & White List Warranty Liste antiriciclaggio Perizie Immobiliari 130K perizie nel 2018 (400K negli ultimi 5 anni) Gare Pubbliche Aperte e chiuse, con vincitore: 12,7M (ANAC) Finanziamenti pubblici 1,1M europei e 370K italiani Fondo Centrale di Garanzia 12K soggetti ISTAT & BANKIT Analisi statistiche (134 variabili) e finanziarie Elenco Start-up (Infocamere) 10K start-up registrate OPEN DATA PA 21,2K Enti e 14,8K aziende partecipate Payline 71M esperienze pagamenti su 2,7M aziende Attività economiche non iscritte (1,9 M) Titolare effettivo 3,8M di titolari effettivi (fino al 17° livello di analisi) Relazioni Oltre 200M di possesso, 35M tra soci e aziende Ateco rivisitati 32% aziende italiane con Ateco rivisto DATI PROPRIETARI Gruppi 244K gruppi italiani
  6. 6. 6 La nostra Evoluzione Da sempre ci siamo confrontati con la necessità di gestire tanti dati, di avere un’architettura in grado di elaborare ed erogare i dati con più velocità e sistemi in grado di reggere carico sempre crescente. MySql 199x.. 2000 2004 2008 2010 2012 2013 2014 2015 2016 0101 1010 2017 2018 2019 2020 TODAY
  7. 7. Cerved e i Grafi… una lunga storia
  8. 8. I dati attorno ad una azienda ACME spa Esponenti Soci Partecipazioni Soci Comproprietà Relazione Affari Le relazioni tra le imprese e le persone rappresentano un grafo naturale costituito da diverse tipologie di relazioni E’ una tipologia di informazione che mette in difficoltà i database relazionali
  9. 9. Titolare Effettivo Fino al livello n° 3, nessuno penserebbe che Willy esercita un controllo effettivo di maggioranza sulla ACME. Willy sembra un socio minoritario di ACME Livello 1: 10% Livello 3: 24.4% Livello 4: 34.2% ACME spa Soc. A (40%) Soc. B (50%) Willy (10%) Soc. A1 (40%) Soc. A2 (60%) Soc. B1 (40%) Soc. B2 (60%) Willy (40%) Duffy (60%) Willy (40%) Soc. B1.1 (60%) Soc. B2.1 (50%) Speedy (50%) Willy (90%) Bunny (10%) Livello 2: 10%
  10. 10. 10 Come calcolare il Titolare Effettivo (2012) Lesson Learned - La realtà complessa è molto spesso modellabile a grafi - La gestione dei grafi non è efficiente con gli approcci standard - Gli algoritmi di network analysis sono molto potenti nell’estrarre informazioni dai grafi Neo4J ci ha permesso di avere quel propellente per raggiungere risultati che sembravano lontanissimi Database Relazionale • 80h di elaborazione per 1M di aziende • Media fino a 5 livello: 369ms • Media oltre 5° liv: 12s • Database a Grafo • 200.000 T.E / ora • Media fino a 5 livello: 30ms • Media oltre 5° liv: 39ms
  11. 11. Il business graph delle aziende italiane
  12. 12. Titolare effettivo Primo grafo con aziende italiane [PLUGIN] 2012 Nephila Graph platform in Real Time 2014 2016 12 Evoluzione del nostro grafo 2019 Gruppi Algoritmi di discovery di cricche in un grafo [CYPHER] Graph4You La prima web app Data driven basata su grafi [APOC]
  13. 13. 13 Graph4U La Network Analysis al servizio dei dati https://graph4you.cerved.com/ Persone Fisiche 28 milioni di persone con ruoli in aziende Attività economiche - Oltre 6 milioni di aziende attive - Oltre 20 milioni di aziende storiche - 1,8 milioni di aziende non iscritte Immobili - 102 milioni tra fabbricati e terreni - 174 milioni di relazioni di proprietà
  14. 14. I grafi e il Near Real Time
  15. 15. 15 Alimentazione grafo via ETL La prima modalità per creare un Grafo con Neo4J Online OLTP Processes Batch Data Integration Persistence Relational DB Graph DB Asincronia tra i database Distonie sui dati Rigenerazioni full continue Limiti ETL
  16. 16. 16 Alimentazione sincrona Oracle / Neo4J Il primo tentativo di avere un grafo alimentato in real time Online OLTP Processes Batch Data Integration Persistence Relational DB Graph DB Service Layer Network Analysis (TifEff + Gruppi) App Cerved Distonie sui Dati Rigenerazioni full continue Poca scalabilità Limiti Manutenibilità più complessa
  17. 17. L’approccio in Streaming Nel 2018 abbiamo abbracciato le architetture in streaming estendendole anche a Neo4J Online OLTP Processes Batch Data Integration Persistence Topic Kafka 1:1 for Table CDC Publisher Three partitions each with the constant key Topic Kafka Redefine key Multi Join Aggregator Topic Kafka Change Streams Source Connector Sink Connector Document Business Topic Kafka Spring Data Kafka Streaming Kubernetes Kafka Connect Distributed Table1 Table n
  18. 18. 18 Aggiornamento da Kafka verso Neo4J e gli altri DB NTABULA kafka topic 1 kafka topic N . . . . HADOOP GRAPH4U
  19. 19. 19 Aggiornamento da Kafka verso Neo4J Contesto Anagrafica nephila-updater nephila-updater nephila-updater nephila-services nephila-services nephila-services Contesto Soci Impresa Contesto Esponenti Impresa kafka messages Contesto Situazione Impresa Contesto Attività economica … attualmente 11 input topic Event-Carried State Transfer
  20. 20. 20 Eventi di ricalcolo Titolare Effettivo nephila-updater nephila-updater nephila-updater nephila-services nephila-services nephila-services 1 - kafka messages Event-Carried State Transfer 2 – Potential Changed Subjects Ricalcolo Titolare 3 - Push messages 4 - Trigger algorithm
  21. 21. 21 Numeri attuali •380.000/d Aggiornamenti grafo •280.000/d Ricalcoli titolare effettivo •80.000/d Letture titolare effettivo Meno letture su neo4j
  22. 22. 22 Cosa ci abbiamo guadagnato? Impianto totale settimanale batch Reimplementazione delle Logiche Erogazione Convivenza di erogazione e ricalcolo Aggiornamento NRT continuo per qualsiasi tipo di variazione : nessun disallineamento tra i DB Allineamento automatico alle BR aziendali Prestazioni complessivamente migliori
  23. 23. Cerved Fast Data Platform Online OLTP Processes Batch Suppliers Data Integration Data Persistence Stream Processing Events Aggregator Database Ingestion Cloud Ingestor Tabula G4U Business Rules DB Rel S3 Business Rules Rating e Score A. I. Machine Learning Data API Data Intelligence Product Platform Web App Massive Data Product API Custom Solutions Mobile App Workflows Report Generator UX System Analytics B2B Integrations
  24. 24. Next Step
  25. 25. Altri spunti di Network Analysis Recommendation System Centri di potere e Distretti economici Defection Portfolio New Link Detection Fraud Detection Influencers
  26. 26. Il Futuro non è più quello di una volta • Creare valore, nell’era dei BigData, è sempre più difficile rispetto al passato • Occorre mettere insieme componenti diverse: Tecnologie, Persone, Creatività, ecc… E spesso il networking e la capacità di analizzare le relazioni fra i dati sono fondamentali
  27. 27. Thank you ANTONIO MANTUANO S e n i o r D i r e c t o r o f S o f t w a r e E n g i n e e r i n g antonio.mantuano@cervedgroup.com STEFANO IACINO T e a m L e a d e r I n n o v a t i v e D a t a I n t e g r a t i o n stefano.iacino@cervedgroup.com

×