Cloud storage in azienda: perche` Riak ci e` piaciuto

•Transferir como ODP, PDF•

1 gostou•1,042 visualizações

La realizzazione di un software per l'automazione di un processo di lavoro ha portato all'implementazione di un sistema di storage in grado di gestire imponenti flussi di dati (raw data, immagini...). Il core del sistema di archiviazione e` il database NoSql Riak. A quasi un anno dall'entrata in produzione, tale configurazione si e` confermata robusta e performante (vengono acquisiti in modo ridondato centinaia di migliaia di files ogni mese, realizzando un archivio permanente in costante crescita dell'ordine di terabytes). Nel corso dell'intervento verranno mostrate le motivazioni che hanno portato a questa scelta. Oltre ad una rapida panoramica volta ad illustrare le funzionalita` di Riak si intende condividere in modo pratico il know-how acquisito ripercorrendo le problematiche riscontrate durante il setup, la configurazione e la gestione di un cluster Riak (ambienti di sviluppo e produzione, ottimizzazioni, deploy del cluster, backup, disaster recovery, ...).

Tecnologia

Cloud storage in azienda:
perchè riak ci è piaciuto
Alberto Eusebi
alberto@biodec.com
Biodec Srl
http://www.biodec.com

Il problema

●

Flusso di dati: 100.000/mese

●

Archiviare

●

Dimensione media: 300KB

●

Versionare

●

In rapida crescita

●

Query system

Idee?
●

Storage basato su db SQL

●

Storage su filesystem (metadati su SQL)

●

Dati su NoSql (metadati su SQL)

La scelta: Riak + Postgres
●

Usato e consigliato in scenari simili

●

Ridondanza

●

High availability e affidabilità (masterless; no single
point of failure)

●

Scalabilità

●

Setup -ragionevolmente- semplice

●

Versatilità (eg. pluggable storage backends)

●

Buona documentazione e supporto tecnico

●

Codice open; progetto “vivo”

Riak
●

Rilasciato nel 2009 da Basho Technology

●

Basato su Amazon Dynamo
–

http://docs.basho.com/riak/latest/theory/dynamo/

●

Licenza Apache2

●

Altri prodotti:
–

Riak CS

–

Versioni enterprise

●

Erlang (C, Java, Javascript)

●

API native:
–
–

●

Http
Protocol Buffer (Google)

Clients libraries (Basho supported): Java, Erlang, Ruby,
Php, Python
–

http://docs.basho.com/riak/latest/dev/using/libraries/

Anti-outline
●

Map-reduce

●

Strutture dati specifiche:
–
–

Key indexing (2i)

–
●

Full text search (tagging)
Link walking

Gestione avanzata di conflitti (vector clocks)

Requisiti e progettazione
●

System:
–
–

Debian based: Debian, Ubuntu

–
●

Red Hat based: Red Hat Enterprise Linux, CentOS, Fedora
Solaris based: Sun Solaris, OpenSolaris

Hardware
–

Multi-core 64-bit CPU

–

Minimum 4 GB RAM

–

Multiple Fast Hard Disks (RAID and/or SSD)

–

Fast Network (Gigabit +)

●

Virtualization?

●

Network load balancing (eg. Haproxy)

Setup
●

Packages (deb, rpm …)
–
–

Facile gestione dell'upgrade

–
●

Un nodo per macchina
Limitazione di problemi con Erlang

Source tarball
–

Massima libertà nel setup (ambiente di test)

–

Utilizzo di make e rebar per la creazione e la distribuzione
dei nodi

–

Gestire la dipendenza con Erlang (kerl)

Partizionamento dei dati
●
●
●

Indirizzamento basato sugli hash delle chiavi (consistent hashing)
Spazio di indirizzamento: 160-bit (“bucket/key”)
Numero di partizioni fissato (ring_creation_size)

Eventual consistency

●

Parametri default per gestire la replicazione:
–

Numero di repliche: nval (3)

–

Controlli sulla lettura/scrittura:
●

Sloppy check: r / w (quorum)

●

Primary check: pr / pw (0)

●

Durable check: dr / dw (quorum)

Immagine presa da:
http://highlyscalable.wordpress.com/2012/09/18/distributed-algorithms-in-nosql-databases/

Entropy

●

Inconsistenza in scrittura
–
–

●

last write wins (default)
allow multi (disabilitato)

Inconsistenza in lettura
–

(Passive/Active) Read repair

Scelta del backend

●

Bitcask (default)

●

LevelDB

●

Memory

●

Multi

Bitcask
●

Bassa latenza (Append only)

●

High throughhput

●

Backup agevolato

Attenzione a:
●

Uso della ram (chiavi in memoria)

●

Overheads sull'utilizzo del disco

●

Open files limit

Gestione del cluster
●

Aggiornamento

●

Scalabilità: verticale vs orizzontale

●

Backup

●

Monitoraggio

Limiti

●

Limite nella dimensione degli oggetti

●

Gestione degli errori rivedibile

●

Fallimento a cascata

●

Occhio al tuning

CAP Theorem

Immagine presa da:
http://www.w3resource.com/mongodb/nosql.php

Il “buon” vecchio metodo
●

Directories enormi

●

Ridondanza/partizionamento manuale

●

Sistema di ricerca improvvisato

Mais conteúdo relacionado

Mais procurados

Openday - PostgreSQL: primi passi con Json/Jsonb PgTraining

Biblioteca Generale della Custodia di Terra Santa a Gerusalemme : Specifiche ...KohaGruppoItaliano

Back to Basics, webinar 6: Messa in esercizioMongoDB

Introduzione al framework dl4j Antonio bertiDeep Learning Italia

Benchmarking Cloud Native PostgreSQLEDB

ApcampPgTraining

PostgreSQL: Point in time recoveryEnrico Pirozzi

Back to Basics 4: Introduzione al partizionamento orizzontale (sharding)MongoDB

Async navigation with a lightweight ES6 frameworksparkfabrik

HadoopReply

Mais procurados (10)

Openday - PostgreSQL: primi passi con Json/Jsonb

Biblioteca Generale della Custodia di Terra Santa a Gerusalemme : Specifiche ...

Back to Basics, webinar 6: Messa in esercizio

Introduzione al framework dl4j Antonio berti

Benchmarking Cloud Native PostgreSQL

Apcamp

PostgreSQL: Point in time recovery

Back to Basics 4: Introduzione al partizionamento orizzontale (sharding)

Async navigation with a lightweight ES6 framework

Hadoop

Destaque

Cassandra at no_sqlsrisatish ambati

Seminar presentation finalNazmul Hossain Bilash

Cassandra - Wellington No Sqlaaronmorton

NoSQL Data Stores: Introduzione alle Basi di Dati Non RelazionaliSteve Maraspin

NOSQL and Cassandrarantav

No SQL CassandraPrashanth M.S

Cassandra + Hadoop: Analisi Batch con Apache CassandraJeremy Hanna

NoSql - Key ValueGiovanni Grano

Eletti big data_trento_25ott14Valerio Eletti

AWS (Amazon Web Services) - Trevisan DavideDavide Trevisan

Cassandra, web scale no sql data platformMarko Švaljek

Cassandra ppt 1Skillwise Group

C* Keys: Partitioning, Clustering, & CrossFit (Adam Hutson, DataScale) | Cass...DataStax

Introduzione a RiakDimitri De Franciscis

Cassandra Community Webinar: Apache Spark Analytics at The Weather Channel - ...DataStax Academy

NoSQL, No Worries: Vecchi Problemi, Nuove SoluzioniSteve Maraspin

Cassandra Data Modelebenhewitt

Dynamo and BigTable - Review and ComparisonGrisha Weintraub

Dynamodb Presentationadvaitdeo

Destaque (19)

Cassandra at no_sql

Seminar presentation final

Cassandra - Wellington No Sql

NoSQL Data Stores: Introduzione alle Basi di Dati Non Relazionali

NOSQL and Cassandra

No SQL Cassandra

Cassandra + Hadoop: Analisi Batch con Apache Cassandra

NoSql - Key Value

Eletti big data_trento_25ott14

AWS (Amazon Web Services) - Trevisan Davide

Cassandra, web scale no sql data platform

Cassandra ppt 1

C* Keys: Partitioning, Clustering, & CrossFit (Adam Hutson, DataScale) | Cass...

Introduzione a Riak

Cassandra Community Webinar: Apache Spark Analytics at The Weather Channel - ...

NoSQL, No Worries: Vecchi Problemi, Nuove Soluzioni

Cassandra Data Model

Dynamo and BigTable - Review and Comparison

Dynamodb Presentation

Semelhante a Cloud storage in azienda: perche` Riak ci e` piaciuto

InfinispanSanne Grinovero

Stack tecnologico Per Linked DataSynapta

Stack tecnologico Per Linked DataDavide Allavena

Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDBSteve Maraspin

Glusterfs: un filesystem altamente versatileBioDec

Glusterfs: un filesystem altamente versatileIvan Rossi

2014.11.14 Implementare e mantenere un progetto Azure SQL DatabaseEmanuele Zanchettin

Big data - stack tecnologicoConsulthinkspa

Marco Zani: Come dimensionare Magento per raggiungere i Key Performance Indic...Meet Magento Italy

Azure PaaS databasesGianluca Hotz

Come l’Open Source può essere alla base di un business di successo: il caso H...MariaDB plc

CCI2018 - Iperconvergenza con Windows Serverwalk2talk srl

Big data stack tecnologicoMassimo Romano

Ha solutions su power iPRAGMA PROGETTI

October 2009 - JBoss CloudJBug Italy

JBoss Clouds - JBug Roma october 2009Sanne Grinovero

JBoss Data Grid Tech LabUgo Landini

SQL Saturday 871 - Sardegna 2019 - SQL Server DR on AzureMarco Obinu

Infinispan codemotion - Codemotion Rome 2015Codemotion

Semelhante a Cloud storage in azienda: perche` Riak ci e` piaciuto (20)

Infinispan

Stack tecnologico Per Linked Data

Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB

Glusterfs: un filesystem altamente versatile

2014.11.14 Implementare e mantenere un progetto Azure SQL Database

Big data - stack tecnologico

Marco Zani: Come dimensionare Magento per raggiungere i Key Performance Indic...

Azure PaaS databases

Come l’Open Source può essere alla base di un business di successo: il caso H...

CCI2018 - Iperconvergenza con Windows Server

Big data stack tecnologico

Ha solutions su power i

October 2009 - JBoss Cloud

JBoss Clouds - JBug Roma october 2009

JBoss Data Grid Tech Lab

SQL Saturday 871 - Sardegna 2019 - SQL Server DR on Azure

Infinispan codemotion - Codemotion Rome 2015

Cloud storage in azienda: perche` Riak ci e` piaciuto

1. Cloud storage in azienda: perchè riak ci è piaciuto Alberto Eusebi alberto@biodec.com Biodec Srl http://www.biodec.com

2. Il problema ● Flusso di dati: 100.000/mese ● Archiviare ● Dimensione media: 300KB ● Versionare ● In rapida crescita ● Query system

3. Idee? ● Storage basato su db SQL ● Storage su filesystem (metadati su SQL) ● Dati su NoSql (metadati su SQL)

4. La scelta: Riak + Postgres ● Usato e consigliato in scenari simili ● Ridondanza ● High availability e affidabilità (masterless; no single point of failure) ● Scalabilità ● Setup -ragionevolmente- semplice ● Versatilità (eg. pluggable storage backends) ● Buona documentazione e supporto tecnico ● Codice open; progetto “vivo”

5. Riak ● Rilasciato nel 2009 da Basho Technology ● Basato su Amazon Dynamo – http://docs.basho.com/riak/latest/theory/dynamo/ ● Licenza Apache2 ● Altri prodotti: – Riak CS – Versioni enterprise ● Erlang (C, Java, Javascript) ● API native: – – ● Http Protocol Buffer (Google) Clients libraries (Basho supported): Java, Erlang, Ruby, Php, Python – http://docs.basho.com/riak/latest/dev/using/libraries/

6. Anti-outline ● Map-reduce ● Strutture dati specifiche: – – Key indexing (2i) – ● Full text search (tagging) Link walking Gestione avanzata di conflitti (vector clocks)

7. Requisiti e progettazione ● System: – – Debian based: Debian, Ubuntu – ● Red Hat based: Red Hat Enterprise Linux, CentOS, Fedora Solaris based: Sun Solaris, OpenSolaris Hardware – Multi-core 64-bit CPU – Minimum 4 GB RAM – Multiple Fast Hard Disks (RAID and/or SSD) – Fast Network (Gigabit +) ● Virtualization? ● Network load balancing (eg. Haproxy)

8. Setup ● Packages (deb, rpm …) – – Facile gestione dell'upgrade – ● Un nodo per macchina Limitazione di problemi con Erlang Source tarball – Massima libertà nel setup (ambiente di test) – Utilizzo di make e rebar per la creazione e la distribuzione dei nodi – Gestire la dipendenza con Erlang (kerl)

9. Partizionamento dei dati ● ● ● Indirizzamento basato sugli hash delle chiavi (consistent hashing) Spazio di indirizzamento: 160-bit (“bucket/key”) Numero di partizioni fissato (ring_creation_size)

10. Replicazione

11. Eventual consistency ● Parametri default per gestire la replicazione: – Numero di repliche: nval (3) – Controlli sulla lettura/scrittura: ● Sloppy check: r / w (quorum) ● Primary check: pr / pw (0) ● Durable check: dr / dw (quorum) Immagine presa da: http://highlyscalable.wordpress.com/2012/09/18/distributed-algorithms-in-nosql-databases/

12. Entropy ● Inconsistenza in scrittura – – ● last write wins (default) allow multi (disabilitato) Inconsistenza in lettura – (Passive/Active) Read repair

13. Scelta del backend ● Bitcask (default) ● LevelDB ● Memory ● Multi

14. Bitcask Append only

15. Bitcask ● Bassa latenza (Append only) ● High throughhput ● Backup agevolato Attenzione a: ● Uso della ram (chiavi in memoria) ● Overheads sull'utilizzo del disco ● Open files limit

16. Live demo

17. Gestione del cluster ● Aggiornamento ● Scalabilità: verticale vs orizzontale ● Backup ● Monitoraggio

18. Limiti ● Limite nella dimensione degli oggetti ● Gestione degli errori rivedibile ● Fallimento a cascata ● Occhio al tuning

19. Domande?

20. Riak Stack http://littleriakbook.com

21. CAP Theorem Immagine presa da: http://www.w3resource.com/mongodb/nosql.php

22. Il “buon” vecchio metodo ● Directories enormi ● Ridondanza/partizionamento manuale ● Sistema di ricerca improvvisato

Cloud storage in azienda: perche` Riak ci e` piaciuto

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (10)

Destaque

Destaque (19)

Semelhante a Cloud storage in azienda: perche` Riak ci e` piaciuto

Semelhante a Cloud storage in azienda: perche` Riak ci e` piaciuto (20)

Cloud storage in azienda: perche` Riak ci e` piaciuto