NoSQL: onde, como e por quê? Cassandra e MongoDB

NoSQL: onde, como e por quê? Rodrigo Hjort [email_address]

Universo digital em expansão Fonte: IDC White Paper, "The Diverse and Exploding Digital Universe", 2008.

Escalabilidade vertical é complicada e/ou cara!

Os modelos transacionais ACID pessimista, forçando consistência ao final de cada operação

BASE otimista, aceitando que a consistência esteja em um “estado de fluxo” http://queue.acm.org/detail.cfm?id=1394128 Possibilita a escalabilidade horizontal...

NoSQL = Not Only SQL http://nosql-database.org/ distribuídos não relacionais horizontalmente escaláveis esquemas flexíveis replicáveis APIs simples

Zoologia dos bancos NoSQL Wide Column Store / Column Families Key-Value Store Document Store NoSQL Database

Você precisa escolher 2! Teorema de Brewer: CAP Consistência : visão única para os clientes

Disponibilidade : toda operação tem uma resposta

Partição : sistema continua operante mesmo enfrentando partições na rede Consistência Consistency Disponibilidade Availability Partição Partition Tolerance

I. Consistência e Disponibilidade Limitações na escalabilidade (leitura e escrita) C A

II. Consistência e Partição Completamente inacessível se qualquer um dos nós estiver fora! C P

III. Disponibilidade e Partição Nem sempre lê a informação mais recente: futuramente consistente A P

“ A high performance, scalable, distributed storage and processing system for structured and unstructured data.”

Cassandra: um breve histórico Bigtable Dynamo

Um novo modelo de dados Row schema-less schema-optional

Exemplo: modelagem do Twitter Users Following Followers @paul segue @brigitte desde 22/08/2010 john name: John Doe pass: swordfish joined: 20091115 paul name: Paul Lane pass: thepass joined: 20091129 john paul: 20091204 brigitte: 20100815 paul john: 20091205 debora: 20100729 brigitte: 20100822 john tom: 20091128 paul: 20091205 brigitte john: 20100815 paul: 20100822

Exemplo: modelagem do Twitter Statuses (Tweets) Timeline Userline Tweets do @john Tweets dos usuários que o @paul segue data/hora tweet 12345 user: john body: Nuvem privada do @serpro! retweets: 123 12346 user: brigitte john 20100116083155: 12346 paul 20100116083002: 12345 20100116083155: 12346 john 20100116083002: 12345 20100118235914: 23457 brigitte 20100116083155: 12346 tweet body: Acabei de #acordar. tags acordar: 1

CQL (Query Language) CREATE COLUMNFAMILY users ( KEY varchar PRIMARY KEY, name varchar, pass varchar, joined bigint); INSERT INTO users (KEY, name, pass) VALUES ('jsmith', 'John Smith', 'changeme') USING CONSISTENCY QUORUM; SELECT * FROM users WHERE KEY = 'jsmith'; u'jsmith' | u'pass',u'changeme' SELECT name..pass FROM users WHERE KEY >= 'h' LIMIT 10; CREATE INDEX users_joined_idx ON users (joined); DELETE joined FROM users where KEY = 'jsmith';

“ It took two weeks to perform ALTER TABLE on the statuses [tweets] table.” – Twitter

Particionamento e replicação Fixed Circular Space (Ring) Virtual Nodes Consistent Hashing (MD5) N=3 h(key2) 0 1 1/2 F E D C B A h(key1)

Ajuste de parâmetros (N, R, W) Consistência versus Escalabilidade

Ajuste por requisição (R, W) Zero

Read repair ack cliente réplica réplica réplica coordenador

Comunicação entre os nós Gossip-Based Protocol

Relacional versus NoSQL Dados do benchmark Base com 50 GB de dados MySQL leitura: ~350 ms

escrita: ~300 ms Cassandra leitura: ~15 ms

escrita: ~0,12 ms Leitura 23x mais rápida! Escrita 2500x mais rápida!

“ MongoDB (from "humongous") is a scalable, high-performance, open source, powerful, document-oriented database written in C++.”

O modelo de dados Relacional (Tabular) Orientado a Documentos

NoSQL: onde, como e por quê? Cassandra e MongoDB

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a NoSQL: onde, como e por quê? Cassandra e MongoDB

NoSQL: onde, como e por quê? Cassandra e MongoDB

Notas do Editor