Introducción a NoSQL

INTRODUCCIÓN A NOSQL

Resum Executiu 東京‘
TOKIOTA

Base de datos relacionales
 Nacen en los años 70 porque
 Almacenamiento es caro
 Los datos se normalizan

 El almacenamiento se separa de la aplicación

 Ventajas
 Único modelo disponible por muchos años
 Integración

 Control de concurrencia

東京‘ TOKIOTA Presentación de compañía

Base de datos relacionales
 Desventajas
 No esta preparado para cluster
 Hardware caro

 Coste de licencias

 Limitar el desarrollo haciéndolo poco ágil

 Con lógica de la aplicación

 Join

 Nuevo requisitos de escalabilidad continua


Desarrollo de software
 Metodologías ágiles
 Ciclos de desarrollo cortos
 Constante evolución de requerimientos

 Flexibilidad de diseño

 Pero las bases de datos relacionales
 Difíciles
de evolucionar (migrar)
 Pocos desarrolladores interactúan con la base de datos

 Tienen un modelo diferente al que se usa en el
desarrollo


Necesidades reales
 Escalar horizontalmente
 Resultados en tiempo real
 Agilidad en el desarrollo
 Modelo de datos flexibles
 Bajo coste


Base de datos NoSQL
 Nacen por las necesidades:
 No usan el modelo relacional
 Se ejecutan bien sobre clusters

 Crecen horizontalmente (sharding)

 Open-source

 Sin schemas


Base de datos NoSQL
 Ventajas
 Veloces

 Escalables

 Se acoplan al modelo de objetos
 Agiles

 Desventajas
 No son transaccionales – tampoco lo necesitan
 No son ACID, son BASE
 Consultas
Ad-hoc limitadas
 Modelo de escritura y modelo de lectura


Alta disponibilidad – Replica sets
 Alta disponibilidad
 Redundancia de datos
 Recuperación en caso de desastre
 Transparente a la aplicación
 En caliente


Escribir
Leer
Primaria
Driver

Replicas asíncronas
Leer Secundaria

Leer Secundaria


Recuperación ante caidas

Escribir
Leer
Primaria
Driver

Leer Secundaria

Leer Secundaria



Primaria
Escribir
Driver

Leer Primaria

Leer Secundaria



Leer Secundaria
Primaria
Escribir
Driver

Leer Primaria

Leer Secundaria


Sharding
data{a , b}
Key[0...100]

Nodo Clave
V 0 … 15
W 16 … 45
X 46 … 60
Y 61 … 75 V W X Y Z
Z 76 … 100


Sharding - búsquedas
Nodo Clave
find{a=30} a 0 … 15
b 16 … 45
c 46 … 60
d 61 … 75
e 76 … 100

La query se envía a un solo nodo


Nodo Clave
find{20>a<50} a 0 … 15
b 16 … 45
c 46 … 60
d 61 … 75
e 76 … 100

La query se envía a mas de un nodo


Nodo Clave
find{b=hola} a 0 … 15
b 16 … 45
c 46 … 60
d 61 … 75
e 76 … 100

Tabla-Scan es igual de malo


Nodo Clave
Crear índice sobre b a 0 … 15
find{b=hola} b 16 … 45
c 46 … 60
d 61 … 75
e 76 … 100

Penaliza un poco el coste de comunicación


Nodo Clave
find{b=hola, a=51} a 0 … 15
b 16 … 45
c 46 … 60
d 61 … 75
e 76 … 100

Se envía solo a un nodo


Sharding – Order by …


Velocidad de lectura


Tipos de NoSQL y uso
Tipo Uso Productos
Key - Value Cache Redis
MemCached
Colum-Family Clave + multiples Cassandra
columnas Amazon Simple DB
Google BigTable
HBase
Documentales Guardar objetos enteros MongoDB
con una clave RavenDB
CrounchDB
Azure Table Storage
Grapho Guardan nodos y Neo4j
relaciones entre nodos


Key-Value
 Una única clave que apunta a un único ítem.


Column-Family
 Es el mas parecido a SQL. Mantiene la información
separada en columnas.


Documentos

{ "customer": { "id": 1, "name": "Martin",
"billingAddress": [{"city": "Chicago"}],
"orders": [{"id":99, "customerId":1,
"orderItems":[ {"productId":27, "price": 32.45}],
"shippingAddress":[{"city":"Chicago"}]
"orderPayment":[{
"ccinfo":"1000-1000-1000-1000",
"txnId":"abelif879rft",
"billingAddress": {"city": "Chicago"}
}],
}]
}
}

Grafos

 Se representa por nodos que están unidos por
relaciones, donde ambos tienen propiedades

¿Qué pasa con BI?

 ¿Como hago vistas o DW?

Aplicar una función por cada elemento de una
colección

Combina los elementos usando una
operación

Ejemplo, cuanto he vendido de cada producto

Beneficios de MapReduce

 Preparado para gran volumen de información
 Pero puedo hacer pruebas con pequeñas muestras
 Tolerable a fallos
 Piso los datos porque los recalculo
 Seguro ante problemas de threading
 No tocan la información de entrada

Implementaciones

 La implementación mas grande de Cassandra tiene
300 TB repartidos en 400 ordenadores
 Disney tiene los datos de usuarios y juegos
repartidos en 1400 instancias de MongoDB
 Para un listado mas detallado visitar
http://www.mongodb.org/display/DOCS/Producti
on+Deployments

MUCHAS GRACIAS POR TU CONFIANZA

Resum Executiu 東京‘
TOKIOTA

Introducción a NoSQL

Recomendados

Recomendados

Mais conteúdo relacionado

Último

Último (13)

Destaque

Destaque (20)

Introducción a NoSQL