SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Petabytes de información:
         Repensando el 
         modelamiento 
        de base de datos

                   Ernesto Quiñones Azcárate
                         ernestoq@apesol.org
                 Presidencia Apesol 2006­2008



            
Modelos de  bases de datos para todos los gustos (según la organización de los 
    datos) :




       Jerárquicas                                  Relacionales




                                             Orientadas al objeto
         Multidimensional

                                               
A donde camina la información:

    ● Existen al menos 50 dbms “famosos” entre libres y privativos y 
      un número al menos 4 ó 5 veces superior entre los de uso 
      académico/experimental etc.
    ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000 


      Petas), Actualmente (2008) debe existir 330­340 Exabytes.
    ● En 2011 debemos tener cerca de 1,800 Exabytes de información.

    ● En 2007 la cantidad de información generada supero a la 


      capacidad instalada mundial de contenerla, actualmente se 
      calcula un déficit de 60 a 70 Exabytes de infraestructura.
    ● Existen 1,000 millones de dispositivos de capturas de imágenes

    ● El 95% de la data del mundo no tiene                                   


      estructura.
    ● 65k filmaciones nuevas en Youtube por día.

    ● 60 millones de emails diarios.

    ● Google puede indexar 20 Petabytes en un solo día.



                                         
●   La data esta cambiando

●   La información sigue creciendo nadie va a parar eso, es 
                      mas va a ser peor

●   Actualmente el % de usuarios que provee información a 
          la red es mucho menor de los que lo usan.

          ●Cada vez es mas difícil catalogar la información

    ●   Cada vez será mas difícil encontrar la información que 
                            uno quiere

               ..... y como administramos tanta data?

                                      
El 22 de Mayo Yahoo dio esta noticia : 

●   Yahoo anuncia tener la base de datos mas grande del mundo (2 
    Peta bytes) en funcionamiento.

●   La base de datos de 1 año de antigüedad esta procesando 24,000 
    millones de eventos diarios.

●   El administrador de la data es un PostgreSQL (
    http://www.postgresql.org) modificado especialmente para ellos.

●   La tecnología usada es la “base de datos basada en columnas” 
    donde no existen “registros”, esto hace que la grabación de datos 
    sea lenta pero la lectura es muy rápida.

Noticia original:
http://tinyurl.com/68avgt
                                      
Que es una base de datos basa en columnas
     Convencionalmente guardamos la data así :



                                    Ahora la data la guardamos así :




      Otra representación :
                                          Dudas:
                                          ● ¿Porque hacer esto?
                                          ● ¿Donde queda la normalización?

                                          ● ¿Existen “engines” para este tipo de base 


                                            de datos?




                                            
La ventaja de una base de datos basada en columnas.
    El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele 
    ser el cuello de botella en los sistemas de almacenamiento ya que es 
    notablemente mas lento que el poder de procesamiento.




                                                 
La ventaja de una base de datos basada en columnas.
    Tradicionalmente las bases de datos hacen esto para guardar la data

                                                   No       No       Esto es rápido para 
      Páginas      8k        8k        8k                            operaciones de 
                                                  usada    usada
                                                                     escritura pero no de 
                            No                              No       lectura.
        8k         8k                  8k          8k
                           usada                           usada




                                        Cada página tiene una 
                                        estructura de este tipo 
                                        (generalmente)




                                               
La ventaja de una base de datos basada en columnas.
     Este es un ejemplo aproximado 
     de data masiva




Esta data se organizará bajo este esquema lógico




                                             
La ventaja de una base de datos basada en columnas.
    Esta es la representación de la organización física de la data


                                             El engine de la db tomará la data y la guardará 
                                             en archivos llamados CellStores subdivididos en 
                                             bloques de data comprimida de 64k (podría 
                                             variar) en su propio sistema de archivos por 
                                             sobre el que tiene el sistema operativo.

                                             Por ejemplo:
                                             Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25
                                             Sería convertida a :
                                             Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3

                                             Mientras en los dbms convencionales la data se 
                                             guarda en varias secciones/espacios del disco, 
                                             en las c­dbms se guarda junta y continua en el 
                                             mismo CellStore.



                                                 
La ventaja de una base de datos basada en columnas.

    Los Querys:




     Este es un ejemplo de como funciona 
     Bigtable de Google
                                             
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                                 Imagines que deseamos borrar 
                                                 registros en “Cuotas” y el engine 
                                                 debe verificar que no se hagan 
                                                 modificaciones que rompan la 
                                                 relación con “Pagos”.

                                                 1,000 registros
                                                 100,000 
                                                 10,000,000 
                                                 1,000,000,000
                                                 100,000,000,000
                                                 1,000,000,000,000




                                           
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                               Cada delete debe ejecutar un select 
                                               en la tabla “Pagos”, ¿cuanto demora?
                                               1,000 ­­­> 1s
                                               100,000  ­­> 1m40s
                                               10,000,000  ­­> 2.77h
                                               1,000,000,000 ­­> 11.57d
                                               100,000,000,000 ­­> 3.17a
                                               1,000,000,000,000 ­­> 317a (y algunos 
                                               días mas :D

                                               Recordemos Yahoo hace 
                                               24,000,000,000 de transacciones por 
                                               día, en 41.6 días genera 1 billón de 
                                               registros (como mínimo).


                                           
¿El fin de los RDBMS?
    ● Los sistemas Relacionales tienes mas de 25 años de existencia.
    ● Básicamente fueron pensada con una orientación de guardar data de 


      negocios.
    ● Cuando empezó a explotarse la data masiva (hace poco mas de una 


      década) el sistema relacional demostró tener problemas, se tuvo que 
      mejorar/modificar para atender esta nueva necesidad.
    ● La data a pasado a ser no­precisa, imposible de “normalizar”.

    ● Los joins son lentos cuanto tienes cantidades de data monstruosa.

    ● Los procesos de ABC se vuelven muy costosos cuando hay muchas 


      relaciones entre las tablas.




    Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML, 
    etc., esta todavía lejos de ser considerada “tecnología legacy”.


                                        
ENGINES

    BigTable (privativo – Google)

    ● Desarrollo y uso exclusivo de Google.
    ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual 


      asegura disponibilidad de los datos por medio de copias redundantes, 
      mientras mas sea consultado un dato mas veces de duplicado 
      asignándosele mas recursos. (2) Chubby Lock Service, el cual es un 
      componente que permite la sincronización de accesos a recursos 
      compartidos.
    ● Las tablas se subdividen en tablets con filas que llegan a medir hasta 


      200mb.
    ● A estas filas se les aplica ademas un algoritmo de compresión secreto 


      para optimizar aún mas el espacio.
    ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el 


      store mas grande es de 700Tbytes y atiende 100k operaciones por 
      segundo.
    ● Se utiliza un lenguaje llamado  Sawzall.


                                         
ENGINES

    BigTable (privativo – Google)




                                     
ENGINES

    Hypertable http://hypertable.org/ 

    ● Proyecto libre que aplica “buenas practicas” en la administración de db 
      de gran cantidad de datos y alto volumen de trabajo.
    ● La data es guardada como cadenas de bytes, las tablas que lo 


      almacenan son cortadas en secciones continuas y divididas en 
      diversos servidores, estos son conocidos como Range Servers, 
      adicionalmente existen Master Servers que se encargan de tareas 
      administrativas y supervisar los Range Servers (ambos servicios 
      pueden correr en una misma pc).
    ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL)

    ● Puede usar diferentes sistemas de archivos, pero se recomienda 


      Hadoop Distributed File System (HDFS) http://hadoop.apache.org/




                                          
ENGINES

      Hypertable http://hypertable.org/ 

Coordinador de 
concurrencia
(lock manager)




Administra 
data en 
memoria




Cache de 
transacciones


                         Aquí se encuentran 
   
                         las celdas de datos    
ENGINES

      Hypertable http://hypertable.org/ 

Servicio que da 
la cara al cliente, 
coordina las ABC 
en los Datanodes




                                               Guarda la 
                                               data


La misma data
se guarda en diferentes 
Datanodes



                                            
ENGINES

    LucidDB http://luciddb.sourceforge.net/ 

    ● Esta basada en EigenBase http://www.eigenbase.org/ un software base 
      que permite crear sistemas administradores de datos.
    ● LucidDB esta pensada con el propósito de hacer data warehousing y 


      business intelligence.
    ● Esta pensada para ser básicamente solo read­only, las actualizaciones 


      crean nuevas páginas que reemplazan a las existentes y se guardan 
      versiones de estas.
    ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la 


      información mas leida.
    ● Se usa una técnica de indexación conocida como “bitmap”, indices y 


      data son comprimidos y se utiliza la técnica del “semijoin” para 
      determinar la data que es únicamente necesaria acceder por los 
      querys.
    ● LucidDB puede acceder directamente a repositorios externos via 


      SQLMED
                                         
Se uso Java pensando
    ENGINES                                    en la expansión del 
                                               producto.
    LucidDB http://luciddb.sourceforge.net/ 


                                                                 Acceso a 
                                                                 repositorio
                                                                 s de datos 
                                                                 externos




Engine principal de
LucidDB

                            Data
                                         
Para leer mas:

Toda la información con la cual se a documentado esta presentación es recopilada en este 
enlace :


http://tinyurl.com/6xfwvg 

Y mas información :


http://www.eqsoft.net/wiki/doku.php?id=start 



                                              
Muchas Gracias!!!

               Visite APESOL
           http://www.apesol.org

    Inscríbete en las listas de interés en
        http://apesol.org/listas.php

         Conversemos en vivo en
         server: irc.freenode.net
              sala:#apesol
                       

Más contenido relacionado

La actualidad más candente

Sql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaSql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaLiz Armenteros
 
Glosario de base de datoss
Glosario de base de datossGlosario de base de datoss
Glosario de base de datossLa China Bella
 
El disco duro y la gerencia
El disco duro y la gerenciaEl disco duro y la gerencia
El disco duro y la gerencialeidys FERNANDEZ
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Introducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarIntroducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarMongoDB
 
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLRoanny Lamas
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrolloJuan Ladetto
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresStratebi
 
02 base de datos hernandez_luis
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luisluishernandez1576
 

La actualidad más candente (18)

taller de bd
taller de bdtaller de bd
taller de bd
 
BASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVERBASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVER
 
Sql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaSql o NoSql en Informática Médica
Sql o NoSql en Informática Médica
 
Base datos-romero
Base datos-romeroBase datos-romero
Base datos-romero
 
Glosario de base de datoss
Glosario de base de datossGlosario de base de datoss
Glosario de base de datoss
 
Base de datos
Base de datosBase de datos
Base de datos
 
El disco duro y la gerencia
El disco duro y la gerenciaEl disco duro y la gerencia
El disco duro y la gerencia
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
Introducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarIntroducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB Webinar
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
 
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
 
Mongodb
MongodbMongodb
Mongodb
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
 
02 base de datos hernandez_luis
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luis
 
Mongodb vs couchdb
Mongodb vs couchdb Mongodb vs couchdb
Mongodb vs couchdb
 

Destacado

Bigtable and Boxwood
Bigtable and BoxwoodBigtable and Boxwood
Bigtable and BoxwoodEvan Weaver
 
Presentación city camp santiago
Presentación city camp santiagoPresentación city camp santiago
Presentación city camp santiagoMarc Garriga
 
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Fernando Tomás Casado
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentesJOHN BLANCO
 
Google - Bigtable
Google - BigtableGoogle - Bigtable
Google - Bigtable영원 서
 
Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOOtec lerdo
 
¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?Fernando Tomás Casado
 
Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data @ CTIC
 
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Política y Redes Sociales
 
Google Bigtable Paper Presentation
Google Bigtable Paper PresentationGoogle Bigtable Paper Presentation
Google Bigtable Paper Presentationvanjakom
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentesCharlyzhito
 
Big table
Big tableBig table
Big tablePSIT
 

Destacado (20)

Ciudades Inteligentes
Ciudades InteligentesCiudades Inteligentes
Ciudades Inteligentes
 
10 4
10 410 4
10 4
 
Bigtable and Boxwood
Bigtable and BoxwoodBigtable and Boxwood
Bigtable and Boxwood
 
Presentación city camp santiago
Presentación city camp santiagoPresentación city camp santiago
Presentación city camp santiago
 
24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso
 
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big Data en Latinoamerica
Big Data en LatinoamericaBig Data en Latinoamerica
Big Data en Latinoamerica
 
Smart city y las zonas verdes
Smart city y las zonas verdesSmart city y las zonas verdes
Smart city y las zonas verdes
 
ciudades inteligentes
ciudades inteligentesciudades inteligentes
ciudades inteligentes
 
Presentación corporativa de Ingenia
Presentación corporativa de IngeniaPresentación corporativa de Ingenia
Presentación corporativa de Ingenia
 
Google - Bigtable
Google - BigtableGoogle - Bigtable
Google - Bigtable
 
Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOO
 
¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?
 
Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?
 
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
 
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
 
Google Bigtable Paper Presentation
Google Bigtable Paper PresentationGoogle Bigtable Paper Presentation
Google Bigtable Paper Presentation
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big table
Big tableBig table
Big table
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Antoni Riveros
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)Javier Plazas
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfDanielMarquez902683
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3guest928f6e
 
Bases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxBases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxalecastillomsksks
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesorieromtesoriero
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBDkarina maita
 
Bases de datos
Bases de datosBases de datos
Bases de datosCris Gm
 
Clase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosClase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosEddie Malca
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos (20)

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
 
Base de datos
Base de datos Base de datos
Base de datos
 
Continuacion
ContinuacionContinuacion
Continuacion
 
Taller 1, 2 y 3
Taller 1, 2 y 3Taller 1, 2 y 3
Taller 1, 2 y 3
 
Talleres 1,2 y 3
Talleres 1,2 y 3Talleres 1,2 y 3
Talleres 1,2 y 3
 
Talleres 1-2-3
Talleres 1-2-3Talleres 1-2-3
Talleres 1-2-3
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3
 
Bases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxBases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptx
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Base de datos
Base de datos Base de datos
Base de datos
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Clase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosClase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de Datos
 
Futuro bd
Futuro bdFuturo bd
Futuro bd
 

Más de EQ SOFT EIRL

Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19EQ SOFT EIRL
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en TwitterEQ SOFT EIRL
 
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialRecomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialEQ SOFT EIRL
 
Centros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaCentros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaEQ SOFT EIRL
 
EQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ SOFT EIRL
 
Transformación Digital en Logística
Transformación Digital en LogísticaTransformación Digital en Logística
Transformación Digital en LogísticaEQ SOFT EIRL
 
Propuestas de innovacón financiera
Propuestas de innovacón financieraPropuestas de innovacón financiera
Propuestas de innovacón financieraEQ SOFT EIRL
 
Clusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaClusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaEQ SOFT EIRL
 
Inteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaInteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaEQ SOFT EIRL
 
Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019EQ SOFT EIRL
 
Platique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotPlatique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotEQ SOFT EIRL
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextEQ SOFT EIRL
 
Logos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosLogos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosEQ SOFT EIRL
 
Logos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialLogos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialEQ SOFT EIRL
 
Logos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialLogos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialEQ SOFT EIRL
 
Presentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalPresentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalEQ SOFT EIRL
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataEQ SOFT EIRL
 
Portafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftPortafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftEQ SOFT EIRL
 
Soluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosSoluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosEQ SOFT EIRL
 

Más de EQ SOFT EIRL (20)

Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en Twitter
 
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialRecomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
 
Centros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaCentros Regionales de Innovación Aplicada
Centros Regionales de Innovación Aplicada
 
EQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agraria
 
Transformación Digital en Logística
Transformación Digital en LogísticaTransformación Digital en Logística
Transformación Digital en Logística
 
Propuestas de innovacón financiera
Propuestas de innovacón financieraPropuestas de innovacón financiera
Propuestas de innovacón financiera
 
Clusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaClusters Empresariales en Latinoamérica
Clusters Empresariales en Latinoamérica
 
Inteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaInteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración Pública
 
Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019
 
Platique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotPlatique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBot
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to Text
 
Logos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosLogos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de Conocimientos
 
Logos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialLogos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia Artificial
 
Internet of Food
Internet of FoodInternet of Food
Internet of Food
 
Logos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialLogos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia Artificial
 
Presentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalPresentación de Logos en el Cade Digital
Presentación de Logos en el Cade Digital
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big Data
 
Portafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftPortafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoft
 
Soluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosSoluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesos
 

Último

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 

Último (10)

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 

Petabytes De Informacion Repensando El Modelamiento De Datos

  • 1. Petabytes de información: Repensando el  modelamiento  de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006­2008    
  • 2. Modelos de  bases de datos para todos los gustos (según la organización de los  datos) : Jerárquicas Relacionales Orientadas al objeto Multidimensional    
  • 3. A donde camina la información: ● Existen al menos 50 dbms “famosos” entre libres y privativos y  un número al menos 4 ó 5 veces superior entre los de uso  académico/experimental etc. ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000  Petas), Actualmente (2008) debe existir 330­340 Exabytes. ● En 2011 debemos tener cerca de 1,800 Exabytes de información. ● En 2007 la cantidad de información generada supero a la  capacidad instalada mundial de contenerla, actualmente se  calcula un déficit de 60 a 70 Exabytes de infraestructura. ● Existen 1,000 millones de dispositivos de capturas de imágenes ● El 95% de la data del mundo no tiene                                    estructura. ● 65k filmaciones nuevas en Youtube por día. ● 60 millones de emails diarios. ● Google puede indexar 20 Petabytes en un solo día.    
  • 4. La data esta cambiando ● La información sigue creciendo nadie va a parar eso, es  mas va a ser peor ● Actualmente el % de usuarios que provee información a  la red es mucho menor de los que lo usan. ●Cada vez es mas difícil catalogar la información ● Cada vez será mas difícil encontrar la información que  uno quiere ..... y como administramos tanta data?    
  • 5. El 22 de Mayo Yahoo dio esta noticia :  ● Yahoo anuncia tener la base de datos mas grande del mundo (2  Peta bytes) en funcionamiento. ● La base de datos de 1 año de antigüedad esta procesando 24,000  millones de eventos diarios. ● El administrador de la data es un PostgreSQL ( http://www.postgresql.org) modificado especialmente para ellos. ● La tecnología usada es la “base de datos basada en columnas”  donde no existen “registros”, esto hace que la grabación de datos  sea lenta pero la lectura es muy rápida. Noticia original: http://tinyurl.com/68avgt    
  • 6. Que es una base de datos basa en columnas Convencionalmente guardamos la data así : Ahora la data la guardamos así : Otra representación : Dudas: ● ¿Porque hacer esto? ● ¿Donde queda la normalización? ● ¿Existen “engines” para este tipo de base  de datos?    
  • 7. La ventaja de una base de datos basada en columnas. El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele  ser el cuello de botella en los sistemas de almacenamiento ya que es  notablemente mas lento que el poder de procesamiento.    
  • 8. La ventaja de una base de datos basada en columnas. Tradicionalmente las bases de datos hacen esto para guardar la data No No Esto es rápido para  Páginas 8k 8k 8k operaciones de  usada usada escritura pero no de  No No lectura. 8k 8k 8k 8k usada usada Cada página tiene una  estructura de este tipo  (generalmente)    
  • 9. La ventaja de una base de datos basada en columnas. Este es un ejemplo aproximado  de data masiva Esta data se organizará bajo este esquema lógico    
  • 10. La ventaja de una base de datos basada en columnas. Esta es la representación de la organización física de la data El engine de la db tomará la data y la guardará  en archivos llamados CellStores subdivididos en  bloques de data comprimida de 64k (podría  variar) en su propio sistema de archivos por  sobre el que tiene el sistema operativo. Por ejemplo: Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25 Sería convertida a : Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3 Mientras en los dbms convencionales la data se  guarda en varias secciones/espacios del disco,  en las c­dbms se guarda junta y continua en el  mismo CellStore.    
  • 11. La ventaja de una base de datos basada en columnas. Los Querys: Este es un ejemplo de como funciona  Bigtable de Google    
  • 12. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Imagines que deseamos borrar  registros en “Cuotas” y el engine  debe verificar que no se hagan  modificaciones que rompan la  relación con “Pagos”. 1,000 registros 100,000  10,000,000  1,000,000,000 100,000,000,000 1,000,000,000,000    
  • 13. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Cada delete debe ejecutar un select  en la tabla “Pagos”, ¿cuanto demora? 1,000 ­­­> 1s 100,000  ­­> 1m40s 10,000,000  ­­> 2.77h 1,000,000,000 ­­> 11.57d 100,000,000,000 ­­> 3.17a 1,000,000,000,000 ­­> 317a (y algunos  días mas :D Recordemos Yahoo hace  24,000,000,000 de transacciones por  día, en 41.6 días genera 1 billón de  registros (como mínimo).    
  • 14. ¿El fin de los RDBMS? ● Los sistemas Relacionales tienes mas de 25 años de existencia. ● Básicamente fueron pensada con una orientación de guardar data de  negocios. ● Cuando empezó a explotarse la data masiva (hace poco mas de una  década) el sistema relacional demostró tener problemas, se tuvo que  mejorar/modificar para atender esta nueva necesidad. ● La data a pasado a ser no­precisa, imposible de “normalizar”. ● Los joins son lentos cuanto tienes cantidades de data monstruosa. ● Los procesos de ABC se vuelven muy costosos cuando hay muchas  relaciones entre las tablas. Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML,  etc., esta todavía lejos de ser considerada “tecnología legacy”.    
  • 15. ENGINES BigTable (privativo – Google) ● Desarrollo y uso exclusivo de Google. ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual  asegura disponibilidad de los datos por medio de copias redundantes,  mientras mas sea consultado un dato mas veces de duplicado  asignándosele mas recursos. (2) Chubby Lock Service, el cual es un  componente que permite la sincronización de accesos a recursos  compartidos. ● Las tablas se subdividen en tablets con filas que llegan a medir hasta  200mb. ● A estas filas se les aplica ademas un algoritmo de compresión secreto  para optimizar aún mas el espacio. ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el  store mas grande es de 700Tbytes y atiende 100k operaciones por  segundo. ● Se utiliza un lenguaje llamado  Sawzall.    
  • 16. ENGINES BigTable (privativo – Google)    
  • 17. ENGINES Hypertable http://hypertable.org/  ● Proyecto libre que aplica “buenas practicas” en la administración de db  de gran cantidad de datos y alto volumen de trabajo. ● La data es guardada como cadenas de bytes, las tablas que lo  almacenan son cortadas en secciones continuas y divididas en  diversos servidores, estos son conocidos como Range Servers,  adicionalmente existen Master Servers que se encargan de tareas  administrativas y supervisar los Range Servers (ambos servicios  pueden correr en una misma pc). ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL) ● Puede usar diferentes sistemas de archivos, pero se recomienda  Hadoop Distributed File System (HDFS) http://hadoop.apache.org/    
  • 18. ENGINES Hypertable http://hypertable.org/  Coordinador de  concurrencia (lock manager) Administra  data en  memoria Cache de  transacciones Aquí se encuentran    las celdas de datos  
  • 19. ENGINES Hypertable http://hypertable.org/  Servicio que da  la cara al cliente,  coordina las ABC  en los Datanodes Guarda la  data La misma data se guarda en diferentes  Datanodes    
  • 20. ENGINES LucidDB http://luciddb.sourceforge.net/  ● Esta basada en EigenBase http://www.eigenbase.org/ un software base  que permite crear sistemas administradores de datos. ● LucidDB esta pensada con el propósito de hacer data warehousing y  business intelligence. ● Esta pensada para ser básicamente solo read­only, las actualizaciones  crean nuevas páginas que reemplazan a las existentes y se guardan  versiones de estas. ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la  información mas leida. ● Se usa una técnica de indexación conocida como “bitmap”, indices y  data son comprimidos y se utiliza la técnica del “semijoin” para  determinar la data que es únicamente necesaria acceder por los  querys. ● LucidDB puede acceder directamente a repositorios externos via  SQLMED    
  • 21. Se uso Java pensando ENGINES en la expansión del  producto. LucidDB http://luciddb.sourceforge.net/  Acceso a  repositorio s de datos  externos Engine principal de LucidDB Data    
  • 23. Muchas Gracias!!! Visite APESOL http://www.apesol.org Inscríbete en las listas de interés en http://apesol.org/listas.php Conversemos en vivo en server: irc.freenode.net sala:#apesol