Big Data, NoSQL e In Memory
Databases
MBA em Inteligência de Negócios/UFRJ
Big Data, NoSQL e In Memory
Databases
Turma BI-03
Grupo I
André Luiz Marques
Caio Louro
Fabiana Barbosa
Giuliano Lelo
Rodr...
O que é Big Data?
• Quantidade de dados gerados e armazenados
▫ E-mails
▫ Transações bancárias
▫ E-Commerce
▫ Redes Sociais
Conceito de Big Data
• O que fazer com tantos dados?
• Como fazer?
• Que ferramentas utilizar para gerenciá-los?
Conceito de Big Data
Conceito de Big Data
“Um conjuntos de dados extremamente grandes e
que, por este motivo, necessitam de ferramentas
especia...
Informação é poder
• O que as empresas utilizam para gerir as
informações e tomada de decisão atualmente:
▫ Data mining
▫ ...
Informação é poder
• A proposta do Big Data:
▫ Abordagem no tratamento “caótico” dos dados
▫ Tornar as ferramentas já exis...
Importância do Big Data
• Crescente produção de dados
• Aumento das fontes geradoras
▫ Novos sites, redes sociais
▫ Novos ...
Importância do Big Data
• “O Big Data se propõe a ajudar nesta tarefa, uma
vez que as ferramentas computacionais usadas
at...
Os V’s do Big Data
Os V’s do Big Data
• Volume
▫ Grandes volumes de
dados
Os V’s do Big Data
• Velocidade
▫ Rapidez para
obtenção, gravação e
atualização.
Os V’s do Big Data
• Variedade
▫ Dados de inúmeras
fontes e formatos
Os V’s do Big Data
• Veracidade
▫ Prover meios de
verificação dos dados
Os V’s do Big Data
• Valor
▫ Viabilidade X Benefícios do Investimento
Soluções de Big Data
Soluções de Big Data
• Distribuição de processamento
▫ Manter a disponibilidade
• Elasticidade
▫ Suportar a crescente mass...
Soluções de Big Data
• Bancos de dados tradicionais
▫ Princípios ACID:
 Atomicidade
 Consistência
 Isolamento
 Durabil...
Soluções de Big Data
• Problemas dos A.C.I.D para o Big Data
▫ Restritiva
▫ Pouca elasticidade
Soluções de Big Data
• Alternativa em BD para Big Data:
▫ Not Only SQL
Soluções de Big Data
• NOSQL
▫ Princípios BASE:
 Basically Available (Basicamente disponível)
 Soft state (Estado Leve)
...
NoSQL
• Termo utilizado pela primeira vez em 1998 sobre
um banco de dados relacional open source sem
interface SQL
• Evolu...
NoSQL é um conceito novo
Motivação do NoSQL
• O Big Data representa um desafio de
performance para o RDBMS
• Diminuir custo com escalabilidade vert...
Estrutura das Bases NoSQL
• Informações agrupadas no mesmo registro sem
normalização ou diversos relacionamentos
• Arquite...
Tipos de Bases NoSQL
• Key/ValueStore (Berkeley DB, Project Voldermort, SimpleBD)
▫ Fornece uma chave eficiente para mapea...
Mercado do NoSQL
Exemplo no NoSQL
In Memory Databases
• Sistema de gerenciamento de
dados baseado na memória
principal
• Adoção crescente por ganhos de
perf...
• IMDBs (“In Memory Databases”) possuem
algoritmos simplificados em relação a um
RDBMS (“Relational Databases Management
S...
IMDB x RDBMS
• As requisições feitas pela aplicação, chegam ao
banco por meio da API de banco de dados;
• O banco através das instruçõe...
IMDB x RDBMS
B-tree
T-tree
• Elimina múltiplas transferências de dados
• Reduz consumo de memória ao reduzir número
de cópias e caches de dados
• Min...
Desvantagens do IMDB
• Tempo de inicialização e recovery mais longos
que nos RDBMS, pois todas a base de dados
precisa ser...
Arquitetura do IMDB
• Todos os domínios que
exigem desempenho em
tempo real e muito baixa
latência
• Telecomunicações
• Segmentos financeiros
...
• Oracle TimesTen
• IBM soliddb
• Sybase ASE
• ENEA Polyhedra
• McObject ExtremeDB
• CSQL (OpenSource)
• MonetDB (OpenSour...
• http://www.infowester.com/big-data.php
• http://cassandra.apache.org/
• www.edge.org/conversation/reinventing-society-in...
Próximos SlideShares
Carregando em…5
×

Big Data, NoSQL e In Memory Databases

415 visualizações

Publicada em

Introdução, voltada ao mercado, dos conceitos de Big Data, NoSQL e In Memory, incluindo alguns exemplos de código e aplicações.

Publicada em: Dados e análise
2 comentários
3 gostaram
Estatísticas
Notas
Sem downloads
Visualizações
Visualizações totais
415
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
14
Comentários
2
Gostaram
3
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big Data, NoSQL e In Memory Databases

  1. 1. Big Data, NoSQL e In Memory Databases MBA em Inteligência de Negócios/UFRJ
  2. 2. Big Data, NoSQL e In Memory Databases Turma BI-03 Grupo I André Luiz Marques Caio Louro Fabiana Barbosa Giuliano Lelo Rodrigo Jaccoud “Não sabendo que era impossível, ele foi lá e fez” Jean Cocteau
  3. 3. O que é Big Data? • Quantidade de dados gerados e armazenados ▫ E-mails ▫ Transações bancárias ▫ E-Commerce ▫ Redes Sociais
  4. 4. Conceito de Big Data • O que fazer com tantos dados? • Como fazer? • Que ferramentas utilizar para gerenciá-los?
  5. 5. Conceito de Big Data
  6. 6. Conceito de Big Data “Um conjuntos de dados extremamente grandes e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil.”
  7. 7. Informação é poder • O que as empresas utilizam para gerir as informações e tomada de decisão atualmente: ▫ Data mining ▫ B. I. ▫ CRM (Gestão de Relacionamento com o Cliente)
  8. 8. Informação é poder • A proposta do Big Data: ▫ Abordagem no tratamento “caótico” dos dados ▫ Tornar as ferramentas já existentes mais eficientes e precisas, considerando:  Volume de dados  Velocidade de análise  Disponibilização  A relação entre os três
  9. 9. Importância do Big Data • Crescente produção de dados • Aumento das fontes geradoras ▫ Novos sites, redes sociais ▫ Novos equipamentos gerando dados (veículos, eletrodomésticos) • Como gerenciar e lucrar com esta explosão de dados?
  10. 10. Importância do Big Data • “O Big Data se propõe a ajudar nesta tarefa, uma vez que as ferramentas computacionais usadas até então para gestão de dados, por si só, já não podem fazê-lo satisfatoriamente.”
  11. 11. Os V’s do Big Data
  12. 12. Os V’s do Big Data • Volume ▫ Grandes volumes de dados
  13. 13. Os V’s do Big Data • Velocidade ▫ Rapidez para obtenção, gravação e atualização.
  14. 14. Os V’s do Big Data • Variedade ▫ Dados de inúmeras fontes e formatos
  15. 15. Os V’s do Big Data • Veracidade ▫ Prover meios de verificação dos dados
  16. 16. Os V’s do Big Data • Valor ▫ Viabilidade X Benefícios do Investimento
  17. 17. Soluções de Big Data
  18. 18. Soluções de Big Data • Distribuição de processamento ▫ Manter a disponibilidade • Elasticidade ▫ Suportar a crescente massa de dados
  19. 19. Soluções de Big Data • Bancos de dados tradicionais ▫ Princípios ACID:  Atomicidade  Consistência  Isolamento  Durabilidade
  20. 20. Soluções de Big Data • Problemas dos A.C.I.D para o Big Data ▫ Restritiva ▫ Pouca elasticidade
  21. 21. Soluções de Big Data • Alternativa em BD para Big Data: ▫ Not Only SQL
  22. 22. Soluções de Big Data • NOSQL ▫ Princípios BASE:  Basically Available (Basicamente disponível)  Soft state (Estado Leve)  Eventually consistency (eventualmente consistente)
  23. 23. NoSQL • Termo utilizado pela primeira vez em 1998 sobre um banco de dados relacional open source sem interface SQL • Evoluiu até ser reutilizado em 2009 em conferência sobre bancos de dados distrubuídos
  24. 24. NoSQL é um conceito novo
  25. 25. Motivação do NoSQL • O Big Data representa um desafio de performance para o RDBMS • Diminuir custo com escalabilidade vertical: mais dados, mais memória, mais CPU • Facilitar escalabilidade horizontal com máquinas de baixo custo
  26. 26. Estrutura das Bases NoSQL • Informações agrupadas no mesmo registro sem normalização ou diversos relacionamentos • Arquitetura muito tolerante a erros por conta das redundâncias de dados utilizadas
  27. 27. Tipos de Bases NoSQL • Key/ValueStore (Berkeley DB, Project Voldermort, SimpleBD) ▫ Fornece uma chave eficiente para mapear os valores existentes, com o conceito de a partir de uma chave encontrar um valor • WideColumnsStore (HBase, HiperTable, Cassandra) ▫ Orientado a registro e similar aos bancos de dados relacionais. É constituído por várias tabelas, cada uma contendo um conjunto de linhas endereçáveis, sendo fortemente inspirado pelo BigTable do Google • DocumentStore (CouchDB, MongoDB) ▫ Baseado em documentos XML ou JSON, podendo ser localizados pelo seu id único ou por qualquer registro que exista no documento • GraphStore (Net4J, InfoGrid) ▫ Guarda objetos, e não registros, como os outros tipos de NoSQL. Possui a capacidade de um valor do campo armazenar o ID de outra entidade • ColumnOrientedStore (Vertica, MonetDB) ▫ É relacional, mas os dados são armazenados em colunas, ajudando na escalabilidade
  28. 28. Mercado do NoSQL
  29. 29. Exemplo no NoSQL
  30. 30. In Memory Databases • Sistema de gerenciamento de dados baseado na memória principal • Adoção crescente por ganhos de performance ▫ Sem "overhead" da CPU ▫ Elimina tempo de resposta de I/O
  31. 31. • IMDBs (“In Memory Databases”) possuem algoritmos simplificados em relação a um RDBMS (“Relational Databases Management System”) • IMDBs possuiem todas as propriedades ACID de um RDBMS (Atomicidade, Consistência, Isolamento e Durabilidade) ▫ Mesmo com todos os dados em memória IMDB x RDBMS
  32. 32. IMDB x RDBMS
  33. 33. • As requisições feitas pela aplicação, chegam ao banco por meio da API de banco de dados; • O banco através das instruções instrui o sistema de arquivos para recuperar os dados da midia (ou local de armazenamento baseado em memória, no caso de um disco RAM) • O banco através do sistema de arquivos faz uma copia dos dados para o seu cache e outra cópia para o banco de dados. • O banco de dados mantém uma cópia em seu cache e passa outra cópia à aplicação • O aplicativo modifica o dado (sua cópia) e passa de volta para o banco de dados. • A copia modificada é enviada para o cache • A copia modificada, agora no cache do banco de dados é escrita no sistema de arquivos, atraves da alteração no cache do sistema de arquivo. • Finalmente, o dado é escrito de volta na mémoria fisica (ou RAM-disk) IMDB x RDBMS
  34. 34. IMDB x RDBMS B-tree T-tree
  35. 35. • Elimina múltiplas transferências de dados • Reduz consumo de memória ao reduzir número de cópias e caches de dados • Minimiza exigência da CPU por possuir processamento simplificado • Elimina gerenciamento de buffer do disco, comum gargalo de performance tuning de bancos de dados Vantagens do IMDB
  36. 36. Desvantagens do IMDB • Tempo de inicialização e recovery mais longos que nos RDBMS, pois todas a base de dados precisa ser carregada para a memória • Controle de concorrência mais rígido, podendo gerar mais blocks e aumentar o tempo de INSERTs e UPDATEs
  37. 37. Arquitetura do IMDB
  38. 38. • Todos os domínios que exigem desempenho em tempo real e muito baixa latência • Telecomunicações • Segmentos financeiros • Empresas de e-commerce • Aplicações Web Aplicações do IMDB
  39. 39. • Oracle TimesTen • IBM soliddb • Sybase ASE • ENEA Polyhedra • McObject ExtremeDB • CSQL (OpenSource) • MonetDB (OpenSource) Mercado do IMDB
  40. 40. • http://www.infowester.com/big-data.php • http://cassandra.apache.org/ • www.edge.org/conversation/reinventing-society-in-the-wake-of- big-data • www.ibm.com/software/data/bigdata • http://oglobo.globo.com/infograficos/bigdata/ • pt.wikipedia.org/wiki/NoSQL • http://nosql-database.org/ • http://docs.mongodb.org/manual/reference/sql-comparison/ Referências

×