SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
IFAL 2013.1
Tópicos Especiais em Sistemas de Informação
Prof. Marcilio Ferreira
Leandro Wanderley Couto da Silva
SUMÁRIO
•

História dos dados;

•

Pensamento Computacional;

•

Data Warehouse e Data Mining;

•

Dados Estruturados e Dados Não-Estruturados;

•

Big Data;

• NoSQL;
• MapReduce;
•

SPLUNK;

BIGDATA

2
HISTÓRIA DOS DADOS
•

Dados são essenciais;

•

Empresas armazenavam dados em fichas de papel (arquivos físicos);

•

Extrair informações e manter esses arquivos organizado era uma tarefa muito
custosa;

•

O acesso à informação dependia da localização geográfica dos arquivos;

BIGDATA

3
HISTÓRIA DOS DADOS
•

Esses arquivos físicos evoluíram para arquivos digitais;

•

Porém os arquivos digitais eram ainda uma versão melhorada dos arquivos
físicos;

BIGDATA

4
HISTÓRIA DOS DADOS
•

Porém apenas armazenar não resolvia o problema, era necessário que os
dados se relacionassem;

BIGDATA

5
PENSAMENTO COMPUTACIONAL
•

Jeannete M. Wing em 2006, “o pensamento computacional é habilidade
fundamental para qualquer pessoa, não somente para cientistas da
computação.”

•

É escolher uma representação apropriada para um problema ou modelagem de
aspectos relevantes de um problema para fazê-lo tratável;

•

Pensar computacionalmente é pensar recursivamente.

BIGDATA

6
DATA WAREHOUSE E DATA MINING
•

Hoje em dia, as grandes empresas detêm um volume enorme de dados e esses
estão em diversos sistemas diferentes espalhados por ela.

•

Com isso surgiram dois grandes pilares da análise e armazenamento de dados.

BIGDATA

7
DATA WAREHOUSE E DATA MINING
•

Um Data Warehouse (ou armazém de dados, ou depósito de dados no Brasil) é
um sistema de computação utilizado para armazenar informações relativas às
atividades de uma organização em bancos de dados, de forma consolidada. O
Data Warehouse é:
•

Orientado a Assunto; Integrado; Não Volátil;

•

O data warehouse possibilita a análise de grandes volumes de dados
coletados dos sistemas transacionais (OLTP).

•

O Data Warehouse não é:
•

BIGDATA

Produto; Linguagem; Cópia do sistema OLTP;

8
DATA WAREHOUSE E DATA MINING
•

A Mineração de Dados é uma das tecnologias mais promissoras da atualidade.

•

O KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento
nas Bases de Dados) é uma tentativa de solucionar o problema causado pela
chamada "era da informação": a sobrecarga de dados.

•

O KDD refere-se a todo o processo de descoberta de conhecimento, e a
Mineração de Dados a uma das atividades do processo.

BIGDATA

9
DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
•

Segundo a IBM 90% de todos os dados do mundo foram gerados nos últimos 2
anos.

BIGDATA

10
DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS ESTRUTURADOS
•

Dados organizados em blocos semânticos (relações);

•

Dados de um mesmo grupo possuem as mesmas descrições (atributos);

•

Descrições para todas as classes de um grupo possuem o mesmo formato
(esquema);

•

Dados mantidos em um SGBD são chamados de Dados Estruturados por
manterem a mesma estrutura de representação (rígida), previamente projetada
(esquema).

BIGDATA

11
DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS NÃO ESTRUTURADOS
•

São os dados que não possuem uma estrutura definida.;

•

Normalmente caracterizados por documentos textos, imagens, vídeos, etc;

•

Nem as estruturas são descritas implicitamente;

•

Grande maioria dos dados atuais na Web e nas empresas seguem este
formato.

BIGDATA

12
DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS SEMIESTRUTURADOS
•

Atualmente, muitos dados não são mantidos no SGBD;

•

Dados Web, por exemplo, apresentam uma organização bastante heterogênea;

•

A alta heterogeneidade dificulta as consultas a estes dados;

•

Assim, estes dados são classificados como semiestruturados:
•
•

•

Não são estritamente tipados;
Não são complementarmente não-estruturados.

Exemplos:
•

XML – eXtensible Markup Language

•

RDF – Resource Description Framework

•

OWL – Web Ontology Language

BIGDATA

13
DADOS ESTRUTURADOS E DADOS NÃO
ESTRUTURADOS
Dados Estruturados

Dados Semiestruturados

Dados Não Estruturados

Esquema pré-definido

Nem sempre há um esquema

Não há esquema

Estrutura regular

Estrutura irregular

Estrutura irregular

Estrutura independente dos
dados

Estrutura embutida nos dados

Pode não ter estrutura alguma

Estrutura reduzida

Estrutura extensa
(particularidades de cada dado,
visto que cada um pode ter uma
organização própria)

Estrutura extensa
(particularidades de cada dado,
visto que cada um pode ter uma
organização própria)

Fracamente evolutiva

Fortemente evolutiva (estrutura
modifica-se com frequência)

Fortemente evolutiva (estrutura
modifica-se com frequência)

Prescritiva (esquemas fechados
e restrições de integridade)

Estrutura descritiva

Estrutura descritiva

Distinção entre estrutura e dados Distinção entre estrutura e dados Distinção entre estrutura e dados
é clara
não é clara
não é clara
BIGDATA

14
BIGDATA
80
70
60
50
40
30
20
10
0

Filmes, Figuras,
Documentos
Textos simples, HTML

1996

BIGDATA

2012

15
BIGDATA

80
60
40
20

Dados disponíveis
Processamento de dados

0

BIGDATA

16
BIGDATA
VOLUME DE DADOS
•

No ano 2000, eram armazenados no mundo
•

•

800.000 Petabytes (PB)

IBM: Expectativa para 2020
•

BIGDATA

35 Zetabytes (ZB)

17
BIGDATA
•

Segundo os especialistas esse fenômeno se iniciou baseado em 3 V’s.

BIGDATA

18
BIGDATA
•

Porém agora surgem mais 2 V’s.
• Veracidade dos dados;
• Valor dos dados.

BIGDATA

19
BIGDATA
•

O termo Big Data é bem amplo e ainda não existe um consenso comum em sua
definição.

•

Porém, Big Data pode ser resumidamente definido como o processamento
(eficiente e escalável) analítico de grande volumes de dados complexos
produzidos por (várias) aplicações.

BIGDATA

20
BIGDATA
•

Exemplos de aplicações no contexto Big Data varia bastante, como aplicações
científicas e de engenharias, redes sociais, redes de sensores, dados de Web
Click, dados médicos e biológicos, transações de comércio eletrônico e
financeiros, entre inúmeras outras.

BIGDATA

21
BIGDATA
•

Estima-se que diariamente são gerados 15 petabytes de informações (redes
sociais, dispositivos móveis, financeiras) em todo o mundo, provenientes de
diversas plataformas e sistemas.

•

Como prova disso temos os exemplos de Facebook e Twitter que sozinhos geram
diariamente 10 e 7

•

terabytes de dados, respectivamente.

Em uma outra vertente temos os dados gerados nas pesquisas astronômicas que

armazenaram cerca de 140 terabytes de informações só em 2010, e que com o
desenvolvimento de novos telescópios até 2016 essa quantidade de informações
poderá ser gerada a cada cinco dias.

BIGDATA

22
BIGDATA
•

É ideal:
• Analisar dados semiestruturados e não estruturados de uma variedade de
fontes;
• Quando todos os dados ou quase todos devem ser analisados;
• Para analises interativas e exploratórias;

•

Big Data releva as formalidades e restrições do Data Warehouse;

•

Preserva a fidelidade dos dados.

BIGDATA

23
BIGDATA
•

Basicamente, podemos resumir as características do contexto Big Data em
quatro propriedades:
• (1) dados na ordem de dezenas ou centenas de Terabytes (podendo chegar a
ordem de Petabytes);
• (2) poder de crescimento elástico;
• (3) distribuição do processamento dos dados;

• (4) tipos de dados variados, complexos e/ou semiestruturados.
•

Recentemente, ambientes de computação em nuvem (cloud computing) têm sido
utilizados para o gerenciamento de dados em forma de Big Data, enfocando
principalmente em duas tecnologias: Bases de Dados Como Serviço (Database as
a Service (DaaS)) e Infraestrutura Como Serviço (Infrastructure as a service
(IaaS)).

BIGDATA

24
BIGDATA
NoSQL
•

Uma das tendências para solucionar os diversos problemas e desafios gerados pelo
contexto Big Data é o movimento denominado NoSQL (Not only SQL). NoSQL
promove diversas soluções inovadoras de armazenamento e processamento de
grande volume de dados.

BIGDATA

25
BIGDATA
NoSQL
•

SGBD tradicionais:
• Fortemente baseado no controle transacional ACID (Atomicity, Consistency,
Isolation e Durability).

•

NoSQL utilizam:
• O paradigma BASE (Basically Available, Soft-state, Eventually
consistency).
• O teorema CAP (Consistency, Availability e Partition tolerance) mostra que
somente duas dessas 3 propriedades podem ser garantidas simultaneamente
em um ambiente de processamento distribuído de grande porte.
• Dentro do aspecto do processamento dos dados, o principal paradigma adotado
pelos produtos NoSQL é o MapReduce.

BIGDATA

26
BIGDATA
MapReduce
•

Divide o processamento em duas etapas:
• (1) Map, que mapeia e distribui os dados em diversos nós de processamento e
armazenamento;
• (2) Reduce, que agrega e processa os resultados parciais para gerar um
resultado final (ou intermediário para outro processo MapReduce).

•

Provavelmente uma das maiores vantagens deste paradigma é a sua simplicidade,
onde a manipulação dos dados é feita pelo uso de duas funções básicas: Map
(função de mapeamento) e Reduce (função de redução).

•

Foi introduzido pela Google em 2004.

BIGDATA

27
BIGDATA
MapReduce
•

A Figura ilustra o paradigma MapReduce para contar palavras em um arquivo
grande de texto, onde os dados são distribuídos e armazenados utilizando como
pares < key, value >.

BIGDATA

28
BIGDATA
NoSQL
•

Os produtos NoSQL possuem várias características comuns entre si, porém se
diferenciam quanto ao modelo de dados utilizados (i.e., os produtos são
classificados pela representação dos dados). Atualmente, os principais produtos
NoSQL disponíveis, são organizados segundo seu modelo de dados a seguir:
•

Baseado em Coluna (Column Stores): Hbase, Cassandra, Hypertable, Accumulo, Amazon
SimpleDB, Cloudata, Cloudera, SciDB, HPCC, Stratosphere;

•

Baseado emDocumentos (Document Stores): MongoDB, CouchDB, BigCouch, RavenDB,
Clusterpoint Server, ThruDB, TerraStore, RaptorDB, JasDB, SisoDB, SDB, SchemaFreeDB, djondb;

•

Baseado em Grafos (Graph-Based Stores): Neo4J, Infinite Graph, Sones, InfoGrid, HyperGraphDB,
DEX, Trinity, AllegroGraph, BrightStarDB, BigData, Meronymy, OpenLink Virtuoso, VertexDB,
FlockDB;

•

Baseado em Chave-Valor (Key-Value Stores): Dynamo, Azure Table Storage, Couchbase Server,
Riak, Redis, LevelDB, Chordless, GenieDB, Scalaris, Tokyo Cabinet/Tyrant, GT.M, Scalien,
Berkeley DB, Voldemort, Dynomite, KAI, MemcacheDB, Faircom C-Tree, HamsterDB, STSdb,
Tarantool/Box, Maxtable, Pincaster, RaptorDB, TIBCO Active Spaces, allegro-C, nessDB, HyperDex,
Mnesia, LightCloud, Hibari, BangDB.

BIGDATA

29
BIGDATA

BIGDATA

30
SPLUNK
•

O que é o SPLUNK?

•

O SPLUNK é o mecanismo para os dados gerados por máquina
• Sua infraestrutura de TI gera enormes quantidades de dados. Dados gerados
por máquina - gerados por sites, aplicativos, servidores, redes, dispositivos
móveis e afins. Ao monitorar e analisar tudo, de clickstreams e transações de
clientes à atividade de rede para registrar chamadas.

BIGDATA

31
SPLUNK
•

Projetado para BigData

•

O dimensionamento de sua arquitetura se baseia no MapReduce; portanto,
conforme os volumes diários e as fontes de dados crescem, você pode dimensionar
o desempenho, simplesmente adicionando mais servidores comuns.

BIGDATA

32
SPLUNK

BIGDATA

33
SPLUNK

BIGDATA

34
SPLUNK

BIGDATA

35
SPLUNK

BIGDATA

36
SPLUNK

BIGDATA

37
BIGDATA

BIGDATA

38
REFERÊNCIAS BIBLIOGRÁFICAS
•

A história dos bancos de dados. Disponível em: http://www.dicasdeprogramacao.com.br/a-historia-dos-bancosde-dados/ Acesso em: 18/06/2013.

•

LIMA JUNIOR, W. T. Jornalismo Computacional em função da Era do Big Data. 9º. Encontro Nacional de
Pesquisadores em Jornalismo, Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro. Novembro de 2011.

•

OLIVEIRA, M. Data Warehouse. Disponível em:
http://www.datawarehouse.inf.br/Academicos/A%20PUBLICAR_DATA_WAREHOUSE_MARCELL_OLIVEIRA.pdf
Acesso em: 19/06/2013.

•

CAMILO, C. O. SILVA, J. C. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Instituto de
Informática, Universidade Federal de Goiás. 2009.

•

CLARO, D. B. Dados Estruturados x Dados Semiestruturados x Dados Não Estruturados. Disponível em:
http://homes.dcc.ufba.br/~dclaro/download/mate04/DadosEstruturadosxSemiEstruturadosxNaoEstruturados.pdf
Acesso em: 19/06/2013.

•

VIEIRA, M. R. FIGUEIREDO, J. M. LIBERATTI, G. VIEBRANTZ, A. F. M. Bancos de Dados NoSQL: Conceitos,
Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. Simpósio Brasileiro de Bancos de
Dados - SBBD 2012.

•

SOUZA, M. Introdução Splunk Brasil. Disponível em: http://www.slideshare.net/mtelless/introduo-splunk-brasil
Acesso em: 24/06/2013.

BIGDATA

39

Mais conteúdo relacionado

Mais procurados

Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsMundo Contact
 
Dimensional Modeling
Dimensional ModelingDimensional Modeling
Dimensional Modelingaksrauf
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
DATA Warehousing & Data Mining
DATA Warehousing & Data MiningDATA Warehousing & Data Mining
DATA Warehousing & Data Miningcpjcollege
 
Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadhMithlesh Sadh
 
Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaRadhika Kotecha
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados ConceitosCleber Ramos
 
Exploring Levels of Data Literacy
Exploring Levels of Data LiteracyExploring Levels of Data Literacy
Exploring Levels of Data LiteracyDATAVERSITY
 
The Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindThe Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindDATAVERSITY
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeKent Graziano
 
Date warehousing concepts
Date warehousing conceptsDate warehousing concepts
Date warehousing conceptspcherukumalla
 
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeData Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeWhereScape
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 

Mais procurados (20)

Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
Data Vault Introduction
Data Vault IntroductionData Vault Introduction
Data Vault Introduction
 
Big data
Big dataBig data
Big data
 
Dimensional Modeling
Dimensional ModelingDimensional Modeling
Dimensional Modeling
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
DATA Warehousing & Data Mining
DATA Warehousing & Data MiningDATA Warehousing & Data Mining
DATA Warehousing & Data Mining
 
Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadh
 
Big data and analytics
Big data and analyticsBig data and analytics
Big data and analytics
 
Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika Kotecha
 
Big_data_ppt
Big_data_ppt Big_data_ppt
Big_data_ppt
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados Conceitos
 
Exploring Levels of Data Literacy
Exploring Levels of Data LiteracyExploring Levels of Data Literacy
Exploring Levels of Data Literacy
 
The Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindThe Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data Mind
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Intro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on SnowflakeIntro to Data Vault 2.0 on Snowflake
Intro to Data Vault 2.0 on Snowflake
 
Data Mining
Data Mining Data Mining
Data Mining
 
Date warehousing concepts
Date warehousing conceptsDate warehousing concepts
Date warehousing concepts
 
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScapeData Vault 2.0 DeMystified with Dan Linstedt and WhereScape
Data Vault 2.0 DeMystified with Dan Linstedt and WhereScape
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 

Destaque

O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 
Big Data
Big DataBig Data
Big DataNGDATA
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Sc ad-tp-g1-a
Sc ad-tp-g1-aSc ad-tp-g1-a
Sc ad-tp-g1-actdi13
 
Afinal o que é Big data?
Afinal o que é Big data?Afinal o que é Big data?
Afinal o que é Big data?Cezar Taurion
 
Carros, para onde estão indo?
Carros, para onde estão indo?Carros, para onde estão indo?
Carros, para onde estão indo?CESAR
 
Comercio eletronico aula 1
Comercio eletronico   aula 1Comercio eletronico   aula 1
Comercio eletronico aula 1odair de Osti
 
Equipamentos de realidade virtual - Visualização
Equipamentos de realidade virtual - VisualizaçãoEquipamentos de realidade virtual - Visualização
Equipamentos de realidade virtual - VisualizaçãoSusana Oliveira
 
Realidade virtual
Realidade virtualRealidade virtual
Realidade virtualVitor Faria
 
Grupo de Pesquisa em IoT (internet of things) do CESAR
Grupo de Pesquisa em IoT (internet of things) do CESARGrupo de Pesquisa em IoT (internet of things) do CESAR
Grupo de Pesquisa em IoT (internet of things) do CESARCESAR
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 

Destaque (20)

Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
 
Big Data
Big DataBig Data
Big Data
 
Big Data
Big DataBig Data
Big Data
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Sc ad-tp-g1-a
Sc ad-tp-g1-aSc ad-tp-g1-a
Sc ad-tp-g1-a
 
Afinal o que é Big data?
Afinal o que é Big data?Afinal o que é Big data?
Afinal o que é Big data?
 
Carros, para onde estão indo?
Carros, para onde estão indo?Carros, para onde estão indo?
Carros, para onde estão indo?
 
Realidade virtual
Realidade virtualRealidade virtual
Realidade virtual
 
BIG data
BIG dataBIG data
BIG data
 
Comercio eletronico aula 1
Comercio eletronico   aula 1Comercio eletronico   aula 1
Comercio eletronico aula 1
 
Equipamentos de realidade virtual - Visualização
Equipamentos de realidade virtual - VisualizaçãoEquipamentos de realidade virtual - Visualização
Equipamentos de realidade virtual - Visualização
 
Realidade virtual
Realidade virtualRealidade virtual
Realidade virtual
 
Grupo de Pesquisa em IoT (internet of things) do CESAR
Grupo de Pesquisa em IoT (internet of things) do CESARGrupo de Pesquisa em IoT (internet of things) do CESAR
Grupo de Pesquisa em IoT (internet of things) do CESAR
 
Computação na nuvem
Computação na nuvemComputação na nuvem
Computação na nuvem
 
Big Data
Big DataBig Data
Big Data
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Computação em nuvem
Computação em nuvemComputação em nuvem
Computação em nuvem
 

Semelhante a Bigdata - Leandro Wanderley

Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Banco de Dados - Conceitos
Banco de Dados - ConceitosBanco de Dados - Conceitos
Banco de Dados - Conceitosssuser69006f
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Apresentacao1 base de_dados
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dadosDaniel Silva
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasHumberto Moura
 
Armazenamento de dados Sistema de Informacao
Armazenamento de dados   Sistema de InformacaoArmazenamento de dados   Sistema de Informacao
Armazenamento de dados Sistema de InformacaoJefferson Martins
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfssuser7a84f91
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosSistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosMariana Hiyori
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 

Semelhante a Bigdata - Leandro Wanderley (20)

Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Banco de Dados - Conceitos
Banco de Dados - ConceitosBanco de Dados - Conceitos
Banco de Dados - Conceitos
 
Banco dedados aula001
Banco dedados aula001Banco dedados aula001
Banco dedados aula001
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
1_intro.ppt
1_intro.ppt1_intro.ppt
1_intro.ppt
 
Apresentacao1 base de_dados
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dados
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as Tecnologias
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Armazenamento de dados Sistema de Informacao
Armazenamento de dados   Sistema de InformacaoArmazenamento de dados   Sistema de Informacao
Armazenamento de dados Sistema de Informacao
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Introdução.pdf
Introdução.pdfIntrodução.pdf
Introdução.pdf
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosSistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 

Bigdata - Leandro Wanderley

  • 1. IFAL 2013.1 Tópicos Especiais em Sistemas de Informação Prof. Marcilio Ferreira Leandro Wanderley Couto da Silva
  • 2. SUMÁRIO • História dos dados; • Pensamento Computacional; • Data Warehouse e Data Mining; • Dados Estruturados e Dados Não-Estruturados; • Big Data; • NoSQL; • MapReduce; • SPLUNK; BIGDATA 2
  • 3. HISTÓRIA DOS DADOS • Dados são essenciais; • Empresas armazenavam dados em fichas de papel (arquivos físicos); • Extrair informações e manter esses arquivos organizado era uma tarefa muito custosa; • O acesso à informação dependia da localização geográfica dos arquivos; BIGDATA 3
  • 4. HISTÓRIA DOS DADOS • Esses arquivos físicos evoluíram para arquivos digitais; • Porém os arquivos digitais eram ainda uma versão melhorada dos arquivos físicos; BIGDATA 4
  • 5. HISTÓRIA DOS DADOS • Porém apenas armazenar não resolvia o problema, era necessário que os dados se relacionassem; BIGDATA 5
  • 6. PENSAMENTO COMPUTACIONAL • Jeannete M. Wing em 2006, “o pensamento computacional é habilidade fundamental para qualquer pessoa, não somente para cientistas da computação.” • É escolher uma representação apropriada para um problema ou modelagem de aspectos relevantes de um problema para fazê-lo tratável; • Pensar computacionalmente é pensar recursivamente. BIGDATA 6
  • 7. DATA WAREHOUSE E DATA MINING • Hoje em dia, as grandes empresas detêm um volume enorme de dados e esses estão em diversos sistemas diferentes espalhados por ela. • Com isso surgiram dois grandes pilares da análise e armazenamento de dados. BIGDATA 7
  • 8. DATA WAREHOUSE E DATA MINING • Um Data Warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O Data Warehouse é: • Orientado a Assunto; Integrado; Não Volátil; • O data warehouse possibilita a análise de grandes volumes de dados coletados dos sistemas transacionais (OLTP). • O Data Warehouse não é: • BIGDATA Produto; Linguagem; Cópia do sistema OLTP; 8
  • 9. DATA WAREHOUSE E DATA MINING • A Mineração de Dados é uma das tecnologias mais promissoras da atualidade. • O KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados) é uma tentativa de solucionar o problema causado pela chamada "era da informação": a sobrecarga de dados. • O KDD refere-se a todo o processo de descoberta de conhecimento, e a Mineração de Dados a uma das atividades do processo. BIGDATA 9
  • 10. DADOS ESTRUTURADOS E NÃO ESTRUTURADOS • Segundo a IBM 90% de todos os dados do mundo foram gerados nos últimos 2 anos. BIGDATA 10
  • 11. DADOS ESTRUTURADOS E NÃO ESTRUTURADOS DADOS ESTRUTURADOS • Dados organizados em blocos semânticos (relações); • Dados de um mesmo grupo possuem as mesmas descrições (atributos); • Descrições para todas as classes de um grupo possuem o mesmo formato (esquema); • Dados mantidos em um SGBD são chamados de Dados Estruturados por manterem a mesma estrutura de representação (rígida), previamente projetada (esquema). BIGDATA 11
  • 12. DADOS ESTRUTURADOS E NÃO ESTRUTURADOS DADOS NÃO ESTRUTURADOS • São os dados que não possuem uma estrutura definida.; • Normalmente caracterizados por documentos textos, imagens, vídeos, etc; • Nem as estruturas são descritas implicitamente; • Grande maioria dos dados atuais na Web e nas empresas seguem este formato. BIGDATA 12
  • 13. DADOS ESTRUTURADOS E NÃO ESTRUTURADOS DADOS SEMIESTRUTURADOS • Atualmente, muitos dados não são mantidos no SGBD; • Dados Web, por exemplo, apresentam uma organização bastante heterogênea; • A alta heterogeneidade dificulta as consultas a estes dados; • Assim, estes dados são classificados como semiestruturados: • • • Não são estritamente tipados; Não são complementarmente não-estruturados. Exemplos: • XML – eXtensible Markup Language • RDF – Resource Description Framework • OWL – Web Ontology Language BIGDATA 13
  • 14. DADOS ESTRUTURADOS E DADOS NÃO ESTRUTURADOS Dados Estruturados Dados Semiestruturados Dados Não Estruturados Esquema pré-definido Nem sempre há um esquema Não há esquema Estrutura regular Estrutura irregular Estrutura irregular Estrutura independente dos dados Estrutura embutida nos dados Pode não ter estrutura alguma Estrutura reduzida Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria) Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria) Fracamente evolutiva Fortemente evolutiva (estrutura modifica-se com frequência) Fortemente evolutiva (estrutura modifica-se com frequência) Prescritiva (esquemas fechados e restrições de integridade) Estrutura descritiva Estrutura descritiva Distinção entre estrutura e dados Distinção entre estrutura e dados Distinção entre estrutura e dados é clara não é clara não é clara BIGDATA 14
  • 17. BIGDATA VOLUME DE DADOS • No ano 2000, eram armazenados no mundo • • 800.000 Petabytes (PB) IBM: Expectativa para 2020 • BIGDATA 35 Zetabytes (ZB) 17
  • 18. BIGDATA • Segundo os especialistas esse fenômeno se iniciou baseado em 3 V’s. BIGDATA 18
  • 19. BIGDATA • Porém agora surgem mais 2 V’s. • Veracidade dos dados; • Valor dos dados. BIGDATA 19
  • 20. BIGDATA • O termo Big Data é bem amplo e ainda não existe um consenso comum em sua definição. • Porém, Big Data pode ser resumidamente definido como o processamento (eficiente e escalável) analítico de grande volumes de dados complexos produzidos por (várias) aplicações. BIGDATA 20
  • 21. BIGDATA • Exemplos de aplicações no contexto Big Data varia bastante, como aplicações científicas e de engenharias, redes sociais, redes de sensores, dados de Web Click, dados médicos e biológicos, transações de comércio eletrônico e financeiros, entre inúmeras outras. BIGDATA 21
  • 22. BIGDATA • Estima-se que diariamente são gerados 15 petabytes de informações (redes sociais, dispositivos móveis, financeiras) em todo o mundo, provenientes de diversas plataformas e sistemas. • Como prova disso temos os exemplos de Facebook e Twitter que sozinhos geram diariamente 10 e 7 • terabytes de dados, respectivamente. Em uma outra vertente temos os dados gerados nas pesquisas astronômicas que armazenaram cerca de 140 terabytes de informações só em 2010, e que com o desenvolvimento de novos telescópios até 2016 essa quantidade de informações poderá ser gerada a cada cinco dias. BIGDATA 22
  • 23. BIGDATA • É ideal: • Analisar dados semiestruturados e não estruturados de uma variedade de fontes; • Quando todos os dados ou quase todos devem ser analisados; • Para analises interativas e exploratórias; • Big Data releva as formalidades e restrições do Data Warehouse; • Preserva a fidelidade dos dados. BIGDATA 23
  • 24. BIGDATA • Basicamente, podemos resumir as características do contexto Big Data em quatro propriedades: • (1) dados na ordem de dezenas ou centenas de Terabytes (podendo chegar a ordem de Petabytes); • (2) poder de crescimento elástico; • (3) distribuição do processamento dos dados; • (4) tipos de dados variados, complexos e/ou semiestruturados. • Recentemente, ambientes de computação em nuvem (cloud computing) têm sido utilizados para o gerenciamento de dados em forma de Big Data, enfocando principalmente em duas tecnologias: Bases de Dados Como Serviço (Database as a Service (DaaS)) e Infraestrutura Como Serviço (Infrastructure as a service (IaaS)). BIGDATA 24
  • 25. BIGDATA NoSQL • Uma das tendências para solucionar os diversos problemas e desafios gerados pelo contexto Big Data é o movimento denominado NoSQL (Not only SQL). NoSQL promove diversas soluções inovadoras de armazenamento e processamento de grande volume de dados. BIGDATA 25
  • 26. BIGDATA NoSQL • SGBD tradicionais: • Fortemente baseado no controle transacional ACID (Atomicity, Consistency, Isolation e Durability). • NoSQL utilizam: • O paradigma BASE (Basically Available, Soft-state, Eventually consistency). • O teorema CAP (Consistency, Availability e Partition tolerance) mostra que somente duas dessas 3 propriedades podem ser garantidas simultaneamente em um ambiente de processamento distribuído de grande porte. • Dentro do aspecto do processamento dos dados, o principal paradigma adotado pelos produtos NoSQL é o MapReduce. BIGDATA 26
  • 27. BIGDATA MapReduce • Divide o processamento em duas etapas: • (1) Map, que mapeia e distribui os dados em diversos nós de processamento e armazenamento; • (2) Reduce, que agrega e processa os resultados parciais para gerar um resultado final (ou intermediário para outro processo MapReduce). • Provavelmente uma das maiores vantagens deste paradigma é a sua simplicidade, onde a manipulação dos dados é feita pelo uso de duas funções básicas: Map (função de mapeamento) e Reduce (função de redução). • Foi introduzido pela Google em 2004. BIGDATA 27
  • 28. BIGDATA MapReduce • A Figura ilustra o paradigma MapReduce para contar palavras em um arquivo grande de texto, onde os dados são distribuídos e armazenados utilizando como pares < key, value >. BIGDATA 28
  • 29. BIGDATA NoSQL • Os produtos NoSQL possuem várias características comuns entre si, porém se diferenciam quanto ao modelo de dados utilizados (i.e., os produtos são classificados pela representação dos dados). Atualmente, os principais produtos NoSQL disponíveis, são organizados segundo seu modelo de dados a seguir: • Baseado em Coluna (Column Stores): Hbase, Cassandra, Hypertable, Accumulo, Amazon SimpleDB, Cloudata, Cloudera, SciDB, HPCC, Stratosphere; • Baseado emDocumentos (Document Stores): MongoDB, CouchDB, BigCouch, RavenDB, Clusterpoint Server, ThruDB, TerraStore, RaptorDB, JasDB, SisoDB, SDB, SchemaFreeDB, djondb; • Baseado em Grafos (Graph-Based Stores): Neo4J, Infinite Graph, Sones, InfoGrid, HyperGraphDB, DEX, Trinity, AllegroGraph, BrightStarDB, BigData, Meronymy, OpenLink Virtuoso, VertexDB, FlockDB; • Baseado em Chave-Valor (Key-Value Stores): Dynamo, Azure Table Storage, Couchbase Server, Riak, Redis, LevelDB, Chordless, GenieDB, Scalaris, Tokyo Cabinet/Tyrant, GT.M, Scalien, Berkeley DB, Voldemort, Dynomite, KAI, MemcacheDB, Faircom C-Tree, HamsterDB, STSdb, Tarantool/Box, Maxtable, Pincaster, RaptorDB, TIBCO Active Spaces, allegro-C, nessDB, HyperDex, Mnesia, LightCloud, Hibari, BangDB. BIGDATA 29
  • 31. SPLUNK • O que é o SPLUNK? • O SPLUNK é o mecanismo para os dados gerados por máquina • Sua infraestrutura de TI gera enormes quantidades de dados. Dados gerados por máquina - gerados por sites, aplicativos, servidores, redes, dispositivos móveis e afins. Ao monitorar e analisar tudo, de clickstreams e transações de clientes à atividade de rede para registrar chamadas. BIGDATA 31
  • 32. SPLUNK • Projetado para BigData • O dimensionamento de sua arquitetura se baseia no MapReduce; portanto, conforme os volumes diários e as fontes de dados crescem, você pode dimensionar o desempenho, simplesmente adicionando mais servidores comuns. BIGDATA 32
  • 39. REFERÊNCIAS BIBLIOGRÁFICAS • A história dos bancos de dados. Disponível em: http://www.dicasdeprogramacao.com.br/a-historia-dos-bancosde-dados/ Acesso em: 18/06/2013. • LIMA JUNIOR, W. T. Jornalismo Computacional em função da Era do Big Data. 9º. Encontro Nacional de Pesquisadores em Jornalismo, Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro. Novembro de 2011. • OLIVEIRA, M. Data Warehouse. Disponível em: http://www.datawarehouse.inf.br/Academicos/A%20PUBLICAR_DATA_WAREHOUSE_MARCELL_OLIVEIRA.pdf Acesso em: 19/06/2013. • CAMILO, C. O. SILVA, J. C. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Instituto de Informática, Universidade Federal de Goiás. 2009. • CLARO, D. B. Dados Estruturados x Dados Semiestruturados x Dados Não Estruturados. Disponível em: http://homes.dcc.ufba.br/~dclaro/download/mate04/DadosEstruturadosxSemiEstruturadosxNaoEstruturados.pdf Acesso em: 19/06/2013. • VIEIRA, M. R. FIGUEIREDO, J. M. LIBERATTI, G. VIEBRANTZ, A. F. M. Bancos de Dados NoSQL: Conceitos, Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. Simpósio Brasileiro de Bancos de Dados - SBBD 2012. • SOUZA, M. Introdução Splunk Brasil. Disponível em: http://www.slideshare.net/mtelless/introduo-splunk-brasil Acesso em: 24/06/2013. BIGDATA 39