SlideShare uma empresa Scribd logo
1 de 44
Ana Luiza Lacerda, Joice Ferreira;
Banco de Dados II – Suzana Mota
Sumário
1.Motivação Inicial - problemas que a tecnologia tenta resolver;
2.História do Big Data;
3.O que é Big Data?
4.Os V’s do Big Data;
5.Tipo de dados do Big Data;
6.Por que Big Data é importante?
7.Big Data x BI (Business Intelligence);
8.Características do Big Data;
9.Características do BI;
10. Ferramentas - O que é, Características, Instalação;
11.Conclusão;
Motivação Inicial - problemas que a
tecnologia tenta resolver
• Com a globalização, a expansão virtual se tornou
necessária;
• O mundo gera, diariamente, 2,5 quintilhões de bytes;
• Antes de Big Data, fórmulas matemáticas, técnicas
avançadas de probabilidades e estatística eram
executadas manualmente – lidando, portanto, com uma
capacidade reduzida de variáveis.
História do Big Data
• Há várias versões sobre a origem do conceito de Big
Data, assim como do início de suas aplicações. Uma das
mais conhecidas remete à NASA, que no início da
década de 1990 começou a utilizar Big Data para
descrever imensos conjuntos de dados complexos, que
desafiavam os limites convencionais da computação da
época.
•
O que é Big Data
• Big Data é um conceito que descreve o grande volume de
dados estruturados e não estruturados que são gerados a
cada segundo.
Um grande conjunto de dados armazenados
• Embora o termo "big data" seja relativamente novo, o ato
de recolher e armazenar grandes quantidades de
informações para eventual análise de dados é bem
antigo.
• O conceito ganhou força no início dos anos 2000, quando
um analista famoso deste setor, Doug Laney, articulou a
definição de big data como os três Vs;
Os V’s do Big Data
• Volume;
• Velocidade;
• Variedade;
• Veracidade;
• Valor;
Volume
• Organizações coletam dados de uma grande variedade
de fontes, incluindo transações comerciais, redes sociais
e informações de sensores ou dados transmitidos de
máquina a máquina. No passado, armazenar tamanha
quantidade de informações teria sido um problema – mas
novas tecnologias (como o Hadoop) têm aliviado a carga.
Velocidade
• Os dados fluem em uma velocidade sem precedentes e
devem ser tratados em tempo hábil. Tags de RFID,
sensores, celulares e contadores inteligentes estão
impulsionado a necessidade de lidar com imensas
quantidades de dados em tempo real, ou quase real.
Variedade
• Os dados são gerados em todos os tipos de formatos - de
dados estruturados, dados numéricos em bancos de
dados tradicionais, até documentos de texto não
estruturados, e-mail, vídeo, áudio, dados de cotações da
bolsa e transações financeiras.
Veracidade
• A veracidade está ligada diretamente ao quanto uma
informação é verdadeira. O emaranhado de dados pode
nos confundir, por isso todo cuidado é pouco para
obtermos veracidade dos dados.
Valor
• Se você direcionou esforços para gerar uma informação
que não serve para nada, o valor do trabalho realizado
será perto de zero, portanto, precisamos entender muito
bem o contexto e necessidade para gerar a informação
certa para as pessoas certas. Por isso falamos tanto em
“informação útil”.
Como esses dados são transformados
em insights?
• Soluções de Big Data “tratam” os dados brutos até
transformá-los em insights valiosos para as tomadas de
decisões. Referem-se a um processo eletrônico que
transforma um conjunto de dados “soltos” em
informações, informações em conhecimento e, por fim,
conhecimento em sabedoria, que será usada para tomar
as decisões mais assertivas e céleres ao contexto de seu
negócio.
Tipo de dados
Por que Big Data é importante?
• A importância do big data não gira em torno da
quantidade de dados que você tem, mas em torno do que
você faz com eles. Você pode analisar dados de qualquer
fonte para encontrar respostas que permitam 1) redução
de custos, 2) redução de tempo, 3) desenvolvimento de
novos produtos e ofertas otimizadas, 4) decisões mais
inteligentes.
Big Data x BI (Business Intelligence)
• BI e Big Data são de certa forma complementares, mas
não idênticos. Além disso, em geral, Big Data é uma fase
posterior ao amadurecimento de um trabalho com BI.
Características do Big Data
• Focado no processamento de dados estruturados e não
estruturados, bem como nas correlações e descobertas
que desse processamento podem advir;
• Analisa o que já existe e o que está por vir, apontando
novos caminhos;
• Ideal para quando se quer explorar novas possibilidades,
descobrir novos padrões e explorar perguntas que ainda
não haviam sido feitas;
• Mais amplo, voltado não apenas para negócios, mas para
qualquer área/segmento, como saúde, entretenimento,
educação.
Características do BI
• Focado na coleta, transformação e disponibilização de
dados estruturados para a tomada de decisões;
• Analisa o que já existe, definindo as melhores hipóteses;
• Ideal para quando já se conhece as perguntas;
• Mais específico, voltado apenas para negócios.
O que é Cassandra?
● Apache Cassandra é um projeto de sistema de banco
de dados distribuído altamente escalável de segunda
geração, é um sistema de código aberto projetado para
gerenciar grande volume de dados em tempo real,
permitindo resposta imediata e suporte a pontos de
falha.
● O Apache Cassandra foi lançado pelo facebook com
apoio do Google.
• Cassandra é essencialmente um híbrido entre valor-
chave (dado tabular) e banco de dados orientado em
colunas, com distribuição de conteúdo por linhas,
separado por nome, valor e tempo, podendo ter bom
balanceamento e distribuição de carga,
RandomPartitioner (RP), ou distribuição de cargas de
forma natural, aproximando nós com dados
complementares para composição da informação,
OrderPreservingPartitioner (OPP).
Características do Cassandra
● Altas escalabilidade e disponibilidade, sem um ponto
único de falha
● Arquitetura de cluster descentralizado
● Réplica e redundância de dados
● Rendimento de gravação muito alto e bom rendimento
de leitura
● Tolerante a falhas
● Esquema flexível
● Nível de consistência configurável
● Integrável
Instalação
Passo 1 :
echo "deb http://www.apache.org/dist/cassandra/debian
311x main" | sudo tee -a
/etc/apt/sources.list.d/cassandra.sources.list
Passo 2:
curl https://www.apache.org/dist/cassandra/KEYS | sudo
apt-key add -
sudo apt-key adv --keyserver pool.sks-keyservers.net --
recv-key A278B781FE4B2BDA
Passo 3:
sudo apt-get update
sudo apt-get install cassandra
Passo 4:
sudo mkdir /var/lib/cassandra
sudo mkdir /var/log/cassandra
sudo chown -R $USER:$GROUP /var/lib/cassandra
sudo chown -R $USER:$GROUP /var/log/cassandra
Passo 5:
export CASSANDRA_HOME=~/cassandra
export PATH=$PATH:$CASSANDRA_HOME/bin
Rodando o Cassandra:
sudo sh ~/cassandra/bin/cassandra
sudo sh ~/cassandra/bin/cqlsh
O que é Hadoop?
• O Hadoop é uma plataforma open source desenvolvida
especialmente para processamento e análise de grandes
volumes de dados, sejam eles estruturados ou não
estruturados.
• O Hadoop é uma implementação de código aberto do
paradigma de programação Map-Reduce.
• Map-Reduce é um paradigma de programação
introduzido pelo Google para processar e analisar
grandes conjuntos de dados. Todos esses programas
que são desenvolvidos nesse paradigma realizam o
processamento paralelo de conjuntos de dados;
• Uma grande tarefa é dividida em várias tarefas pequenas
que são então executadas em paralelo em máquinas
diferentes e então combinadas para chegar à solução da
tarefa maior que deu início a tudo.
Características do Hadoop
• É um projeto open source, fato que permite a sua
modificação para fins de customização e o torna
suscetível a melhorias constantes graças à sua rede de
colaboração.
• Proporciona economia, já que não exige o pagamento de
licenças e suporta hardware convencional, permitindo a
criação de projetos com máquinas consideravelmente
mais baratas;
• O Hadoop conta, por padrão, com recursos de tolerância
a falhas, como replicação de dados;
• O Hadoop é escalável: havendo necessidade de
processamento para suportar maior quantidade de dados,
é possível acrescentar computadores sem necessidade
de realizar reconfigurações complexas no sistema.
Instalação da ferramenta
Necessária a instalação do Java
● wget https://www.apache.org/dist/hadoop/core/hadoop-
3.0.0/hadoop-3.0.0.tar.gz
● tar xzf hadoop-3.0.0.tar.gz
● mv hadoop-3.0.0 hadoop
• export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
• Mudanças nos aquivos /etc/hadoop
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Inicia
cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh
http://localhost:8088
Conclusão
• Não podemos considerar as soluções de Big Data como
um arsenal computacional perfeito: sistemas do tipo são
complexos, ainda desconhecidos por muitos gestores e
profissionais de TI e a sua própria definição ainda é
passível de discussão.
• O fato é que a ideia de Big Data reflete um cenário real:
há, cada vez mais, volumes de dados gigantescos e que,
portanto, exigem uma abordagem capaz de aproveitá-los
ao máximo.
Referências
•BLOG SAS. Big Data, O que é e por que é importante? Disponível em:
https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html/ Acesso
em: 17 de Janeiro de 2018
•BLOG BIGDATA BUSINESS. Big Data: tudo que você sempre quis
saber sobre o tema! Disponível em:
http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em: 17 de
Janeiro de 2018
•NASCIMENTO, RODRIGO. Afinal, o que é Big Data? Disponível em:
http://marketingpordados.com/analise-de-dados/o-que-e-big-data/ Acesso
em: 17 de Janeiro de 2018
Referências
•BLOG ORACLE. A base da inovação de dados Disponível em:
https://www.oracle.com/br/big-data/index.html Acesso: 17 de Janeiro de
2018
•ALECRIM, EMERSON. O que é Big Data? Disponível em:
https://www.infowester.com/big-data.php Acesso em:17 de Janeiro de
2018
•BLOG G2. Big data: entenda o que é, por que é importante e como
funciona Disponível em: http://g2tecnologia.com.br/2016/12/13/big-data-
entenda-o-que-e-por-que-e-importante-e-como-funciona/ Acesso em: 17
de Janeiro de 2018
Referências
•ULISSES, FERNANDO. O que é Big Data e como funciona? Disponível em:
https://www.profissionaisti.com.br/2015/03/o-que-e-big-data-e-como-funciona/
Acesso em: 17 de Janeiro de 2018
•BLOG MARKETING E CONTEUDO. Big Data: por que toda estratégia de
marketing precisa desse aliado Disponível em:
https://marketingdeconteudo.com/big-data/ Acesso em: 17 de Janeiro de 2018
•BATIMARCHI, SUSANA. UMA BREVE HISTÓRIA DO BIG DATA DESDE
18.000 A.C. Disponível em: http://docmanagement.com.br/04/22/2015/uma-
breve-historia-do-big-data-desde-18-000-a-c/ Acesso em: 17 de Janeiro de
2018
Referências
•How do Install Cassandra Disponível em:
https://www.digitalocean.com/community/tutorials/how-to-install-
cassandra-and-run-a-single-node-cluster-on-a-ubuntu-vps Acesso em: 18
de Janeiro de 2018
•Apache Hadoop Disponível em: https://pplware.sapo.pt/linux/apache-
hadoop-hoje-vai-instalar-primeiro-cluster/ Acesso em: 18 de Janeiro de
2018
•Introdução ao Hadoop Disponível em:
https://mariannelinharesbr.wordpress.com/2016/06/14/introducao-ao-
hadoop-instalando-hadoop-de-forma-distribuida/ Acesso em: 18 de
Janeiro de 2018
Referências
•Considerações sobre o Banco de Dados Apache Cassandra
Disponível em: https://www.ibm.com/developerworks/br/library/os-apache-
cassandra/index.html Acesso em: 18 de Janeiro de 2018
•AVOYAN, HOVHANNES. Big Data e Hadoop – o que é tudo isso?
Disponível em: https://imasters.com.br/tecnologia/redes-e-servidores/big-
data-e-hadoop-o-que-e-tudo-isso/?trace=1519021197 Acesso em: 17 de
Janeiro de 2018

Mais conteúdo relacionado

Mais procurados

Ferramentas Assistidas por Inteligência Artificial na Educação
Ferramentas Assistidas por Inteligência Artificial na EducaçãoFerramentas Assistidas por Inteligência Artificial na Educação
Ferramentas Assistidas por Inteligência Artificial na EducaçãoMarcoNeves37
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Internet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorInternet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorAndré Curvello
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfMarcelo Silva
 
A Internet das Coisas
A Internet das CoisasA Internet das Coisas
A Internet das CoisasLuiz Avila
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 
Criação e Gestão de Indicadores de Processos
Criação e Gestão de Indicadores de ProcessosCriação e Gestão de Indicadores de Processos
Criação e Gestão de Indicadores de ProcessosStratec Informática
 
Design Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoDesign Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoPaulo Oliveira
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de InformaçãoDaniela Brauner
 
Sistema de Informação Gerencial
Sistema de Informação GerencialSistema de Informação Gerencial
Sistema de Informação GerencialLoham Silva
 
Aula 1 - Inteligência Artificial
Aula 1 - Inteligência ArtificialAula 1 - Inteligência Artificial
Aula 1 - Inteligência ArtificialThaís Gaudencio
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBItiaquarius
 

Mais procurados (20)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Ferramentas Assistidas por Inteligência Artificial na Educação
Ferramentas Assistidas por Inteligência Artificial na EducaçãoFerramentas Assistidas por Inteligência Artificial na Educação
Ferramentas Assistidas por Inteligência Artificial na Educação
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Internet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorInternet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redor
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
 
A Internet das Coisas
A Internet das CoisasA Internet das Coisas
A Internet das Coisas
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Criação e Gestão de Indicadores de Processos
Criação e Gestão de Indicadores de ProcessosCriação e Gestão de Indicadores de Processos
Criação e Gestão de Indicadores de Processos
 
Design Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoDesign Thinking - Metodologia para Inovação
Design Thinking - Metodologia para Inovação
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Os 4P's do Marketing
Os 4P's do MarketingOs 4P's do Marketing
Os 4P's do Marketing
 
Evolução dos sistemas de informação
Evolução dos sistemas de informaçãoEvolução dos sistemas de informação
Evolução dos sistemas de informação
 
Internet das Coisas
 Internet das Coisas Internet das Coisas
Internet das Coisas
 
Sistema de Informação Gerencial
Sistema de Informação GerencialSistema de Informação Gerencial
Sistema de Informação Gerencial
 
Aula 1 - Inteligência Artificial
Aula 1 - Inteligência ArtificialAula 1 - Inteligência Artificial
Aula 1 - Inteligência Artificial
 
Html
HtmlHtml
Html
 
Slide internet
Slide   internetSlide   internet
Slide internet
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBI
 

Semelhante a Big Data

Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 

Semelhante a Big Data (20)

Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data
Big DataBig Data
Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 

Mais de Suzana Viana Mota

exercicio-Organização e estrutura de Computadores
exercicio-Organização e estrutura de Computadoresexercicio-Organização e estrutura de Computadores
exercicio-Organização e estrutura de ComputadoresSuzana Viana Mota
 
Organizacao e estrutura de Computadores
Organizacao e estrutura de ComputadoresOrganizacao e estrutura de Computadores
Organizacao e estrutura de ComputadoresSuzana Viana Mota
 
Visão Computacional - Meetup AIGirls
Visão Computacional - Meetup AIGirlsVisão Computacional - Meetup AIGirls
Visão Computacional - Meetup AIGirlsSuzana Viana Mota
 
Atividades de Sistemas Binários
Atividades de Sistemas BináriosAtividades de Sistemas Binários
Atividades de Sistemas BináriosSuzana Viana Mota
 
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus JanuáriaLista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus JanuáriaSuzana Viana Mota
 
Interface humano-computador baseada em Visão Computacional: uma solução para ...
Interface humano-computador baseada em Visão Computacional: uma solução para ...Interface humano-computador baseada em Visão Computacional: uma solução para ...
Interface humano-computador baseada em Visão Computacional: uma solução para ...Suzana Viana Mota
 
Mundo 4.0 - O que esperar do futuro
Mundo 4.0 - O que esperar do futuroMundo 4.0 - O que esperar do futuro
Mundo 4.0 - O que esperar do futuroSuzana Viana Mota
 
Atalhos e dicas - Como se tornar um expert em Computadores
Atalhos e dicas - Como se tornar um expert em ComputadoresAtalhos e dicas - Como se tornar um expert em Computadores
Atalhos e dicas - Como se tornar um expert em ComputadoresSuzana Viana Mota
 
Aula Inaugural - Curso Técnico em Informática para Internet
Aula Inaugural - Curso Técnico em Informática para InternetAula Inaugural - Curso Técnico em Informática para Internet
Aula Inaugural - Curso Técnico em Informática para InternetSuzana Viana Mota
 
Exercicio - Introdução a Hardware Revisão
Exercicio - Introdução a Hardware RevisãoExercicio - Introdução a Hardware Revisão
Exercicio - Introdução a Hardware RevisãoSuzana Viana Mota
 
Desenvolvimento de software dedicado a pessoa com deficiência
Desenvolvimento de software dedicado a pessoa com deficiênciaDesenvolvimento de software dedicado a pessoa com deficiência
Desenvolvimento de software dedicado a pessoa com deficiênciaSuzana Viana Mota
 
Comparison of Human Machine Interfaces to control a Robotized Wheelchair
Comparison of Human Machine Interfaces to control a Robotized WheelchairComparison of Human Machine Interfaces to control a Robotized Wheelchair
Comparison of Human Machine Interfaces to control a Robotized WheelchairSuzana Viana Mota
 
Formatei o computador e agora?
Formatei o computador e agora?Formatei o computador e agora?
Formatei o computador e agora?Suzana Viana Mota
 
Aula 09 - Gerenciamento de Recursos Humanos
Aula 09 - Gerenciamento de Recursos HumanosAula 09 - Gerenciamento de Recursos Humanos
Aula 09 - Gerenciamento de Recursos HumanosSuzana Viana Mota
 
Aula 08 - Gerenciamento da Qualidade
Aula 08 - Gerenciamento da QualidadeAula 08 - Gerenciamento da Qualidade
Aula 08 - Gerenciamento da QualidadeSuzana Viana Mota
 
Como tornar seu site atraente
Como tornar seu site atraenteComo tornar seu site atraente
Como tornar seu site atraenteSuzana Viana Mota
 

Mais de Suzana Viana Mota (20)

Exercicios - Redes Móveis
Exercicios - Redes MóveisExercicios - Redes Móveis
Exercicios - Redes Móveis
 
exercicio-Organização e estrutura de Computadores
exercicio-Organização e estrutura de Computadoresexercicio-Organização e estrutura de Computadores
exercicio-Organização e estrutura de Computadores
 
Organizacao e estrutura de Computadores
Organizacao e estrutura de ComputadoresOrganizacao e estrutura de Computadores
Organizacao e estrutura de Computadores
 
Visão Computacional - Meetup AIGirls
Visão Computacional - Meetup AIGirlsVisão Computacional - Meetup AIGirls
Visão Computacional - Meetup AIGirls
 
Atividades de Sistemas Binários
Atividades de Sistemas BináriosAtividades de Sistemas Binários
Atividades de Sistemas Binários
 
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus JanuáriaLista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
 
Interface humano-computador baseada em Visão Computacional: uma solução para ...
Interface humano-computador baseada em Visão Computacional: uma solução para ...Interface humano-computador baseada em Visão Computacional: uma solução para ...
Interface humano-computador baseada em Visão Computacional: uma solução para ...
 
Mundo 4.0 - O que esperar do futuro
Mundo 4.0 - O que esperar do futuroMundo 4.0 - O que esperar do futuro
Mundo 4.0 - O que esperar do futuro
 
Como estudar melhor
Como estudar melhor Como estudar melhor
Como estudar melhor
 
Atalhos e dicas - Como se tornar um expert em Computadores
Atalhos e dicas - Como se tornar um expert em ComputadoresAtalhos e dicas - Como se tornar um expert em Computadores
Atalhos e dicas - Como se tornar um expert em Computadores
 
Aula Inaugural - Curso Técnico em Informática para Internet
Aula Inaugural - Curso Técnico em Informática para InternetAula Inaugural - Curso Técnico em Informática para Internet
Aula Inaugural - Curso Técnico em Informática para Internet
 
Criptografia e Privacidade
Criptografia e PrivacidadeCriptografia e Privacidade
Criptografia e Privacidade
 
Exercicio - Introdução a Hardware Revisão
Exercicio - Introdução a Hardware RevisãoExercicio - Introdução a Hardware Revisão
Exercicio - Introdução a Hardware Revisão
 
Desenvolvimento de software dedicado a pessoa com deficiência
Desenvolvimento de software dedicado a pessoa com deficiênciaDesenvolvimento de software dedicado a pessoa com deficiência
Desenvolvimento de software dedicado a pessoa com deficiência
 
Comparison of Human Machine Interfaces to control a Robotized Wheelchair
Comparison of Human Machine Interfaces to control a Robotized WheelchairComparison of Human Machine Interfaces to control a Robotized Wheelchair
Comparison of Human Machine Interfaces to control a Robotized Wheelchair
 
Formatei o computador e agora?
Formatei o computador e agora?Formatei o computador e agora?
Formatei o computador e agora?
 
Formatando o computador
Formatando o computadorFormatando o computador
Formatando o computador
 
Aula 09 - Gerenciamento de Recursos Humanos
Aula 09 - Gerenciamento de Recursos HumanosAula 09 - Gerenciamento de Recursos Humanos
Aula 09 - Gerenciamento de Recursos Humanos
 
Aula 08 - Gerenciamento da Qualidade
Aula 08 - Gerenciamento da QualidadeAula 08 - Gerenciamento da Qualidade
Aula 08 - Gerenciamento da Qualidade
 
Como tornar seu site atraente
Como tornar seu site atraenteComo tornar seu site atraente
Como tornar seu site atraente
 

Big Data

  • 1. Ana Luiza Lacerda, Joice Ferreira; Banco de Dados II – Suzana Mota
  • 2. Sumário 1.Motivação Inicial - problemas que a tecnologia tenta resolver; 2.História do Big Data; 3.O que é Big Data? 4.Os V’s do Big Data; 5.Tipo de dados do Big Data; 6.Por que Big Data é importante? 7.Big Data x BI (Business Intelligence); 8.Características do Big Data; 9.Características do BI; 10. Ferramentas - O que é, Características, Instalação; 11.Conclusão;
  • 3. Motivação Inicial - problemas que a tecnologia tenta resolver • Com a globalização, a expansão virtual se tornou necessária; • O mundo gera, diariamente, 2,5 quintilhões de bytes; • Antes de Big Data, fórmulas matemáticas, técnicas avançadas de probabilidades e estatística eram executadas manualmente – lidando, portanto, com uma capacidade reduzida de variáveis.
  • 4. História do Big Data • Há várias versões sobre a origem do conceito de Big Data, assim como do início de suas aplicações. Uma das mais conhecidas remete à NASA, que no início da década de 1990 começou a utilizar Big Data para descrever imensos conjuntos de dados complexos, que desafiavam os limites convencionais da computação da época. •
  • 5. O que é Big Data • Big Data é um conceito que descreve o grande volume de dados estruturados e não estruturados que são gerados a cada segundo. Um grande conjunto de dados armazenados
  • 6. • Embora o termo "big data" seja relativamente novo, o ato de recolher e armazenar grandes quantidades de informações para eventual análise de dados é bem antigo. • O conceito ganhou força no início dos anos 2000, quando um analista famoso deste setor, Doug Laney, articulou a definição de big data como os três Vs;
  • 7. Os V’s do Big Data • Volume; • Velocidade; • Variedade; • Veracidade; • Valor;
  • 8. Volume • Organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina. No passado, armazenar tamanha quantidade de informações teria sido um problema – mas novas tecnologias (como o Hadoop) têm aliviado a carga.
  • 9. Velocidade • Os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteligentes estão impulsionado a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real.
  • 10. Variedade • Os dados são gerados em todos os tipos de formatos - de dados estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, e-mail, vídeo, áudio, dados de cotações da bolsa e transações financeiras.
  • 11. Veracidade • A veracidade está ligada diretamente ao quanto uma informação é verdadeira. O emaranhado de dados pode nos confundir, por isso todo cuidado é pouco para obtermos veracidade dos dados.
  • 12. Valor • Se você direcionou esforços para gerar uma informação que não serve para nada, o valor do trabalho realizado será perto de zero, portanto, precisamos entender muito bem o contexto e necessidade para gerar a informação certa para as pessoas certas. Por isso falamos tanto em “informação útil”.
  • 13. Como esses dados são transformados em insights? • Soluções de Big Data “tratam” os dados brutos até transformá-los em insights valiosos para as tomadas de decisões. Referem-se a um processo eletrônico que transforma um conjunto de dados “soltos” em informações, informações em conhecimento e, por fim, conhecimento em sabedoria, que será usada para tomar as decisões mais assertivas e céleres ao contexto de seu negócio.
  • 15. Por que Big Data é importante? • A importância do big data não gira em torno da quantidade de dados que você tem, mas em torno do que você faz com eles. Você pode analisar dados de qualquer fonte para encontrar respostas que permitam 1) redução de custos, 2) redução de tempo, 3) desenvolvimento de novos produtos e ofertas otimizadas, 4) decisões mais inteligentes.
  • 16. Big Data x BI (Business Intelligence) • BI e Big Data são de certa forma complementares, mas não idênticos. Além disso, em geral, Big Data é uma fase posterior ao amadurecimento de um trabalho com BI.
  • 17. Características do Big Data • Focado no processamento de dados estruturados e não estruturados, bem como nas correlações e descobertas que desse processamento podem advir; • Analisa o que já existe e o que está por vir, apontando novos caminhos;
  • 18. • Ideal para quando se quer explorar novas possibilidades, descobrir novos padrões e explorar perguntas que ainda não haviam sido feitas; • Mais amplo, voltado não apenas para negócios, mas para qualquer área/segmento, como saúde, entretenimento, educação.
  • 19. Características do BI • Focado na coleta, transformação e disponibilização de dados estruturados para a tomada de decisões; • Analisa o que já existe, definindo as melhores hipóteses; • Ideal para quando já se conhece as perguntas; • Mais específico, voltado apenas para negócios.
  • 20.
  • 21. O que é Cassandra? ● Apache Cassandra é um projeto de sistema de banco de dados distribuído altamente escalável de segunda geração, é um sistema de código aberto projetado para gerenciar grande volume de dados em tempo real, permitindo resposta imediata e suporte a pontos de falha. ● O Apache Cassandra foi lançado pelo facebook com apoio do Google.
  • 22. • Cassandra é essencialmente um híbrido entre valor- chave (dado tabular) e banco de dados orientado em colunas, com distribuição de conteúdo por linhas, separado por nome, valor e tempo, podendo ter bom balanceamento e distribuição de carga, RandomPartitioner (RP), ou distribuição de cargas de forma natural, aproximando nós com dados complementares para composição da informação, OrderPreservingPartitioner (OPP).
  • 23. Características do Cassandra ● Altas escalabilidade e disponibilidade, sem um ponto único de falha ● Arquitetura de cluster descentralizado ● Réplica e redundância de dados ● Rendimento de gravação muito alto e bom rendimento de leitura ● Tolerante a falhas ● Esquema flexível ● Nível de consistência configurável ● Integrável
  • 24. Instalação Passo 1 : echo "deb http://www.apache.org/dist/cassandra/debian 311x main" | sudo tee -a /etc/apt/sources.list.d/cassandra.sources.list Passo 2: curl https://www.apache.org/dist/cassandra/KEYS | sudo apt-key add - sudo apt-key adv --keyserver pool.sks-keyservers.net -- recv-key A278B781FE4B2BDA
  • 25. Passo 3: sudo apt-get update sudo apt-get install cassandra Passo 4: sudo mkdir /var/lib/cassandra sudo mkdir /var/log/cassandra sudo chown -R $USER:$GROUP /var/lib/cassandra sudo chown -R $USER:$GROUP /var/log/cassandra
  • 26. Passo 5: export CASSANDRA_HOME=~/cassandra export PATH=$PATH:$CASSANDRA_HOME/bin Rodando o Cassandra: sudo sh ~/cassandra/bin/cassandra sudo sh ~/cassandra/bin/cqlsh
  • 27.
  • 28. O que é Hadoop? • O Hadoop é uma plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. • O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce.
  • 29. • Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes conjuntos de dados. Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos de dados;
  • 30. • Uma grande tarefa é dividida em várias tarefas pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à solução da tarefa maior que deu início a tudo.
  • 31. Características do Hadoop • É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. • Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas;
  • 32. • O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados; • O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.
  • 33. Instalação da ferramenta Necessária a instalação do Java ● wget https://www.apache.org/dist/hadoop/core/hadoop- 3.0.0/hadoop-3.0.0.tar.gz ● tar xzf hadoop-3.0.0.tar.gz ● mv hadoop-3.0.0 hadoop
  • 34. • export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin • Mudanças nos aquivos /etc/hadoop core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
  • 37.
  • 38.
  • 39. Conclusão • Não podemos considerar as soluções de Big Data como um arsenal computacional perfeito: sistemas do tipo são complexos, ainda desconhecidos por muitos gestores e profissionais de TI e a sua própria definição ainda é passível de discussão. • O fato é que a ideia de Big Data reflete um cenário real: há, cada vez mais, volumes de dados gigantescos e que, portanto, exigem uma abordagem capaz de aproveitá-los ao máximo.
  • 40. Referências •BLOG SAS. Big Data, O que é e por que é importante? Disponível em: https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html/ Acesso em: 17 de Janeiro de 2018 •BLOG BIGDATA BUSINESS. Big Data: tudo que você sempre quis saber sobre o tema! Disponível em: http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em: 17 de Janeiro de 2018 •NASCIMENTO, RODRIGO. Afinal, o que é Big Data? Disponível em: http://marketingpordados.com/analise-de-dados/o-que-e-big-data/ Acesso em: 17 de Janeiro de 2018
  • 41. Referências •BLOG ORACLE. A base da inovação de dados Disponível em: https://www.oracle.com/br/big-data/index.html Acesso: 17 de Janeiro de 2018 •ALECRIM, EMERSON. O que é Big Data? Disponível em: https://www.infowester.com/big-data.php Acesso em:17 de Janeiro de 2018 •BLOG G2. Big data: entenda o que é, por que é importante e como funciona Disponível em: http://g2tecnologia.com.br/2016/12/13/big-data- entenda-o-que-e-por-que-e-importante-e-como-funciona/ Acesso em: 17 de Janeiro de 2018
  • 42. Referências •ULISSES, FERNANDO. O que é Big Data e como funciona? Disponível em: https://www.profissionaisti.com.br/2015/03/o-que-e-big-data-e-como-funciona/ Acesso em: 17 de Janeiro de 2018 •BLOG MARKETING E CONTEUDO. Big Data: por que toda estratégia de marketing precisa desse aliado Disponível em: https://marketingdeconteudo.com/big-data/ Acesso em: 17 de Janeiro de 2018 •BATIMARCHI, SUSANA. UMA BREVE HISTÓRIA DO BIG DATA DESDE 18.000 A.C. Disponível em: http://docmanagement.com.br/04/22/2015/uma- breve-historia-do-big-data-desde-18-000-a-c/ Acesso em: 17 de Janeiro de 2018
  • 43. Referências •How do Install Cassandra Disponível em: https://www.digitalocean.com/community/tutorials/how-to-install- cassandra-and-run-a-single-node-cluster-on-a-ubuntu-vps Acesso em: 18 de Janeiro de 2018 •Apache Hadoop Disponível em: https://pplware.sapo.pt/linux/apache- hadoop-hoje-vai-instalar-primeiro-cluster/ Acesso em: 18 de Janeiro de 2018 •Introdução ao Hadoop Disponível em: https://mariannelinharesbr.wordpress.com/2016/06/14/introducao-ao- hadoop-instalando-hadoop-de-forma-distribuida/ Acesso em: 18 de Janeiro de 2018
  • 44. Referências •Considerações sobre o Banco de Dados Apache Cassandra Disponível em: https://www.ibm.com/developerworks/br/library/os-apache- cassandra/index.html Acesso em: 18 de Janeiro de 2018 •AVOYAN, HOVHANNES. Big Data e Hadoop – o que é tudo isso? Disponível em: https://imasters.com.br/tecnologia/redes-e-servidores/big- data-e-hadoop-o-que-e-tudo-isso/?trace=1519021197 Acesso em: 17 de Janeiro de 2018