SlideShare uma empresa Scribd logo
1 de 43
Baixar para ler offline
Big Data 
A nova ciência dos dados 
SCTI/UENF 2014 
Christiano Anderson 
chris@christiano.me 
Twitter: @dump 
Blog: http://christiano.me
Quem sou? 
● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de 
acesso e informação desde o início da internet comercial no Brasil; 
● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail; 
● Ex-engenheiro do Terra Networks; 
● Trabalhou em algumas startups; 
● Contribui e já contribuiu com diversos projetos de Software Livre: 
– MongoDB (atual) 
– Python / Django (atual) 
– Free Software Foundation (GNU Project) 
– Projeto Debian 
● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
Contatos 
● E-mail: chris@christiano.me 
● Twitter: @dump 
● Blog: http://christiano.me 
● Nas Redes Sociais (Facebook, LinkedIn, etc): 
Christiano Anderson 
● Escrevo bastante sobre NoSQL e Big Data nas 
redes sociais
Big Data? 
Big data se trata de um conceito onde o foco é 
grande armazenamento de dados e maior 
velocidades.
Os 5 V's 
1. Velocidade 
2. Volume 
3. Variedade 
4. Veracidade 
5. Valor
Velocidade 
Em muitos casos, as respostas precisam ser 
rápidas, praticamente em tempo real para o 
tratamento de um volume massivo de dados; 
Para um sistema anti-fraude, 2 minutos pode 
ser muito tempo.
Volume 
Empresas podem facilmente produzir GB e 
mais GB de informações por dia. 
O Twitter pode facilmente produzir diariamente 
alguns TB de informações pertinentes para 
análise de sentimento;
Variedade 
São informações de diversas fontes, como 
imagens, tuites e outros resultados de redes 
sociais, textos, etc. Os dados não seguem uma 
modelagem padrão;
Veracidade 
A maioria dos gestores não confiam 100% nas 
informações que recebem para tomada de 
Decisões; 
Ao organizar as informações e usar filtros 
apropriados, é possível aumentar a 
confiabilidade dos dados;
Valor 
Depois que os dados são tratados e filtrados, 
podem representar um valor inestimável para 
empresa, seja para tomada de decisões ou 
definições de novos produtos;
Como funciona? 
Big data é capaz de capturar, armazenar e 
processar um massivo volume de informações 
que podem ser espalhados em diversos 
hardware de commodity; 
Uma vez capturado, os dados podem ser 
processados através de dezenas de ferramentas;
Exemplos de uso 
● Decodificar o genoma humano demorava cerca de 10 anos; 
atualmente, pode ser processado em uma fração desse tempo 
com big data; 
● Walmart processa milhões de transações de clientes por dia, 
com big data, consegue identificar padrões de fraudes quase que 
imediatamente; 
● FICO (inclui sistema de deteção de fraudes em cartão de crédito) 
consegue processar mais de 2 bilhões de transações por dia;
A nova ciência dos dados
Quantos bytes diários de informação eram 
Produzidos em 1980?
E em 1990?
E em 2000?
E nos dias atuais? 
Quantos bytes produzimos em toda nossa vida?
Nos últimos anos, produzimos mais dados que 
toda história da humanidade
Já imaginou que a maioria dos dispositivos 
eletrônicos já possuem um endereço de IP? 
Quando você opera esse dispositivo, alguma 
informação é gerada. 
Isso vai ficar gravado em algum lugar. 
O mundo possui aproximadamente 7 bilhões de 
pessoas.
Estamos gerando informação o 
tempo todo 
● Utilizando avião 
● Pagando contas 
online 
● Comprando pela 
internet 
● Acessando redes 
sociais 
● Assistindo TV (sim, 
SmartTV) 
● Consultando um 
médico 
● Realizando ligações 
telefônicas 
● Até quando 
morremos
Arquitetura 
● Inúmeros sistemas legados; 
● Falta de padronização dos dados; 
● Cada produto tem um objetivo e guarda os 
dados no seu formato; 
● Dificuldade de um produto “conversar” com 
outro;
Arquitetura 
● Quando existe a necessidade de buscar 
informações de diversas fontes, geralmente o 
trabalho é manual; 
● Alguém centraliza as informações de diferentes 
ferramentas fazendo um “copy & paste”; 
● Trabalho é lento, pode ter falha humana;
Arquitetura 
● Soluções de Big Data podem automatizar esse 
trabalho... 
● … Não apenas automatizar, mas colocar 
inteligência... 
● … Identificar novos padrões... 
● … Aumentar a precisão das informações … 
● … Fazer o gestor enxergar novas 
possibilidades.
Algumas tecnologias de Big Data 
● Hadoop 
● Pig 
● Hive 
● Hbase 
● Storm 
● Solr 
● Ambari 
● Zookeeper, etc...
O cientista de dados precisa entender como as 
informações estão armazenadas e escolher as 
melhores ferramentas para atingir o objetivo final
Hadoop 
● Um framework que fornece uma maneira 
simples e escalável para processos distribuídos 
em diversos servidores; 
● Hadoop é open source e inclui diversas 
ferramentas, como sistema de arquivos 
distribuído e Map/Reduce.
Big data Analytics 
Informações em diversos formatos: Como 
as informações não precisam seguir uma 
modelagem, nenhuma informação é perdida; 
Escalável: Hadoop já provou ser muito 
escalável, Facebook e Yahoo! são dois 
cases de sucesso; 
Novas descobertas: Pela flexibilidade em 
cruzar informações, é simples conseguir 
novos insights, algo complicado quando está 
preso a uma modelagem;
Escalabilidade 
A maioria das aplicações apresentam 
dificuldade para escalar ou exigem 
configurações complexas. O Hadoop escala 
facilmente, usando hardware comum, sem 
nenhuma necessidade de configurações 
complexas.
Alta Disponibilidade 
O fato de ter sistema de arquivos distribuído, 
(HDFS) onde os dados não estão restritos em 
apenas um servidor, já faz o sistema com alta 
disponibilidade.
Empresas que investiram em 
Hadoop 
● 1. Yahoo! - grande investidora de Hadoop; 
● 2. Facebook - Utiliza para cruzar informações da rede 
social 
● 3. Twitter - Utiliza para cruzar informações da rede 
social; 
● 4. Adobe - Utiliza em seus sistemas de publicação 
online; 
● 5. e-Bay - Utiliza para identificar tendências de 
compras;
Quem adota Big Data? 
● Empresas de saúde 
● Portais de serviço 
● Redes Sociais 
● Empresas financeiras 
● Mineradoras 
● Empresas de Segurança Pública
Por onde começar?
Hortonworks Sandbox 
● Baixe a máquina virtual da HortonWorks 
Sandbox; 
● Possui uma distribuição Hadoop completa para 
começar a testar; 
● Siga os tutoriais 
● http://br.hortonworks.com/products/hortonwork 
s-sandbox/
O que aprender primeiro? 
● Importar massa de dados para o HDFS; 
● Utilizar uma lingagem como Pig ou Hive para 
trabalhar esses dados; 
● Compreender os componentes básicos; 
● Utilizar técnicas mais avançadas, como Map 
Reduce puro para trabalhar os dados; 
● Desenvolver soluções integradas ao Hadoop;
Hortonworks Sandbox
Casos de sucesso
Muito obrigado! 
Christiano Anderson 
Twitter: @dump 
chris@christiano.me

Mais conteúdo relacionado

Mais procurados

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big Data
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big DataMini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big Data
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big DataDiego Nogare
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big DataHélio Silva
 

Mais procurados (20)

BigData
BigDataBigData
BigData
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data
Big DataBig Data
Big Data
 
Big Data
Big DataBig Data
Big Data
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Big data
Big dataBig data
Big data
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big Data
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big DataMini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big Data
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big Data
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 

Destaque

Estratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineEstratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineGuto Xavier
 
HTML - Introdução
HTML - IntroduçãoHTML - Introdução
HTML - IntroduçãoGuto Xavier
 
HTML - Cores Fontes Parágrafos
HTML - Cores Fontes ParágrafosHTML - Cores Fontes Parágrafos
HTML - Cores Fontes ParágrafosGuto Xavier
 
Revisitando Local Storage
Revisitando Local StorageRevisitando Local Storage
Revisitando Local StorageGuto Xavier
 

Destaque (7)

Javascript
JavascriptJavascript
Javascript
 
Estratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços onlineEstratégias de escablabilidade para serviços online
Estratégias de escablabilidade para serviços online
 
HTML - Introdução
HTML - IntroduçãoHTML - Introdução
HTML - Introdução
 
Primeira aula
Primeira aulaPrimeira aula
Primeira aula
 
HTML - Listas
HTML - ListasHTML - Listas
HTML - Listas
 
HTML - Cores Fontes Parágrafos
HTML - Cores Fontes ParágrafosHTML - Cores Fontes Parágrafos
HTML - Cores Fontes Parágrafos
 
Revisitando Local Storage
Revisitando Local StorageRevisitando Local Storage
Revisitando Local Storage
 

Semelhante a Palestra Big Data SCTI

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisCicero Joasyo Mateus de Moura
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Sistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTSistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTGustavo Ferreira Palma
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
Harvard Business Review - LGPD
Harvard Business Review - LGPDHarvard Business Review - LGPD
Harvard Business Review - LGPDThiago Santiago
 

Semelhante a Palestra Big Data SCTI (20)

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data
Big DataBig Data
Big Data
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data
Big DataBig Data
Big Data
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Sistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTSistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOT
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
Big data
Big dataBig data
Big data
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Harvard Business Review - LGPD
Harvard Business Review - LGPDHarvard Business Review - LGPD
Harvard Business Review - LGPD
 

Palestra Big Data SCTI

  • 1. Big Data A nova ciência dos dados SCTI/UENF 2014 Christiano Anderson chris@christiano.me Twitter: @dump Blog: http://christiano.me
  • 2. Quem sou? ● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil; ● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail; ● Ex-engenheiro do Terra Networks; ● Trabalhou em algumas startups; ● Contribui e já contribuiu com diversos projetos de Software Livre: – MongoDB (atual) – Python / Django (atual) – Free Software Foundation (GNU Project) – Projeto Debian ● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
  • 3. Contatos ● E-mail: chris@christiano.me ● Twitter: @dump ● Blog: http://christiano.me ● Nas Redes Sociais (Facebook, LinkedIn, etc): Christiano Anderson ● Escrevo bastante sobre NoSQL e Big Data nas redes sociais
  • 4. Big Data? Big data se trata de um conceito onde o foco é grande armazenamento de dados e maior velocidades.
  • 5. Os 5 V's 1. Velocidade 2. Volume 3. Variedade 4. Veracidade 5. Valor
  • 6. Velocidade Em muitos casos, as respostas precisam ser rápidas, praticamente em tempo real para o tratamento de um volume massivo de dados; Para um sistema anti-fraude, 2 minutos pode ser muito tempo.
  • 7. Volume Empresas podem facilmente produzir GB e mais GB de informações por dia. O Twitter pode facilmente produzir diariamente alguns TB de informações pertinentes para análise de sentimento;
  • 8. Variedade São informações de diversas fontes, como imagens, tuites e outros resultados de redes sociais, textos, etc. Os dados não seguem uma modelagem padrão;
  • 9. Veracidade A maioria dos gestores não confiam 100% nas informações que recebem para tomada de Decisões; Ao organizar as informações e usar filtros apropriados, é possível aumentar a confiabilidade dos dados;
  • 10. Valor Depois que os dados são tratados e filtrados, podem representar um valor inestimável para empresa, seja para tomada de decisões ou definições de novos produtos;
  • 11. Como funciona? Big data é capaz de capturar, armazenar e processar um massivo volume de informações que podem ser espalhados em diversos hardware de commodity; Uma vez capturado, os dados podem ser processados através de dezenas de ferramentas;
  • 12. Exemplos de uso ● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data; ● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente; ● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;
  • 13. A nova ciência dos dados
  • 14. Quantos bytes diários de informação eram Produzidos em 1980?
  • 17. E nos dias atuais? Quantos bytes produzimos em toda nossa vida?
  • 18. Nos últimos anos, produzimos mais dados que toda história da humanidade
  • 19.
  • 20. Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP? Quando você opera esse dispositivo, alguma informação é gerada. Isso vai ficar gravado em algum lugar. O mundo possui aproximadamente 7 bilhões de pessoas.
  • 21. Estamos gerando informação o tempo todo ● Utilizando avião ● Pagando contas online ● Comprando pela internet ● Acessando redes sociais ● Assistindo TV (sim, SmartTV) ● Consultando um médico ● Realizando ligações telefônicas ● Até quando morremos
  • 22. Arquitetura ● Inúmeros sistemas legados; ● Falta de padronização dos dados; ● Cada produto tem um objetivo e guarda os dados no seu formato; ● Dificuldade de um produto “conversar” com outro;
  • 23. Arquitetura ● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual; ● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”; ● Trabalho é lento, pode ter falha humana;
  • 24. Arquitetura ● Soluções de Big Data podem automatizar esse trabalho... ● … Não apenas automatizar, mas colocar inteligência... ● … Identificar novos padrões... ● … Aumentar a precisão das informações … ● … Fazer o gestor enxergar novas possibilidades.
  • 25.
  • 26. Algumas tecnologias de Big Data ● Hadoop ● Pig ● Hive ● Hbase ● Storm ● Solr ● Ambari ● Zookeeper, etc...
  • 27.
  • 28. O cientista de dados precisa entender como as informações estão armazenadas e escolher as melhores ferramentas para atingir o objetivo final
  • 29. Hadoop ● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores; ● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.
  • 30. Big data Analytics Informações em diversos formatos: Como as informações não precisam seguir uma modelagem, nenhuma informação é perdida; Escalável: Hadoop já provou ser muito escalável, Facebook e Yahoo! são dois cases de sucesso; Novas descobertas: Pela flexibilidade em cruzar informações, é simples conseguir novos insights, algo complicado quando está preso a uma modelagem;
  • 31. Escalabilidade A maioria das aplicações apresentam dificuldade para escalar ou exigem configurações complexas. O Hadoop escala facilmente, usando hardware comum, sem nenhuma necessidade de configurações complexas.
  • 32. Alta Disponibilidade O fato de ter sistema de arquivos distribuído, (HDFS) onde os dados não estão restritos em apenas um servidor, já faz o sistema com alta disponibilidade.
  • 33. Empresas que investiram em Hadoop ● 1. Yahoo! - grande investidora de Hadoop; ● 2. Facebook - Utiliza para cruzar informações da rede social ● 3. Twitter - Utiliza para cruzar informações da rede social; ● 4. Adobe - Utiliza em seus sistemas de publicação online; ● 5. e-Bay - Utiliza para identificar tendências de compras;
  • 34. Quem adota Big Data? ● Empresas de saúde ● Portais de serviço ● Redes Sociais ● Empresas financeiras ● Mineradoras ● Empresas de Segurança Pública
  • 36. Hortonworks Sandbox ● Baixe a máquina virtual da HortonWorks Sandbox; ● Possui uma distribuição Hadoop completa para começar a testar; ● Siga os tutoriais ● http://br.hortonworks.com/products/hortonwork s-sandbox/
  • 37. O que aprender primeiro? ● Importar massa de dados para o HDFS; ● Utilizar uma lingagem como Pig ou Hive para trabalhar esses dados; ● Compreender os componentes básicos; ● Utilizar técnicas mais avançadas, como Map Reduce puro para trabalhar os dados; ● Desenvolver soluções integradas ao Hadoop;
  • 40.
  • 41.
  • 42.
  • 43. Muito obrigado! Christiano Anderson Twitter: @dump chris@christiano.me