Big Data 
A nova ciência dos dados 
SCTI/UENF 2014 
Christiano Anderson 
chris@christiano.me 
Twitter: @dump 
Blog: http:/...
Quem sou? 
● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de 
acesso e informação desde o início da in...
Contatos 
● E-mail: chris@christiano.me 
● Twitter: @dump 
● Blog: http://christiano.me 
● Nas Redes Sociais (Facebook, Li...
Big Data? 
Big data se trata de um conceito onde o foco é 
grande armazenamento de dados e maior 
velocidades.
Os 5 V's 
1. Velocidade 
2. Volume 
3. Variedade 
4. Veracidade 
5. Valor
Velocidade 
Em muitos casos, as respostas precisam ser 
rápidas, praticamente em tempo real para o 
tratamento de um volum...
Volume 
Empresas podem facilmente produzir GB e 
mais GB de informações por dia. 
O Twitter pode facilmente produzir diari...
Variedade 
São informações de diversas fontes, como 
imagens, tuites e outros resultados de redes 
sociais, textos, etc. O...
Veracidade 
A maioria dos gestores não confiam 100% nas 
informações que recebem para tomada de 
Decisões; 
Ao organizar a...
Valor 
Depois que os dados são tratados e filtrados, 
podem representar um valor inestimável para 
empresa, seja para toma...
Como funciona? 
Big data é capaz de capturar, armazenar e 
processar um massivo volume de informações 
que podem ser espal...
Exemplos de uso 
● Decodificar o genoma humano demorava cerca de 10 anos; 
atualmente, pode ser processado em uma fração d...
A nova ciência dos dados
Quantos bytes diários de informação eram 
Produzidos em 1980?
E em 1990?
E em 2000?
E nos dias atuais? 
Quantos bytes produzimos em toda nossa vida?
Nos últimos anos, produzimos mais dados que 
toda história da humanidade
Já imaginou que a maioria dos dispositivos 
eletrônicos já possuem um endereço de IP? 
Quando você opera esse dispositivo,...
Estamos gerando informação o 
tempo todo 
● Utilizando avião 
● Pagando contas 
online 
● Comprando pela 
internet 
● Aces...
Arquitetura 
● Inúmeros sistemas legados; 
● Falta de padronização dos dados; 
● Cada produto tem um objetivo e guarda os ...
Arquitetura 
● Quando existe a necessidade de buscar 
informações de diversas fontes, geralmente o 
trabalho é manual; 
● ...
Arquitetura 
● Soluções de Big Data podem automatizar esse 
trabalho... 
● … Não apenas automatizar, mas colocar 
inteligê...
Algumas tecnologias de Big Data 
● Hadoop 
● Pig 
● Hive 
● Hbase 
● Storm 
● Solr 
● Ambari 
● Zookeeper, etc...
O cientista de dados precisa entender como as 
informações estão armazenadas e escolher as 
melhores ferramentas para atin...
Hadoop 
● Um framework que fornece uma maneira 
simples e escalável para processos distribuídos 
em diversos servidores; 
...
Big data Analytics 
Informações em diversos formatos: Como 
as informações não precisam seguir uma 
modelagem, nenhuma inf...
Escalabilidade 
A maioria das aplicações apresentam 
dificuldade para escalar ou exigem 
configurações complexas. O Hadoop...
Alta Disponibilidade 
O fato de ter sistema de arquivos distribuído, 
(HDFS) onde os dados não estão restritos em 
apenas ...
Empresas que investiram em 
Hadoop 
● 1. Yahoo! - grande investidora de Hadoop; 
● 2. Facebook - Utiliza para cruzar infor...
Quem adota Big Data? 
● Empresas de saúde 
● Portais de serviço 
● Redes Sociais 
● Empresas financeiras 
● Mineradoras 
●...
Por onde começar?
Hortonworks Sandbox 
● Baixe a máquina virtual da HortonWorks 
Sandbox; 
● Possui uma distribuição Hadoop completa para 
c...
O que aprender primeiro? 
● Importar massa de dados para o HDFS; 
● Utilizar uma lingagem como Pig ou Hive para 
trabalhar...
Hortonworks Sandbox
Casos de sucesso
Muito obrigado! 
Christiano Anderson 
Twitter: @dump 
chris@christiano.me
Palestra Big Data SCTI
Palestra Big Data SCTI
Palestra Big Data SCTI
Palestra Big Data SCTI
Palestra Big Data SCTI
Palestra Big Data SCTI
Próximos SlideShares
Carregando em…5
×

Palestra Big Data SCTI

425 visualizações

Publicada em

Por: Christiano Anderson

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
425
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
12
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Palestra Big Data SCTI

  1. 1. Big Data A nova ciência dos dados SCTI/UENF 2014 Christiano Anderson chris@christiano.me Twitter: @dump Blog: http://christiano.me
  2. 2. Quem sou? ● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil; ● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail; ● Ex-engenheiro do Terra Networks; ● Trabalhou em algumas startups; ● Contribui e já contribuiu com diversos projetos de Software Livre: – MongoDB (atual) – Python / Django (atual) – Free Software Foundation (GNU Project) – Projeto Debian ● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
  3. 3. Contatos ● E-mail: chris@christiano.me ● Twitter: @dump ● Blog: http://christiano.me ● Nas Redes Sociais (Facebook, LinkedIn, etc): Christiano Anderson ● Escrevo bastante sobre NoSQL e Big Data nas redes sociais
  4. 4. Big Data? Big data se trata de um conceito onde o foco é grande armazenamento de dados e maior velocidades.
  5. 5. Os 5 V's 1. Velocidade 2. Volume 3. Variedade 4. Veracidade 5. Valor
  6. 6. Velocidade Em muitos casos, as respostas precisam ser rápidas, praticamente em tempo real para o tratamento de um volume massivo de dados; Para um sistema anti-fraude, 2 minutos pode ser muito tempo.
  7. 7. Volume Empresas podem facilmente produzir GB e mais GB de informações por dia. O Twitter pode facilmente produzir diariamente alguns TB de informações pertinentes para análise de sentimento;
  8. 8. Variedade São informações de diversas fontes, como imagens, tuites e outros resultados de redes sociais, textos, etc. Os dados não seguem uma modelagem padrão;
  9. 9. Veracidade A maioria dos gestores não confiam 100% nas informações que recebem para tomada de Decisões; Ao organizar as informações e usar filtros apropriados, é possível aumentar a confiabilidade dos dados;
  10. 10. Valor Depois que os dados são tratados e filtrados, podem representar um valor inestimável para empresa, seja para tomada de decisões ou definições de novos produtos;
  11. 11. Como funciona? Big data é capaz de capturar, armazenar e processar um massivo volume de informações que podem ser espalhados em diversos hardware de commodity; Uma vez capturado, os dados podem ser processados através de dezenas de ferramentas;
  12. 12. Exemplos de uso ● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data; ● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente; ● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;
  13. 13. A nova ciência dos dados
  14. 14. Quantos bytes diários de informação eram Produzidos em 1980?
  15. 15. E em 1990?
  16. 16. E em 2000?
  17. 17. E nos dias atuais? Quantos bytes produzimos em toda nossa vida?
  18. 18. Nos últimos anos, produzimos mais dados que toda história da humanidade
  19. 19. Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP? Quando você opera esse dispositivo, alguma informação é gerada. Isso vai ficar gravado em algum lugar. O mundo possui aproximadamente 7 bilhões de pessoas.
  20. 20. Estamos gerando informação o tempo todo ● Utilizando avião ● Pagando contas online ● Comprando pela internet ● Acessando redes sociais ● Assistindo TV (sim, SmartTV) ● Consultando um médico ● Realizando ligações telefônicas ● Até quando morremos
  21. 21. Arquitetura ● Inúmeros sistemas legados; ● Falta de padronização dos dados; ● Cada produto tem um objetivo e guarda os dados no seu formato; ● Dificuldade de um produto “conversar” com outro;
  22. 22. Arquitetura ● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual; ● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”; ● Trabalho é lento, pode ter falha humana;
  23. 23. Arquitetura ● Soluções de Big Data podem automatizar esse trabalho... ● … Não apenas automatizar, mas colocar inteligência... ● … Identificar novos padrões... ● … Aumentar a precisão das informações … ● … Fazer o gestor enxergar novas possibilidades.
  24. 24. Algumas tecnologias de Big Data ● Hadoop ● Pig ● Hive ● Hbase ● Storm ● Solr ● Ambari ● Zookeeper, etc...
  25. 25. O cientista de dados precisa entender como as informações estão armazenadas e escolher as melhores ferramentas para atingir o objetivo final
  26. 26. Hadoop ● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores; ● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.
  27. 27. Big data Analytics Informações em diversos formatos: Como as informações não precisam seguir uma modelagem, nenhuma informação é perdida; Escalável: Hadoop já provou ser muito escalável, Facebook e Yahoo! são dois cases de sucesso; Novas descobertas: Pela flexibilidade em cruzar informações, é simples conseguir novos insights, algo complicado quando está preso a uma modelagem;
  28. 28. Escalabilidade A maioria das aplicações apresentam dificuldade para escalar ou exigem configurações complexas. O Hadoop escala facilmente, usando hardware comum, sem nenhuma necessidade de configurações complexas.
  29. 29. Alta Disponibilidade O fato de ter sistema de arquivos distribuído, (HDFS) onde os dados não estão restritos em apenas um servidor, já faz o sistema com alta disponibilidade.
  30. 30. Empresas que investiram em Hadoop ● 1. Yahoo! - grande investidora de Hadoop; ● 2. Facebook - Utiliza para cruzar informações da rede social ● 3. Twitter - Utiliza para cruzar informações da rede social; ● 4. Adobe - Utiliza em seus sistemas de publicação online; ● 5. e-Bay - Utiliza para identificar tendências de compras;
  31. 31. Quem adota Big Data? ● Empresas de saúde ● Portais de serviço ● Redes Sociais ● Empresas financeiras ● Mineradoras ● Empresas de Segurança Pública
  32. 32. Por onde começar?
  33. 33. Hortonworks Sandbox ● Baixe a máquina virtual da HortonWorks Sandbox; ● Possui uma distribuição Hadoop completa para começar a testar; ● Siga os tutoriais ● http://br.hortonworks.com/products/hortonwork s-sandbox/
  34. 34. O que aprender primeiro? ● Importar massa de dados para o HDFS; ● Utilizar uma lingagem como Pig ou Hive para trabalhar esses dados; ● Compreender os componentes básicos; ● Utilizar técnicas mais avançadas, como Map Reduce puro para trabalhar os dados; ● Desenvolver soluções integradas ao Hadoop;
  35. 35. Hortonworks Sandbox
  36. 36. Casos de sucesso
  37. 37. Muito obrigado! Christiano Anderson Twitter: @dump chris@christiano.me

×