Big Data



Msc. Mauro C. Pichiliani (pichiliani@uol.com.br)
                 @pichiliani




                                                   1
Explosão de dados
     Twitter:
         1 bilhão de mensagens por semana
         Recorde: 6.939 mensagens por segundo

       WallMart: 1 milhão de transações de cliente por segundo

       Facebook: 40 bilhões de fotos

       IDC: universo digital terá 20 zettabytes de dados em 2020
       1 zettabyte = 1 bilhão de terabyes

       IBM: 2,5 quintilhões de dados por dia
       90% dos dados do mundo criados no últimos 2 anos

                                                                    2
Infográficos




               3
Fontes de dados
   Principais áreas: metereologia, genômica, simulações, biologia,
    pesquisa ambiental, pesquisas na internet, finanças, dados de
    negócios, política, jornalismo e outras
   Origem: dispositivos móveis, sensores, logs de software, câmeras,
    microfones, RFID e redes de sensores
   Produção voluntária: Facebook, Twitter, Linkedin e outras mídias
    sociais
   Produção automática: sensores
   Características: variedades de dados e velocidade de geração
   Nota: dados em excesso não é novidade
   Porém tirar vantagem expressiva ao explorar grandes bases de
    dados é o foco do Big Data
                                                                       4
Hardware?




            5
O que é Big Data?
   Não é um produto, aplicação, plataforma, solução ou mesmo algo
    tangível. Está mais para um conceito. Algumas definições:
   Wikipedia: “(…) big data consists of datasets that grow so large that they
    become awkward to work with using on-hand database management tools.
    Difficulties include capture, storage, search, sharing, analytics, and
    visualizing”
   IBM: “The data that comes from everywhere: from sensors used to gather
    climate information, posts to social media sites, digital pictures and videos
    posted online, transaction records of online purchases, and from cell phone
    GPS”
   Richard Dobbs e Jaques Bugin: “Big data refers to datasets whose size is
    beyond the ability of typical database software tools to capture, store,
    manage and analyze”
   IMPORTANTE: Big Data não é apenas sobre tamanho dos dados!
   Com certeza é uma buzzword!
                                                                                 6
Explicação diática de Big Data
   O vídeo “How big is Big Data?” produzido pela EMC explica com
    desenhos o que é Big Data
   Fonte: http://www.youtube.com/watch?v=qD5S6yZXaVI




                                                                    7
Big Data – possibilidades
    Desbloquear o potencial dos dados
       Análise, mineração, descoberta de tendências, etc
       Visualizações
       Uso estratégico dos dados
    Potencial é superior ao que se tinha antes
    Exemplos:
       Análise de dados do setor de automação residencial
       Análise para campanhas políticas (case do Obama)
       Aprofundamento do foco na pessoa por suas
        preferências (grafo do Facebook)
    Novamente, foco na estratégia
                                                         8
Trabalhando com Big Data
   Resumindo o trabalho a ser feito com Big Data:




                                                     9
Manipulando Big Data
   Muitos argumentos indicando que tecnologias atuais não suportam
    novas tendências




                                                               10
Problemas com o RDBMS




                        11
Conclusão
   Explosão de dados na era atual
   Big Data foca em muitos dados de formatos variados
   Há enorme potencial para estratégias e táticas fundamentais
    para o negócio/aplicação
   Características indicam que RDBMS tradicional não suporta
    Big Data
   Big Table é uma das abordagens que vem se despontando
    para trabalhar com Big Data
   NoSQL classifica abordagens para armazenamento           e
    manipulação de dados de forma diferente dos RDBMS
   Big Data, Big Table e NoSQL são termos em evidência que
    ainda vão ser muito discutidos e analisados
                                                            12

BigData

  • 1.
    Big Data Msc. MauroC. Pichiliani (pichiliani@uol.com.br) @pichiliani 1
  • 2.
    Explosão de dados  Twitter:  1 bilhão de mensagens por semana  Recorde: 6.939 mensagens por segundo  WallMart: 1 milhão de transações de cliente por segundo  Facebook: 40 bilhões de fotos  IDC: universo digital terá 20 zettabytes de dados em 2020  1 zettabyte = 1 bilhão de terabyes  IBM: 2,5 quintilhões de dados por dia  90% dos dados do mundo criados no últimos 2 anos 2
  • 3.
  • 4.
    Fontes de dados  Principais áreas: metereologia, genômica, simulações, biologia, pesquisa ambiental, pesquisas na internet, finanças, dados de negócios, política, jornalismo e outras  Origem: dispositivos móveis, sensores, logs de software, câmeras, microfones, RFID e redes de sensores  Produção voluntária: Facebook, Twitter, Linkedin e outras mídias sociais  Produção automática: sensores  Características: variedades de dados e velocidade de geração  Nota: dados em excesso não é novidade  Porém tirar vantagem expressiva ao explorar grandes bases de dados é o foco do Big Data 4
  • 5.
  • 6.
    O que éBig Data?  Não é um produto, aplicação, plataforma, solução ou mesmo algo tangível. Está mais para um conceito. Algumas definições:  Wikipedia: “(…) big data consists of datasets that grow so large that they become awkward to work with using on-hand database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing”  IBM: “The data that comes from everywhere: from sensors used to gather climate information, posts to social media sites, digital pictures and videos posted online, transaction records of online purchases, and from cell phone GPS”  Richard Dobbs e Jaques Bugin: “Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage and analyze”  IMPORTANTE: Big Data não é apenas sobre tamanho dos dados!  Com certeza é uma buzzword! 6
  • 7.
    Explicação diática deBig Data  O vídeo “How big is Big Data?” produzido pela EMC explica com desenhos o que é Big Data  Fonte: http://www.youtube.com/watch?v=qD5S6yZXaVI 7
  • 8.
    Big Data –possibilidades  Desbloquear o potencial dos dados  Análise, mineração, descoberta de tendências, etc  Visualizações  Uso estratégico dos dados  Potencial é superior ao que se tinha antes  Exemplos:  Análise de dados do setor de automação residencial  Análise para campanhas políticas (case do Obama)  Aprofundamento do foco na pessoa por suas preferências (grafo do Facebook)  Novamente, foco na estratégia 8
  • 9.
    Trabalhando com BigData  Resumindo o trabalho a ser feito com Big Data: 9
  • 10.
    Manipulando Big Data  Muitos argumentos indicando que tecnologias atuais não suportam novas tendências 10
  • 11.
  • 12.
    Conclusão  Explosão de dados na era atual  Big Data foca em muitos dados de formatos variados  Há enorme potencial para estratégias e táticas fundamentais para o negócio/aplicação  Características indicam que RDBMS tradicional não suporta Big Data  Big Table é uma das abordagens que vem se despontando para trabalhar com Big Data  NoSQL classifica abordagens para armazenamento e manipulação de dados de forma diferente dos RDBMS  Big Data, Big Table e NoSQL são termos em evidência que ainda vão ser muito discutidos e analisados 12