Universidade Presbiteriana Mackenzie
          Faculdade de Computação e Informática

          Workshops do Curso de Matemática
          Campos do Jordão, 23-24/03/2013




                   BIG DATA:
              UM NOVO CONCEITO,
            GERANDO OPORTUNIDADES
                  E DESAFIOS


                                                  1
        Prof. Dr. Vivaldo José Breternitz
Vivaldo José Breternitz
• Vida acadêmica
  –   Professor/Coordenador de Estágios na FCI
  –   Doutor em Ciências – USP
  –   Mestre em Engenharia – Mack
  –   Graduado em Administração - UniAnchieta


• Vida empresarial
  – Na área de TI desde 1970
  – Funções técnicas, executivas e consultoria em
    empresas como ABN AMRO, Bradesco, Cica, Deutsche
    Bank, Prodam, Prodesp, Santander etc.
                                                  2
                                                  2
• Poderíamos chamar Big Data a tecnologia que
  reúne uma quantidade extraordinariamente
  grande de dados, de vários tipos e os processa
  praticamente em tempo real, aumentando as
  possibilidades de uso imediato das informações
  assim geradas




                                               3
Utilização

– Marketing
– Finanças (caso Macy’s)
– Segurança (caso IBM RJ)
– Saúde (Google, epidemia de gripe)
– Fins militares (análise de atividade do
  inimigo; telecom, imagens etc.)
– Etc., etc., etc....
                                            4
O sw e o hw disponíveis até muito
recentemente não conseguiam dar
           conta disso




                                    5
O tema já chegou
   ao cinema
• Moneyball: filme baseado na história
  de Billy Beane, gerente do time de
baseball Oakland Athletics.

• Moneyball se foca nas tentativas de
Beane de criar um time competitivo (o
clube    estava   em    má   situação
financeira) usando análise estatistica
sofisticada para encontrar jogadores
baratos

• O filme foi lançado no final de 2011
                                         6
Gartner Hype Cycle 2012




                          7
Volume de dados
•   Bit: menor unidade de informação em computação (usualmente, oito compõem um
    byte)
•   Byte: “espaço” em um computador que pode armazenar um caracter ou dois
    algarismos




                                                                             8
•    How many data in the world?
                                   Numbers
    – 800 Terabytes, 2000

    – 160 Exabytes, 2006

    – 500 Exabytes, 2009

    – 2.7 Zettabytes, 2012 (um
      quatrilhão de DVDs)

    – 35 Zettabytes by 2020

•    How many data generated
     ONE day?

    – 7 TB, Twitter
                                    Big data: The next frontier for innovation, competition,
    – 10 TB, Facebook               and productivity. McKinsey Global Institute 2011
                                                                                               9
Numbers




          10
An increasingly sensor-enabled and instrumented
     business environment generates HUGE volumes of
        data with MACHINE SPEED characteristics…




EACH engine generating 10 TB every 30 minutes!
                                            11
Dados de tipos variados, inclusive
           não estruturados

•   Convencionais
•   Sons
•   Imagens
•   Sensores
•   Etc


                                         12
Processados em tempo real
• Business Intelligence: captura os dados
  e DEPOIS os processa

• Big Data: data streaming – os dados vão
  sendo processados à medida que são
  capturados



                                            13
Big Data Market forecast
   US$ billions (world)




                           14
15
Estratégias, software e hardware radicalmente diferentes são
  necessários (e já estão em uso por Amazon, Ebay, Facebook e outros):
   – Hadoop - plataforma para computação distribuída

   – Cassandra – gerenciador de banco de dados

   – IBM Netezza Accelerator, SAP HANA – in memory processing




                                                                  16
E logo vão proliferar
• Cursos, livros, consultorias, produtos
  maquiados etc. etc., visando atingir esse
  mercado...

• Isso sempre acontece....




                                          17
O pessoal de TI consegue capturar e
processar os dados, mas para vocês,
       está reservado o filé:

         Análise!
Talento é mais importante
      que tecnologia
                                 18
Sinto-me constrangido em falar disso
            com vocês
                    Afinal, quem vai ensinar
                    Matemática aos meus
                    netos????

                    Essa é uma preocupação
                    de quem pensa o Brasil
                    de forma estratégica



                                        19
Esse pessoal
  vem sendo
chamado Data
  Scientists



“A data scientist is somebody who is
inquisitive, who can stare at data and spot
trends. It's almost like a Renaissance
individual who really wants to learn and
bring change to an organization.“
                                                               20
           Anjul Bhambhri, vice president of Big Data products at IBM
Acredita-se que um bom Data Scientist deva
     ter habilidades multidisciplinares
• Características pessoais
   – Curiosidade
   – Mente aberta
   – Raciocínio lógico apurado


• Domínio de sistemas computacionais


• Conhecimentos na área empresarial:
   – Entendimento do negócio e do mercado
   – Capacidade de comunicar seus insights a pessoas com formações
     diferentes
                                                                 21
Acredita-se que um bom Data Scientist deva
         ter habilidades multidisciplinares
•   Conhecimentos na área de Matemática
      – Álgebra linear: cálculo vetorial, matricial
      – Cálculo: derivadas, integral
      – Teste de hipóteses: paramétricos e não paramétricos
      – Matemática discreta: média, mediana, moda etc.
      – Estatística e software dessa área
      – Modelagem matemática
      – Teoria dos conjuntos
      – Álgebra booleana


•   Etc
                                                              22
Ou seja




          23
24
O Prof. Leandro, nosso Coordenador de
Atividades Complementares, postou em nosso
    Facebook um texto acerca do assunto,
   intitulado “Cientista de dados é o cara”


             • http://cio.uol.com.br/gestao
               /2013/03/18/cientista-de-
               dados-e-o-cara/



                                         25
• Profissionais com esse perfil são muito
  raros
• Sua formação demanda muito tempo
• Pesquisas da consultoria McKinsey
  dizem que, apenas nos USA, faltarão em
  2018 aproximadamente 190.000 desses
  profissionais.
• Faltarão também cerca de 1,5 milhão de
  profissionais habilitados como usuários
                                            26
Esses profissionais não são os mesmos que
na atualidade são chamados de “Analistas
de Business Intelligence”, especialmente
pelo grau de sofisticação das ferramentas
utilizadas e da formação necessária

Não havendo ainda formação específica
para profissionais dessa área, tem sido
comum a utilização de pessoas com
formação e experiências diversas

                                            27
Salários: ainda não temos números no
             Brasil, mas...
• UK
  –  Graduates entering the Big Data industry
    can expect to be paid approximately £27k
  – An analyst with four years’ experience is
    likely to command £40k - £48k
  – Senior consultants will earn around £120k
  – Consultancy is a popular option and
    freelancers can potentially earn £500 per
    day.
                                                28
Falando de trabalho:
www.fcioportunidades.blogspot.com




                               29
Mas nem tudo são flores...




                             30
Privacidade
     Adam Savage, of “Myth Busters,”
      took a photo of his vehicle using
      his smartphone. He then posted
      the photo to his Twitter account
      including the phrase “Off to work.”

     Since the photo was taken by his
       smartphone, the image contained
       metadata revealing the exact
       geographical location the photo was
       taken

     By simply taking and posting a photo,
       Savage revealed the exact location
       of his home, the vehicle he drives,
       and the time he leaves for work


                                     31
Computational Social Science (CSS)
• Ciência que compreende a investigação da
  dinâmica social conduzida de forma
  interdisciplinar, sob a perspectiva da
  informação e por meio do uso de sistemas
  computacionais avançados

• Sua aplicação pode gerar manipulação de
  pessoas em escala nunca vista
                                             32
A
sociedade
precisa
ficar
alerta!!!

            33
Para
quem
 quer
saber
mais:


        34
E para que não aconteça isto




                               35
36

Big Data

  • 1.
    Universidade Presbiteriana Mackenzie Faculdade de Computação e Informática Workshops do Curso de Matemática Campos do Jordão, 23-24/03/2013 BIG DATA: UM NOVO CONCEITO, GERANDO OPORTUNIDADES E DESAFIOS 1 Prof. Dr. Vivaldo José Breternitz
  • 2.
    Vivaldo José Breternitz •Vida acadêmica – Professor/Coordenador de Estágios na FCI – Doutor em Ciências – USP – Mestre em Engenharia – Mack – Graduado em Administração - UniAnchieta • Vida empresarial – Na área de TI desde 1970 – Funções técnicas, executivas e consultoria em empresas como ABN AMRO, Bradesco, Cica, Deutsche Bank, Prodam, Prodesp, Santander etc. 2 2
  • 3.
    • Poderíamos chamarBig Data a tecnologia que reúne uma quantidade extraordinariamente grande de dados, de vários tipos e os processa praticamente em tempo real, aumentando as possibilidades de uso imediato das informações assim geradas 3
  • 4.
    Utilização – Marketing – Finanças(caso Macy’s) – Segurança (caso IBM RJ) – Saúde (Google, epidemia de gripe) – Fins militares (análise de atividade do inimigo; telecom, imagens etc.) – Etc., etc., etc.... 4
  • 5.
    O sw eo hw disponíveis até muito recentemente não conseguiam dar conta disso 5
  • 6.
    O tema jáchegou ao cinema • Moneyball: filme baseado na história de Billy Beane, gerente do time de baseball Oakland Athletics. • Moneyball se foca nas tentativas de Beane de criar um time competitivo (o clube estava em má situação financeira) usando análise estatistica sofisticada para encontrar jogadores baratos • O filme foi lançado no final de 2011 6
  • 7.
  • 8.
    Volume de dados • Bit: menor unidade de informação em computação (usualmente, oito compõem um byte) • Byte: “espaço” em um computador que pode armazenar um caracter ou dois algarismos 8
  • 9.
    How many data in the world? Numbers – 800 Terabytes, 2000 – 160 Exabytes, 2006 – 500 Exabytes, 2009 – 2.7 Zettabytes, 2012 (um quatrilhão de DVDs) – 35 Zettabytes by 2020 • How many data generated ONE day? – 7 TB, Twitter Big data: The next frontier for innovation, competition, – 10 TB, Facebook and productivity. McKinsey Global Institute 2011 9
  • 10.
  • 11.
    An increasingly sensor-enabledand instrumented business environment generates HUGE volumes of data with MACHINE SPEED characteristics… EACH engine generating 10 TB every 30 minutes! 11
  • 12.
    Dados de tiposvariados, inclusive não estruturados • Convencionais • Sons • Imagens • Sensores • Etc 12
  • 13.
    Processados em temporeal • Business Intelligence: captura os dados e DEPOIS os processa • Big Data: data streaming – os dados vão sendo processados à medida que são capturados 13
  • 14.
    Big Data Marketforecast US$ billions (world) 14
  • 15.
  • 16.
    Estratégias, software ehardware radicalmente diferentes são necessários (e já estão em uso por Amazon, Ebay, Facebook e outros): – Hadoop - plataforma para computação distribuída – Cassandra – gerenciador de banco de dados – IBM Netezza Accelerator, SAP HANA – in memory processing 16
  • 17.
    E logo vãoproliferar • Cursos, livros, consultorias, produtos maquiados etc. etc., visando atingir esse mercado... • Isso sempre acontece.... 17
  • 18.
    O pessoal deTI consegue capturar e processar os dados, mas para vocês, está reservado o filé: Análise! Talento é mais importante que tecnologia 18
  • 19.
    Sinto-me constrangido emfalar disso com vocês Afinal, quem vai ensinar Matemática aos meus netos???? Essa é uma preocupação de quem pensa o Brasil de forma estratégica 19
  • 20.
    Esse pessoal vem sendo chamado Data Scientists “A data scientist is somebody who is inquisitive, who can stare at data and spot trends. It's almost like a Renaissance individual who really wants to learn and bring change to an organization.“ 20 Anjul Bhambhri, vice president of Big Data products at IBM
  • 21.
    Acredita-se que umbom Data Scientist deva ter habilidades multidisciplinares • Características pessoais – Curiosidade – Mente aberta – Raciocínio lógico apurado • Domínio de sistemas computacionais • Conhecimentos na área empresarial: – Entendimento do negócio e do mercado – Capacidade de comunicar seus insights a pessoas com formações diferentes 21
  • 22.
    Acredita-se que umbom Data Scientist deva ter habilidades multidisciplinares • Conhecimentos na área de Matemática – Álgebra linear: cálculo vetorial, matricial – Cálculo: derivadas, integral – Teste de hipóteses: paramétricos e não paramétricos – Matemática discreta: média, mediana, moda etc. – Estatística e software dessa área – Modelagem matemática – Teoria dos conjuntos – Álgebra booleana • Etc 22
  • 23.
  • 24.
  • 25.
    O Prof. Leandro,nosso Coordenador de Atividades Complementares, postou em nosso Facebook um texto acerca do assunto, intitulado “Cientista de dados é o cara” • http://cio.uol.com.br/gestao /2013/03/18/cientista-de- dados-e-o-cara/ 25
  • 26.
    • Profissionais comesse perfil são muito raros • Sua formação demanda muito tempo • Pesquisas da consultoria McKinsey dizem que, apenas nos USA, faltarão em 2018 aproximadamente 190.000 desses profissionais. • Faltarão também cerca de 1,5 milhão de profissionais habilitados como usuários 26
  • 27.
    Esses profissionais nãosão os mesmos que na atualidade são chamados de “Analistas de Business Intelligence”, especialmente pelo grau de sofisticação das ferramentas utilizadas e da formação necessária Não havendo ainda formação específica para profissionais dessa área, tem sido comum a utilização de pessoas com formação e experiências diversas 27
  • 28.
    Salários: ainda nãotemos números no Brasil, mas... • UK –  Graduates entering the Big Data industry can expect to be paid approximately £27k – An analyst with four years’ experience is likely to command £40k - £48k – Senior consultants will earn around £120k – Consultancy is a popular option and freelancers can potentially earn £500 per day. 28
  • 29.
  • 30.
    Mas nem tudosão flores... 30
  • 31.
    Privacidade Adam Savage, of “Myth Busters,” took a photo of his vehicle using his smartphone. He then posted the photo to his Twitter account including the phrase “Off to work.” Since the photo was taken by his smartphone, the image contained metadata revealing the exact geographical location the photo was taken By simply taking and posting a photo, Savage revealed the exact location of his home, the vehicle he drives, and the time he leaves for work 31
  • 32.
    Computational Social Science(CSS) • Ciência que compreende a investigação da dinâmica social conduzida de forma interdisciplinar, sob a perspectiva da informação e por meio do uso de sistemas computacionais avançados • Sua aplicação pode gerar manipulação de pessoas em escala nunca vista 32
  • 33.
  • 34.
  • 35.
    E para quenão aconteça isto 35
  • 36.

Notas do Editor

  • #12 I was on a plane in Airbus the other day, and do you realize that these things are hugely sensor enabled devices that are instrumented to collect data as they operate. They also generate huge volumes of data. +CLICK+ For this particular Airbus, over a billion lines of a code and a single engine generates 10 terabytes of data every 30 minutes. And so there ’ s four engines there, right? +CLICK+ And, you know, just taking this particular plane from the UK to New York would generate 640 terabytes of data. Now stop and ponder that for a moment. Propose this amount of data injection to your client and it becomes obvious – there ’ s too much data to process, analyze, store with traditional approaches.