Rio de Janeiro, 10 de julho de 2013
www.amtera.com.br
O que é Big Data
● Conjunto de tecnologias para captura,
armazenamento e análise de grandes
volumes de dados;
● Não é uma ideia nova;
● Os três V's:
– Volume
– Velocidade
– Variedade
O que é Big Data
● Definição da Gartner:
– Big Data são ativos de informação de
extremo volume, alta velocidade e
grande diversidade que demandam
formas inovadoras e econômicas de
processamento para melhores
tomadas de decisão e insights.
Volume
● 1.2 ZB de informações foram criadas em 2010 e até
2015 serão 7.9ZB (Fonte: EMC/IDC Extracting Value
from Chaos, June 2011);
● 1 ZB = 1 trilhão de gigabytes;
● Mudança de paradigma, armazenar primeiro e
perguntar depois;
Volume
Velocidade
● Walmart processa mais de 1 milhão de transações de
clientes a cada hora, aproximadamente 2.5 petabytes
de informações;
● A cada minuto (Fonte: DOMO):
– 48h de vídeos são enviados para o YouTube
– 571 novos sites são criados
– Mais de 100 mil tweets são enviados
– 2083 check-ins são realizados via FourSquare
Variedade
● Banco de dados, planilhas, documentos de texto,
audios, vídeos, tweets, dados de sensores, click
streams, arquivos de log, etc.
Veracidade
● 4° V?
● Dado o volume a variedade e
velocidade com que novos dados são
armazenados, você acredita neles?
Big Data
● World Economic Summit, Davos
Switzerland, 2012.
– “Data is a new class of economic asset,
like currency or gold.”
Arquitetura Big Data
● Principais desafios:
– Captura
– Curadoria
– Armazenamento
– Busca
– Compartilhamento
– Análise
– Visualização
Open Source Big Data
● Banco de dados NoSQL (Not Only SQL)
– MongoDB
– Cassandra
– Neo4j
– Virtuoso
– HBase
Open Source Big Data
● Processamento distribuído (Map Reduce)
– Apache Hadoop/HDFS
– Hive
– Impala
– Pig
● Análise
– R
– Pentaho
Big Data na Nuvem
● Recursos computacionais sob demanda,
elástico:
– Armazenamento
– Processamento
– Análise
Exemplo de Arquitetura Big Data
Exemplo de Aplicações Big Data
● Big Science
– LHC possui cerca de 150 milhões de
sensores gerando 40 milhões de
amostras por segundo.
– Com a tecnologia big data o genoma
humano pode ser decodificado em 1
semana, no passado demorou 10 anos.
Exemplo de Aplicações Big Data
● Aplicações Semânticas
– Análise de sentimento
– Extração de relações
– Processamento de linguagem natural (NLP)
– Busca e Recuperação da Informação
– Reconhecimento de padrões
– Aprendizado de máquina (Machine Learning)
Áreas Big Data
● Inteligência de negócios;
● Inteligência competitiva;
● Analytics
Análise Big Data
● Ferramentas especializadas, paradigma
Map Reduce (Hadoop);
● Novos insights e produtos podem ser
desvendados;
● E o mais importante: deve justificar o
investimento em Big Data;
Análise Big Data
● Caso famoso:
– Target, uma loja de departamentos nos
EUA, descobre que adolescente está
grávida antes do pai (Fonte: Forbes)
Investimentos em Big Data
● Inicialmente
– Mão de obra qualificada;
– Infraestrutura na nuvem;
● Ex: Amazon EC2
● A longo prazo
– Gestão / Governança;
– Treinamento de mão de obra;
– Infraestrutura própria?
Investimentos em Big Data
● Levantamento da Frost & Sullivan indica
que o mercado brasileiro representa
quase metade da receita de Big Data da
América Latina. Ele deve crescer 71% de
2012 para 2013, totalizando 576 milhões
em solo nacional, e 33% de 2013 para
2014.
Adoção do Big Data
● Crossing the Chasm;
● O mercado brasileiro é considerado
conservador na aplicação da tecnologia;
Barreiras para adoção do Big Data
● Falta de entendimento sobre o assunto;
● Escassez de profissionais qualificados;
● Preocupações com a privacidade;
● Segurança;
● Alto custo;
Profissionais Big Data
● Data Scientist, exige perfil multidisciplinar:
Data Scientist
● Data Science: Incorpora técnicas e teorias
de várias áreas de estudo como
matemática, estatística, modelagem,
reconhecimento de padrões, aprendizado
de máquina, data warehousing,
visualização de dados, computação de
alto desempenho e busca e recuperação
da informação com o objetivo de extrair
conhecimento e insights para novos
produtos.
Big Data Administrator - BigDBA
● Perfil operacional;
● Foco em escalabilidade;
● Domínio de ferramentas NoSQL;
● Administração dos recursos computacionais;
● Apoio ao sistemas de Big Data;
Big Data Software Engineer
● Arquiteto de soluções Big Data;
● Ecossistema Hadoop;
● Computação distribuída;
● Web Services;
● Aprendizado de máquina;
● Ferramentas NLP;
● Linguagens de programação funcional;
Big Data
● Dúvidas?
Conclusão
● Aproveite a oportunidade, qualifique-se!
● Rio Big Data Meetup, é gratuito.
http://www.meetup.com/Rio-Big-Data-Meetup
Referências
● EMC/IDC Extracting Value from Chaos, June 2011
● http://en.wikipedia.org/wiki/Big_data
● http://en.wikipedia.org/wiki/Data_science
● Crossing the Chasm: Marketing and Selling Disruptive Products to Mainstream Customers,
Geoffrey A. Moore
● http://infocus.emc.com/william_schmarzo/crossing-the-chasm-with-big-data/
● http://mike2.openmethodology.org/
● http://www.gartner.com/it-glossary/big-data/
● https://developers.google.com/bigquery/
● http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-be
● http://en.wikipedia.org/wiki/MapReduce
Rio de Janeiro, 9 de abril de 2013
www.amtera.com.br

Palestra Introdução a Big Data

  • 1.
    Rio de Janeiro,10 de julho de 2013 www.amtera.com.br
  • 2.
    O que éBig Data ● Conjunto de tecnologias para captura, armazenamento e análise de grandes volumes de dados; ● Não é uma ideia nova; ● Os três V's: – Volume – Velocidade – Variedade
  • 3.
    O que éBig Data ● Definição da Gartner: – Big Data são ativos de informação de extremo volume, alta velocidade e grande diversidade que demandam formas inovadoras e econômicas de processamento para melhores tomadas de decisão e insights.
  • 4.
    Volume ● 1.2 ZBde informações foram criadas em 2010 e até 2015 serão 7.9ZB (Fonte: EMC/IDC Extracting Value from Chaos, June 2011); ● 1 ZB = 1 trilhão de gigabytes; ● Mudança de paradigma, armazenar primeiro e perguntar depois;
  • 5.
  • 6.
    Velocidade ● Walmart processamais de 1 milhão de transações de clientes a cada hora, aproximadamente 2.5 petabytes de informações; ● A cada minuto (Fonte: DOMO): – 48h de vídeos são enviados para o YouTube – 571 novos sites são criados – Mais de 100 mil tweets são enviados – 2083 check-ins são realizados via FourSquare
  • 7.
    Variedade ● Banco dedados, planilhas, documentos de texto, audios, vídeos, tweets, dados de sensores, click streams, arquivos de log, etc.
  • 8.
    Veracidade ● 4° V? ●Dado o volume a variedade e velocidade com que novos dados são armazenados, você acredita neles?
  • 9.
    Big Data ● WorldEconomic Summit, Davos Switzerland, 2012. – “Data is a new class of economic asset, like currency or gold.”
  • 10.
    Arquitetura Big Data ●Principais desafios: – Captura – Curadoria – Armazenamento – Busca – Compartilhamento – Análise – Visualização
  • 11.
    Open Source BigData ● Banco de dados NoSQL (Not Only SQL) – MongoDB – Cassandra – Neo4j – Virtuoso – HBase
  • 12.
    Open Source BigData ● Processamento distribuído (Map Reduce) – Apache Hadoop/HDFS – Hive – Impala – Pig ● Análise – R – Pentaho
  • 13.
    Big Data naNuvem ● Recursos computacionais sob demanda, elástico: – Armazenamento – Processamento – Análise
  • 14.
  • 15.
    Exemplo de AplicaçõesBig Data ● Big Science – LHC possui cerca de 150 milhões de sensores gerando 40 milhões de amostras por segundo. – Com a tecnologia big data o genoma humano pode ser decodificado em 1 semana, no passado demorou 10 anos.
  • 16.
    Exemplo de AplicaçõesBig Data ● Aplicações Semânticas – Análise de sentimento – Extração de relações – Processamento de linguagem natural (NLP) – Busca e Recuperação da Informação – Reconhecimento de padrões – Aprendizado de máquina (Machine Learning)
  • 17.
    Áreas Big Data ●Inteligência de negócios; ● Inteligência competitiva; ● Analytics
  • 18.
    Análise Big Data ●Ferramentas especializadas, paradigma Map Reduce (Hadoop); ● Novos insights e produtos podem ser desvendados; ● E o mais importante: deve justificar o investimento em Big Data;
  • 19.
    Análise Big Data ●Caso famoso: – Target, uma loja de departamentos nos EUA, descobre que adolescente está grávida antes do pai (Fonte: Forbes)
  • 20.
    Investimentos em BigData ● Inicialmente – Mão de obra qualificada; – Infraestrutura na nuvem; ● Ex: Amazon EC2 ● A longo prazo – Gestão / Governança; – Treinamento de mão de obra; – Infraestrutura própria?
  • 21.
    Investimentos em BigData ● Levantamento da Frost & Sullivan indica que o mercado brasileiro representa quase metade da receita de Big Data da América Latina. Ele deve crescer 71% de 2012 para 2013, totalizando 576 milhões em solo nacional, e 33% de 2013 para 2014.
  • 22.
    Adoção do BigData ● Crossing the Chasm; ● O mercado brasileiro é considerado conservador na aplicação da tecnologia;
  • 23.
    Barreiras para adoçãodo Big Data ● Falta de entendimento sobre o assunto; ● Escassez de profissionais qualificados; ● Preocupações com a privacidade; ● Segurança; ● Alto custo;
  • 24.
    Profissionais Big Data ●Data Scientist, exige perfil multidisciplinar:
  • 25.
    Data Scientist ● DataScience: Incorpora técnicas e teorias de várias áreas de estudo como matemática, estatística, modelagem, reconhecimento de padrões, aprendizado de máquina, data warehousing, visualização de dados, computação de alto desempenho e busca e recuperação da informação com o objetivo de extrair conhecimento e insights para novos produtos.
  • 26.
    Big Data Administrator- BigDBA ● Perfil operacional; ● Foco em escalabilidade; ● Domínio de ferramentas NoSQL; ● Administração dos recursos computacionais; ● Apoio ao sistemas de Big Data;
  • 27.
    Big Data SoftwareEngineer ● Arquiteto de soluções Big Data; ● Ecossistema Hadoop; ● Computação distribuída; ● Web Services; ● Aprendizado de máquina; ● Ferramentas NLP; ● Linguagens de programação funcional;
  • 28.
  • 29.
    Conclusão ● Aproveite aoportunidade, qualifique-se! ● Rio Big Data Meetup, é gratuito. http://www.meetup.com/Rio-Big-Data-Meetup
  • 30.
    Referências ● EMC/IDC ExtractingValue from Chaos, June 2011 ● http://en.wikipedia.org/wiki/Big_data ● http://en.wikipedia.org/wiki/Data_science ● Crossing the Chasm: Marketing and Selling Disruptive Products to Mainstream Customers, Geoffrey A. Moore ● http://infocus.emc.com/william_schmarzo/crossing-the-chasm-with-big-data/ ● http://mike2.openmethodology.org/ ● http://www.gartner.com/it-glossary/big-data/ ● https://developers.google.com/bigquery/ ● http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-be ● http://en.wikipedia.org/wiki/MapReduce
  • 31.
    Rio de Janeiro,9 de abril de 2013 www.amtera.com.br