2. O que é Big Data
● Conjunto de tecnologias para captura,
armazenamento e análise de grandes
volumes de dados;
● Não é uma ideia nova;
● Os três V's:
– Volume
– Velocidade
– Variedade
3. O que é Big Data
● Definição da Gartner:
– Big Data são ativos de informação de
extremo volume, alta velocidade e
grande diversidade que demandam
formas inovadoras e econômicas de
processamento para melhores
tomadas de decisão e insights.
4. Volume
● 1.2 ZB de informações foram criadas em 2010 e até
2015 serão 7.9ZB (Fonte: EMC/IDC Extracting Value
from Chaos, June 2011);
● 1 ZB = 1 trilhão de gigabytes;
● Mudança de paradigma, armazenar primeiro e
perguntar depois;
6. Velocidade
● Walmart processa mais de 1 milhão de transações de
clientes a cada hora, aproximadamente 2.5 petabytes
de informações;
● A cada minuto (Fonte: DOMO):
– 48h de vídeos são enviados para o YouTube
– 571 novos sites são criados
– Mais de 100 mil tweets são enviados
– 2083 check-ins são realizados via FourSquare
7. Variedade
● Banco de dados, planilhas, documentos de texto,
audios, vídeos, tweets, dados de sensores, click
streams, arquivos de log, etc.
8. Veracidade
● 4° V?
● Dado o volume a variedade e
velocidade com que novos dados são
armazenados, você acredita neles?
9. Big Data
● World Economic Summit, Davos
Switzerland, 2012.
– “Data is a new class of economic asset,
like currency or gold.”
10. Arquitetura Big Data
● Principais desafios:
– Captura
– Curadoria
– Armazenamento
– Busca
– Compartilhamento
– Análise
– Visualização
11. Open Source Big Data
● Banco de dados NoSQL (Not Only SQL)
– MongoDB
– Cassandra
– Neo4j
– Virtuoso
– HBase
12. Open Source Big Data
● Processamento distribuído (Map Reduce)
– Apache Hadoop/HDFS
– Hive
– Impala
– Pig
● Análise
– R
– Pentaho
13. Big Data na Nuvem
● Recursos computacionais sob demanda,
elástico:
– Armazenamento
– Processamento
– Análise
15. Exemplo de Aplicações Big Data
● Big Science
– LHC possui cerca de 150 milhões de
sensores gerando 40 milhões de
amostras por segundo.
– Com a tecnologia big data o genoma
humano pode ser decodificado em 1
semana, no passado demorou 10 anos.
16. Exemplo de Aplicações Big Data
● Aplicações Semânticas
– Análise de sentimento
– Extração de relações
– Processamento de linguagem natural (NLP)
– Busca e Recuperação da Informação
– Reconhecimento de padrões
– Aprendizado de máquina (Machine Learning)
17. Áreas Big Data
● Inteligência de negócios;
● Inteligência competitiva;
● Analytics
18. Análise Big Data
● Ferramentas especializadas, paradigma
Map Reduce (Hadoop);
● Novos insights e produtos podem ser
desvendados;
● E o mais importante: deve justificar o
investimento em Big Data;
19. Análise Big Data
● Caso famoso:
– Target, uma loja de departamentos nos
EUA, descobre que adolescente está
grávida antes do pai (Fonte: Forbes)
20. Investimentos em Big Data
● Inicialmente
– Mão de obra qualificada;
– Infraestrutura na nuvem;
● Ex: Amazon EC2
● A longo prazo
– Gestão / Governança;
– Treinamento de mão de obra;
– Infraestrutura própria?
21. Investimentos em Big Data
● Levantamento da Frost & Sullivan indica
que o mercado brasileiro representa
quase metade da receita de Big Data da
América Latina. Ele deve crescer 71% de
2012 para 2013, totalizando 576 milhões
em solo nacional, e 33% de 2013 para
2014.
22. Adoção do Big Data
● Crossing the Chasm;
● O mercado brasileiro é considerado
conservador na aplicação da tecnologia;
23. Barreiras para adoção do Big Data
● Falta de entendimento sobre o assunto;
● Escassez de profissionais qualificados;
● Preocupações com a privacidade;
● Segurança;
● Alto custo;
25. Data Scientist
● Data Science: Incorpora técnicas e teorias
de várias áreas de estudo como
matemática, estatística, modelagem,
reconhecimento de padrões, aprendizado
de máquina, data warehousing,
visualização de dados, computação de
alto desempenho e busca e recuperação
da informação com o objetivo de extrair
conhecimento e insights para novos
produtos.
26. Big Data Administrator - BigDBA
● Perfil operacional;
● Foco em escalabilidade;
● Domínio de ferramentas NoSQL;
● Administração dos recursos computacionais;
● Apoio ao sistemas de Big Data;
27. Big Data Software Engineer
● Arquiteto de soluções Big Data;
● Ecossistema Hadoop;
● Computação distribuída;
● Web Services;
● Aprendizado de máquina;
● Ferramentas NLP;
● Linguagens de programação funcional;