Futurecom - Big data

Big Data
Ícaro Ribeiro
Felipe Ferraz

Objetivo e Escopo
Entender o conceito de Big Data e aplicar ferramentas
disponíveis no processo geral de análise de dados.
Você deve ser capaz de aprofundar o conhecimento por
conta própria após a conclusão deste curso.

Objetivo e Escopo
Cobriremos os conceitos chave de Análise de Dados.
● Tipos de dados e suas características
● Big data
● Visualização de dados
● Processamento distribuído
Mostraremos como é possível utilizar os frameworks Hadoop
e Spark para processamento distribuído de dados.

Ícaro Ribeiro
finr@cesar.school
Instrutores
Felipe Ferraz
fsf@cesar.school

Instituto privado,
sem fins lucrativos e
autossustentado que
inova em produtos,
serviços e empresas
com TICs - Tecnologias
da Informação e
Comunicação.
CESAR

INOVAÇÃO
CADEIA DE
Atuamos em todo o ciclo de inovação. Desde o
estudo de contextos, passando pela concepção
de ideias à prototipação e desenvolvimento de
soluções e modelos de negócios inovadores.
Estudos e
Pesquisas
Prototipação
e Avaliação
ComercializaçãoDesenvolvimento
concepção construção
Captura de
dados de uso
CESARCESAR CLIENTE
inovação
continuada
feedback loops

Nossa missão é identificar,
potencializar e concretizar
oportunidades de transformação das
organizações e da vida das pessoas.

MATRIZ
Recife – PE
ESCRITÓRIO COMERCIAL
São Paulo – SP
REGIONAIS
Curitiba – PR
Sorocaba – SP
Manaus – AM
OUTRAS ATUAÇÕES
Rio de Janeiro - RJ
ONDE
estamos?

Educação
Design e
Engenharia Empreendedorismo
ATUAÇÃO
PILARES DE
Consultorias

Por meio do nosso braço educacional,
nós transferimos o conhecimento
adquirido durante mais de duas
décadas desenvolvendo projetos de
classe mundial em TICs - Tecnologias
da Informação e Comunicação.
EDUCAÇÃO
CESAR School
Mestrados, Pós e Extensão e Graduação
Residência de Software
Outros Programas Educacionais

DESIGNDesde 2003 o CESAR vem
trabalhando com design de novos
produtos, processos e serviços
baseados na experiência do usuário.
Pesquisa Prototipação
Experiência do Usuário
Centrado no Usuário
Design
Re-design
Especulativo
homem-máquina
interação
Design de
Interação
Design
Ideação
Brainstorming
Co-criaçãoUX
Quem
as pessoas são?
Qualo valor das
pessoas?
Comoas pessoas
vivem?
Criarexperiências que
melhorem a vida
das pessoas.
O queas pessoas
valorizam?
Serviços
Design de

ENGENHARIA
Mobilidade
Sistemas Embarcados
Segurança e Performance
de Sistemas
Visão Computacional
Cloud ComputingTestes
Cidades
Robótica
Internet
das coisas
Protótipos
3D
Big
DataInteligência
Artificial
homem-máquina
interação
Wearables
Tecnologias da Informação e Comunicação
são o link entre todas as áreas nas quais
trabalhamos, bem como é o core de tudo
o que fazemos no CESAR.
Inteligentes
Learning
Machine

EMPREENDEDORISMO
Startups Aceleradas
História de Empreendedorismo
O CESAR.labs tem por objetivo estimular a criação
de novos empreendimentos do estágio inicial
(ainda na fase da ideia), até o produto ou primeiro
cliente. Também visa desenvolver startups em
estágio mais avançado que necessitam evoluir
outros aspectos do seu modelo de negócio.

Empreendedore
s Antropólogos
Engenheiros de Testes
Pesquisadores
Psicólogos
Designers
Ilustradores
Jornalistas
Software
Engenheiros de
Marketing
Profissionais de
Usabilidade
Engenheiros de
Artistas Plásticos
Administrador de Sistemas
de Projeto
Gerentes
Engenheiros Mecânicos
Engenheiros de
Comunicação
disciplinar
Engenheiro
Eletrônico
MULTI
TIME

SEGMENTOS
DE MERCADO
Projetos
Clientes
Segmentos
Período de Nov/15 a Nov/16
Transporte
Automação
Comercial
Eletroeletrônic
o
Infraestrutura
de Telecom Saúd
e
Financeiro Mídia e
comunicação
Educaçã
o
TI
Governo
Comérci
o
Varejista
Energia

Análise de dados consiste no processo e metodologia de investigar dados
brutos a fim de obter uma visão significativa.
O que é análise de dados?
Nós agora podemos ver o potencial ilimitado para obtenção de insights
críticos através da aplicação de análise de dados.
Por que está tão popular?

Dados...
Fonte: http://www.semiconwest.org/consumer-industrial-data-explosion-hits-supply-chain

De que quantidade de dados estamos falando?

Dados...
Mark Liberman constatou que, se
fossem gravadas todas as palavras
faladas pela humanidade (em todos os
idiomas, digitalizadas em 16 bits e 16
kHz), seriam necessários 42 zettabytes
para armazenar toda a gravação.

… compartilhados
github.com/caesar0301/awesome-public-datasets

Dados em que formato?
● Dados Estruturados
○ Bancos de Dados
● Dados Não Estruturados
○ Textos, vídeos, fotos, redes sociais

Dados Estruturados
● Bancos de Dados
○ estruturados
○ confiáveis
○ coerentes
○ compartilhados por usuários que têm necessidade de
informações diferentes

SGBDs no Mercado
➔ Popularidade dos SGBDs por
categoria, Set 2015.
(www.db-engines.com)
➔ Número de SGBDs diferentes por
categoria, Set 2015.

SGBDs no Mercado
➔ Popularidade dos SGBDs por
categoria, Abril 2018.
➔ Número de SGBDs diferentes por
categoria, Abril 2018.

Dados Ligados e Web Semântica

Dados Ligados
Dados ligados são disponibilizados em RDF

Data Warehouse vs Data Lake (Gartner)

Analista de BI x Cientista de Dados

Surge um novo (nem tanto) conceito

Big Data?
“O termo adotado pelo mercado para descrever problemas no gerenciamento e
processamento de informações extremas as quais excedem as capacidades das
tecnologias de informações tradicionais. Big Data está focado principalmente em
questões de volume de conjunto de dados extremamente grandes gerados a partir
de práticas tecnológicas, tais como mídia social, tecnologias operacionais, acessos à
Internet e fontes de informações distribuídas. Big Data é essencialmente uma prática
que apresenta novas oportunidades de negócios.”
Gartner Group

Big Data
● Termo utilizado no início dos anos 90, na NASA.
● Descrever grandes conjuntos de dados complexos
que desafiam os limites computacionais tradicionais
de captura, processamento, análise e armazenamento
informacional.

Big Data
● HOJE: as técnicas e ferramentas de captura,
processamento, análise e armazenamento de dados
não possuem limites.
● O problema está em como interpretar/utilizar essas
informações, pois as informações estão disponíveis.

Big Data - 5V`s
Big
Data
Volume
Velocidade
VariedadeVeracidade
Valor

Big Data - Volume
▶ GBs, TBs, PBs de informações
são geradas todos os dias os
dias.
▶ Desafio: Armazenar,
Transmitir e Processar esses
dados em paralelo.

Big Data - Velocidade
▶ O volume de dados crescente e a
janela de tempo para a tomada de
decisão é cada vez menor.
▶ Desafio: conseguir atender as
demandas esperadas de entrega de
dados no tempo ideal.
◦ Tempo curto para que o dado seja
gerado
◦ Intervalo mínimo pela necessidade de
acesso à informação

Big Data - Variedade
▶ Tipos de informação são
mais complexos e diversos.
▶ Desafio: Formas de
armazenar e de interpretar.
◦ Várias fontes e formatos de
dados
◦ Dados sem estrutura

Big Data - Veracidade
▶ Incerteza da validade do dado.
◦ Fonte desconhecida
▶ Desafio: identificar quais
dados devem ser considerados
ou desconsiderados das
análises

Big Data - Valor
▶ Toda informação tem valor
(estatístico, eventual,
hipotético, correlações...)
▶ Desafio: Identificar a
aplicação dos dados que se
possui.

Big Data?
conceito em evolução…
“Big Data é o termo que descreve o imenso volume de dados –
estruturados e não estruturados – que impactam os negócios no
dia a dia. Mas o importante não é a quantidade de dados. E sim o
que as empresas fazem com os dados que realmente importam.
Big Data pode ser analisado para a obtenção de insights que levam
a melhores decisões e direções estratégicas de negócio.”
SAS - "Statistical Analysis System"

Big Data ou Pokemon?
https://pixelastic.github.io/pokemonorbigdata/

Análise de dados em ação...
➔ Vírus H1N1 nos EUA
◆ O vírus H1N1, que combinava elementos das gripes aviária e suína,
começou a se espalhar pelos EUA em 2009
◆ O CDC (Center for Disease Control) só coletavam dados sobre a
doença uma vez por semana.
◆ Usando os dados do CDC, as informações sobre a disseminação da
gripe possuíam um lag de 2 semanas.

➔ Virus H1N1 nos EUA
◆ Quais vacinas seriam necessárias? Quando? Onde?
◆ Os planos de preparação e entregas de vacinas não tinham como
se programar rápidos o suficiente para controlar a epidemia.
E agora José!?

➔ Vírus H1N1 nos EUA
◆ O Google publicou um artigo sobre como eles poderiam prever a
disseminação da gripe de inverno nos EUA.
◆ Esse artigo foi publicado na revista Nature duas semanas antes das
primeiras notícias sobre a gripe H1N1.
◆ O método do google não usava dados médicos e de hospitais.
◆ Google usou análise de Big Data nos termos de pesquisa que as
pessoas utilizavam.
◆ Se mostrou mais eficaz e rápido que o uso de dados do Governo.

➔ As aplicações de Oren Etzioni
◆ Em 2003, depois que ele soube que ele pagou mais por um bilhete
de avião que o cara sentado ao seu lado, criou um programa que
verificava sites de viagens para prever os preços das tarifas aéreas.
Isso tornou-se Farecast. Ele vendeu para a Microsoft em 2008 por
US $ 110 milhões e é agora uma parte de Bing.
◆ Em 2011, ele usou o que ele aprendeu no Farecast e lançou
Decide.com para prever os preços de produtos vendidos
eletronicamente. Dois anos depois, o Decide.com foi vendido ao
eBay por algo em torno de $17 million.

Fraldas e cerveja
● Um homem coagido por sua linda esposa a comprar um pacote de fraldas no
caminho para casa do trabalho.
● Sexta-feira… Por que não comprar uma caixa de cerveja pra desopilar?
● A lenda diz que um estudo foi feito por uma loja de varejo. As descobertas
foram que os homens entre os 30 e os 40 anos de idade, comprando fraldas
entre as 17h e as 19h das sextas-feiras, eram mais prováveis de ter cerveja nos
seus carrinhos. Isso motivou o supermercado a mover a ilha da cerveja mais
perto da isca da fralda e bang!!!!! , aumento instantâneo de 35% nas vendas.

Walmart Is Making Big Data Part Of Its DNA...

▶ Indexar, segmentar e responder comentários das pessoas de acordo com
o conteúdo de seus textos, mapeando o humor dos clientes sobre uma
marca e sendo proativo em soluções de problemas.
▶ Dificuldades:
◦ Produzir resultados inteiramente satisfatórios na análise semântica da
língua portuguesa.
◦ Necessidade de mapeamentos manuais.
Análise Semântica

▶ Identificar semelhanças e padrões de comportamento nos dados.
▶ Dividir o conteúdo ou os usuários em grupos semelhantes (clusters).
▶ Permite que ofertas adequadas sejam oferecidas de acordo com o padrão
de compras do grupo.
Análise de Cluster

▶ Visa descobrir qual será o comportamento ou projeção de algo do
interesse (vendas de um produto, valorização na bolsa de valores, etc.)
▶ Fontes de Dados: o histórico atual e indicadores-chave.
Análise Preditiva

▶ Fundada em 1911, a IBM fabrica e vende hardware e
software, oferece serviços de infra-estrutura, de
hospedagem e de consultoria nas áreas que vão
desde computadores de grande porte até a
nanotecnologia.
◦ Além de diversos produtos e pacotes de serviços para
auxiliar na manipulação de Big Data.
Casos - IBM

▶ A University of Ontario Institute of
Technology (UOIT) é uma universidade pública
de pesquisa, localizada em Ontario no Canada
e fundada em 2002
IBM - UOIT

▶ Desafio: Para melhor detectar sinais sutis de complicações,
os médicos precisam ganhar maior conhecimento sobre a
condição de instante-a-instante dos pacientes.
▶ Solução: Criar uma plataforma de computação em fluxo para
capturar e analisar dados em tempo real de monitores
médicos, alertando a equipe do hospital para potenciais
problemas de saúde antes que os pacientes manifestam
sinais clínicos de infecção ou outras questões. Solução
Inovadora!
IBM - UOIT

▶ Resultados: Alerta precoce de potenciais
complicações que dá a capacidade de lidar
proativamente.
◦ Exemplo: detecção de infecções em
recém-nascidos prematuros até 24 horas antes de
apresentar sintomas.
IBM - UOIT

▶ Benefícios para o negócio
◦ Tem o potencial de dar uma capacidade sem precedentes aos médicos
para interpretar grandes quantidades de dados heterogêneos em
tempo real, permitindo-lhes identificar tendências sutis;
◦ Combina os conhecimentos e experiências dos médicos e enfermeiras
com os recursos de tecnologia para produzir resultados mais robustos
do que é fornecido por meio de dispositivos de monitoramento
sozinhos;
◦ Oferece uma plataforma flexível que pode se adaptar a uma grande
variedade de acompanhamento médico
IBM - UOIT

▶ É uma empresa americana de aluguel de
automóveis localizada em 145 países.
▶ É a maior empresa de aluguel de automóveis
nos EUA!
IBM - Hertz

▶ Desafio: Necessidade de melhorar o serviço, ouvindo clientes e
reunindo milhares de comentários via web, e-mail e texto mensagens.
◦ Cada comentário era lido e categorizados e indexado manualmente
em relatórios de serviço. inconsistências foram a um nível
inaceitável.
◦ O desejo era alavancar essa percepção em tanto a nível estratégico
como a nível local para conduzir melhorias operacionais.
▶ Fontes de Dados: quantidade incrível de visão/opinião do cliente
diariamente, incluindo: milhares de comentários de web pesquisas,
emails e textos mensagens.
IBM - Hertz

▶ Solução:
◦ Usando o gerenciamento de feedback e análise de conteúdo de software, os
comentários são capturados em tempo real para serem transformados em
inteligência acionável.
◦ Regras linguísticas para analisar automaticamente e marcar o conteúdo não
estruturado em categorias significativas de relatórios de serviços.
▶ Benefícios para o negócio:
◦ Processo automatizado aumentou a consistência do relatório;
◦ Gerentes liberados de análise manual de comentários;
◦ Dobro de comentários analisados
IBM - Hertz

▶ Intitulam-se como sendo “líder global no fornecimento de
soluções de negócios e serviços comprovados, no setor de
tecnologia.”
◦ A CSC é uma das cinco maiores companhias globais de
Serviços de TI, segundo Gartner e IDC.
▶ Tem 74.000 empregados e está em mais de 70 países.
Casos - CSC

▶ Desafio:
◦ Melhorar a velocidade de execução em alta resolução e modelos mais
complexos do clima global.
◦ Aumentar as capacidades do sistema de supercomputação .
◦ Melhorar a gestão do aumento exponencial de volumes de dados.
▶ Solução:
◦ Administrar o cluster de computação de alto desempenho Discover, que
tem mais de 35.000 CPUs.
◦ Desenvolver, operar e manter a visualização.
◦ Gerenciar mais de 25 petabytes de ciência do clima .
CSC - NASA

▶ Resultados:
◦ Simulação atmosférica mais alta resolução de seu tipo
◦ Modelagem de dois anos de clima da Terra.
◦ Em cinco anos , o desempenho do cluster de
computação aumentou 130 vezes.
◦ Criado o Wall Visualization 17 por 6 metros - uma nova
ferramenta para os cientistas do clima.
CSC - NASA

▶ Desafio: Falta de controle sobre quais informações foram
sobrepostas ou atualizadas. Possibilidade de erros graves
na tomada de decisões e relatórios regulamentares.
▶ Solução:
◦ Projetar e construir um único repositório confiável de
dados usando a capacidade de virtualização de dados.
◦ Gerenciar a integração de dados centrais, com milhares
de aplicativos de negócios do banco.
CSC - Major Global Investment Bank

▶ Resultados:
◦ Redução dos riscos de tomada de decisão;
◦ Facilitação e verificação do cumprimento das
regras
◦ Fornecimento de mais valor agregado aos usuários
finais.
CSC - Major Global Investment Bank

▶ Desafio: Reunir a maior quantidade de dados
de saúde.
▶ Solução: Conceber e desenvolver um sistema
de integração de dados de mais de 40
empresas associadas, chamado BHI.
CSC – Blue Cross and Blue Shield

▶ Resultados:
◦ O armazém é capaz de processar informações sobre: médicos e
doenças, além de reclamações de 90 a 100 milhões de pessoas.
⚫ Proporcionando ao cliente com enorme vantagem competitiva.
◦ Maior transparência de saúde
⚫ Fornecimento de detalhes sem igual sobre as tendências e as
melhores práticas.
CSC – Blue Cross and Blue Shield

▶ Gartner:
◦ Empresa de consultoria fundada em 1979
◦ Sediada em Stamford, Connecticut, Estados Unidos
◦ Desenvolve tecnologias relacionadas a introspecção
necessária para seus clientes tomarem suas decisões todos
os dias.
Casos - Gartner

Gartner - Danone
▶ Multinacional francesa, fundada em 1919, de sub-produtos
alimentares:
◦ Produtos lácteos,
◦ Água engarrafada,
◦ Cereais,
◦ Alimentos para bebês, e
◦ Iogurtes

▶ Desafio:
◦ Na indústria de alimentos, como a do iogurte Grego, o desafio é
produzir e distribuir o produto com agilidade devido ao seu prazo
de validade.
◦ A Danone dos Estados Unidos precisava conhecer a demanda
para conseguir maximizar a venda do produto e garantir que a
produção não se exceda, a fim de evitar desperdícios
◦ A predição da demanda era feita a partir do Excel, o que não
trazia funcionalidade.
Gartner - Danone

▶ Fontes de Dados: a empresa otimizou o processo de
predição de demanda com a integração de:
◦ Dados históricos,
◦ Dados das Regionais e
◦ Dados de mercado (informações sobre consumidores e
preços)
▶ Objetivo: prever vendas e promoções complementares
Gartner - Danone

▶ Resultado: melhora da previsão de demanda
de 70% para 98%; conseguiram triplicar a cota
de mercado do iogurte Grego a partir de
análises de região e preço.
Gartner - Danone

▶ Rede de lojas de departamento fundada em
1851 e sediada em Nova Iorque.
▶ Possui um total de 850 lojas espalhadas pelos
Estados Unidos, Havai, Porto Rico e Guam.
Gartner - Macy’s

▶ Desafio:
◦ A rede de lojas de departamento americana tem que gerenciar um
crescimento anual de 50% de dados de venda e inventário de mais de 73
milhões de itens
▶ Fonte de Dados:
◦ Informações que já possuíam no banco de dados
◦ Amplo portfólio de ferramentas (como Hadoop, R, Cloudera, SAS,
Vertica e Tableau)
◦ Experiência de um time de cientista de dados
Gartner - Macy’s

▶ Objetivos: Otimizar a cadeia de distribuição baseado
em modelos analíticos, fazendo com que produtos
tenham rotatividade e não fiquem parados no
estoque.
▶ Resultados: redução do tempo gasto para fazer
essas análises de preços de 27 horas para uma hora;
70% na redução de custo com hardware.
Gartner - Macy’s

▶ Acrônimo para United Parcel Service.
▶ É a maior empresa de transporte e logística no mundo,
fundada em 1907.
▶ UPS entrega mais de 15 milhões de pacotes por dia para
mais de 6,1 milhões de clientes em mais de 220 países e
territórios.
Gartner - UPS

▶ Desafio: Minimizar o alto custo e baixa segurança da frota de caminhões.
▶ Fonte de Dados:
◦ Sensores telemáticos em mais de 46 mil veículos capazes de captar dados
como:
⚫ Velocidade,
⚫ Direção,
⚫ RPM,
⚫ Pressão e
⚫ Informações de localização.
Gartner – Caso UPS

▶ Objetivos: Otimizar as rotas de trajeto feita pela sua frota
caminhões e aumentar a segurança dos motoristas
▶ Resultados:
◦ Economia de 4,8 milhões de litros de gasolina por ano;
◦ Redução de manutenção e acidentes através da eliminação
de 85 milhas da rota diária.
Gartner – Caso UPS

▶ Acrônimo para National Oceanic & Atmospheric Administration.
▶ Organização que faz parte do Departamento de Comércio dos
Estados Unidos da América, para assuntos sobre meteorologia,
oceanos, atmosfera e clima. Objetiva:
◦ Advertir sobre perigos no tempo e mares,
◦ Guiar o uso e a proteção do oceano e de recursos litorâneos, e
◦ Conduzir pesquisas para melhorar a compreensão do
meio-ambiente.
Gartner – NOOA

▶ Desafio: Gerar renda a partir do acúmulo de
informações
▶ Fonte de Dados: Coleção anual de 30 petabytes de
dados gerados a partir de 2.5 bilhões de observações
atmosféricas e oceânicas diárias via satélite e outros
sensores.
Gartner – Caso NOOA

▶ Objetivos: Monetizar os dados sobre previsão de tempo para diversos fins
a partir da aplicação de modelos sofisticados de predição
▶ Resultados:
◦ Criação de diversos produtos (gratuitos e pagos) baseados nessas
informações preditivas sobre o tempo para o setor público e privado;
◦ Prevenção de riscos; e
◦ Alertas climáticos.
Gartner – Caso NOOA

▶ Fase de Questionamentos
◦ Quais as características dos clientes?
◦ Como dispor meu estoque?
▶ Dados
◦ Aquisição
◦ Limpeza
▶ Exploração
◦ Intuição
◦ Padrões
Processo de Análise de Dados

▶ Análise / Conclusão / Predição
◦ Prever que produtos o cliente irá gostar
◦ Concluir que certos cliente provavelmente não vão comprar certos
produtos
◦ Normalmente requer estatística ou aprendizagem de máquina
▶ Compartilhamento / Comunicação
◦ Artigo, email, post…
◦ Visualização de dados é quase sempre útil

Questão/
Pergunta
Dados Exploração
Análise/
Conclusão
Compartilhamento/
Comunicação
▶ O Processo nem sempre segue uma linha reta
◦ Como limpar os dados sem explorá-los antes?
◦ Durante todo o processo é comum voltar às perguntas, uma vez que a
familiaridade com os dados aumenta.
◦ Por vezes, os dados estão disponíveis antes de se pensar em uma questão.
Pode-se então pensar em que perguntas podem ser respondidas por eles.

Visualização no processo de análise de dados

Visualização no processo de análise de dados
▶ Quaisquer dados, sejam grandes ou pequenos, são
insignificantes sem uma forma adequada de organizar e
apresentar as informações importantes neles.
▶ Visualização não é apenas uma forma de apresentar os
dados, mas uma forma de explorá-los e entendê-los.

➔ A visualização será a chave para tornar os dados grandes parte integrante
do processo de decisão
➔ A visualização será a única maneira de fazer big data acessível a um
grande público.
➔ A visualização será essencial para a análise de big data para que se possa
extrair um maior valor dos dados.
Visualização pode ser o maior dos Vs
em Big Data

Big Data em Smart Cities
47,5% - Modelos Teóricos
30% - Técnicas de Visualização e Reconhecimento de
Padrões
12,5% - Frameworks Sensores e Serviços
10% - Análise de Redes Sociais
Panorama dos trabalhos acadêmicos
em 2014

Análise Visual em Big Data
➔ Análise visual é a ciência do raciocínio analítico facilitado por interfaces
visuais interativos.
➔ Técnicas e ferramentas de visualização são utilizadas para
◆ Sintetizar informações e obter uma visão a partir de dados em massa,
dinâmicos, ambíguos, e muitas vezes conflitantes
◆ Detectar o esperado e descobrir o inesperado
◆ Fornecer avaliações oportunas, defensáveis e compreensíveis
◆ Definir ações a partir das avaliações

Origem da Visualização de Informações?

▶ Este é o poder das visualizações, elas revelam
relacionamentos subjacentes que você não
pode ver a partir dos próprios dados.

Uma visualização vale mais que mil linhas…
➔ Outro aspecto da visualização de dados é que você pode
empacotar uma grande quantidade de números em uma pequena
área física.

Visualização de Dados
▶ Tipos de dados
◦ Quantitativo
⚫ Contínuo
⚫ tempo, altura, peso, dinheiro, taxas de juros, temperatura
⚫ Discreto
⚫ unidades vendidas, número de idiomas falados, número de
e-mails recebidos ontem

▶ Tipos de dados
◦ Qualitativo
⚫ Categórico
⚫ gênero, cor do cabelo, país, indústria, raça do gato
⚫ Ordinal
⚫ rankings, perguntas de pesquisa como "Como você se sente sobre gatos?"
i. odeio eles
ii. negativo
iii. neutro
iv. positivo
v. Amo eles com todo o meu ser
Visualização de Dados

▶ 200 países x 200 anos em 4 minutos

▶ Formas de visualizar dados massivos

Quais os principais players em Análise Visual de
Dados?

Como trabalhar esses os dados?

Principais Questões
● Uma vez que eu consigo centralizar todos os dados
da minha empresa, como eu consigo processar esses
dados?
● Como eu devo processar os dados já que eu não
consigo efetuar uma conta com tudo em uma única
máquina?
● Como tornar o processamento dos dados escalável?

Principais Questões
● Como fazer uso do poder da Cloud no processamento
destes dados?
● Qual é a estrutura do código que trabalha com Big
Data na Cloud?

Infraestrutura Física
● Requisitos:
○ Desempenho: um parâmetro importante é a latência e o
tempo de resposta.
○ Disponibilidade: uptime, tempo médio entre falhas.
○ Escalabilidade: quão fácil a infra estrutura pode ser ampliada
ou reduzida em função da dinâmica do negócio.
○ Flexibilidade: quão rapidamente a infraestrutura pode ser
alterada e recuperar-se de falhas.
○ Custo: quer pagar quanto??

Solução...
➔ SISTEMAS DISTRIBUÍDOS

Desafios das soluções distribuídas...
➔ Complexidade de programação
➔ Limite de banda
➔ Falhas parciais
➔ O gargalo dos dados

Hadoop
➔ Nova abordagem para computação distribuída
➔ Um sistema distribuído escalável e tolerante a
falhas para armazenamento e processamento de
dados.
◆ Distribui os dados no momento do armazenamento.
◆ Processa os dados localmente
◆ Redundância

Nodes
➔ NameNode
◆ Master do sistema
◆ Mantém e gerencia os blocos que estão presentes nos DataNodes
➔ DataNode
◆ Slaves que estão implementados em cada máquina e proveem o
armazenamento atual.
◆ Responsáveis por ler e escrever requisições para os clientes
➔ Job Tracker
◆ Toma conta de toda a rotina de jobs e define tarefas aos Task trakers.

A natureza do Python faz dele uma perfeita opção para
análise de dados
○ Fácil de aprender
○ Legível
○ Escalável
○ Extenso conjunto de bibliotecas
○ Fácil comunicação com outras aplicações
○ Comunidade ativa
Python como uma ferramenta de análise de dados

Bibliotecas para análise de dados em Python

○ Comercial
○ Interface Gráfica
○ Fácil e Conveniente
Ferramentas comerciais vs. Python
○ Open source
○ Command line
interface (CLI)
○ Inconveniente, mas
poderoso

O que usaremos neste módulo...
● Versão do Python: Python 3
● Ambiente de Análise de Dados: Jupyter Notebook
● Data Analytics Software Toolkit: Anaconda
● Bibliotecas:
○ NumPy & Pandas para análise
○ Matplotlib para visualização
○ S3fs para para carregamento dos dados
○ Gmaps para visualização de mapas

iPython & Jupyter Notebook
iPython é um shell de
comando Python para
computação interativa
O Jupyter Notebook (o antigo
iPython Notebook) é um
ambiente interativo de análise
de dados baseado na Web que
suporta iPython

Demonstração Jupyter Notebook

Pandas
● Stands for “Python Data Analysis Library”
● Takes data (like a CSV or TSV file, or a SQL database) and
creates a Python object with rows and columns called data
frame
● In order to use Pandas in your Python IDE like Jupyter
Notebook, you need to import the Pandas library first

Pandas
Usual applications of pandas
● Convert a Python’s list, dictionary or Numpy array to a Pandas
data frame
● Open a local file using Pandas, usually a CSV file, but could
also be a delimited text file (like TSV), Excel, etc
● Open a remote file or database like a CSV or a JSONon a
website through a URL or read from a SQL table/database

Viewing and Inspecting Data
● df.head([n]) - first n rows
● df.tail([n]) - the last n rows
● df.shape - the number of rows and columns
● df.info() - the index, datatype and memory information
● df.describe() - summary statistics for numerical columns
Pandas

● df.mean() - Returns the mean of all columns
● df.corr() - Returns the correlation between columns in a data frame
● df.count() - Returns the number of non-null values in each data frame column
● df.max() - Returns the highest value in each column
● df.min() - Returns the lowest value in each column
● df.median() - Returns the median of each column
● df.std() - Returns the standard deviation of each column
Pandas

Pandas
É possível fazer a seleção de colunas específicas de um data frame
● df[col] - return column with label col
● df[[col1, col2]]) - returns columns as a new DataFrame
É possível também ordenar os valores
● df.sort_values(col1)
● df.sort_values(col2,ascending=False)
● df.sort_values([col1,col2],ascending=[True,False])

Pandas
Agrupamento
● df.groupby(col) - returns a groupby object for values from one
column
● df.groupby([col1,col2]) - returns a groupby object for values
from multiple

Processamento Spark
Apache Spark™ is a unified analytics engine for
large-scale data processing.

Processamento Spark
● Modelo de Execução
○ Batch é suportado
○ Streaming é suportado
● Latência
○ Baixa
● Escalabilidade
○ Suportado
● Suporte a Linguagem de Programação
○ Scala, Python, Java e R
● Tolerância a Falha
○ Suportado

Processamento Spark
● Apresenta uma SDK completa em crescente evolução
● Realiza o processamento MapReduce em memória
● Suporta carregamento de dados de diversos tipos de fontes e
sistemas
● Disponibiliza recursos integrados que são utilizados em
diferentes etapas do processamento dos dados
● Se tornou uma ferramenta completa que é útil em diversos
cenários

Resilient Distributed Datasets (RDD)
● Datasets
○ Estrutura de dados que armazena blocos de dados
○ Novos RDDs podem ser gerados a partir de um ou
mais RDDs
○ Dados de diversos formatos e sistemas podem ser
carregados em um RDD

● Distributed
○ Os dados do RDD são distribuídos nas máquinas do
cluster
○ Spark decide automaticamente o particionamento
dos dados para otimizar performance
○ Operações como Map e Reduce acontecem de
maneira distribuída em um RDD

● Resilient
○ Capacidade de recuperar suboperações de nós que
falharam
○ Spark mantém um histórico das partições de dados e
operações sendo realizadas, para conseguir repetir
operações que falharam em outro nó
■ Depois de algunas tentativas, o Spark para de tentar e
finaliza o job com erro. Isso acontece em uma situação de
bug no código, ou nos dados

Processamento de RDDs
● Um RDD pode ser criado a partir de um ou mais RDDs
● Transformations são operações que geram RDDs a partir de
outros RDDs
● Actions são operações que coletam o resultado das
Transformations
● O código das Transformations só é executado quando uma
Action é executada
○ Spark tem um otimizador e decide como as transformações serão
executadas com melhor performance

Futurecom - Big data

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Futurecom - Big data

Semelhante a Futurecom - Big data (20)

Futurecom - Big data