SlideShare uma empresa Scribd logo
1 de 188
Baixar para ler offline
Big Data
Ícaro Ribeiro
Felipe Ferraz
Objetivo e Escopo
Entender o conceito de Big Data e aplicar ferramentas
disponíveis no processo geral de análise de dados.
Você deve ser capaz de aprofundar o conhecimento por
conta própria após a conclusão deste curso.
Objetivo e Escopo
Cobriremos os conceitos chave de Análise de Dados.
● Tipos de dados e suas características
● Big data
● Visualização de dados
● Processamento distribuído
Mostraremos como é possível utilizar os frameworks Hadoop
e Spark para processamento distribuído de dados.
Ícaro Ribeiro
finr@cesar.school
Instrutores
Felipe Ferraz
fsf@cesar.school
Institucional
CESAR
Instituto privado,
sem fins lucrativos e
autossustentado que
inova em produtos,
serviços e empresas
com TICs - Tecnologias
da Informação e
Comunicação.
CESAR
INOVAÇÃO
CADEIA DE
Atuamos em todo o ciclo de inovação. Desde o
estudo de contextos, passando pela concepção
de ideias à prototipação e desenvolvimento de
soluções e modelos de negócios inovadores.
Estudos e
Pesquisas
Prototipação
e Avaliação
ComercializaçãoDesenvolvimento
concepção construção
Captura de
dados de uso
CESARCESAR CLIENTE
inovação
continuada
feedback loops
Nossa missão é identificar,
potencializar e concretizar
oportunidades de transformação das
organizações e da vida das pessoas.
MATRIZ
Recife – PE
ESCRITÓRIO COMERCIAL
São Paulo – SP
REGIONAIS
Curitiba – PR
Sorocaba – SP
Manaus – AM
OUTRAS ATUAÇÕES
Rio de Janeiro - RJ
ONDE
estamos?
Educação
Design e
Engenharia Empreendedorismo
ATUAÇÃO
PILARES DE
Consultorias
Por meio do nosso braço educacional,
nós transferimos o conhecimento
adquirido durante mais de duas
décadas desenvolvendo projetos de
classe mundial em TICs - Tecnologias
da Informação e Comunicação.
EDUCAÇÃO
CESAR School
Mestrados, Pós e Extensão e Graduação
Residência de Software
Outros Programas Educacionais
DESIGNDesde 2003 o CESAR vem
trabalhando com design de novos
produtos, processos e serviços
baseados na experiência do usuário.
Pesquisa Prototipação
Experiência do Usuário
Centrado no Usuário
Design
Re-design
Especulativo
homem-máquina
interação
Design de
Interação
Design
Ideação
Brainstorming
Co-criaçãoUX
Quem
as pessoas são?
Qualo valor das
pessoas?
Comoas pessoas
vivem?
Criarexperiências que
melhorem a vida
das pessoas.
O queas pessoas
valorizam?
Serviços
Design de
ENGENHARIA
Mobilidade
Sistemas Embarcados
Segurança e Performance
de Sistemas
Visão Computacional
Cloud ComputingTestes
Cidades
Robótica
Internet
das coisas
Protótipos
3D
Big
DataInteligência
Artificial
homem-máquina
interação
Wearables
Tecnologias da Informação e Comunicação
são o link entre todas as áreas nas quais
trabalhamos, bem como é o core de tudo
o que fazemos no CESAR.
Inteligentes
Learning
Machine
EMPREENDEDORISMO
Startups Aceleradas
História de Empreendedorismo
O CESAR.labs tem por objetivo estimular a criação
de novos empreendimentos do estágio inicial
(ainda na fase da ideia), até o produto ou primeiro
cliente. Também visa desenvolver startups em
estágio mais avançado que necessitam evoluir
outros aspectos do seu modelo de negócio.
Empreendedore
s Antropólogos
Engenheiros de Testes
Pesquisadores
Psicólogos
Designers
Ilustradores
Jornalistas
Software
Engenheiros de
Marketing
Profissionais de
Usabilidade
Engenheiros de
Artistas Plásticos
Administrador de Sistemas
de Projeto
Gerentes
Engenheiros Mecânicos
Engenheiros de
Comunicação
disciplinar
Engenheiro
Eletrônico
MULTI
TIME
DE CLIENTES
PORTFÓLIO
SEGMENTOS
DE MERCADO
Projetos
Clientes
Segmentos
Período de Nov/15 a Nov/16
Transporte
Automação
Comercial
Eletroeletrônic
o
Infraestrutura
de Telecom Saúd
e
Financeiro Mídia e
comunicação
Educaçã
o
TI
Governo
Comérci
o
Varejista
Energia
ANÁLISE DE DADOS
Análise de dados consiste no processo e metodologia de investigar dados
brutos a fim de obter uma visão significativa.
O que é análise de dados?
Nós agora podemos ver o potencial ilimitado para obtenção de insights
críticos através da aplicação de análise de dados.
Por que está tão popular?
Dados...
Fonte: http://www.semiconwest.org/consumer-industrial-data-explosion-hits-supply-chain
De que quantidade de dados estamos falando?
Dados...
Dados...
Dados...
Mark Liberman constatou que, se
fossem gravadas todas as palavras
faladas pela humanidade (em todos os
idiomas, digitalizadas em 16 bits e 16
kHz), seriam necessários 42 zettabytes
para armazenar toda a gravação.
… compartilhados
github.com/caesar0301/awesome-public-datasets
Dados em que formato?
● Dados Estruturados
○ Bancos de Dados
● Dados Não Estruturados
○ Textos, vídeos, fotos, redes sociais
Dados Estruturados
● Bancos de Dados
○ estruturados
○ confiáveis
○ coerentes
○ compartilhados por usuários que têm necessidade de
informações diferentes
Dados Estruturados
Dados Estruturados
Dados Estruturados
SGBDs no Mercado
➔ Popularidade dos SGBDs por
categoria, Set 2015.
(www.db-engines.com)
➔ Número de SGBDs diferentes por
categoria, Set 2015.
(www.db-engines.com)
SGBDs no Mercado
➔ Popularidade dos SGBDs por
categoria, Abril 2018.
(www.db-engines.com)
➔ Número de SGBDs diferentes por
categoria, Abril 2018.
(www.db-engines.com)
Dados Ligados e Web Semântica
Dados Ligados
Dados ligados são disponibilizados em RDF
Nuvem DBPedia
2011
2018
Data Warehouse
Business Intelligence
Data Warehouse vs Data Lake (Gartner)
Analista de BI x Cientista de Dados
Dados Não Estruturados
De onde vem??
Dados Não Estruturados
Dados Não Estruturados
Dados Não Estruturados
Dados Não Estruturados
Dados Não Estruturados
BIG DATA
Surge um novo (nem tanto) conceito
Big Data?
“O termo adotado pelo mercado para descrever problemas no gerenciamento e
processamento de informações extremas as quais excedem as capacidades das
tecnologias de informações tradicionais. Big Data está focado principalmente em
questões de volume de conjunto de dados extremamente grandes gerados a partir
de práticas tecnológicas, tais como mídia social, tecnologias operacionais, acessos à
Internet e fontes de informações distribuídas. Big Data é essencialmente uma prática
que apresenta novas oportunidades de negócios.”
Gartner Group
Big Data
● Termo utilizado no início dos anos 90, na NASA.
● Descrever grandes conjuntos de dados complexos
que desafiam os limites computacionais tradicionais
de captura, processamento, análise e armazenamento
informacional.
Big Data
● HOJE: as técnicas e ferramentas de captura,
processamento, análise e armazenamento de dados
não possuem limites.
● O problema está em como interpretar/utilizar essas
informações, pois as informações estão disponíveis.
Big Data - 5V`s
Big
Data
Volume
Velocidade
VariedadeVeracidade
Valor
Big Data - Volume
▶ GBs, TBs, PBs de informações
são geradas todos os dias os
dias.
▶ Desafio: Armazenar,
Transmitir e Processar esses
dados em paralelo.
Big Data - Velocidade
▶ O volume de dados crescente e a
janela de tempo para a tomada de
decisão é cada vez menor.
▶ Desafio: conseguir atender as
demandas esperadas de entrega de
dados no tempo ideal.
◦ Tempo curto para que o dado seja
gerado
◦ Intervalo mínimo pela necessidade de
acesso à informação
Big Data - Variedade
▶ Tipos de informação são
mais complexos e diversos.
▶ Desafio: Formas de
armazenar e de interpretar.
◦ Várias fontes e formatos de
dados
◦ Dados sem estrutura
Big Data - Veracidade
▶ Incerteza da validade do dado.
◦ Fonte desconhecida
▶ Desafio: identificar quais
dados devem ser considerados
ou desconsiderados das
análises
Big Data - Valor
▶ Toda informação tem valor
(estatístico, eventual,
hipotético, correlações...)
▶ Desafio: Identificar a
aplicação dos dados que se
possui.
Big Data?
conceito em evolução…
“Big Data é o termo que descreve o imenso volume de dados –
estruturados e não estruturados – que impactam os negócios no
dia a dia. Mas o importante não é a quantidade de dados. E sim o
que as empresas fazem com os dados que realmente importam.
Big Data pode ser analisado para a obtenção de insights que levam
a melhores decisões e direções estratégicas de negócio.”
SAS - "Statistical Analysis System"
Big Data ou Pokemon?
https://pixelastic.github.io/pokemonorbigdata/
Tipos de Análise
Análise de dados em ação...
➔ Vírus H1N1 nos EUA
◆ O vírus H1N1, que combinava elementos das gripes aviária e suína,
começou a se espalhar pelos EUA em 2009
◆ O CDC (Center for Disease Control) só coletavam dados sobre a
doença uma vez por semana.
◆ Usando os dados do CDC, as informações sobre a disseminação da
gripe possuíam um lag de 2 semanas.
Análise de dados em ação...
➔ Virus H1N1 nos EUA
◆ Quais vacinas seriam necessárias? Quando? Onde?
◆ Os planos de preparação e entregas de vacinas não tinham como
se programar rápidos o suficiente para controlar a epidemia.
E agora José!?
Análise de dados em ação...
➔ Vírus H1N1 nos EUA
◆ O Google publicou um artigo sobre como eles poderiam prever a
disseminação da gripe de inverno nos EUA.
◆ Esse artigo foi publicado na revista Nature duas semanas antes das
primeiras notícias sobre a gripe H1N1.
◆ O método do google não usava dados médicos e de hospitais.
◆ Google usou análise de Big Data nos termos de pesquisa que as
pessoas utilizavam.
◆ Se mostrou mais eficaz e rápido que o uso de dados do Governo.
Análise de dados em ação...
➔ As aplicações de Oren Etzioni
◆ Em 2003, depois que ele soube que ele pagou mais por um bilhete
de avião que o cara sentado ao seu lado, criou um programa que
verificava sites de viagens para prever os preços das tarifas aéreas.
Isso tornou-se Farecast. Ele vendeu para a Microsoft em 2008 por
US $ 110 milhões e é agora uma parte de Bing.
◆ Em 2011, ele usou o que ele aprendeu no Farecast e lançou
Decide.com para prever os preços de produtos vendidos
eletronicamente. Dois anos depois, o Decide.com foi vendido ao
eBay por algo em torno de $17 million.
Análise de dados em ação...
Fraldas e cerveja
● Um homem coagido por sua linda esposa a comprar um pacote de fraldas no
caminho para casa do trabalho.
● Sexta-feira… Por que não comprar uma caixa de cerveja pra desopilar?
● A lenda diz que um estudo foi feito por uma loja de varejo. As descobertas
foram que os homens entre os 30 e os 40 anos de idade, comprando fraldas
entre as 17h e as 19h das sextas-feiras, eram mais prováveis de ter cerveja nos
seus carrinhos. Isso motivou o supermercado a mover a ilha da cerveja mais
perto da isca da fralda e bang!!!!! , aumento instantâneo de 35% nas vendas.
Walmart Is Making Big Data Part Of Its DNA...
▶ Indexar, segmentar e responder comentários das pessoas de acordo com
o conteúdo de seus textos, mapeando o humor dos clientes sobre uma
marca e sendo proativo em soluções de problemas.
▶ Dificuldades:
◦ Produzir resultados inteiramente satisfatórios na análise semântica da
língua portuguesa.
◦ Necessidade de mapeamentos manuais.
Análise Semântica
▶ Identificar semelhanças e padrões de comportamento nos dados.
▶ Dividir o conteúdo ou os usuários em grupos semelhantes (clusters).
▶ Permite que ofertas adequadas sejam oferecidas de acordo com o padrão
de compras do grupo.
Análise de Cluster
▶ Visa descobrir qual será o comportamento ou projeção de algo do
interesse (vendas de um produto, valorização na bolsa de valores, etc.)
▶ Fontes de Dados: o histórico atual e indicadores-chave.
Análise Preditiva
E aqui, qual análise?
CASES DE SUCESSO
▶ Fundada em 1911, a IBM fabrica e vende hardware e
software, oferece serviços de infra-estrutura, de
hospedagem e de consultoria nas áreas que vão
desde computadores de grande porte até a
nanotecnologia.
◦ Além de diversos produtos e pacotes de serviços para
auxiliar na manipulação de Big Data.
Casos - IBM
▶ A University of Ontario Institute of
Technology (UOIT) é uma universidade pública
de pesquisa, localizada em Ontario no Canada
e fundada em 2002
IBM - UOIT
▶ Desafio: Para melhor detectar sinais sutis de complicações,
os médicos precisam ganhar maior conhecimento sobre a
condição de instante-a-instante dos pacientes.
▶ Solução: Criar uma plataforma de computação em fluxo para
capturar e analisar dados em tempo real de monitores
médicos, alertando a equipe do hospital para potenciais
problemas de saúde antes que os pacientes manifestam
sinais clínicos de infecção ou outras questões. Solução
Inovadora!
IBM - UOIT
▶ Resultados: Alerta precoce de potenciais
complicações que dá a capacidade de lidar
proativamente.
◦ Exemplo: detecção de infecções em
recém-nascidos prematuros até 24 horas antes de
apresentar sintomas.
IBM - UOIT
▶ Benefícios para o negócio
◦ Tem o potencial de dar uma capacidade sem precedentes aos médicos
para interpretar grandes quantidades de dados heterogêneos em
tempo real, permitindo-lhes identificar tendências sutis;
◦ Combina os conhecimentos e experiências dos médicos e enfermeiras
com os recursos de tecnologia para produzir resultados mais robustos
do que é fornecido por meio de dispositivos de monitoramento
sozinhos;
◦ Oferece uma plataforma flexível que pode se adaptar a uma grande
variedade de acompanhamento médico
IBM - UOIT
▶ É uma empresa americana de aluguel de
automóveis localizada em 145 países.
▶ É a maior empresa de aluguel de automóveis
nos EUA!
IBM - Hertz
▶ Desafio: Necessidade de melhorar o serviço, ouvindo clientes e
reunindo milhares de comentários via web, e-mail e texto mensagens.
◦ Cada comentário era lido e categorizados e indexado manualmente
em relatórios de serviço. inconsistências foram a um nível
inaceitável.
◦ O desejo era alavancar essa percepção em tanto a nível estratégico
como a nível local para conduzir melhorias operacionais.
▶ Fontes de Dados: quantidade incrível de visão/opinião do cliente
diariamente, incluindo: milhares de comentários de web pesquisas,
emails e textos mensagens.
IBM - Hertz
▶ Solução:
◦ Usando o gerenciamento de feedback e análise de conteúdo de software, os
comentários são capturados em tempo real para serem transformados em
inteligência acionável.
◦ Regras linguísticas para analisar automaticamente e marcar o conteúdo não
estruturado em categorias significativas de relatórios de serviços.
▶ Benefícios para o negócio:
◦ Processo automatizado aumentou a consistência do relatório;
◦ Gerentes liberados de análise manual de comentários;
◦ Dobro de comentários analisados
IBM - Hertz
▶ Intitulam-se como sendo “líder global no fornecimento de
soluções de negócios e serviços comprovados, no setor de
tecnologia.”
◦ A CSC é uma das cinco maiores companhias globais de
Serviços de TI, segundo Gartner e IDC.
▶ Tem 74.000 empregados e está em mais de 70 países.
Casos - CSC
▶ Desafio:
◦ Melhorar a velocidade de execução em alta resolução e modelos mais
complexos do clima global.
◦ Aumentar as capacidades do sistema de supercomputação .
◦ Melhorar a gestão do aumento exponencial de volumes de dados.
▶ Solução:
◦ Administrar o cluster de computação de alto desempenho Discover, que
tem mais de 35.000 CPUs.
◦ Desenvolver, operar e manter a visualização.
◦ Gerenciar mais de 25 petabytes de ciência do clima .
CSC - NASA
▶ Resultados:
◦ Simulação atmosférica mais alta resolução de seu tipo
◦ Modelagem de dois anos de clima da Terra.
◦ Em cinco anos , o desempenho do cluster de
computação aumentou 130 vezes.
◦ Criado o Wall Visualization 17 por 6 metros - uma nova
ferramenta para os cientistas do clima.
CSC - NASA
▶ Desafio: Falta de controle sobre quais informações foram
sobrepostas ou atualizadas. Possibilidade de erros graves
na tomada de decisões e relatórios regulamentares.
▶ Solução:
◦ Projetar e construir um único repositório confiável de
dados usando a capacidade de virtualização de dados.
◦ Gerenciar a integração de dados centrais, com milhares
de aplicativos de negócios do banco.
CSC - Major Global Investment Bank
▶ Resultados:
◦ Redução dos riscos de tomada de decisão;
◦ Facilitação e verificação do cumprimento das
regras
◦ Fornecimento de mais valor agregado aos usuários
finais.
CSC - Major Global Investment Bank
▶ Desafio: Reunir a maior quantidade de dados
de saúde.
▶ Solução: Conceber e desenvolver um sistema
de integração de dados de mais de 40
empresas associadas, chamado BHI.
CSC – Blue Cross and Blue Shield
▶ Resultados:
◦ O armazém é capaz de processar informações sobre: médicos e
doenças, além de reclamações de 90 a 100 milhões de pessoas.
⚫ Proporcionando ao cliente com enorme vantagem competitiva.
◦ Maior transparência de saúde
⚫ Fornecimento de detalhes sem igual sobre as tendências e as
melhores práticas.
CSC – Blue Cross and Blue Shield
▶ Gartner:
◦ Empresa de consultoria fundada em 1979
◦ Sediada em Stamford, Connecticut, Estados Unidos
◦ Desenvolve tecnologias relacionadas a introspecção
necessária para seus clientes tomarem suas decisões todos
os dias.
Casos - Gartner
Gartner - Danone
▶ Multinacional francesa, fundada em 1919, de sub-produtos
alimentares:
◦ Produtos lácteos,
◦ Água engarrafada,
◦ Cereais,
◦ Alimentos para bebês, e
◦ Iogurtes
▶ Desafio:
◦ Na indústria de alimentos, como a do iogurte Grego, o desafio é
produzir e distribuir o produto com agilidade devido ao seu prazo
de validade.
◦ A Danone dos Estados Unidos precisava conhecer a demanda
para conseguir maximizar a venda do produto e garantir que a
produção não se exceda, a fim de evitar desperdícios
◦ A predição da demanda era feita a partir do Excel, o que não
trazia funcionalidade.
Gartner - Danone
▶ Fontes de Dados: a empresa otimizou o processo de
predição de demanda com a integração de:
◦ Dados históricos,
◦ Dados das Regionais e
◦ Dados de mercado (informações sobre consumidores e
preços)
▶ Objetivo: prever vendas e promoções complementares
Gartner - Danone
▶ Resultado: melhora da previsão de demanda
de 70% para 98%; conseguiram triplicar a cota
de mercado do iogurte Grego a partir de
análises de região e preço.
Gartner - Danone
▶ Rede de lojas de departamento fundada em
1851 e sediada em Nova Iorque.
▶ Possui um total de 850 lojas espalhadas pelos
Estados Unidos, Havai, Porto Rico e Guam.
Gartner - Macy’s
▶ Rede de lojas de departamento fundada em
1851 e sediada em Nova Iorque.
▶ Possui um total de 850 lojas espalhadas pelos
Estados Unidos, Havai, Porto Rico e Guam.
Gartner - Macy’s
▶ Desafio:
◦ A rede de lojas de departamento americana tem que gerenciar um
crescimento anual de 50% de dados de venda e inventário de mais de 73
milhões de itens
▶ Fonte de Dados:
◦ Informações que já possuíam no banco de dados
◦ Amplo portfólio de ferramentas (como Hadoop, R, Cloudera, SAS,
Vertica e Tableau)
◦ Experiência de um time de cientista de dados
Gartner - Macy’s
▶ Objetivos: Otimizar a cadeia de distribuição baseado
em modelos analíticos, fazendo com que produtos
tenham rotatividade e não fiquem parados no
estoque.
▶ Resultados: redução do tempo gasto para fazer
essas análises de preços de 27 horas para uma hora;
70% na redução de custo com hardware.
Gartner - Macy’s
▶ Acrônimo para United Parcel Service.
▶ É a maior empresa de transporte e logística no mundo,
fundada em 1907.
▶ UPS entrega mais de 15 milhões de pacotes por dia para
mais de 6,1 milhões de clientes em mais de 220 ​​países e
territórios.
Gartner - UPS
▶ Desafio: Minimizar o alto custo e baixa segurança da frota de caminhões.
▶ Fonte de Dados:
◦ Sensores telemáticos em mais de 46 mil veículos capazes de captar dados
como:
⚫ Velocidade,
⚫ Direção,
⚫ RPM,
⚫ Pressão e
⚫ Informações de localização.
Gartner – Caso UPS
▶ Objetivos: Otimizar as rotas de trajeto feita pela sua frota
caminhões e aumentar a segurança dos motoristas
▶ Resultados:
◦ Economia de 4,8 milhões de litros de gasolina por ano;
◦ Redução de manutenção e acidentes através da eliminação
de 85 milhas da rota diária.
Gartner – Caso UPS
Gartner – Caso UPS
▶ Acrônimo para National Oceanic & Atmospheric Administration.
▶ Organização que faz parte do Departamento de Comércio dos
Estados Unidos da América, para assuntos sobre meteorologia,
oceanos, atmosfera e clima. Objetiva:
◦ Advertir sobre perigos no tempo e mares,
◦ Guiar o uso e a proteção do oceano e de recursos litorâneos, e
◦ Conduzir pesquisas para melhorar a compreensão do
meio-ambiente.
Gartner – NOOA
▶ Desafio: Gerar renda a partir do acúmulo de
informações
▶ Fonte de Dados: Coleção anual de 30 petabytes de
dados gerados a partir de 2.5 bilhões de observações
atmosféricas e oceânicas diárias via satélite e outros
sensores.
Gartner – Caso NOOA
▶ Objetivos: Monetizar os dados sobre previsão de tempo para diversos fins
a partir da aplicação de modelos sofisticados de predição
▶ Resultados:
◦ Criação de diversos produtos (gratuitos e pagos) baseados nessas
informações preditivas sobre o tempo para o setor público e privado;
◦ Prevenção de riscos; e
◦ Alertas climáticos.
Gartner – Caso NOOA
PROCESSO DE ANÁLISE
Cientista de Dados
Processo de Análise de Dados
▶ Fase de Questionamentos
◦ Quais as características dos clientes?
◦ Como dispor meu estoque?
▶ Dados
◦ Aquisição
◦ Limpeza
▶ Exploração
◦ Intuição
◦ Padrões
Processo de Análise de Dados
▶ Análise / Conclusão / Predição
◦ Prever que produtos o cliente irá gostar
◦ Concluir que certos cliente provavelmente não vão comprar certos
produtos
◦ Normalmente requer estatística ou aprendizagem de máquina
▶ Compartilhamento / Comunicação
◦ Artigo, email, post…
◦ Visualização de dados é quase sempre útil
Processo de Análise de Dados
Processo de Análise de Dados
Questão/
Pergunta
Dados Exploração
Análise/
Conclusão
Compartilhamento/
Comunicação
▶ O Processo nem sempre segue uma linha reta
◦ Como limpar os dados sem explorá-los antes?
◦ Durante todo o processo é comum voltar às perguntas, uma vez que a
familiaridade com os dados aumenta.
◦ Por vezes, os dados estão disponíveis antes de se pensar em uma questão.
Pode-se então pensar em que perguntas podem ser respondidas por eles.
VISUALIZAÇÃO DE DADOS
Visualização no processo de análise de dados
Visualização no processo de análise de dados
▶ Quaisquer dados, sejam grandes ou pequenos, são
insignificantes sem uma forma adequada de organizar e
apresentar as informações importantes neles.
▶ Visualização não é apenas uma forma de apresentar os
dados, mas uma forma de explorá-los e entendê-los.
Os Vs?
+ Visualization
➔ A visualização será a chave para tornar os dados grandes parte integrante
do processo de decisão
➔ A visualização será a única maneira de fazer big data acessível a um
grande público.
➔ A visualização será essencial para a análise de big data para que se possa
extrair um maior valor dos dados.
Visualização pode ser o maior dos Vs
em Big Data
Big Data em Smart Cities
47,5% - Modelos Teóricos
30% - Técnicas de Visualização e Reconhecimento de
Padrões
12,5% - Frameworks Sensores e Serviços
10% - Análise de Redes Sociais
Panorama dos trabalhos acadêmicos
em 2014
Análise Visual em Big Data
➔ Análise visual é a ciência do raciocínio analítico facilitado por interfaces
visuais interativos.
➔ Técnicas e ferramentas de visualização são utilizadas para
◆ Sintetizar informações e obter uma visão a partir de dados em massa,
dinâmicos, ambíguos, e muitas vezes conflitantes
◆ Detectar o esperado e descobrir o inesperado
◆ Fornecer avaliações oportunas, defensáveis e compreensíveis
◆ Definir ações a partir das avaliações
Origem da Visualização de Informações?
▶ Quarteto de Anscombe
▶ Quarteto de Anscombe
▶ Este é o poder das visualizações, elas revelam
relacionamentos subjacentes que você não
pode ver a partir dos próprios dados.
Uma visualização vale mais que mil linhas…
➔ Outro aspecto da visualização de dados é que você pode
empacotar uma grande quantidade de números em uma pequena
área física.
Visualização de Dados
▶ Tipos de dados
◦ Quantitativo
⚫ Contínuo
⚫ tempo, altura, peso, dinheiro, taxas de juros, temperatura
⚫ Discreto
⚫ unidades vendidas, número de idiomas falados, número de
e-mails recebidos ontem
▶ Tipos de dados
◦ Qualitativo
⚫ Categórico
⚫ gênero, cor do cabelo, país, indústria, raça do gato
⚫ Ordinal
⚫ rankings, perguntas de pesquisa como "Como você se sente sobre gatos?"
i. odeio eles
ii. negativo
iii. neutro
iv. positivo
v. Amo eles com todo o meu ser
Visualização de Dados
Visualização de Dados
Não faça nenhum mal...
▶ 200 países x 200 anos em 4 minutos
▶ Formas de visualizar dados massivos
Quais os principais players em Análise Visual de
Dados?
Como trabalhar esses os dados?
INFRAESTRUTURA
Principais Questões
● Uma vez que eu consigo centralizar todos os dados
da minha empresa, como eu consigo processar esses
dados?
● Como eu devo processar os dados já que eu não
consigo efetuar uma conta com tudo em uma única
máquina?
● Como tornar o processamento dos dados escalável?
Principais Questões
● Como fazer uso do poder da Cloud no processamento
destes dados?
● Qual é a estrutura do código que trabalha com Big
Data na Cloud?
Infraestrutura Física
● Requisitos:
○ Desempenho: um parâmetro importante é a latência e o
tempo de resposta.
○ Disponibilidade: uptime, tempo médio entre falhas.
○ Escalabilidade: quão fácil a infra estrutura pode ser ampliada
ou reduzida em função da dinâmica do negócio.
○ Flexibilidade: quão rapidamente a infraestrutura pode ser
alterada e recuperar-se de falhas.
○ Custo: quer pagar quanto??
Processamento Distribuído
Solução...
➔ SISTEMAS DISTRIBUÍDOS
Desafios das soluções distribuídas...
➔ Complexidade de programação
➔ Limite de banda
➔ Falhas parciais
➔ O gargalo dos dados
Hadoop
➔ Nova abordagem para computação distribuída
➔ Um sistema distribuído escalável e tolerante a
falhas para armazenamento e processamento de
dados.
◆ Distribui os dados no momento do armazenamento.
◆ Processa os dados localmente
◆ Redundância
Hadoop
O Ecossistema Hadoop
Hadoop core components
Multi-node Hadoop Cluster
Nodes
➔ NameNode
◆ Master do sistema
◆ Mantém e gerencia os blocos que estão presentes nos DataNodes
➔ DataNode
◆ Slaves que estão implementados em cada máquina e proveem o
armazenamento atual.
◆ Responsáveis por ler e escrever requisições para os clientes
➔ Job Tracker
◆ Toma conta de toda a rotina de jobs e define tarefas aos Task trakers.
HDFS
Map Reduce
O que faz o Hadoop único
Outros componentes
HDFS x HBase
Cloudera CDH - Quick Start
Linguagens...
A natureza do Python faz dele uma perfeita opção para
análise de dados
○ Fácil de aprender
○ Legível
○ Escalável
○ Extenso conjunto de bibliotecas
○ Fácil comunicação com outras aplicações
○ Comunidade ativa
Python como uma ferramenta de análise de dados
Bibliotecas para análise de dados em Python
○ Comercial
○ Interface Gráfica
○ Fácil e Conveniente
Ferramentas comerciais vs. Python
○ Open source
○ Command line
interface (CLI)
○ Inconveniente, mas
poderoso
O que usaremos neste módulo...
● Versão do Python: Python 3
● Ambiente de Análise de Dados: Jupyter Notebook
● Data Analytics Software Toolkit: Anaconda
● Bibliotecas:
○ NumPy & Pandas para análise
○ Matplotlib para visualização
○ S3fs para para carregamento dos dados
○ Gmaps para visualização de mapas
iPython & Jupyter Notebook
iPython é um shell de
comando Python para
computação interativa
O Jupyter Notebook (o antigo
iPython Notebook) é um
ambiente interativo de análise
de dados baseado na Web que
suporta iPython
Demonstração Jupyter Notebook
PYTHON PANDAS
Pandas
● Stands for “Python Data Analysis Library”
● Takes data (like a CSV or TSV file, or a SQL database) and
creates a Python object with rows and columns called data
frame
● In order to use Pandas in your Python IDE like Jupyter
Notebook, you need to import the Pandas library first
Pandas
Usual applications of pandas
● Convert a Python’s list, dictionary or Numpy array to a Pandas
data frame
● Open a local file using Pandas, usually a CSV file, but could
also be a delimited text file (like TSV), Excel, etc
● Open a remote file or database like a CSV or a JSONon a
website through a URL or read from a SQL table/database
Viewing and Inspecting Data
● df.head([n]) - first n rows
● df.tail([n]) - the last n rows
● df.shape - the number of rows and columns
● df.info() - the index, datatype and memory information
● df.describe() - summary statistics for numerical columns
Pandas
● df.mean() - Returns the mean of all columns
● df.corr() - Returns the correlation between columns in a data frame
● df.count() - Returns the number of non-null values in each data frame column
● df.max() - Returns the highest value in each column
● df.min() - Returns the lowest value in each column
● df.median() - Returns the median of each column
● df.std() - Returns the standard deviation of each column
Pandas
Pandas
É possível fazer a seleção de colunas específicas de um data frame
● df[col] - return column with label col
● df[[col1, col2]]) - returns columns as a new DataFrame
É possível também ordenar os valores
● df.sort_values(col1)
● df.sort_values(col2,ascending=False)
● df.sort_values([col1,col2],ascending=[True,False])
Pandas
Agrupamento
● df.groupby(col) - returns a groupby object for values from one
column
● df.groupby([col1,col2]) - returns a groupby object for values
from multiple
Desmonstração Pandas
Demosntração Dask
SPARK
Processamento Spark
Apache Spark™ is a unified analytics engine for
large-scale data processing.
Processamento Spark
● Modelo de Execução
○ Batch é suportado
○ Streaming é suportado
● Latência
○ Baixa
● Escalabilidade
○ Suportado
● Suporte a Linguagem de Programação
○ Scala, Python, Java e R
● Tolerância a Falha
○ Suportado
Processamento Spark
● Apresenta uma SDK completa em crescente evolução
● Realiza o processamento MapReduce em memória
● Suporta carregamento de dados de diversos tipos de fontes e
sistemas
● Disponibiliza recursos integrados que são utilizados em
diferentes etapas do processamento dos dados
● Se tornou uma ferramenta completa que é útil em diversos
cenários
Spark
Resilient Distributed Datasets (RDD)
● Datasets
○ Estrutura de dados que armazena blocos de dados
○ Novos RDDs podem ser gerados a partir de um ou
mais RDDs
○ Dados de diversos formatos e sistemas podem ser
carregados em um RDD
Resilient Distributed Datasets (RDD)
● Distributed
○ Os dados do RDD são distribuídos nas máquinas do
cluster
○ Spark decide automaticamente o particionamento
dos dados para otimizar performance
○ Operações como Map e Reduce acontecem de
maneira distribuída em um RDD
Resilient Distributed Datasets (RDD)
● Resilient
○ Capacidade de recuperar suboperações de nós que
falharam
○ Spark mantém um histórico das partições de dados e
operações sendo realizadas, para conseguir repetir
operações que falharam em outro nó
■ Depois de algunas tentativas, o Spark para de tentar e
finaliza o job com erro. Isso acontece em uma situação de
bug no código, ou nos dados
Spark
Processamento de RDDs
● Um RDD pode ser criado a partir de um ou mais RDDs
● Transformations são operações que geram RDDs a partir de
outros RDDs
● Actions são operações que coletam o resultado das
Transformations
● O código das Transformations só é executado quando uma
Action é executada
○ Spark tem um otimizador e decide como as transformações serão
executadas com melhor performance
Demonstração Spark
Ícaro Ribeiro
finr@cesar.school
Instrutores
Felipe Ferraz
fsf@cesar.school

Mais conteúdo relacionado

Mais procurados

Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big datacictec
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosas
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosasComo as empresas usam APIs cognitivas para criar novas oportunidades valiosas
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosasJaqueline Ariane
 
Apresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsApresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsJaqueline Ariane
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Marlesson Santana
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃOBruno Henrique Nunes
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 

Mais procurados (20)

Big Data
Big DataBig Data
Big Data
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big data
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Data Driven Business
Data Driven Business Data Driven Business
Data Driven Business
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosas
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosasComo as empresas usam APIs cognitivas para criar novas oportunidades valiosas
Como as empresas usam APIs cognitivas para criar novas oportunidades valiosas
 
Apresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsApresentação Watson Analytics Português
Apresentação Watson Analytics Português
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 

Semelhante a Futurecom - Big data

Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfssuserbd3b69
 
Cultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócioCultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócioMJV Technology & Innovation Brasil
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Juan Felipe dos Reis Barbosa
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 
Mma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptMma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptHandsMobile
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações FaBIana Ravanêda Vercezes
 

Semelhante a Futurecom - Big data (20)

Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
Data is the new oil
Data is the new oilData is the new oil
Data is the new oil
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
Cultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócioCultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócio
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Media Analytics
Media AnalyticsMedia Analytics
Media Analytics
 
BigData
BigDataBigData
BigData
 
Mma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptMma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-pt
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
BIG data
BIG dataBIG data
BIG data
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
 

Futurecom - Big data

  • 2. Objetivo e Escopo Entender o conceito de Big Data e aplicar ferramentas disponíveis no processo geral de análise de dados. Você deve ser capaz de aprofundar o conhecimento por conta própria após a conclusão deste curso.
  • 3. Objetivo e Escopo Cobriremos os conceitos chave de Análise de Dados. ● Tipos de dados e suas características ● Big data ● Visualização de dados ● Processamento distribuído Mostraremos como é possível utilizar os frameworks Hadoop e Spark para processamento distribuído de dados.
  • 6. Instituto privado, sem fins lucrativos e autossustentado que inova em produtos, serviços e empresas com TICs - Tecnologias da Informação e Comunicação. CESAR
  • 7. INOVAÇÃO CADEIA DE Atuamos em todo o ciclo de inovação. Desde o estudo de contextos, passando pela concepção de ideias à prototipação e desenvolvimento de soluções e modelos de negócios inovadores. Estudos e Pesquisas Prototipação e Avaliação ComercializaçãoDesenvolvimento concepção construção Captura de dados de uso CESARCESAR CLIENTE inovação continuada feedback loops
  • 8. Nossa missão é identificar, potencializar e concretizar oportunidades de transformação das organizações e da vida das pessoas.
  • 9. MATRIZ Recife – PE ESCRITÓRIO COMERCIAL São Paulo – SP REGIONAIS Curitiba – PR Sorocaba – SP Manaus – AM OUTRAS ATUAÇÕES Rio de Janeiro - RJ ONDE estamos?
  • 11. Por meio do nosso braço educacional, nós transferimos o conhecimento adquirido durante mais de duas décadas desenvolvendo projetos de classe mundial em TICs - Tecnologias da Informação e Comunicação. EDUCAÇÃO CESAR School Mestrados, Pós e Extensão e Graduação Residência de Software Outros Programas Educacionais
  • 12. DESIGNDesde 2003 o CESAR vem trabalhando com design de novos produtos, processos e serviços baseados na experiência do usuário. Pesquisa Prototipação Experiência do Usuário Centrado no Usuário Design Re-design Especulativo homem-máquina interação Design de Interação Design Ideação Brainstorming Co-criaçãoUX Quem as pessoas são? Qualo valor das pessoas? Comoas pessoas vivem? Criarexperiências que melhorem a vida das pessoas. O queas pessoas valorizam? Serviços Design de
  • 13. ENGENHARIA Mobilidade Sistemas Embarcados Segurança e Performance de Sistemas Visão Computacional Cloud ComputingTestes Cidades Robótica Internet das coisas Protótipos 3D Big DataInteligência Artificial homem-máquina interação Wearables Tecnologias da Informação e Comunicação são o link entre todas as áreas nas quais trabalhamos, bem como é o core de tudo o que fazemos no CESAR. Inteligentes Learning Machine
  • 14. EMPREENDEDORISMO Startups Aceleradas História de Empreendedorismo O CESAR.labs tem por objetivo estimular a criação de novos empreendimentos do estágio inicial (ainda na fase da ideia), até o produto ou primeiro cliente. Também visa desenvolver startups em estágio mais avançado que necessitam evoluir outros aspectos do seu modelo de negócio.
  • 15. Empreendedore s Antropólogos Engenheiros de Testes Pesquisadores Psicólogos Designers Ilustradores Jornalistas Software Engenheiros de Marketing Profissionais de Usabilidade Engenheiros de Artistas Plásticos Administrador de Sistemas de Projeto Gerentes Engenheiros Mecânicos Engenheiros de Comunicação disciplinar Engenheiro Eletrônico MULTI TIME
  • 17. SEGMENTOS DE MERCADO Projetos Clientes Segmentos Período de Nov/15 a Nov/16 Transporte Automação Comercial Eletroeletrônic o Infraestrutura de Telecom Saúd e Financeiro Mídia e comunicação Educaçã o TI Governo Comérci o Varejista Energia
  • 19. Análise de dados consiste no processo e metodologia de investigar dados brutos a fim de obter uma visão significativa. O que é análise de dados? Nós agora podemos ver o potencial ilimitado para obtenção de insights críticos através da aplicação de análise de dados. Por que está tão popular?
  • 20.
  • 22. De que quantidade de dados estamos falando?
  • 25. Dados... Mark Liberman constatou que, se fossem gravadas todas as palavras faladas pela humanidade (em todos os idiomas, digitalizadas em 16 bits e 16 kHz), seriam necessários 42 zettabytes para armazenar toda a gravação.
  • 27.
  • 28. Dados em que formato? ● Dados Estruturados ○ Bancos de Dados ● Dados Não Estruturados ○ Textos, vídeos, fotos, redes sociais
  • 29. Dados Estruturados ● Bancos de Dados ○ estruturados ○ confiáveis ○ coerentes ○ compartilhados por usuários que têm necessidade de informações diferentes
  • 33. SGBDs no Mercado ➔ Popularidade dos SGBDs por categoria, Set 2015. (www.db-engines.com) ➔ Número de SGBDs diferentes por categoria, Set 2015. (www.db-engines.com)
  • 34. SGBDs no Mercado ➔ Popularidade dos SGBDs por categoria, Abril 2018. (www.db-engines.com) ➔ Número de SGBDs diferentes por categoria, Abril 2018. (www.db-engines.com)
  • 35.
  • 36. Dados Ligados e Web Semântica
  • 37.
  • 38. Dados Ligados Dados ligados são disponibilizados em RDF
  • 40. 2018
  • 43. Data Warehouse vs Data Lake (Gartner)
  • 44. Analista de BI x Cientista de Dados
  • 53. Surge um novo (nem tanto) conceito
  • 54. Big Data? “O termo adotado pelo mercado para descrever problemas no gerenciamento e processamento de informações extremas as quais excedem as capacidades das tecnologias de informações tradicionais. Big Data está focado principalmente em questões de volume de conjunto de dados extremamente grandes gerados a partir de práticas tecnológicas, tais como mídia social, tecnologias operacionais, acessos à Internet e fontes de informações distribuídas. Big Data é essencialmente uma prática que apresenta novas oportunidades de negócios.” Gartner Group
  • 55. Big Data ● Termo utilizado no início dos anos 90, na NASA. ● Descrever grandes conjuntos de dados complexos que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento informacional.
  • 56. Big Data ● HOJE: as técnicas e ferramentas de captura, processamento, análise e armazenamento de dados não possuem limites. ● O problema está em como interpretar/utilizar essas informações, pois as informações estão disponíveis.
  • 57.
  • 58. Big Data - 5V`s Big Data Volume Velocidade VariedadeVeracidade Valor
  • 59. Big Data - Volume ▶ GBs, TBs, PBs de informações são geradas todos os dias os dias. ▶ Desafio: Armazenar, Transmitir e Processar esses dados em paralelo.
  • 60. Big Data - Velocidade ▶ O volume de dados crescente e a janela de tempo para a tomada de decisão é cada vez menor. ▶ Desafio: conseguir atender as demandas esperadas de entrega de dados no tempo ideal. ◦ Tempo curto para que o dado seja gerado ◦ Intervalo mínimo pela necessidade de acesso à informação
  • 61. Big Data - Variedade ▶ Tipos de informação são mais complexos e diversos. ▶ Desafio: Formas de armazenar e de interpretar. ◦ Várias fontes e formatos de dados ◦ Dados sem estrutura
  • 62. Big Data - Veracidade ▶ Incerteza da validade do dado. ◦ Fonte desconhecida ▶ Desafio: identificar quais dados devem ser considerados ou desconsiderados das análises
  • 63. Big Data - Valor ▶ Toda informação tem valor (estatístico, eventual, hipotético, correlações...) ▶ Desafio: Identificar a aplicação dos dados que se possui.
  • 64. Big Data? conceito em evolução… “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia. Mas o importante não é a quantidade de dados. E sim o que as empresas fazem com os dados que realmente importam. Big Data pode ser analisado para a obtenção de insights que levam a melhores decisões e direções estratégicas de negócio.” SAS - "Statistical Analysis System"
  • 65.
  • 66.
  • 67. Big Data ou Pokemon? https://pixelastic.github.io/pokemonorbigdata/
  • 68.
  • 70. Análise de dados em ação... ➔ Vírus H1N1 nos EUA ◆ O vírus H1N1, que combinava elementos das gripes aviária e suína, começou a se espalhar pelos EUA em 2009 ◆ O CDC (Center for Disease Control) só coletavam dados sobre a doença uma vez por semana. ◆ Usando os dados do CDC, as informações sobre a disseminação da gripe possuíam um lag de 2 semanas.
  • 71. Análise de dados em ação... ➔ Virus H1N1 nos EUA ◆ Quais vacinas seriam necessárias? Quando? Onde? ◆ Os planos de preparação e entregas de vacinas não tinham como se programar rápidos o suficiente para controlar a epidemia. E agora José!?
  • 72. Análise de dados em ação... ➔ Vírus H1N1 nos EUA ◆ O Google publicou um artigo sobre como eles poderiam prever a disseminação da gripe de inverno nos EUA. ◆ Esse artigo foi publicado na revista Nature duas semanas antes das primeiras notícias sobre a gripe H1N1. ◆ O método do google não usava dados médicos e de hospitais. ◆ Google usou análise de Big Data nos termos de pesquisa que as pessoas utilizavam. ◆ Se mostrou mais eficaz e rápido que o uso de dados do Governo.
  • 73. Análise de dados em ação... ➔ As aplicações de Oren Etzioni ◆ Em 2003, depois que ele soube que ele pagou mais por um bilhete de avião que o cara sentado ao seu lado, criou um programa que verificava sites de viagens para prever os preços das tarifas aéreas. Isso tornou-se Farecast. Ele vendeu para a Microsoft em 2008 por US $ 110 milhões e é agora uma parte de Bing. ◆ Em 2011, ele usou o que ele aprendeu no Farecast e lançou Decide.com para prever os preços de produtos vendidos eletronicamente. Dois anos depois, o Decide.com foi vendido ao eBay por algo em torno de $17 million.
  • 74. Análise de dados em ação... Fraldas e cerveja ● Um homem coagido por sua linda esposa a comprar um pacote de fraldas no caminho para casa do trabalho. ● Sexta-feira… Por que não comprar uma caixa de cerveja pra desopilar? ● A lenda diz que um estudo foi feito por uma loja de varejo. As descobertas foram que os homens entre os 30 e os 40 anos de idade, comprando fraldas entre as 17h e as 19h das sextas-feiras, eram mais prováveis de ter cerveja nos seus carrinhos. Isso motivou o supermercado a mover a ilha da cerveja mais perto da isca da fralda e bang!!!!! , aumento instantâneo de 35% nas vendas.
  • 75. Walmart Is Making Big Data Part Of Its DNA...
  • 76.
  • 77. ▶ Indexar, segmentar e responder comentários das pessoas de acordo com o conteúdo de seus textos, mapeando o humor dos clientes sobre uma marca e sendo proativo em soluções de problemas. ▶ Dificuldades: ◦ Produzir resultados inteiramente satisfatórios na análise semântica da língua portuguesa. ◦ Necessidade de mapeamentos manuais. Análise Semântica
  • 78. ▶ Identificar semelhanças e padrões de comportamento nos dados. ▶ Dividir o conteúdo ou os usuários em grupos semelhantes (clusters). ▶ Permite que ofertas adequadas sejam oferecidas de acordo com o padrão de compras do grupo. Análise de Cluster
  • 79. ▶ Visa descobrir qual será o comportamento ou projeção de algo do interesse (vendas de um produto, valorização na bolsa de valores, etc.) ▶ Fontes de Dados: o histórico atual e indicadores-chave. Análise Preditiva
  • 80. E aqui, qual análise?
  • 82. ▶ Fundada em 1911, a IBM fabrica e vende hardware e software, oferece serviços de infra-estrutura, de hospedagem e de consultoria nas áreas que vão desde computadores de grande porte até a nanotecnologia. ◦ Além de diversos produtos e pacotes de serviços para auxiliar na manipulação de Big Data. Casos - IBM
  • 83. ▶ A University of Ontario Institute of Technology (UOIT) é uma universidade pública de pesquisa, localizada em Ontario no Canada e fundada em 2002 IBM - UOIT
  • 84. ▶ Desafio: Para melhor detectar sinais sutis de complicações, os médicos precisam ganhar maior conhecimento sobre a condição de instante-a-instante dos pacientes. ▶ Solução: Criar uma plataforma de computação em fluxo para capturar e analisar dados em tempo real de monitores médicos, alertando a equipe do hospital para potenciais problemas de saúde antes que os pacientes manifestam sinais clínicos de infecção ou outras questões. Solução Inovadora! IBM - UOIT
  • 85. ▶ Resultados: Alerta precoce de potenciais complicações que dá a capacidade de lidar proativamente. ◦ Exemplo: detecção de infecções em recém-nascidos prematuros até 24 horas antes de apresentar sintomas. IBM - UOIT
  • 86. ▶ Benefícios para o negócio ◦ Tem o potencial de dar uma capacidade sem precedentes aos médicos para interpretar grandes quantidades de dados heterogêneos em tempo real, permitindo-lhes identificar tendências sutis; ◦ Combina os conhecimentos e experiências dos médicos e enfermeiras com os recursos de tecnologia para produzir resultados mais robustos do que é fornecido por meio de dispositivos de monitoramento sozinhos; ◦ Oferece uma plataforma flexível que pode se adaptar a uma grande variedade de acompanhamento médico IBM - UOIT
  • 87. ▶ É uma empresa americana de aluguel de automóveis localizada em 145 países. ▶ É a maior empresa de aluguel de automóveis nos EUA! IBM - Hertz
  • 88. ▶ Desafio: Necessidade de melhorar o serviço, ouvindo clientes e reunindo milhares de comentários via web, e-mail e texto mensagens. ◦ Cada comentário era lido e categorizados e indexado manualmente em relatórios de serviço. inconsistências foram a um nível inaceitável. ◦ O desejo era alavancar essa percepção em tanto a nível estratégico como a nível local para conduzir melhorias operacionais. ▶ Fontes de Dados: quantidade incrível de visão/opinião do cliente diariamente, incluindo: milhares de comentários de web pesquisas, emails e textos mensagens. IBM - Hertz
  • 89. ▶ Solução: ◦ Usando o gerenciamento de feedback e análise de conteúdo de software, os comentários são capturados em tempo real para serem transformados em inteligência acionável. ◦ Regras linguísticas para analisar automaticamente e marcar o conteúdo não estruturado em categorias significativas de relatórios de serviços. ▶ Benefícios para o negócio: ◦ Processo automatizado aumentou a consistência do relatório; ◦ Gerentes liberados de análise manual de comentários; ◦ Dobro de comentários analisados IBM - Hertz
  • 90. ▶ Intitulam-se como sendo “líder global no fornecimento de soluções de negócios e serviços comprovados, no setor de tecnologia.” ◦ A CSC é uma das cinco maiores companhias globais de Serviços de TI, segundo Gartner e IDC. ▶ Tem 74.000 empregados e está em mais de 70 países. Casos - CSC
  • 91.
  • 92. ▶ Desafio: ◦ Melhorar a velocidade de execução em alta resolução e modelos mais complexos do clima global. ◦ Aumentar as capacidades do sistema de supercomputação . ◦ Melhorar a gestão do aumento exponencial de volumes de dados. ▶ Solução: ◦ Administrar o cluster de computação de alto desempenho Discover, que tem mais de 35.000 CPUs. ◦ Desenvolver, operar e manter a visualização. ◦ Gerenciar mais de 25 petabytes de ciência do clima . CSC - NASA
  • 93. ▶ Resultados: ◦ Simulação atmosférica mais alta resolução de seu tipo ◦ Modelagem de dois anos de clima da Terra. ◦ Em cinco anos , o desempenho do cluster de computação aumentou 130 vezes. ◦ Criado o Wall Visualization 17 por 6 metros - uma nova ferramenta para os cientistas do clima. CSC - NASA
  • 94. ▶ Desafio: Falta de controle sobre quais informações foram sobrepostas ou atualizadas. Possibilidade de erros graves na tomada de decisões e relatórios regulamentares. ▶ Solução: ◦ Projetar e construir um único repositório confiável de dados usando a capacidade de virtualização de dados. ◦ Gerenciar a integração de dados centrais, com milhares de aplicativos de negócios do banco. CSC - Major Global Investment Bank
  • 95. ▶ Resultados: ◦ Redução dos riscos de tomada de decisão; ◦ Facilitação e verificação do cumprimento das regras ◦ Fornecimento de mais valor agregado aos usuários finais. CSC - Major Global Investment Bank
  • 96. ▶ Desafio: Reunir a maior quantidade de dados de saúde. ▶ Solução: Conceber e desenvolver um sistema de integração de dados de mais de 40 empresas associadas, chamado BHI. CSC – Blue Cross and Blue Shield
  • 97. ▶ Resultados: ◦ O armazém é capaz de processar informações sobre: médicos e doenças, além de reclamações de 90 a 100 milhões de pessoas. ⚫ Proporcionando ao cliente com enorme vantagem competitiva. ◦ Maior transparência de saúde ⚫ Fornecimento de detalhes sem igual sobre as tendências e as melhores práticas. CSC – Blue Cross and Blue Shield
  • 98. ▶ Gartner: ◦ Empresa de consultoria fundada em 1979 ◦ Sediada em Stamford, Connecticut, Estados Unidos ◦ Desenvolve tecnologias relacionadas a introspecção necessária para seus clientes tomarem suas decisões todos os dias. Casos - Gartner
  • 99. Gartner - Danone ▶ Multinacional francesa, fundada em 1919, de sub-produtos alimentares: ◦ Produtos lácteos, ◦ Água engarrafada, ◦ Cereais, ◦ Alimentos para bebês, e ◦ Iogurtes
  • 100. ▶ Desafio: ◦ Na indústria de alimentos, como a do iogurte Grego, o desafio é produzir e distribuir o produto com agilidade devido ao seu prazo de validade. ◦ A Danone dos Estados Unidos precisava conhecer a demanda para conseguir maximizar a venda do produto e garantir que a produção não se exceda, a fim de evitar desperdícios ◦ A predição da demanda era feita a partir do Excel, o que não trazia funcionalidade. Gartner - Danone
  • 101. ▶ Fontes de Dados: a empresa otimizou o processo de predição de demanda com a integração de: ◦ Dados históricos, ◦ Dados das Regionais e ◦ Dados de mercado (informações sobre consumidores e preços) ▶ Objetivo: prever vendas e promoções complementares Gartner - Danone
  • 102. ▶ Resultado: melhora da previsão de demanda de 70% para 98%; conseguiram triplicar a cota de mercado do iogurte Grego a partir de análises de região e preço. Gartner - Danone
  • 103. ▶ Rede de lojas de departamento fundada em 1851 e sediada em Nova Iorque. ▶ Possui um total de 850 lojas espalhadas pelos Estados Unidos, Havai, Porto Rico e Guam. Gartner - Macy’s
  • 104. ▶ Rede de lojas de departamento fundada em 1851 e sediada em Nova Iorque. ▶ Possui um total de 850 lojas espalhadas pelos Estados Unidos, Havai, Porto Rico e Guam. Gartner - Macy’s
  • 105. ▶ Desafio: ◦ A rede de lojas de departamento americana tem que gerenciar um crescimento anual de 50% de dados de venda e inventário de mais de 73 milhões de itens ▶ Fonte de Dados: ◦ Informações que já possuíam no banco de dados ◦ Amplo portfólio de ferramentas (como Hadoop, R, Cloudera, SAS, Vertica e Tableau) ◦ Experiência de um time de cientista de dados Gartner - Macy’s
  • 106. ▶ Objetivos: Otimizar a cadeia de distribuição baseado em modelos analíticos, fazendo com que produtos tenham rotatividade e não fiquem parados no estoque. ▶ Resultados: redução do tempo gasto para fazer essas análises de preços de 27 horas para uma hora; 70% na redução de custo com hardware. Gartner - Macy’s
  • 107. ▶ Acrônimo para United Parcel Service. ▶ É a maior empresa de transporte e logística no mundo, fundada em 1907. ▶ UPS entrega mais de 15 milhões de pacotes por dia para mais de 6,1 milhões de clientes em mais de 220 ​​países e territórios. Gartner - UPS
  • 108. ▶ Desafio: Minimizar o alto custo e baixa segurança da frota de caminhões. ▶ Fonte de Dados: ◦ Sensores telemáticos em mais de 46 mil veículos capazes de captar dados como: ⚫ Velocidade, ⚫ Direção, ⚫ RPM, ⚫ Pressão e ⚫ Informações de localização. Gartner – Caso UPS
  • 109. ▶ Objetivos: Otimizar as rotas de trajeto feita pela sua frota caminhões e aumentar a segurança dos motoristas ▶ Resultados: ◦ Economia de 4,8 milhões de litros de gasolina por ano; ◦ Redução de manutenção e acidentes através da eliminação de 85 milhas da rota diária. Gartner – Caso UPS
  • 111. ▶ Acrônimo para National Oceanic & Atmospheric Administration. ▶ Organização que faz parte do Departamento de Comércio dos Estados Unidos da América, para assuntos sobre meteorologia, oceanos, atmosfera e clima. Objetiva: ◦ Advertir sobre perigos no tempo e mares, ◦ Guiar o uso e a proteção do oceano e de recursos litorâneos, e ◦ Conduzir pesquisas para melhorar a compreensão do meio-ambiente. Gartner – NOOA
  • 112. ▶ Desafio: Gerar renda a partir do acúmulo de informações ▶ Fonte de Dados: Coleção anual de 30 petabytes de dados gerados a partir de 2.5 bilhões de observações atmosféricas e oceânicas diárias via satélite e outros sensores. Gartner – Caso NOOA
  • 113. ▶ Objetivos: Monetizar os dados sobre previsão de tempo para diversos fins a partir da aplicação de modelos sofisticados de predição ▶ Resultados: ◦ Criação de diversos produtos (gratuitos e pagos) baseados nessas informações preditivas sobre o tempo para o setor público e privado; ◦ Prevenção de riscos; e ◦ Alertas climáticos. Gartner – Caso NOOA
  • 116. Processo de Análise de Dados
  • 117. ▶ Fase de Questionamentos ◦ Quais as características dos clientes? ◦ Como dispor meu estoque? ▶ Dados ◦ Aquisição ◦ Limpeza ▶ Exploração ◦ Intuição ◦ Padrões Processo de Análise de Dados
  • 118. ▶ Análise / Conclusão / Predição ◦ Prever que produtos o cliente irá gostar ◦ Concluir que certos cliente provavelmente não vão comprar certos produtos ◦ Normalmente requer estatística ou aprendizagem de máquina ▶ Compartilhamento / Comunicação ◦ Artigo, email, post… ◦ Visualização de dados é quase sempre útil Processo de Análise de Dados
  • 119. Processo de Análise de Dados Questão/ Pergunta Dados Exploração Análise/ Conclusão Compartilhamento/ Comunicação ▶ O Processo nem sempre segue uma linha reta ◦ Como limpar os dados sem explorá-los antes? ◦ Durante todo o processo é comum voltar às perguntas, uma vez que a familiaridade com os dados aumenta. ◦ Por vezes, os dados estão disponíveis antes de se pensar em uma questão. Pode-se então pensar em que perguntas podem ser respondidas por eles.
  • 121. Visualização no processo de análise de dados
  • 122. Visualização no processo de análise de dados ▶ Quaisquer dados, sejam grandes ou pequenos, são insignificantes sem uma forma adequada de organizar e apresentar as informações importantes neles. ▶ Visualização não é apenas uma forma de apresentar os dados, mas uma forma de explorá-los e entendê-los.
  • 124. ➔ A visualização será a chave para tornar os dados grandes parte integrante do processo de decisão ➔ A visualização será a única maneira de fazer big data acessível a um grande público. ➔ A visualização será essencial para a análise de big data para que se possa extrair um maior valor dos dados. Visualização pode ser o maior dos Vs em Big Data
  • 125. Big Data em Smart Cities 47,5% - Modelos Teóricos 30% - Técnicas de Visualização e Reconhecimento de Padrões 12,5% - Frameworks Sensores e Serviços 10% - Análise de Redes Sociais Panorama dos trabalhos acadêmicos em 2014
  • 126. Análise Visual em Big Data ➔ Análise visual é a ciência do raciocínio analítico facilitado por interfaces visuais interativos. ➔ Técnicas e ferramentas de visualização são utilizadas para ◆ Sintetizar informações e obter uma visão a partir de dados em massa, dinâmicos, ambíguos, e muitas vezes conflitantes ◆ Detectar o esperado e descobrir o inesperado ◆ Fornecer avaliações oportunas, defensáveis e compreensíveis ◆ Definir ações a partir das avaliações
  • 127. Origem da Visualização de Informações?
  • 128. ▶ Quarteto de Anscombe
  • 129. ▶ Quarteto de Anscombe
  • 130. ▶ Este é o poder das visualizações, elas revelam relacionamentos subjacentes que você não pode ver a partir dos próprios dados.
  • 131. Uma visualização vale mais que mil linhas… ➔ Outro aspecto da visualização de dados é que você pode empacotar uma grande quantidade de números em uma pequena área física.
  • 132. Visualização de Dados ▶ Tipos de dados ◦ Quantitativo ⚫ Contínuo ⚫ tempo, altura, peso, dinheiro, taxas de juros, temperatura ⚫ Discreto ⚫ unidades vendidas, número de idiomas falados, número de e-mails recebidos ontem
  • 133. ▶ Tipos de dados ◦ Qualitativo ⚫ Categórico ⚫ gênero, cor do cabelo, país, indústria, raça do gato ⚫ Ordinal ⚫ rankings, perguntas de pesquisa como "Como você se sente sobre gatos?" i. odeio eles ii. negativo iii. neutro iv. positivo v. Amo eles com todo o meu ser Visualização de Dados
  • 134.
  • 136. Não faça nenhum mal...
  • 137.
  • 138. ▶ 200 países x 200 anos em 4 minutos
  • 139. ▶ Formas de visualizar dados massivos
  • 140. Quais os principais players em Análise Visual de Dados?
  • 141. Como trabalhar esses os dados?
  • 143. Principais Questões ● Uma vez que eu consigo centralizar todos os dados da minha empresa, como eu consigo processar esses dados? ● Como eu devo processar os dados já que eu não consigo efetuar uma conta com tudo em uma única máquina? ● Como tornar o processamento dos dados escalável?
  • 144. Principais Questões ● Como fazer uso do poder da Cloud no processamento destes dados? ● Qual é a estrutura do código que trabalha com Big Data na Cloud?
  • 145. Infraestrutura Física ● Requisitos: ○ Desempenho: um parâmetro importante é a latência e o tempo de resposta. ○ Disponibilidade: uptime, tempo médio entre falhas. ○ Escalabilidade: quão fácil a infra estrutura pode ser ampliada ou reduzida em função da dinâmica do negócio. ○ Flexibilidade: quão rapidamente a infraestrutura pode ser alterada e recuperar-se de falhas. ○ Custo: quer pagar quanto??
  • 148. Desafios das soluções distribuídas... ➔ Complexidade de programação ➔ Limite de banda ➔ Falhas parciais ➔ O gargalo dos dados
  • 149. Hadoop ➔ Nova abordagem para computação distribuída ➔ Um sistema distribuído escalável e tolerante a falhas para armazenamento e processamento de dados. ◆ Distribui os dados no momento do armazenamento. ◆ Processa os dados localmente ◆ Redundância
  • 150. Hadoop
  • 154. Nodes ➔ NameNode ◆ Master do sistema ◆ Mantém e gerencia os blocos que estão presentes nos DataNodes ➔ DataNode ◆ Slaves que estão implementados em cada máquina e proveem o armazenamento atual. ◆ Responsáveis por ler e escrever requisições para os clientes ➔ Job Tracker ◆ Toma conta de toda a rotina de jobs e define tarefas aos Task trakers.
  • 155. HDFS
  • 157. O que faz o Hadoop único
  • 160. Cloudera CDH - Quick Start
  • 162. A natureza do Python faz dele uma perfeita opção para análise de dados ○ Fácil de aprender ○ Legível ○ Escalável ○ Extenso conjunto de bibliotecas ○ Fácil comunicação com outras aplicações ○ Comunidade ativa Python como uma ferramenta de análise de dados
  • 163. Bibliotecas para análise de dados em Python
  • 164. ○ Comercial ○ Interface Gráfica ○ Fácil e Conveniente Ferramentas comerciais vs. Python ○ Open source ○ Command line interface (CLI) ○ Inconveniente, mas poderoso
  • 165. O que usaremos neste módulo... ● Versão do Python: Python 3 ● Ambiente de Análise de Dados: Jupyter Notebook ● Data Analytics Software Toolkit: Anaconda ● Bibliotecas: ○ NumPy & Pandas para análise ○ Matplotlib para visualização ○ S3fs para para carregamento dos dados ○ Gmaps para visualização de mapas
  • 166. iPython & Jupyter Notebook iPython é um shell de comando Python para computação interativa O Jupyter Notebook (o antigo iPython Notebook) é um ambiente interativo de análise de dados baseado na Web que suporta iPython
  • 169. Pandas ● Stands for “Python Data Analysis Library” ● Takes data (like a CSV or TSV file, or a SQL database) and creates a Python object with rows and columns called data frame ● In order to use Pandas in your Python IDE like Jupyter Notebook, you need to import the Pandas library first
  • 170. Pandas Usual applications of pandas ● Convert a Python’s list, dictionary or Numpy array to a Pandas data frame ● Open a local file using Pandas, usually a CSV file, but could also be a delimited text file (like TSV), Excel, etc ● Open a remote file or database like a CSV or a JSONon a website through a URL or read from a SQL table/database
  • 171. Viewing and Inspecting Data ● df.head([n]) - first n rows ● df.tail([n]) - the last n rows ● df.shape - the number of rows and columns ● df.info() - the index, datatype and memory information ● df.describe() - summary statistics for numerical columns Pandas
  • 172. ● df.mean() - Returns the mean of all columns ● df.corr() - Returns the correlation between columns in a data frame ● df.count() - Returns the number of non-null values in each data frame column ● df.max() - Returns the highest value in each column ● df.min() - Returns the lowest value in each column ● df.median() - Returns the median of each column ● df.std() - Returns the standard deviation of each column Pandas
  • 173. Pandas É possível fazer a seleção de colunas específicas de um data frame ● df[col] - return column with label col ● df[[col1, col2]]) - returns columns as a new DataFrame É possível também ordenar os valores ● df.sort_values(col1) ● df.sort_values(col2,ascending=False) ● df.sort_values([col1,col2],ascending=[True,False])
  • 174. Pandas Agrupamento ● df.groupby(col) - returns a groupby object for values from one column ● df.groupby([col1,col2]) - returns a groupby object for values from multiple
  • 177. SPARK
  • 178. Processamento Spark Apache Spark™ is a unified analytics engine for large-scale data processing.
  • 179. Processamento Spark ● Modelo de Execução ○ Batch é suportado ○ Streaming é suportado ● Latência ○ Baixa ● Escalabilidade ○ Suportado ● Suporte a Linguagem de Programação ○ Scala, Python, Java e R ● Tolerância a Falha ○ Suportado
  • 180. Processamento Spark ● Apresenta uma SDK completa em crescente evolução ● Realiza o processamento MapReduce em memória ● Suporta carregamento de dados de diversos tipos de fontes e sistemas ● Disponibiliza recursos integrados que são utilizados em diferentes etapas do processamento dos dados ● Se tornou uma ferramenta completa que é útil em diversos cenários
  • 181. Spark
  • 182. Resilient Distributed Datasets (RDD) ● Datasets ○ Estrutura de dados que armazena blocos de dados ○ Novos RDDs podem ser gerados a partir de um ou mais RDDs ○ Dados de diversos formatos e sistemas podem ser carregados em um RDD
  • 183. Resilient Distributed Datasets (RDD) ● Distributed ○ Os dados do RDD são distribuídos nas máquinas do cluster ○ Spark decide automaticamente o particionamento dos dados para otimizar performance ○ Operações como Map e Reduce acontecem de maneira distribuída em um RDD
  • 184. Resilient Distributed Datasets (RDD) ● Resilient ○ Capacidade de recuperar suboperações de nós que falharam ○ Spark mantém um histórico das partições de dados e operações sendo realizadas, para conseguir repetir operações que falharam em outro nó ■ Depois de algunas tentativas, o Spark para de tentar e finaliza o job com erro. Isso acontece em uma situação de bug no código, ou nos dados
  • 185. Spark
  • 186. Processamento de RDDs ● Um RDD pode ser criado a partir de um ou mais RDDs ● Transformations são operações que geram RDDs a partir de outros RDDs ● Actions são operações que coletam o resultado das Transformations ● O código das Transformations só é executado quando uma Action é executada ○ Spark tem um otimizador e decide como as transformações serão executadas com melhor performance