BIG DATA
WORKSHOP
humberto@humbertomoura.com.br
Humberto Moura
CONCEITOS 2
"Big Data são ativos de informação de alto volume, velocidade e
variedade que exigem formas rentáveis e inovadoras de processamento
de informação para maior insight e tomada de decisão.” (Gartner, 2013).
"Big Data é um termo que descreve dados variáveis, complexos, de
grande volume e de alta velocidade que exigem técnicas e tecnologias
avançadas para permitir a captura, armazenamento, distribuição,
gerenciamento e análise da informação.” (TechAmerica , 2012)
TÓPICO 3
BIG DATA
3
Volume,
Velocidade,
Variedade,
Veracidade,
Valor
CARACTERÍSTICAS TRADICIONAIS DOS DADOS 4
Números;
Gerado por aplicações (ERP, CRM…);
Banco de Dados bem definidos;
Os atributos dos dados dificilmente mudam;
Estão dentro da empresa;
O armazenamento é centralizado.
PROCESSAMENTO TRADICIONAIS DOS DADOS 5
Pequenas distâncias entre origem e uso;
Transferências instantâneas;
Tela para banco de dados;
Banco de dados / processamento / banco de dados
Banco de dados para relatórios;
Validação dos dados na origem;
Dados resumidos e calculados.
ARQUITETURA DOS DADOS TRADICIONAL 6
Armazenamento dos dados Centralizados;
3 Camadas (Persistência, Lógica e Apresentação)
Mudanças requerem projetos de ciclo de vida
completos.
DESAFIOS DOS DADOS TRADICIONAL 7
Não é possível manipular processamento de texto de forma econômica;
Não é possível manipular dados incompletos e não confiáveis;
Alto custo de armazenamento de texto (Hardware e Software);
Backup e restore consomem muito tempo;
Alto gerenciamento / custo de licenciamento;
Mudanças no banco tomam muito tempo para refazer aplicação.
CARACTERÍSTICAS APLICAÇÕES BIG DATA 8
Dados estão na faixa de Tera ou Peta Bytes
Mais do que uma origem dos dados;
Dados de texto ou mídia (áudio, vídeo, imagens…);
Carga de processamento gigantesca;
Processamento de streaming em tempo real;
Análises avançadas;
Custo de manipulação relativamente barato;
MODELO BIG DATA 9
OBTER
TRANSPORTAR
TRANSFORMAR
PERSISTIR
REPORTAR
ANALISAR
GERENCIAR
MODELO BIG DATA 10
OBTER
Arquivos (texto, cvs, json, xml…)
SGBDR (SQL, Joins, Group By…)
REST
Streaming
MODELO BIG DATA 11
Mover /copiar arquivos
SFTP
Apache Sqoop
TRANSPORTAR
MODELO BIG DATA 12
Arquivos
SGBD
HDFS
PERSISTIR
MODELO BIG DATA 13
Limpar
Filtrar
Padronizar
Enriquecer
Integrar
TRANSFORMAR
MODELO BIG DATA 14
Extrair dados da persistência
Autenticação
tempo real
gráficos
REPORTAR
MODELO BIG DATA 15
Descritiva: entender o que aconteceu;
Exploratória: Descobrir porque algo aconteceu;
Inferência: a população de uma amostra;
Preditiva: previsão do que vai acontecer;
Causal: O que acontece com uma variável se mudar outra;
Deep: Técnica avançada para grandes dados e múltiplas origens.
ANALISAR Tipos de Análise
MODELO BIG DATA 16
ANALISAR
INTRODUÇÃO AO TABLEAU 17
http://
download.inep.gov.br//
educacao_basica/
enem/
enem_por_escola/
2015/
Planilhas_Enem_2015_
download.xlsx
Download para prática:
http://www.tableau.com/pt-br/products/desktop
OBRIGADO! 18
OBRIGADO!

Big data - Conhecendo as Tecnologias

  • 1.
  • 2.
    CONCEITOS 2 "Big Datasão ativos de informação de alto volume, velocidade e variedade que exigem formas rentáveis e inovadoras de processamento de informação para maior insight e tomada de decisão.” (Gartner, 2013). "Big Data é um termo que descreve dados variáveis, complexos, de grande volume e de alta velocidade que exigem técnicas e tecnologias avançadas para permitir a captura, armazenamento, distribuição, gerenciamento e análise da informação.” (TechAmerica , 2012)
  • 3.
  • 4.
    CARACTERÍSTICAS TRADICIONAIS DOSDADOS 4 Números; Gerado por aplicações (ERP, CRM…); Banco de Dados bem definidos; Os atributos dos dados dificilmente mudam; Estão dentro da empresa; O armazenamento é centralizado.
  • 5.
    PROCESSAMENTO TRADICIONAIS DOSDADOS 5 Pequenas distâncias entre origem e uso; Transferências instantâneas; Tela para banco de dados; Banco de dados / processamento / banco de dados Banco de dados para relatórios; Validação dos dados na origem; Dados resumidos e calculados.
  • 6.
    ARQUITETURA DOS DADOSTRADICIONAL 6 Armazenamento dos dados Centralizados; 3 Camadas (Persistência, Lógica e Apresentação) Mudanças requerem projetos de ciclo de vida completos.
  • 7.
    DESAFIOS DOS DADOSTRADICIONAL 7 Não é possível manipular processamento de texto de forma econômica; Não é possível manipular dados incompletos e não confiáveis; Alto custo de armazenamento de texto (Hardware e Software); Backup e restore consomem muito tempo; Alto gerenciamento / custo de licenciamento; Mudanças no banco tomam muito tempo para refazer aplicação.
  • 8.
    CARACTERÍSTICAS APLICAÇÕES BIGDATA 8 Dados estão na faixa de Tera ou Peta Bytes Mais do que uma origem dos dados; Dados de texto ou mídia (áudio, vídeo, imagens…); Carga de processamento gigantesca; Processamento de streaming em tempo real; Análises avançadas; Custo de manipulação relativamente barato;
  • 9.
    MODELO BIG DATA9 OBTER TRANSPORTAR TRANSFORMAR PERSISTIR REPORTAR ANALISAR GERENCIAR
  • 10.
    MODELO BIG DATA10 OBTER Arquivos (texto, cvs, json, xml…) SGBDR (SQL, Joins, Group By…) REST Streaming
  • 11.
    MODELO BIG DATA11 Mover /copiar arquivos SFTP Apache Sqoop TRANSPORTAR
  • 12.
    MODELO BIG DATA12 Arquivos SGBD HDFS PERSISTIR
  • 13.
    MODELO BIG DATA13 Limpar Filtrar Padronizar Enriquecer Integrar TRANSFORMAR
  • 14.
    MODELO BIG DATA14 Extrair dados da persistência Autenticação tempo real gráficos REPORTAR
  • 15.
    MODELO BIG DATA15 Descritiva: entender o que aconteceu; Exploratória: Descobrir porque algo aconteceu; Inferência: a população de uma amostra; Preditiva: previsão do que vai acontecer; Causal: O que acontece com uma variável se mudar outra; Deep: Técnica avançada para grandes dados e múltiplas origens. ANALISAR Tipos de Análise
  • 16.
    MODELO BIG DATA16 ANALISAR
  • 17.
    INTRODUÇÃO AO TABLEAU17 http:// download.inep.gov.br// educacao_basica/ enem/ enem_por_escola/ 2015/ Planilhas_Enem_2015_ download.xlsx Download para prática: http://www.tableau.com/pt-br/products/desktop
  • 18.