Big data
1
Introdução
O que é Big Data
Modelo DIKW
4 V´s
7 V´s
Buzzword e Gartner Hypecycle
Big Data – Hard e Soft Skills
Carreiras
Arquiteturas Big Data
Casos de Uso
Conteúdo disponível Big Data e Analytics
AGENDA
2
Edgar – Who am I ?
CTO | Data Architect | Researcher | Digital Mkteer | d.thinker | DevOps |
Cloud Products SME | Serial Entrepreneur
3
Big Data – O que é ?
4
BIG
5
DATA = DADOS
6
D I K W – Modelo
7
DIK – U - W – Outro exemplo
8
DIKW e outros modelos
9
D de DADO
FATOS DISCRETOS SOBRE UM DETERMINADO EVENTO
EXEMPLOS:
- DATA E HORA NA QUAL UM DETERMINADO INCIDENTE FOI
REGISTRADO
-LOG DE SISTEMAS
10
I de INFORMAÇÃO
PROVEM DA INTERPRETAÇÃO,
QUANTIFICAÇÃO E CONTEXTUALIZAÇÃO
DOS DADOS
EXEMPLOS:
- TEMPO MÉDIA ENTRE A OCORRENCIA DE
DOIS INCIDENTES
- A CADA 5 MIN SÃO GERADOS 25 LOG DE
SISTEMA
11
K de KNOWLEDGE
EXPERIÊNCIAS, IDÉIAS, INSIGHTS, VALORES, ANÁLISES INDIVIDUAIS E
MULTI-DIMENSIONAIS
EXEMPLO: O TEMPO MÉDIO DE
RESOLUÇÃO DE INCIDENTES DE
PRIORIDADE 2 AUMENTOU EM
15% APÓS O DEPLOY DO NOVO
RELEASE.
12
W de WISDOM
FAZER USO DO CONHECIMENTO PARA CRIAR VALOR ATRAVÉS DE
DECISÕES CORRETAS E SUPORTADAS POR INFORMAÇÕES
EXEMPLO: FOI IDENTIFICADO
AUMENTO NO TEMPO MÉDIO
DE RESOLUÇÃO DE INCIDENTES
COM PRIORIDADE 2 DEVIDO O
BAIXO NÍVEL DE
DOCUMENTAÇÃO
OPERACIONAL.
13
BIG DATA -> ++ WISDOM
OPERAÇÕES:
• Determinar a causa raiz de falhas, problemas e defeitos em near real-time;
MARKETING:
• Gerar cupons no ponto de venda com base em hábitos de compra dos clientes;
• Recomendar produtos relacionados entre sí, através do espelhamento de perfis
de consumo e ticket médio.
FINANCEIROS:
• Recalcular carteiras de risco inteiras, em questão de minutos;
• Detectar comportamentos fraudulentos antes que eles afetem sua organização.
14
4 V´s do Bigdata
TIP: Embora o termo "big data" é relativamente novo. Foi cunhado no
início dos anos 2000 proveniente do ato de recolher e armazenar
grandes quantidades de informações para eventual análise.
15
Dilbert e o Big Data
16
4 V’s tornaram-se pouco para definir big data
e no momento são 7 v’s...
• Pois é, O big data é complexo. Chegou digital, complexo, “atropelando” e
disruptivo e representou um desafio às tecnologias existentes
• Verificou-se que nem todos os tipos de dados considerados BIG, possuiam os
principais atributos – Volume, Variedade, Velocidade e Veracidade.
• Algumas dimensões somente ganham significado em volume: variedade e
veracidade. E mais recentemente novas considerações “V´s” foram
adicionadas ao processo de análise: Valor, Visibilidade, Variabilidade.
• Em resumo: devem ser levados em consideração todas as características
possíveis, relevantes, “que explicam” (Segundo os estatísticos) e ainda
haverá dúvidas sobre o que está sendo observado.
17
Volume
• Volume é o que é: muitos dados. Imagens, meta-dados, contextos,
tags, geo, stream.
18
Variedade
• Variedade diz respeito aos vários formatos em que o
dado é gerado, muitas vezes não está numa única
forma (perfeitamente estruturada em colunas), pode
conter imagens, mensagens e-mail, planilhas,
conversas de mídia social e mídia streaming.
Atualmente, não existe um "one-size -fits-all" para
abordagem universal.
19
Velocidade
• Velocidade - Pode ser interpretada de duas maneiras,
necessidade de armazenamento rápida (ingestão) ou
a manutenção de dados que são “sensíveis” ao tempo
(é um metadado = timestamp). Um exemplo é a
definição de perfis em tempo real de anúncios de
exibição na internet personalizadas de acordo com
seu padrão de uso.
20
Veracidade
•Veracidade – conforme os fatos, padronizado
com precisão e exatidão.
– Será que precisamos de um corretor
ortográfico para obter a consistência dos dados ?
Big Data – Veracidade = Inferências incorretas
estão sendo consideradas ?
21
Validade
•Validade - O dado interpretado deve fazer
sentido, ter uma lógica ou fato resultante de
uma inferência sustentável.
Um dos erros mais comuns é confundir
correlação com causa.
Volume - Validity = Worthlesness?
22
Valor
•Valor - o que importa, o que vale, o motivo pelo
qual o dado é “consumido”– provavelmente o
mais relevantes às organizações.
Dados entrando e saindo por si só não
representam necessariamente valor.
Big Data – transações = Dados + Valor?
23
Visibilidade
• Visibilidade - é a capacidade de ver ou ser visto. Dados
de fontes diversas precisam ser vinculadas através de
processos, métodos e tecnologias.
Dados estratégicos geram visões críticas e podem
permanecem disponíveis, mas não necessariamente
visíveis à todos.
Big Data – visibilidade = Buraco Negro?
24
Variabilidade
• Variabilidade - Além da velocidade e variedade de dados
cada vez maiores, os fluxos de dados podem ser altamente
inconsistentes com picos periódicos/sazonalidade.
Diariamente, picos de dados sazonais ou picos gerados com
base em eventos podem ser um desafio de gerenciar. Ainda
mais quando falamos de dados não estruturados.
Big Data + Social Media = Espelhamento digital ?
25
Buzzwords
26
Data Science – Analytics & Insigths
• Hoje em dia podemos dizer que é uma
metodologia. Consiste em aplicar
simultaneamente técnicas de Estatística,
Programação e Mineração de Dados a um
conjunto de dados, com o intuito de descobrir
padrões significativos, não triviais.
27
GartnerHypeCycle
28
E na prática – o que eu preciso saber ?
É importante lembrar que o valor principal de big data não vem dos
dados em sua forma bruta, mas do processamento e análise destes
dados, insights e ações (produtos e serviços) que surgem desta análise.
As mudanças bruscas nas tecnologias e abordagens gerenciais de big
data são precursores das mudanças dramáticas que vivenciaremos nas
em organizações inovadoras em nos respectivos produtos e serviços.
Interpretação de texto do Thomas H. Davenport em Big Data em Grandes Empresas
29
Data Jobs Hard and Soft Skills
HARD SKILLS
• Estatística
• Data Mining
• Machine Learning
• R ou Python
• Data Visualization
• Data Warehouse / Architecture
• Programação / Algorítimos
SOFT SKILLS
• Curiosidade
• Narrativa / Storytelling
• Generalista
• Conhecimentos de mercado
• Associação de Problemas
• Resolução de Problemas
30
Skills by Job Role Simplified with... A vai...
31
32
33
34
35
36
37
38
39
40
Maturidade Organiz. em Análise de Dados
41
Arquiteturas Big Data
em Cloud
42
Elastic Products
43
Pivotal
44
Microsoft
45
Hortonworks
46
Oracle vision
47
New DW – Big data - Oracle
48
Big Data – Complexity
49
Big Data – AWS use cases references
On-Demand Big
Data Analytics
Data
Warehousing
50
Big Data – AWS use cases references
Event-driven
(ETL)
Smart
Applications
Clickstream
Analysis
51
Conteúdos Disponíves
52
Métricas, métricas, visualizações sem fim...
53

BIG data

  • 1.
  • 2.
    Introdução O que éBig Data Modelo DIKW 4 V´s 7 V´s Buzzword e Gartner Hypecycle Big Data – Hard e Soft Skills Carreiras Arquiteturas Big Data Casos de Uso Conteúdo disponível Big Data e Analytics AGENDA 2
  • 3.
    Edgar – Whoam I ? CTO | Data Architect | Researcher | Digital Mkteer | d.thinker | DevOps | Cloud Products SME | Serial Entrepreneur 3
  • 4.
    Big Data –O que é ? 4
  • 5.
  • 6.
  • 7.
    D I KW – Modelo 7
  • 8.
    DIK – U- W – Outro exemplo 8
  • 9.
    DIKW e outrosmodelos 9
  • 10.
    D de DADO FATOSDISCRETOS SOBRE UM DETERMINADO EVENTO EXEMPLOS: - DATA E HORA NA QUAL UM DETERMINADO INCIDENTE FOI REGISTRADO -LOG DE SISTEMAS 10
  • 11.
    I de INFORMAÇÃO PROVEMDA INTERPRETAÇÃO, QUANTIFICAÇÃO E CONTEXTUALIZAÇÃO DOS DADOS EXEMPLOS: - TEMPO MÉDIA ENTRE A OCORRENCIA DE DOIS INCIDENTES - A CADA 5 MIN SÃO GERADOS 25 LOG DE SISTEMA 11
  • 12.
    K de KNOWLEDGE EXPERIÊNCIAS,IDÉIAS, INSIGHTS, VALORES, ANÁLISES INDIVIDUAIS E MULTI-DIMENSIONAIS EXEMPLO: O TEMPO MÉDIO DE RESOLUÇÃO DE INCIDENTES DE PRIORIDADE 2 AUMENTOU EM 15% APÓS O DEPLOY DO NOVO RELEASE. 12
  • 13.
    W de WISDOM FAZERUSO DO CONHECIMENTO PARA CRIAR VALOR ATRAVÉS DE DECISÕES CORRETAS E SUPORTADAS POR INFORMAÇÕES EXEMPLO: FOI IDENTIFICADO AUMENTO NO TEMPO MÉDIO DE RESOLUÇÃO DE INCIDENTES COM PRIORIDADE 2 DEVIDO O BAIXO NÍVEL DE DOCUMENTAÇÃO OPERACIONAL. 13
  • 14.
    BIG DATA ->++ WISDOM OPERAÇÕES: • Determinar a causa raiz de falhas, problemas e defeitos em near real-time; MARKETING: • Gerar cupons no ponto de venda com base em hábitos de compra dos clientes; • Recomendar produtos relacionados entre sí, através do espelhamento de perfis de consumo e ticket médio. FINANCEIROS: • Recalcular carteiras de risco inteiras, em questão de minutos; • Detectar comportamentos fraudulentos antes que eles afetem sua organização. 14
  • 15.
    4 V´s doBigdata TIP: Embora o termo "big data" é relativamente novo. Foi cunhado no início dos anos 2000 proveniente do ato de recolher e armazenar grandes quantidades de informações para eventual análise. 15
  • 16.
    Dilbert e oBig Data 16
  • 17.
    4 V’s tornaram-sepouco para definir big data e no momento são 7 v’s... • Pois é, O big data é complexo. Chegou digital, complexo, “atropelando” e disruptivo e representou um desafio às tecnologias existentes • Verificou-se que nem todos os tipos de dados considerados BIG, possuiam os principais atributos – Volume, Variedade, Velocidade e Veracidade. • Algumas dimensões somente ganham significado em volume: variedade e veracidade. E mais recentemente novas considerações “V´s” foram adicionadas ao processo de análise: Valor, Visibilidade, Variabilidade. • Em resumo: devem ser levados em consideração todas as características possíveis, relevantes, “que explicam” (Segundo os estatísticos) e ainda haverá dúvidas sobre o que está sendo observado. 17
  • 18.
    Volume • Volume éo que é: muitos dados. Imagens, meta-dados, contextos, tags, geo, stream. 18
  • 19.
    Variedade • Variedade dizrespeito aos vários formatos em que o dado é gerado, muitas vezes não está numa única forma (perfeitamente estruturada em colunas), pode conter imagens, mensagens e-mail, planilhas, conversas de mídia social e mídia streaming. Atualmente, não existe um "one-size -fits-all" para abordagem universal. 19
  • 20.
    Velocidade • Velocidade -Pode ser interpretada de duas maneiras, necessidade de armazenamento rápida (ingestão) ou a manutenção de dados que são “sensíveis” ao tempo (é um metadado = timestamp). Um exemplo é a definição de perfis em tempo real de anúncios de exibição na internet personalizadas de acordo com seu padrão de uso. 20
  • 21.
    Veracidade •Veracidade – conformeos fatos, padronizado com precisão e exatidão. – Será que precisamos de um corretor ortográfico para obter a consistência dos dados ? Big Data – Veracidade = Inferências incorretas estão sendo consideradas ? 21
  • 22.
    Validade •Validade - Odado interpretado deve fazer sentido, ter uma lógica ou fato resultante de uma inferência sustentável. Um dos erros mais comuns é confundir correlação com causa. Volume - Validity = Worthlesness? 22
  • 23.
    Valor •Valor - oque importa, o que vale, o motivo pelo qual o dado é “consumido”– provavelmente o mais relevantes às organizações. Dados entrando e saindo por si só não representam necessariamente valor. Big Data – transações = Dados + Valor? 23
  • 24.
    Visibilidade • Visibilidade -é a capacidade de ver ou ser visto. Dados de fontes diversas precisam ser vinculadas através de processos, métodos e tecnologias. Dados estratégicos geram visões críticas e podem permanecem disponíveis, mas não necessariamente visíveis à todos. Big Data – visibilidade = Buraco Negro? 24
  • 25.
    Variabilidade • Variabilidade -Além da velocidade e variedade de dados cada vez maiores, os fluxos de dados podem ser altamente inconsistentes com picos periódicos/sazonalidade. Diariamente, picos de dados sazonais ou picos gerados com base em eventos podem ser um desafio de gerenciar. Ainda mais quando falamos de dados não estruturados. Big Data + Social Media = Espelhamento digital ? 25
  • 26.
  • 27.
    Data Science –Analytics & Insigths • Hoje em dia podemos dizer que é uma metodologia. Consiste em aplicar simultaneamente técnicas de Estatística, Programação e Mineração de Dados a um conjunto de dados, com o intuito de descobrir padrões significativos, não triviais. 27
  • 28.
  • 29.
    E na prática– o que eu preciso saber ? É importante lembrar que o valor principal de big data não vem dos dados em sua forma bruta, mas do processamento e análise destes dados, insights e ações (produtos e serviços) que surgem desta análise. As mudanças bruscas nas tecnologias e abordagens gerenciais de big data são precursores das mudanças dramáticas que vivenciaremos nas em organizações inovadoras em nos respectivos produtos e serviços. Interpretação de texto do Thomas H. Davenport em Big Data em Grandes Empresas 29
  • 30.
    Data Jobs Hardand Soft Skills HARD SKILLS • Estatística • Data Mining • Machine Learning • R ou Python • Data Visualization • Data Warehouse / Architecture • Programação / Algorítimos SOFT SKILLS • Curiosidade • Narrativa / Storytelling • Generalista • Conhecimentos de mercado • Associação de Problemas • Resolução de Problemas 30
  • 31.
    Skills by JobRole Simplified with... A vai... 31
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
    Maturidade Organiz. emAnálise de Dados 41
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
    New DW –Big data - Oracle 48
  • 49.
    Big Data –Complexity 49
  • 50.
    Big Data –AWS use cases references On-Demand Big Data Analytics Data Warehousing 50
  • 51.
    Big Data –AWS use cases references Event-driven (ETL) Smart Applications Clickstream Analysis 51
  • 52.
  • 53.

Notas do Editor

  • #2 Speech: Apesar de estarmos alguns anos na era do Conhecimento nossa cabeça ainda está na Era Industrial. Algumas pessoas ainda questionam se realmente estamos nessa ERA e eu trouxe alguns fatos para provar para vocês que sim. "Daqui a cinco anos você estará bem próximo de ser a mesma pessoa que é hoje, exceto por duas coisas: os livros que ler e as pessoas de quem se aproximar." (Charles Jones)
  • #53 Alguns cursos online disponíveis. Existem tracks completos de data Science, analytics, módulos gratuitos