SlideShare uma empresa Scribd logo
Big Data
e
Governança de
Dados
Carlos Barbieri
Versão02-set/2015
• Carlos Barbieri, Eng, 1970-MSc-INPE-1974, PG Informática-1975
• Cemig-30 anos na área de Dados(ABD,AD,BI), Gerente da Assessoria de Tecnologia
• Professor de Pós-Graduação da FUMEC, PUC-MG nas áreas de BI e Data
Governance
• Consultoria e treinamento no Brasil e Portugal
• Coordenador da área de Qualidade da Fumsoft-Sociedade Mineira de Software,
responsável pelo Programa MPS.BR
– Engenharia de Software-MPS.BR
– Governança e Qualidade de Dados
• Autor de 3 livros na área de Dados, Informações e BI
• Revisor convidado do Modelo DMM-Data Management Maturity Model-CMMI
• CDMP-Certified Data Management Professional-DAMA-Data Management
Association- CBIP(TDWI) e CDMP em DM, DW,DD,DOIP,DGS
(1994) (2002) (2011)
Carlos Barbieri Consultores Associados ®
Direitos reservados
carlos.barbieri@gmail.com
Big Data e
Governança de dados
• Objetivo:
– Discutir como a Governança de Dados se
alinhará com os conceitos de BIG DATA?
– Quais as áreas de DM-Data Management serão
as mais modificadas e reavaliadas sob a luz do
conceito?
– Como os dois modelos de referências de
dados(DMBOK e DMM) serão lidos no
contexto de Big Data?
4
Big Data e
Governança de dados
• Objetivo:
– Esse material é parte do trabalho que será
publicado na íntegra no Blog do Barbi – Carlos
Barbieri
– blogdobarbi.blogspot.com
5
6
BIG DATA
• Entre o começo do mundo e 2003, foram
produzidos aproximadamente 5 exabytes de
informação
• Agora são criados 5 exabytes a cada
2 DIAS
ERIC SCHMIDT
EXECUTIVE CHAIRMAN-GOOGLE
1 EXABYTES=1024 PB QUE É = 1024 TB, OU SEJA > 1 MILHÃO DE TB
1 HD=1TB=SHOPPING OI- CUSTA R$300,00
A CADA 2 DIAS SÃO PRODUZIDOS=5 MILHÕES DE HD DE 1 TB 7
BIG DATA
• Definição de mercado para
representar um novo estado de
informação, caracterizado pelos
– 5 V
– Volume,Velocidade e
Variedade,Veracidade,Valor
– Gartner Group chama de
EIM-Extreme Information
Management
• Nova oportunidade para TI:
novos padrões, novos negócios,
oportunidades de exploração
8
Escalas de Informação
Unidades
Kilobyte(KB) 1024 ou 2**10 bytes- O nome se origina de thousand,
em grego. Uma página de texto normalmente tem 2KB
Megabyte(MB)- 1024KB ou 2**20-O nome se origina de large, em
grego. Todo o trabalho de William Shakeaspeare totaliza
5MB e uma canção pop típica tem 4MB
Gigabyte(GB)- 1024MB ou 2**30-O nome se origina de giant, em
grego. Um filme de duas horas pode ser armazenado de
forma comprimida em 1-2GB
Terabyte(TB)- 1024GB ou 2**40-O nome se origina de monster, em
grego. Todos os livros catalogados na Biblioteca do
Congresso americano totalizam 15TB
Petabyte(PB)- 1024TB ou 2**50-Todas as cartas que circularão
pelo Serviço Postal dos EUA, em 2010, totalizarão 5PB. O
Google processa cerca de 1PB por hora de informação
Exabyte(EB)-1024PB ou 2**60-Equivale a 10 bilhões de cópias do
“The Economist”
Zettabyte(ZB)-1024EB ou 2**70-A quantidade total de informação
existente até esse ano está prevista em torno de 1,2ZB
(definido em 1991)
Yottabyte(YB)-1024ZB ou 2**80-Impossível de imaginar (definido
em 1991)
(*)+Ajuste de nomenclatura: SIU(Sistema Internacional de Unidades-base decimal) e CEI(Comissão Eletrotécnica Internacional-base binária)
Novo nome: Mebibytes(MiB)-Gibibytes(GiB)-Tebibytes(TiB)-Pebibytes(PiB)-Exbibytes(EiX)-Zebibytes(ZiB)-Yobibytes(YiB) para as unidades em base binária.
Pela CEI= 1TB=1024GB, para o SIU(1TB=1000GB e agora 1TiB=1024GiB). Porém, ambos continuam plenamente aceitos.
9
Novas tendências
Information overloaded: So much data stored in the
world that we may run out of ways to quantify it
• Depois do YottaBytes: 1
seguido de 24 zeros
• International Committee
for Weights and Measures
já pensa na nova dimensão
• Qual seria o prefixo:
campanha para sugestão
somente, visto que o
Committee é que decide:
• 1 com 27 zeros:
• Hellabytes, Brontobytes,
Xennabytes?
10
Escala estendida
• Bytes (8 bits)
• Kilobyte(1000 bytes)
• Megabyte(1.000.000 bytes)
• Gigabyte(1.000.000.000 bytes)
• Terabyte(1.000.000.000.000 bytes)
• Petabyte(1.000.000.000.000.000 bytes)
• Exabyte(1.000.000.000.000.000.000 bytes)
• Zetabyte(1.000.000.000.000.000.000.000 bytes)
• No mundo até 2012 existe 2,7 ZB. Até 2020 35 ZB)
• Yottabyte(1.000.000.000.000.000.000.000.000 bytes)
• Xenottabyte(1.000.000.000.000.000.000.000.000.000 bytes)
• Shilentnobyte((1.000.000.000.000.000.000.000.000.000.000 bytes)
• Domegemegrobyte((1.000.000.000.000.000.000.000.000.000.000.000 bytes)
11
Governança de Big Data
é diferente da GD?
Governança de Big data
• Governança de Dados tradicional com certas nuances
• 5V: Velocidade, Variedade, Volume, Veracidade e Valor
• Algumas variações:
– Estratégico: novas possibilidades de negócios
– Tático: Novos domínios: novos gestores de dados por assunto
– Metadado: mais informações relacionadas ao dado: relacionamento
entre pessoas, o dado, os processos e o uso. Ex: Monitoração remota
de idosos em sistema de health care - > Privacidade
– Operacional: Volume com implicações em novas plataformas e
arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase real)
– Políticas de retenção e armazenamento de dados
12
Lupa sobre a História da humanidade via analytics de
Big and Long Data
1861-1865
Os historiadores garantiam
que a inversão foi imediatamente
após a Guerra Civil
Lupa sobre a História da humanidade via analytics
de Big and Long Data
Iphone Conundrum
Cientista de dados
(Novo papel da era do Big Data)
• Data Science
• Estatística será o novo “sexy job”
• Matemática computacional
• Aplicações intensamente data driven
• Conhecimento de ferramentas de
mining, conhecimentos de métodos
estatísticos de análise e conhecimento
de necessidades da empresa . Não é
programador
• Conhecimento de Repositórios de
dados
• 2 C: Curiosity( o que posso extrair)
and Cleverness(como extrair e
analisar)
• Considerada uma das + promissoras
profissões do futuro
15
Big data é fruto de
novas fontes de dados
• Sistemas/internet
• Sensores(até 2025-50 bilhões ligados na internet)
• Redes Sociais-FB,Twitter-Linkedin,Instagram
• Celulares(voz),Celulares(imagens),Celulares(posição
geográfica)
• GPS
• Câmeras digitais(isoladas,Iphone,Ipad,etc)
• Tocadores de músicas (Itunes)
• Dados de indicadores de saúde(temperatura, pressão, etc)
• Dados sobre genética, genoma, sequenciamento de genes
16
Web e
Redes
Sociais
M2M-Máquina
Máquina
Transações c/
Big Data Biometria
Geral
Saúde Sentiment
Analysis
Monitoração de
Pacientes
Análise de
Pedidos
Testes
Genéticos
Registros
Médicos
eletrônicos
Utilities Medidores
Inteligentes
Varejo Programa de
Fidelidade
em
FB,LNK,TW
Etiquetas de
RFID
Reconheci-
mento
Facial
Telecom Análise de
“Churning” de
Clientes
Serviços
baseados em
Localização
Análise de
Fidelidade em
Clientes
Seguros Investigação
de sinistros
Veículos
Telemáticos
Análise de
fraudes
Subscrição
de apólices
Serviços de
Cliente
Chamada de
Quality
Assurance
TI Análise de Log-
clickstream
Indústria
Tipos
Fonte: Big Data Governance
An emerging imperative
Sunil Soares/2012
17
Big Data
Exemplos
• Empresa mundial de delivery
• Manipula “big data” antes do “conceito” de big data(desde 1980)
• Rastreia dados de 16.3 milhões de pacotes /dia, para 8.8 milhões de clientes
• Média de 39.5 milhões de requisição de rastreamento(onde está o meu
pacote?) por dia
• Armazena em torno de 16 PB de dados
• Usa dados de sensores telemáticos(veículos da UPS), são controlados com
dados enviados de sensores em 46.000 veículos (velocidade, direção,
frenagem e sistema de transmissão do veículo-drivetrain)
• Dados no business atual: performance diária de entregas e
reotimização de estruturas de rotas
– Em 2011-ganho de 8.4 milhões de galões de combustível, reduzindo 85 milhões de
milhas em rotas diárias
– A economia de uma milha por dia por motorista representa US$30 milhões
– Agora foca na otimização de seus 2000 voos diários (frota própria)
18
• Banco americano, investindo em Big Data
• Comprou Hadoop com 50 nós servidores, cada qual com 16 processadores
(800 processadores)
• Capacidade de processar 1 PB de dados
• Substituição do DW por BIG Data(aqui cuidado... Controvérsias, segundo
Bill Inmon e outros )
• Convertendo os processos analíticos existentes para HIVE-plataforma
Apache para estruturação de DW em ambientes distribuídos, através de
uma linguagem SQL like, chamada HIVEQL. Permite também o
processamento tradicional em cima do Hadoop-MapReduce, quando não
for viável a expressão via HIVEQL
• Dados no business atual: Tratando dados estruturados(grande
incidência na área bancária) , mas com a proposta de redução de
custos, via nova plataforma-Hadoop-HIVE
Banco anônimo
19
Big Data
Exemplos
• Otimização da aplicação de definição de preços de mercadorias
• Cálculo analítico complexo de otimização de preço de 73 milhões de
itens para a venda reduzindo de dias/horas para minutos/segundos- de
27 horas para uma hora
• Aplicação SAS-HPA-High Performance Analytics
• Permitiu a alteração de preços de forma rápida, dependendo das
variações instantâneas do mercado
• Os dados são extraídos de um sistema de cluster Hadoop para um
sistema de computação paralela e arquitetura in-memory
– Permite a geração de centenas de milhares de modelos em dados
granulares contra centenas de modelos agregados anteriormente
20
Big Data
Exemplos
• Linkedin: usa big data e cientistas de dados para desenvolver um conjunto
de novos produtos
• Google: usa big data para refinar o seu produto “core”(máquina de busca) e
os algoritmos de ofertas de ads
– O projeto de self-driving car é considerado também um projeto de Big Data
pela Google
• GE: Big data para melhorar serviços, otimizar os contratos de serviços e os
intervalos de manutenção para produtos industriais
• NetFlix: criou o NetFlix Prize para qualquer equipe de cientistas de dados
que consigam otimizar as recomendações para clientes e agora também usa
BigData para criar seus próprios conteúdos(The House of Cards, por
exemplo)
21
Big Data
Exemplos
Pílula Inteligente
(Smart Pill)
• Smart pill: tecnologia de pílulas com
microchips, capazes de mandar com
grande precisão informações
intracorpóreas. Desenvolvido pela
Proteus(Califórnia) para a
Novartis(gigante suiça da área
farmacêutica), num projeto de US$25
milhões. Em submissão para
aprovação das agências reguladoras,
para entrar no mercado. Inicialmente
será usada em casos de
transplantes(de rim), onde o controle
rigoroso das drogas anti-rejeição deve
ser mantido.
• Envia mensagens para um patch
acoplado na pele que retransmite para
o celular, por exemplo. 22
Big Data
Exemplos
Maturidade em Big Data segundo
o TDWI-The Data Warehouse
Institute
Big Data Maturity Model
The Data Warehouse Institute
Big Data
Maturity Model
• Objetiva definir um patamar de comparação
com relação a como as empresas estão
trabalhando Big Data
• Permite uma visão de onde está e para onde uma
empresa deseja ir
• Ajuda na visão das melhores práticas de
Governança e gestão aplicadas sobre Big data
• Avaliação interativa por benchmark-permite
uma quantificação objetiva da sua posição
• Big Data: é um conceito mais do que tecnologia. Alto
volume de dados produzido pela sociedade, em
função de novas fontes. 5V(variedade, Volume,
Velocidade, Veracidade e Valor)
• Inclui dados estruturados, semi e não estruturados, de
origens variadas: fontes externas e internas, dados de
streaming, mídia social, geoespacial, sensores, etc
• Exige: infraestrutura de captura, armazenamento,
análise, report, archiving e de Governança
Big Data
Maturity Model
Big Data
Maturity Model
Analytics
• Processo inferencial de definição de informações
baseados no conjunto de dados existentes
• Analytics: Já sendo feito há anos
• Analytics com Big data: estende as capacidades
existentes e incorpora novas possibilidades (novo valor)
em função do volume e variedade. Modifica a
“timeliness” das informações em função da velocidade
dos dados, com processamentos em tempo real(RT),
NRT(quase tempo real), streaming,etc, com dados de
fontes variadas como sensores, IOT,etc
Big Data
Maturity Model
Analytics
• Agora:
–Mais dados disponíveis, com mais
atributos
–Permite explorar modelos estatísticos
com mais propriedade, ampliando o
conceito de “analytics”
Big Data
Maturity Model
Analytics
• Maturidade envolve: Processos , Pessoas
e Tecnologias
• Tecnologias envolvem: Novas formas de
armazenamento e busca, centradas em
processamento distribuído, tratamento in-
memory, disponibilidade priorizada
contra a integridade rígida dos dados,etc
Novos Paradigmas
• Dados não estruturados, prioritariamente
• Processamentos Batch e Tempo Real
• Hadoop-Map Reduce-Big Data
• Paradigma do processamento e dos dados distribuídos
• Nova visão: Teorema CAP: Consistência(C ),
Disponibilidade ( Availability) e P(Particionamento)-
Protocolo BASE(Basically Available, Soft state,
Eventually consistent) contra o ACID (Atomicidade-
Consistência-Isolamento-Durabilidade)
• Conceitos: prioriza a disponibilidade e garante a
consistência depois de certo tempo (eventually)
Novos Propostas
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
31
32
Maturidade em Big Data
Novos Propostas
• Todo processo de aferição de maturidade
é definido por uma sequência de estágios,
que vai da maturidade inicial até o ponto
de maior maturidade, onde a empresa terá
o desafio de permanecer, buscando
sempre a melhoria contínua
33
Maturidade
Big data
• 1-Nascente
• 2-Pré-adoção
• 3-Adoção inicial
• 4-Adoção Organizacional
• 5-Madura
34
Nascente
Pré-Adoção
Adoção Inicial
Adoção
Organizacional
Madura
ABISMO
1
2
3
4
5
Maturidade
Nível 1-Nascente
• Fase pré-Big Data (BigD)
• Baixa preocupação com BigD e seu valor
• Interesse pontual e espalhado
• Pensa em “analytics” de forma isolada
• Governança centrada na TI, sem estratégia de dados
unificada
• DLCM(gerência do ciclo de vida dos dados) inexiste
ou é incipiente
• Tendência à formação de silos de dados
36
Maturidade
Nível 2-Pré-adoção
• Primeiras preocupações com BigD e Analytics
• Pode ter alguma tecnologia emergente como Hadoop
• Planos de implementação à curto prazo, mas com foco
departamental ou localizado
• Patrocinador é o CIO e há pouco envolvimento com a área de
negócios
• O sabor ainda é de experimentação
• Algumas explorações de problemas com possíveis soluções de
BigD e analytics
• Visão de GD ainda superficial, com identificação de grandes
fontes de dados, ainda sem políticas, processos e padrões
organizacionais
37
Maturidade
Nível 3-Adoção inicial
• Algumas POC´s (provas de conceitos) definidas e realizadas
• Tendência de permanência por tempo maior nesse estágio, ainda sem a
visão organizacional de BigD e analytics
• Pode ter vários tipos de tecnologia(Hadoop, NOSQL), sem uma
estratégia ou visão unificadora
• Estruturas de clusters locais ou nas nuvens
• Padrões e processos em nível departamental ou já organizacional
• Metadados departamentais e uma visão de arquitetura integrada
existem
• BigD (> 10 TB) de dados estruturados armazenados em “appliances” e
aplicações preditivas existem. Foco ainda departamental e concentrado
em dados estruturados ou não estruturados, porém sem integração com
os estruturados(CRM com mídia social-Cliente da empresa com conta
FB, por ex) 38
Maturidade
Abismo
• Os desafios para se chegar à Visão Organizacional
• Formação dos recursos humanos adequados(analista Hadoop, Cientista de
dados, formação estatistica, etc). Considerar a longa curva de aprendizado
nessas tecnologias emergentes
• Convergência das equipes de BI e Analytics
• FCS-Fatores críticos de sucesso:
– Apoio financeiro-Cases de sucesso-Comprovação por resultados
– Pontes entre TI e negócios
– GD+DM implementada, com visão em direção ao organizacional-
regras, política, padrões,etc, com envolvimento da área de negócios-P´s
da Governança de Dados
– Visão de arquitetura de dados e plataformas unificadas
39
Maturidade
Abismo
• Implantação da Governança de Dados(Big Data)
• Diferente da GD padrão- Considerar os 5 V
– Velocidade-Variedade-Volume- Veracidade-Valor
• Aspectos de DM(Data management): Arquitetura,
Ciclo de vida de dados, Operações, Segurança,
DW/BigD-Analytics, Metadados, Qualidade,
Aspectos de GD,etc
• Estrutura de DMO(PMO), com gestores de BigD
40
Maturidade
Nível 4-Adoção organizacional
• Envolvimento da área de negócios
• Maior interação sobre como BigD pode influenciar nos negócios
• Analytics e BigD como diferencial competitivo
• Estratégia de dados com inovação sobre o foco nos dados(arquitetura
unificada, análise, governança, etc)
• Hadoop, NOSQL, appliances, DW, clusters de 50-100 nós --- >
padrões definidos
• Já há alta integração entre Negócios e TI
• Compartilhamento de dados e minimização de silos de BigD
• Metadados em níveis departamentais ou organizacionais
• Governança funcionando, com Conselho,DMO, Comitê e Gestores
41
Maturidade
Nível 5-Madura
• Empresa visionária(ainda há poucas)
• Programa de BigD e Analytics planejado e orçado,
com infraestrutura bem definida e Governança
estabelecida
• Amplamente integrado com Negócios
• Camada operacional bem definida, com Hadoop,
NOSQL e outras áreas de DM(gestão de dados),
como segurança, recovery, desempenho,metadados
etc
• Dados com amplitude organizacional
42
Maturidade
Avaliação
• Avaliação por benchmark
• Categorias de assuntos-dimensões:
– Organização
– Infraestrutura
– Gestão de Dados
– Analytics
– Governança de dados
• 50 questões(10 por dimensões)
• Questões com pesos diferentes dependendo da organização
• Score por dimensão e geral
• Classificação de maturidade por dimensão(1-Nascente, 2-Pré, 3-Inicial, 4-
Adoção organizacional,5-Maturity)
43
Maturidade
Avaliação-Dimensões
44
Maturidade
BigData
DM
GD
AnalyticsIE
Organização
Maturidade
Avaliação
• Organização
– Patrocínio, cultura, apoio, funding, VALOR, Estratégia
• Infraestrutura
– Suporte de parte ou de toda a organização (escopo), tipos de tecnologias ou
camadas, como estão/estarão integradas com a atual camada , arquiteturas
• Gestão de Dados
– Variedade, volume, velocidade dos dados para BigD
– Qualidade e integração
– Operações e armazenamento
• Analytics
– Tipos de analytics usados, formação de recursos especiais, aplicações
• Governança de dados
– Os P´s da GD-Políticas, Processos, Padrões e Conformidade, Gestores de
dados, segurança e privacidade
45
Governança de Big Data
• Governança tradicional com nuances
• 5V: Velocidade, Variedade, Volume, Veracidade e Valor
• Algumas pequenas variações:
– Estratégico: novas possibilidades de negócios
– Tático: Novos domínios: novos gestores de dados por assunto
– Metadados: mais informações relacionadas ao dado:
relacionamento entre pessoas, o dado, os processos e o uso. Ex:
Monitoração remota de idosos - > Privacidade
– Operacional: Volume: implicações em novas plataformas e
arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase
real)
– Políticas de retenção e armazenamento de dados
46
Novas Plataformas
Data Management
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
47
Principais referências
de Dados
DMBOK
DMM
48
e
DMBOK
49
DAMA-Data Management Association
Governança
De
Ddos
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
MCD-Modelo Conceitual
Arq.BD
Arq.DW
Integrado Arq.Corporativa
(dados-processos-negócios-sistemas
tecnologia)
Arq.MetaDados
Modelagem dados
Modelos lógicos dados
Modelos físicos BD
Versão e integração de
Modelos
Implementação de dados
Teste/produção
BD
Backup
Recovery/Restart
Performance
Gerência da tecnologia e
Evolução de versões
Requisitos de segurança
Políticas
Padrões
Procedimentos
Auditoria
Versão única-Golden records?
Fontes distintas
Taxonomia de dados Mestres/Ref-Hierarquias(Classif)/Afiliações(Agregação)
ou fontes alternativas
Arquitetura de Dados Mestres/Ref(bus,serviços,Replicação,centralização,diretório)
DW,Dmarts,ETL
BI-Business Intelligence
Arquiteturas de BI
Gerência sobre DNE(não estruturados)
Documentos, conteúdos
Backup, recuperação, retenção
Gerência de Conteúdo:Indexação
Arquitetura
Repositório
Padrões
Distribuição e
Entrega
MD:negócios,
Técnicos,
Operacionais
Conscientização sobre QD
Profiling/Cleansing e avaliação
Regras e procedimentos
Medições
Papéis e estrutura: Comitê-Escritório de dados-gestores de dados
Política,Procedimentos
Regras para conflitos
Supervisão das funções de Gerência de dados
Conformidade com Políticas, Padrões, Arquiteturas
Promover o dado como ativo
Aquisição,extração,
Transformação,movimentação
Entrega-replicação-federalização
Virtualização-suporte
50
DAMA-DMBOK
Governança
De
BIG
Data
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
Modelos de dados estruturados
Modelo de dados não estruturados
Arquitetura prioriza a flexibilidade
Camadas TR, NRT e Batch
Dados armazenados
Linhas
Colunas
Chave-Valor
Documentos
Grafos-estruturas complexas
Dados em alto volume
Dados em RT, NRT
Impactos em backup
Ambientes secundários
de storage, custo
Igual ao anterior
Dados IOT podem ser
mais sensíveis: Smart Pill,
Elderly Care systems,Smart Meters
Visão de Políticas, Padrões, Processos, Procedimentos
Pessoas, etc sob esses novos ângulos dos 5V
Fail-over
Sharding-Replicação Master_Slave-Master-Master
Escalabilidade horizontal direta
51
DW/BI integrado com BigD
DW-HIVE
MAHOUT-Mining, M.Learning
ODS-Data Lake
Desafio: MD no nível físico
Qualidade? O V de Veracidade
QD em dados não estruturados
Integração de dados
Mestres típicos c/
Outros-Redes
NOSQL: BD
Documentos
Dados de
Mídia social
(Visitor)
DAMA-DMBOK2
Governança
de
Dados
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
Troca de nome dos processos
Processo novo-Integração e Interoperabilidade
DAMA-DMBOK2
Nomes antigos: 1-Desenvolvimento de dados-2-Gerência de Operações de dados
1
2
53DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor
Definição:
Exercício da autoridade e controle(planejamento, monitoração e
aplicação das regras) acerca da gestão de ativos de dados
Objetivos:
 Definir , aprovar e comunicar as estratégias de dados, políticas,
padrões, procedimentos, arquiteturas e métricas
 Rastrear e forçar a aplicação de regras regulatórias de
conformidade e aderência(compliance) via políticas, padrões
procedimentos e arquiteturas de dados
 Patrocinar, rastrear e supervisionar a entrega de projetos de
dados da organização
 Gerenciar e resolver pendências relacionadas a dados
 Entender e promover o valor dos ativos de dados
DAMA-DMBOK-Governança de Dados
Atividades
Entradas
Saídas
Métricas e Ferramentas:
Métricas: Valor dos dados, Custo de DM, Alcance de
Objetivos, # de decisões tomadas, Cobertura dos
Gestores de dados, # de profissionais de dados,
Maturidade do processo de DM
Ferramentas: Website,email,Repositórios, Issue tracker, KPI
Entradas:
• Objetivos de negócios
• Estratégias de negócios
• Objetivos de TI
• Estratégias de TI
• Necessidades de dados
• Pendências de dados
• Requisitos regulatórios
Fornecedores:
• Executivos de negócios
• Executivos de TI
• Gestores de dados
• Organismos regulatórios
Participantes:
• Gestores de dados executivos
• Coordenação de gestores de dados
• Gestores de dados de negócios
• Profissionais de dados
• Executivos de gestão de dados
• CIO
Entregáveis:
• Políticas de dados
• Padrões de dados
• Pendências de dados resolvidas
• Projetos e Serviços de Gestão
de dados(DM)
• Informações e dados com qualidade
• Valor de dados reconhecido
Consumidores:
• Produtores de dados
• Gestores de conhecimento
• Executivos e Gerentes
• Profissionais de dados
• Clientes
DAMA-DMBOK-Governança de Dados
DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor
Atividades:
• Planejamento de DM(*)
 Entender as necessidades estratégicas de dados da
organização
 Desenvolver e manter uma estratégia de dados
 Estabelecer estruturas e papéis de profissionais de dados
 Identificar e designar gestores de dados
 Estabelecer estruturas de gestão e governança de dados
 Desenvolver e aprovar Políticas, Padrões e Procedimentos
 Revisar e aprovar a arquitetura de dados
 Planejar e patrocinar projetos e serviços de DM(*)
 Estimar o valor e os custos associados aos ativos de dados
DAMA-DMBOK-Governança de Dados
Planejar
(*)-Data Management-Gestão de dados
DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor
Atividades:
• Controle de DM(*)
 Supervisionar as estruturas, funções e papéis de dados
 Coordenar as atividades de Governança de dados
 Gerenciar e resolver pendências de dados
 Monitorar e garantir as conformidades regulatórias
 Monitorar e garantir aspectos de conformidade com
Políticas, Padrões e Arquitetura de dados
 Supervisionar projetos e serviços de dados
 Comunicar e promover o valor dos ativos de dados
DAMA-DMBOK-Governança de Dados
(*)-Data Management-Gestão de dados
DMM
57
Data Management Maturity Model
CMMI Institute
VISÃO GERAL NOS ANOS 200X
1
2
3
4
5
QUALIDADE
DE
DADOS
OPERAÇÕES
DE
DADOS
ESTRATÉGIA DE
GESTÃO DE DADOS
PLATAFORMA E
ARQUITETURA
1-realizado
2-gerenciado
3-definido
4-medido
5-otimizado
6 Categorias
25 PA´s
Capacidade
GOVERNANÇA
DE
DADOS
RSKM(RISCOS)-CM(CONFIGURAÇÃO)-MA(MEDIÇÃO E ANÁLISE)-QA(QUALITY
ASSURANCE) DE PROCESSO- GERÊNCIA DE PROCESSO
DMM-
1.0 Data
Maturity
Model
PROCESSOS DE SUPORTE
Atributos de Processos
ISP-Infrastructure
Support Practices
58
O modelo DMM
25 Áreas de Processos
• Propósito – Introducão - Objetivos
- Questões – Níveis de capacidade
- Produtos de trabalho
• Politicas – Processos – Padrões –
Governança – Métricas –
Tecnologia – Dicas de
implementação
300+ Práticas
300+ Produtos de trabalho
Data Management Strategy Data Management Strategy
Communications
Data Management Function
Business Case
Funding
Data Governance Governance Management
Business Glossary
Metadata Management
Data Quality Data Quality Strategy
Data Profiling
Data Quality Assessment
Data Cleansing
Data Operations Data Requirements Definition
Data Lifecycle Management
Provider Management
Platform & Architecture Architectural Approach
Architectural Standards
Data Management Platform
Data Integration
Historical Data, Archiving and
Retention
Supporting Processes Measurement and Analysis
Process Management
Process Quality Assurance
Risk Management
Configuration Management
59
O modelo DMM
60
uaisprocessosmerecem+atençãoquandopensamosemBIGData
Estratégia de Data Management(Data Management
Strategy)
Estratégia de Data Management
Comunicações
Função de Data Management
Plano de Negócios (Business Case)
Apoio Financeiro
Governança de Dados(Data Governance) Gerência de Governança
Glossáriio de Negócios
Gerência de Metadados
Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados
Data Profiling
Avaliação de Qualidade de Dados
Limpeza de Dados
Operações de Dados(Data Operations) Definição de Requisitos de Dados
Gerência do Ciclo de vida dos Dados
Gerência de Fornecedores de Dados(Provider Management)
Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach)
Padrões Arquiteturais(ArchitecturalStandards)
Plataformas de Data Management(Data Management Platform)
Integração de Dados (Data Integration)
Dados Históricos(Historical Data) , Arquivamento(Archiving) e
Retenção(Retention)
Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis)
Gerência de Processo(Process Management)
Garantia de Qualidade do Processo(Process Quality Assurance)
Gerência de Risco(Risk Management)
Gerência de Configuração(Configuration Management)
O modelo DMM
61
uaisprocessosmerecem+atençãoquandopensamosemBIGData
Estratégia de Data Management(Data Management
Strategy)
Estratégia de Data Management
Comunicações
Função de Data Management
Plano de Negócios (Business Case)
Apoio Financeiro
Governança de Dados(Data Governance) Gerência de Governança
Glossáriio de Negócios
Gerência de Metadados
Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados
Data Profiling
Avaliação de Qualidade de Dados
Limpeza de Dados
Operações de Dados(Data Operations) Definição de Requisitos de Dados
Gerência do Ciclo de vida dos Dados
Gerência de Fornecedores de Dados(Provider Management)
Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach)
Padrões Arquiteturais(ArchitecturalStandards)
Plataformas de Data Management(Data Management Platform)
Integração de Dados (Data Integration)
Dados Históricos(Historical Data) , Arquivamento(Archiving) e
Retenção(Retention)
Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis)
Gerência de Processo(Process Management)
Garantia de Qualidade do Processo(Process Quality Assurance)
Gerência de Risco(Risk Management)
Gerência de Configuração(Configuration Management)
Como DMBOK e
DMM se
encontram ?
62
QUALIDADE
DE
DADOS
OPERAÇÕES
DE
DADOS
ESTRATÉGIA DE
DADOS
PLATAFORMA E
ARQUITETURA
DMBOK-DAMA
DMM-CMMI
GOVERNANÇA DE
DADOS
Integração e
Interoperabilidade
(DMBOK2)
(*) Novo nome:
Modelagem e Projeto de dados
Antigo: Desenvolvimento de Dados
(**)Novo nome:
Armazenamento e Operações de dados
Antigo: Gerência de Operações de dados
(**)
(*)
63
DMBOK2 e DMM
DAMA-DMBOK DMM-Categorias e PA´s
Governança de Dados Planejar, supervisionar, e controlar as funções de
DM, o uso e os recursos relacionados a dados
Governança de Dados, Gerência
da Governança, Glossário de
negócios e Gerência de
metadados. Estratégia de dados
c/estratégia de DM e funções de
DM
Arquitetura de Dados A estrutura geral de dados e os recursos relacionados
a dados, como parte integral da Arquitetura
corporativa
Plataforma & Arquitetura
(Abordagens e Padrões
arquiteturais),Integração de
dados, Definição de requisitos de
dados, gerência de Ciclo de vida
de dados, provedores de dados e
Governança de dados c/gerência
de DM, glossário e metadados
Projeto e Modelagem de
Dados
Análise, projeto, construção, teste e manutenção de
dados
Plataforma & Arquitetura,
Operações de dados c/definição
de requisitos de dados, gerência
de Ciclo de vida de dados,
provedores de dados
Armazenamento e
Operações de dados
Gerência, implantação e armazenamento dos ativos
de dados físicos
Operações de Dados, c/ definição
de requisitos de dados, Gerência
de Ciclo de vida de dados,
Provedores de dados
DAMA-DMBOK
DMM
Segurança de Dados Garantir a privacidade, confidencialidade e
acesso adequado aos dados
Governança de dados,
c/ definição de
políticas de segurança
e acesso, Operações de
dados, com a definição
de requisitos de dados
e gerência de Risco
Integração e
Interoperabilidade
de dados
Aquisição, extração, transformação,
movimentação entrega, replicação, federalização,
virtualização e suporte operacional
Plataforma &
Arquitetura, Integração
de dados
Documentos e
Conteúdo
Armazenar, proteger, indexar e permitir o acesso
a dados não estruturados, e torná-los disponíveis
para integração e interoperabilidade com dados
estruturados
Operações de Dados e
Plataforma
&Arquitetura,
definição de requisitos
de dados
65
DMBOK2 e DMM
DAMA-DMBOK DMM
Dados Mestres e de
Referências
Gerenciar dados compartilhados para reduzir a
redundância e garantir a qualidade de dados através de
definições e uso de valores padronizados
Governança de Dados, c/
gerência de metadados ,
Plataforma e Arquitetura,
via abordagens e padrões
arquiteturais e plataformas
de integração.
DWBI Gerenciar o processamento de dados analítico
possibilitando acesso a dados de suporte de decisão
para relatórios e análises
Governança de Dados, c/
gerência de metadados e
glossário de negócios ,
Plataforma e Arquitetura
via padrões e abordagens
arquiteturais, Qualidade de
dados, c/ estratégia,
avaliação, profiling e
limpeza .
Metadados Coletar, categorizar, manter, integrar, controlar,
gerenciar e liberar metadados
Governança de Dados,
com metadados e glossário
Qualidade de Dados Definir, monitorar e manter a integridade de dados e
melhorar a qualidade de dados
Qualidade de Dados, com
estratégia, avaliação,
profiling e limpeza
66
DMBOK2 e DMM
Como DMBOK e
DMM se
encontram com
Big Data?
67
DMBOK e BIGDATA
Arquitet
ura
NormalData BigData
 Centralizado
 MCD-Modelo
Conceitual-E-R-A
 Arq.BD-relacional
normalizado-esquema
 Integrado com
Arquitetura Corporativa
(dados-processos-negócios-
sistemas tecnologia).
Integrado com arquitetura de
Metadados, de DWBI
 Descentralizado
 Estruturas não normalizadas,
complexas, com arrays, dados
dentro de dados, etc
 Schemaless-sem necessidade de
definição de estrutura upfront
 Layout variável
 Modelo de dados não
estruturados-predominante
 Tem Modelos de dados
estruturados também
Arquitetura NormalData BigData
 Arquiteturas e Plataformas
mais estruturadas
 Centralizada com ACID:
Atomicidade, Consistência,
Isolamento e Durabilidade
 Descentralizada com 2
Phase Commit-ACID
 Prioriza consistência
imediata
 Máquinas robustas
centralizadas-single server,
com maior investimento
 Escalabilidade vertical
 Fail prone
 Arquitetura descentralizada
mais flexível
 Dados replicados em
topologia Sharding: Master-
Slave ou Master-Master
 Protocolo BASE-Basically
Available, Soft status and
Eventually consistent-
Teorema CAP
 Prioriza a disponibilidade
imediata
 N Máquinas Commodities
com menor investimento
 Escalabilidade horizontal
 Fail Over
DMBOK e BIGDATA
Arquitetura NormalData BigData
 Produtos Big Shots da
indústria: Oracle, DB2,
SQL-Server
 Foco ACID
 Foco ; generalizado nas
aplicações
 Campos nulos não são
armazenados mas
sinalizados(is null)
 Diversidade de produtos
 Open Source, com “features”
especiais pagas
 Foco BASE, porém alguns com
ACID também: Neo4J,MarkLogic,
FoundationDB,MongoDB
 Vários sabores(modelos), com
especializações de aplicação:
 Colunar: bom para
Count,Sum,AVG,Mean
 Key-valor: estrutura simples, com
1 chave e um valor(pode ser
elemento complexo)
 Tripla/Grafos: relacionamentos
complexos, semânticos: João gosta
de queijo (tripla)
 Documentos: XML, JSON, Blobs
 Nulos não são armazenados
DMBOK e BIGDATA
Arquitetura NormalData BigData
 Produtos Big Shots da
indústria: Oracle, DB2,
SQL-Server
 Diversidade de produtos-vide slide
seguinte
DMBOK e BIGDATA
Novos Produtos
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
72
Modelagem
e projeto de
dados
NormalData BigData
 Modelagem relacional de
dados
 Modelos lógicos dados
 Modelos físicos BD-
redundância controlada
 Versão e integração de
modelos
 Implementação de dados
 Teste/produção
 Modelagem “escondida” no
código
 Dados armazenados em
 Linhas
 Colunas
 Chave-Valor
 Documentos
 Grafos-estruturas mais
complexas- melhor na
arquitetura centralizada
 Triple store(sujeito-
predicado-objeto)
 Redundância incentivada
DMBOK2 e BIGDATA
Armazena
mento e
Operação
NormalData BigData
 Ambiente de BD
 Backup
 Recovery/Restart
 Performance
 Gerência da tecnologia
 Evolução de versões
 Dados em alto volume
 Appliances como Netezza-
IBM e Teradata
 Tempo Real, NearRT e
Batch
 Impactos em backup e
archiving
 Impactos em ambientes
secundários de storage
DMBOK2 e BIGDATA
Gerência
de
Segurança
NormalData BigData
 Requisitos de
segurança
 Políticas
 Padrões
 Procedimentos
 Auditoria
 Igual ao anterior
 Dados IOT podem ser
mais sensíveis: Smart
Pill, Elderly Care
systems, Smart Meters
DMBOK2 e BIGDATA
Integração
e
Interopera
bilidade
NormalData BigData
 Aquisição
 Extração
 Transformação
 Movimentação
 Entrega-replicação-
federalização
 Virtualização
 Suporte
 Escalabilidade vertical
Idêntico
DMBOK2 e BIGDATA
MDM NormalData BigData
 Versão única-Golden
records?
 Fontes distintas
 Taxonomia de dados
Mestres/Referências
 Hierarquias:
Classificação e
Agregação
 Arquitetura de MDM:
Bus de serviço,
Replicação,
Centralização,
Diretório
Integração de dados mestres
tradicionais com dados de clientes
em ambientes de Redes sociais ou
outros
DMBOK2 e BIGDATA
DW/BI NormalData BigData
 DW
 Dmarts
 ETL
 BI-Business
Intelligence
 Arquiteturas de BI
 HIVE-DW
 MAHOUT-Mining,
Machine Learning
 Conceito de Data Lake-
ODS
DMBOK2 e BIGDATA
Gestão de
Documentos
NormalData BigData
 Gerência sobre DNE(não
estruturados
 Documentos, conteúdos
 Backup, recuperação,
retenção
 Gerência de Conteúdo
 Indexação
Mesmos conceitos, com Bancos
NOSQL focados em Documentos
e estruturas complexas
Bancos de dados NOSQL focados
em Documentos (MongoDB,
CouchDB)
DMBOK2 e BIGDATA
Metadados NormalData BigData
 Arquitetura
 Repositório
 Padrões
 Distribuição e
entrega
 MD de negócios
 MD Técnicos
 MD Operacionais
 Modelo relacional não
guarda metadados de
relacionamentos
(PK=FK)
Metadados no Foco no
modelo físico, como no
normaldata
Alguns produtos guardam
metadados de
relacionamentos
Adição de termos de
novos ambientes(redes
sociais, smart meter, IOT)
no contexto de metadados
e glossários de negócios
DMBOK2 e BIGDATA
Qualidade
de dados
NormalData BigData
 Conscientização
sobre QD
 Profiling/Cleansing
e avaliação
 Regras e
procedimentos
 Medições
 O 5º V do Big Data:
Veracidade
 Aspectos de qualidade em
grandes volumes de dados
 Aspectos de qualidade em
dados não
estruturados(variedade)
 Valores válidos de um
campo grau-instrução e de
um post do FB?
 Dados que chegam em alta
taxa de “ingestão”-
verificação RT ou posteriori
de qualidade
DMBOK2 e BIGDATA
Governança
de dados
NormalData BigData
 P´s da GD-Políticas, Processos,
Procedimentos e Padrões
 Padrões de nomes, abreviações
 Padrões de especificação de
requisitos
 Padrões de modelagem de
dados
 Padrões de projetos de BD
 Padrões de replicação e
integração de dados
 Padrões arquiteturais
 Padrões de procedimentos para
os serviços de Dados(DM)-
rascunhados pelos profissionais
e submetidos ao Conselho de
GD, ou a um Comitê tático
delegado
 Valem os P´s da GD com
Políticas, Processos, Padrões e
Procedimentos,etc afetados
pelos 5 V
DMBOK2 e BIGDATA
Governança
de dados
NormalData BigData
 Processos-Procedimentos e Padrões
para
 Metadados, com procedimentos
para capturar, manter, integra e usar
metadados de negócios e técnicos
 Soluções com Arquiteturas
centradas em dados, com foco em
integração, interoperabilidade e Big
Data
 Gerência de modelos de dados
 Operações: Restart, performance,
retenção e aquisição de dados
 Gerência de dados Mestres e de
Referências
 Qualidade: Profiling e Cleansing
de dados
 DW/BI
 ECM-Enterprise Content
management
 Segurança de dados
 idem
DMBOK2 e BIGDATA
Governança
de dados
NormalData BigData
 Conformidades regulatórias
 Resoluções de pendências
(Issues), em Qualidade de dados,
conflitos de nomes e definições,
Regras de negócios, aspectos
regulatórios, não-conformidade
detectada, conflitos em políticas,
padrões, arquitetura e
procedimentos, interesses de
envolvidos em dados e
informações, gerência de mudança,
aspectos relacionados com
procedimentos de GD e direitos de
decisão, negociação de
compartilhamento de dados
 Especial atenção para Big Data
 Políticas com foco em valor de
negócios, compliance,
segurança,etc
DMBOK2 e BIGDATA
Governança
de dados
NormalData BigData
 Para a própria GD:
 Controle de pendências
(identificação, registro e
atualização)
 Acompanhamento do status da
pendência
 Documentação de resoluções e
pontos de vista de pendências
 Escalonamento de resolução de
pendências
 Documentação e divulgação de
pendências resolvidas
 Definição de itens de ação e
rastreamento de conformidade
 Especial atenção para Big Data
DMBOK2 e BIGDATA
DMM-Data Management
Maturity Model
Exemplo prático de um projeto
de Big Data à luz do modelo
DMM
(será publicado no Blog do
Barbi)
86
Referências
• Data Management Maturity Model-CMMI Institute-August 2014-
Version 1.0
• Data Management Maturity Model-Introduction-University of Ottawa-
CMMI Institute-December-2014
• Introduction to DMM Concepts-Course-CMMI Institute-Washington
DC-2015
• The DAMA Guide to Data Management Body of Knowledge(Dama-
DMBOK Guide)-First Edition 2009
• Dama-DMBOK2-Framework-Patricia Cupoli; Susan Earley; Debora
Henderson-September-2012
• OpenDataGovernance-DMBOK2-Chapter4-em revisão
• TDWI-The DataWarehouse Institute-Big Data Maturity Model and
Assessment Tool- acessado em tdwi.org, em 25 de junho de 2015
87

Mais conteúdo relacionado

Mais procurados

O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
Marco Garcia
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
Marlesson Santana
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
Christiano Anderson
 
DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1
Howard Diesel (CDMP BI, DW, DBA, Msc Elec Eng)
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03
Carlos Barbieri
 
Escritório de governança de dados
Escritório de governança de dadosEscritório de governança de dados
Escritório de governança de dados
BLRDATA
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
Carlos Barbieri
 
Bergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de DadosBergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de Dados
Bergson Lopes Rêgo, PMP
 
Banco de Dados - Conceitos Básicos
Banco de Dados - Conceitos BásicosBanco de Dados - Conceitos Básicos
Banco de Dados - Conceitos Básicos
Adriano Leite da Silva
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Marcelo Silva
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
Álvaro Farias Pinheiro
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
Ambiente Livre
 
Big Data
Big DataBig Data
Introdução a Bancos de Dados
Introdução a Bancos de DadosIntrodução a Bancos de Dados
Introdução a Bancos de Dados
Ricardo Flores Zago, PMP, MSc
 
Big Data
Big DataBig Data
Big Data
Carlos Silva
 
GOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdfGOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdf
JoseEPininga
 
Data Catalogues - Architecting for Collaboration & Self-Service
Data Catalogues - Architecting for Collaboration & Self-ServiceData Catalogues - Architecting for Collaboration & Self-Service
Data Catalogues - Architecting for Collaboration & Self-Service
DATAVERSITY
 
Dicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de DadosDicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de Dados
Bergson Lopes Rêgo, PMP
 
Big data
Big dataBig data
Big data
Tiago Marques
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
Marlesson Santana
 

Mais procurados (20)

O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03
 
Escritório de governança de dados
Escritório de governança de dadosEscritório de governança de dados
Escritório de governança de dados
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Bergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de DadosBergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de Dados
 
Banco de Dados - Conceitos Básicos
Banco de Dados - Conceitos BásicosBanco de Dados - Conceitos Básicos
Banco de Dados - Conceitos Básicos
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data
Big DataBig Data
Big Data
 
Introdução a Bancos de Dados
Introdução a Bancos de DadosIntrodução a Bancos de Dados
Introdução a Bancos de Dados
 
Big Data
Big DataBig Data
Big Data
 
GOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdfGOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdf
 
Data Catalogues - Architecting for Collaboration & Self-Service
Data Catalogues - Architecting for Collaboration & Self-ServiceData Catalogues - Architecting for Collaboration & Self-Service
Data Catalogues - Architecting for Collaboration & Self-Service
 
Dicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de DadosDicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de Dados
 
Big data
Big dataBig data
Big data
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 

Destaque

Cases big data
Cases big dataCases big data
Cases big data
Wise Systems
 
Big Data - Uma Introdução
Big Data - Uma IntroduçãoBig Data - Uma Introdução
Big Data - Uma Introdução
Thiago Rigo
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Carlos Barbieri
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Carlos Barbieri
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Carlos Barbieri
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Vivaldo Jose Breternitz
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendi
Rodrigo Vieira
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
Alessandro Binhara
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
Igor Steinmacher
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
Robson Santos
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
BonoBee
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
Matheus Pereira
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
João Gabriel Lima
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
Otávio Santana
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com Python
Ana Paula Gomes
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
Dalton Martins
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
João Gabriel Lima
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
Alessandro Binhara
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
PentahoBrasil
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crm
Ramón Díaz
 

Destaque (20)

Cases big data
Cases big dataCases big data
Cases big data
 
Big Data - Uma Introdução
Big Data - Uma IntroduçãoBig Data - Uma Introdução
Big Data - Uma Introdução
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v01
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendi
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com Python
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crm
 

Semelhante a Governança de Dados e Big Data_v02

Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
Fernando farias
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
Hélio Silva
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
Amtera Semantic Systems
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
Cyberboy11
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
Flávio Sousa
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
Arthur Souza
 
Big Data
Big DataBig Data
Big Data
Sandro Servino
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
Alexandre Uehara
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
Caio Louro
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
sparsi
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
Hélio Silva
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
Simposio Internacional Network Science
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
Unicamp
 
BigData
BigDataBigData
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Fabrício Barth
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
Daniela Brauner
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
Regina Cantele
 
BIG DATA
BIG DATABIG DATA
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à prática
Fabíola Fernandes
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
Amazon Web Services LATAM
 

Semelhante a Governança de Dados e Big Data_v02 (20)

Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Big Data
Big DataBig Data
Big Data
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
BigData
BigDataBigData
BigData
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à prática
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 

Governança de Dados e Big Data_v02

  • 1. Big Data e Governança de Dados Carlos Barbieri Versão02-set/2015
  • 2. • Carlos Barbieri, Eng, 1970-MSc-INPE-1974, PG Informática-1975 • Cemig-30 anos na área de Dados(ABD,AD,BI), Gerente da Assessoria de Tecnologia • Professor de Pós-Graduação da FUMEC, PUC-MG nas áreas de BI e Data Governance • Consultoria e treinamento no Brasil e Portugal • Coordenador da área de Qualidade da Fumsoft-Sociedade Mineira de Software, responsável pelo Programa MPS.BR – Engenharia de Software-MPS.BR – Governança e Qualidade de Dados • Autor de 3 livros na área de Dados, Informações e BI • Revisor convidado do Modelo DMM-Data Management Maturity Model-CMMI • CDMP-Certified Data Management Professional-DAMA-Data Management Association- CBIP(TDWI) e CDMP em DM, DW,DD,DOIP,DGS (1994) (2002) (2011)
  • 3. Carlos Barbieri Consultores Associados ® Direitos reservados carlos.barbieri@gmail.com
  • 4. Big Data e Governança de dados • Objetivo: – Discutir como a Governança de Dados se alinhará com os conceitos de BIG DATA? – Quais as áreas de DM-Data Management serão as mais modificadas e reavaliadas sob a luz do conceito? – Como os dois modelos de referências de dados(DMBOK e DMM) serão lidos no contexto de Big Data? 4
  • 5. Big Data e Governança de dados • Objetivo: – Esse material é parte do trabalho que será publicado na íntegra no Blog do Barbi – Carlos Barbieri – blogdobarbi.blogspot.com 5
  • 6. 6
  • 7. BIG DATA • Entre o começo do mundo e 2003, foram produzidos aproximadamente 5 exabytes de informação • Agora são criados 5 exabytes a cada 2 DIAS ERIC SCHMIDT EXECUTIVE CHAIRMAN-GOOGLE 1 EXABYTES=1024 PB QUE É = 1024 TB, OU SEJA > 1 MILHÃO DE TB 1 HD=1TB=SHOPPING OI- CUSTA R$300,00 A CADA 2 DIAS SÃO PRODUZIDOS=5 MILHÕES DE HD DE 1 TB 7
  • 8. BIG DATA • Definição de mercado para representar um novo estado de informação, caracterizado pelos – 5 V – Volume,Velocidade e Variedade,Veracidade,Valor – Gartner Group chama de EIM-Extreme Information Management • Nova oportunidade para TI: novos padrões, novos negócios, oportunidades de exploração 8
  • 9. Escalas de Informação Unidades Kilobyte(KB) 1024 ou 2**10 bytes- O nome se origina de thousand, em grego. Uma página de texto normalmente tem 2KB Megabyte(MB)- 1024KB ou 2**20-O nome se origina de large, em grego. Todo o trabalho de William Shakeaspeare totaliza 5MB e uma canção pop típica tem 4MB Gigabyte(GB)- 1024MB ou 2**30-O nome se origina de giant, em grego. Um filme de duas horas pode ser armazenado de forma comprimida em 1-2GB Terabyte(TB)- 1024GB ou 2**40-O nome se origina de monster, em grego. Todos os livros catalogados na Biblioteca do Congresso americano totalizam 15TB Petabyte(PB)- 1024TB ou 2**50-Todas as cartas que circularão pelo Serviço Postal dos EUA, em 2010, totalizarão 5PB. O Google processa cerca de 1PB por hora de informação Exabyte(EB)-1024PB ou 2**60-Equivale a 10 bilhões de cópias do “The Economist” Zettabyte(ZB)-1024EB ou 2**70-A quantidade total de informação existente até esse ano está prevista em torno de 1,2ZB (definido em 1991) Yottabyte(YB)-1024ZB ou 2**80-Impossível de imaginar (definido em 1991) (*)+Ajuste de nomenclatura: SIU(Sistema Internacional de Unidades-base decimal) e CEI(Comissão Eletrotécnica Internacional-base binária) Novo nome: Mebibytes(MiB)-Gibibytes(GiB)-Tebibytes(TiB)-Pebibytes(PiB)-Exbibytes(EiX)-Zebibytes(ZiB)-Yobibytes(YiB) para as unidades em base binária. Pela CEI= 1TB=1024GB, para o SIU(1TB=1000GB e agora 1TiB=1024GiB). Porém, ambos continuam plenamente aceitos. 9
  • 10. Novas tendências Information overloaded: So much data stored in the world that we may run out of ways to quantify it • Depois do YottaBytes: 1 seguido de 24 zeros • International Committee for Weights and Measures já pensa na nova dimensão • Qual seria o prefixo: campanha para sugestão somente, visto que o Committee é que decide: • 1 com 27 zeros: • Hellabytes, Brontobytes, Xennabytes? 10
  • 11. Escala estendida • Bytes (8 bits) • Kilobyte(1000 bytes) • Megabyte(1.000.000 bytes) • Gigabyte(1.000.000.000 bytes) • Terabyte(1.000.000.000.000 bytes) • Petabyte(1.000.000.000.000.000 bytes) • Exabyte(1.000.000.000.000.000.000 bytes) • Zetabyte(1.000.000.000.000.000.000.000 bytes) • No mundo até 2012 existe 2,7 ZB. Até 2020 35 ZB) • Yottabyte(1.000.000.000.000.000.000.000.000 bytes) • Xenottabyte(1.000.000.000.000.000.000.000.000.000 bytes) • Shilentnobyte((1.000.000.000.000.000.000.000.000.000.000 bytes) • Domegemegrobyte((1.000.000.000.000.000.000.000.000.000.000.000 bytes) 11 Governança de Big Data é diferente da GD?
  • 12. Governança de Big data • Governança de Dados tradicional com certas nuances • 5V: Velocidade, Variedade, Volume, Veracidade e Valor • Algumas variações: – Estratégico: novas possibilidades de negócios – Tático: Novos domínios: novos gestores de dados por assunto – Metadado: mais informações relacionadas ao dado: relacionamento entre pessoas, o dado, os processos e o uso. Ex: Monitoração remota de idosos em sistema de health care - > Privacidade – Operacional: Volume com implicações em novas plataformas e arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase real) – Políticas de retenção e armazenamento de dados 12
  • 13. Lupa sobre a História da humanidade via analytics de Big and Long Data 1861-1865 Os historiadores garantiam que a inversão foi imediatamente após a Guerra Civil
  • 14. Lupa sobre a História da humanidade via analytics de Big and Long Data Iphone Conundrum
  • 15. Cientista de dados (Novo papel da era do Big Data) • Data Science • Estatística será o novo “sexy job” • Matemática computacional • Aplicações intensamente data driven • Conhecimento de ferramentas de mining, conhecimentos de métodos estatísticos de análise e conhecimento de necessidades da empresa . Não é programador • Conhecimento de Repositórios de dados • 2 C: Curiosity( o que posso extrair) and Cleverness(como extrair e analisar) • Considerada uma das + promissoras profissões do futuro 15
  • 16. Big data é fruto de novas fontes de dados • Sistemas/internet • Sensores(até 2025-50 bilhões ligados na internet) • Redes Sociais-FB,Twitter-Linkedin,Instagram • Celulares(voz),Celulares(imagens),Celulares(posição geográfica) • GPS • Câmeras digitais(isoladas,Iphone,Ipad,etc) • Tocadores de músicas (Itunes) • Dados de indicadores de saúde(temperatura, pressão, etc) • Dados sobre genética, genoma, sequenciamento de genes 16
  • 17. Web e Redes Sociais M2M-Máquina Máquina Transações c/ Big Data Biometria Geral Saúde Sentiment Analysis Monitoração de Pacientes Análise de Pedidos Testes Genéticos Registros Médicos eletrônicos Utilities Medidores Inteligentes Varejo Programa de Fidelidade em FB,LNK,TW Etiquetas de RFID Reconheci- mento Facial Telecom Análise de “Churning” de Clientes Serviços baseados em Localização Análise de Fidelidade em Clientes Seguros Investigação de sinistros Veículos Telemáticos Análise de fraudes Subscrição de apólices Serviços de Cliente Chamada de Quality Assurance TI Análise de Log- clickstream Indústria Tipos Fonte: Big Data Governance An emerging imperative Sunil Soares/2012 17
  • 18. Big Data Exemplos • Empresa mundial de delivery • Manipula “big data” antes do “conceito” de big data(desde 1980) • Rastreia dados de 16.3 milhões de pacotes /dia, para 8.8 milhões de clientes • Média de 39.5 milhões de requisição de rastreamento(onde está o meu pacote?) por dia • Armazena em torno de 16 PB de dados • Usa dados de sensores telemáticos(veículos da UPS), são controlados com dados enviados de sensores em 46.000 veículos (velocidade, direção, frenagem e sistema de transmissão do veículo-drivetrain) • Dados no business atual: performance diária de entregas e reotimização de estruturas de rotas – Em 2011-ganho de 8.4 milhões de galões de combustível, reduzindo 85 milhões de milhas em rotas diárias – A economia de uma milha por dia por motorista representa US$30 milhões – Agora foca na otimização de seus 2000 voos diários (frota própria) 18
  • 19. • Banco americano, investindo em Big Data • Comprou Hadoop com 50 nós servidores, cada qual com 16 processadores (800 processadores) • Capacidade de processar 1 PB de dados • Substituição do DW por BIG Data(aqui cuidado... Controvérsias, segundo Bill Inmon e outros ) • Convertendo os processos analíticos existentes para HIVE-plataforma Apache para estruturação de DW em ambientes distribuídos, através de uma linguagem SQL like, chamada HIVEQL. Permite também o processamento tradicional em cima do Hadoop-MapReduce, quando não for viável a expressão via HIVEQL • Dados no business atual: Tratando dados estruturados(grande incidência na área bancária) , mas com a proposta de redução de custos, via nova plataforma-Hadoop-HIVE Banco anônimo 19 Big Data Exemplos
  • 20. • Otimização da aplicação de definição de preços de mercadorias • Cálculo analítico complexo de otimização de preço de 73 milhões de itens para a venda reduzindo de dias/horas para minutos/segundos- de 27 horas para uma hora • Aplicação SAS-HPA-High Performance Analytics • Permitiu a alteração de preços de forma rápida, dependendo das variações instantâneas do mercado • Os dados são extraídos de um sistema de cluster Hadoop para um sistema de computação paralela e arquitetura in-memory – Permite a geração de centenas de milhares de modelos em dados granulares contra centenas de modelos agregados anteriormente 20 Big Data Exemplos
  • 21. • Linkedin: usa big data e cientistas de dados para desenvolver um conjunto de novos produtos • Google: usa big data para refinar o seu produto “core”(máquina de busca) e os algoritmos de ofertas de ads – O projeto de self-driving car é considerado também um projeto de Big Data pela Google • GE: Big data para melhorar serviços, otimizar os contratos de serviços e os intervalos de manutenção para produtos industriais • NetFlix: criou o NetFlix Prize para qualquer equipe de cientistas de dados que consigam otimizar as recomendações para clientes e agora também usa BigData para criar seus próprios conteúdos(The House of Cards, por exemplo) 21 Big Data Exemplos
  • 22. Pílula Inteligente (Smart Pill) • Smart pill: tecnologia de pílulas com microchips, capazes de mandar com grande precisão informações intracorpóreas. Desenvolvido pela Proteus(Califórnia) para a Novartis(gigante suiça da área farmacêutica), num projeto de US$25 milhões. Em submissão para aprovação das agências reguladoras, para entrar no mercado. Inicialmente será usada em casos de transplantes(de rim), onde o controle rigoroso das drogas anti-rejeição deve ser mantido. • Envia mensagens para um patch acoplado na pele que retransmite para o celular, por exemplo. 22 Big Data Exemplos
  • 23. Maturidade em Big Data segundo o TDWI-The Data Warehouse Institute
  • 24. Big Data Maturity Model The Data Warehouse Institute
  • 25. Big Data Maturity Model • Objetiva definir um patamar de comparação com relação a como as empresas estão trabalhando Big Data • Permite uma visão de onde está e para onde uma empresa deseja ir • Ajuda na visão das melhores práticas de Governança e gestão aplicadas sobre Big data • Avaliação interativa por benchmark-permite uma quantificação objetiva da sua posição
  • 26. • Big Data: é um conceito mais do que tecnologia. Alto volume de dados produzido pela sociedade, em função de novas fontes. 5V(variedade, Volume, Velocidade, Veracidade e Valor) • Inclui dados estruturados, semi e não estruturados, de origens variadas: fontes externas e internas, dados de streaming, mídia social, geoespacial, sensores, etc • Exige: infraestrutura de captura, armazenamento, análise, report, archiving e de Governança Big Data Maturity Model
  • 27. Big Data Maturity Model Analytics • Processo inferencial de definição de informações baseados no conjunto de dados existentes • Analytics: Já sendo feito há anos • Analytics com Big data: estende as capacidades existentes e incorpora novas possibilidades (novo valor) em função do volume e variedade. Modifica a “timeliness” das informações em função da velocidade dos dados, com processamentos em tempo real(RT), NRT(quase tempo real), streaming,etc, com dados de fontes variadas como sensores, IOT,etc
  • 28. Big Data Maturity Model Analytics • Agora: –Mais dados disponíveis, com mais atributos –Permite explorar modelos estatísticos com mais propriedade, ampliando o conceito de “analytics”
  • 29. Big Data Maturity Model Analytics • Maturidade envolve: Processos , Pessoas e Tecnologias • Tecnologias envolvem: Novas formas de armazenamento e busca, centradas em processamento distribuído, tratamento in- memory, disponibilidade priorizada contra a integridade rígida dos dados,etc
  • 30. Novos Paradigmas • Dados não estruturados, prioritariamente • Processamentos Batch e Tempo Real • Hadoop-Map Reduce-Big Data • Paradigma do processamento e dos dados distribuídos • Nova visão: Teorema CAP: Consistência(C ), Disponibilidade ( Availability) e P(Particionamento)- Protocolo BASE(Basically Available, Soft state, Eventually consistent) contra o ACID (Atomicidade- Consistência-Isolamento-Durabilidade) • Conceitos: prioriza a disponibilidade e garante a consistência depois de certo tempo (eventually)
  • 31. Novos Propostas • Bancos de Dados: – NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc – Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D), ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O) • Data Warehouse: – HIVE-solução com interface SQL • Análise Preditiva: – MAHOUT: Mining, Machine Learning • Streaming(Tempo Real) – SPLUNK • Processamento paralelo, via expressão de data flow – PIG • Alternativas: – HADOOP-2.0-YARN – SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória- SPARK Streaming,SPARK SQL,etc 31
  • 33. Novos Propostas • Todo processo de aferição de maturidade é definido por uma sequência de estágios, que vai da maturidade inicial até o ponto de maior maturidade, onde a empresa terá o desafio de permanecer, buscando sempre a melhoria contínua 33
  • 34. Maturidade Big data • 1-Nascente • 2-Pré-adoção • 3-Adoção inicial • 4-Adoção Organizacional • 5-Madura 34
  • 36. Maturidade Nível 1-Nascente • Fase pré-Big Data (BigD) • Baixa preocupação com BigD e seu valor • Interesse pontual e espalhado • Pensa em “analytics” de forma isolada • Governança centrada na TI, sem estratégia de dados unificada • DLCM(gerência do ciclo de vida dos dados) inexiste ou é incipiente • Tendência à formação de silos de dados 36
  • 37. Maturidade Nível 2-Pré-adoção • Primeiras preocupações com BigD e Analytics • Pode ter alguma tecnologia emergente como Hadoop • Planos de implementação à curto prazo, mas com foco departamental ou localizado • Patrocinador é o CIO e há pouco envolvimento com a área de negócios • O sabor ainda é de experimentação • Algumas explorações de problemas com possíveis soluções de BigD e analytics • Visão de GD ainda superficial, com identificação de grandes fontes de dados, ainda sem políticas, processos e padrões organizacionais 37
  • 38. Maturidade Nível 3-Adoção inicial • Algumas POC´s (provas de conceitos) definidas e realizadas • Tendência de permanência por tempo maior nesse estágio, ainda sem a visão organizacional de BigD e analytics • Pode ter vários tipos de tecnologia(Hadoop, NOSQL), sem uma estratégia ou visão unificadora • Estruturas de clusters locais ou nas nuvens • Padrões e processos em nível departamental ou já organizacional • Metadados departamentais e uma visão de arquitetura integrada existem • BigD (> 10 TB) de dados estruturados armazenados em “appliances” e aplicações preditivas existem. Foco ainda departamental e concentrado em dados estruturados ou não estruturados, porém sem integração com os estruturados(CRM com mídia social-Cliente da empresa com conta FB, por ex) 38
  • 39. Maturidade Abismo • Os desafios para se chegar à Visão Organizacional • Formação dos recursos humanos adequados(analista Hadoop, Cientista de dados, formação estatistica, etc). Considerar a longa curva de aprendizado nessas tecnologias emergentes • Convergência das equipes de BI e Analytics • FCS-Fatores críticos de sucesso: – Apoio financeiro-Cases de sucesso-Comprovação por resultados – Pontes entre TI e negócios – GD+DM implementada, com visão em direção ao organizacional- regras, política, padrões,etc, com envolvimento da área de negócios-P´s da Governança de Dados – Visão de arquitetura de dados e plataformas unificadas 39
  • 40. Maturidade Abismo • Implantação da Governança de Dados(Big Data) • Diferente da GD padrão- Considerar os 5 V – Velocidade-Variedade-Volume- Veracidade-Valor • Aspectos de DM(Data management): Arquitetura, Ciclo de vida de dados, Operações, Segurança, DW/BigD-Analytics, Metadados, Qualidade, Aspectos de GD,etc • Estrutura de DMO(PMO), com gestores de BigD 40
  • 41. Maturidade Nível 4-Adoção organizacional • Envolvimento da área de negócios • Maior interação sobre como BigD pode influenciar nos negócios • Analytics e BigD como diferencial competitivo • Estratégia de dados com inovação sobre o foco nos dados(arquitetura unificada, análise, governança, etc) • Hadoop, NOSQL, appliances, DW, clusters de 50-100 nós --- > padrões definidos • Já há alta integração entre Negócios e TI • Compartilhamento de dados e minimização de silos de BigD • Metadados em níveis departamentais ou organizacionais • Governança funcionando, com Conselho,DMO, Comitê e Gestores 41
  • 42. Maturidade Nível 5-Madura • Empresa visionária(ainda há poucas) • Programa de BigD e Analytics planejado e orçado, com infraestrutura bem definida e Governança estabelecida • Amplamente integrado com Negócios • Camada operacional bem definida, com Hadoop, NOSQL e outras áreas de DM(gestão de dados), como segurança, recovery, desempenho,metadados etc • Dados com amplitude organizacional 42
  • 43. Maturidade Avaliação • Avaliação por benchmark • Categorias de assuntos-dimensões: – Organização – Infraestrutura – Gestão de Dados – Analytics – Governança de dados • 50 questões(10 por dimensões) • Questões com pesos diferentes dependendo da organização • Score por dimensão e geral • Classificação de maturidade por dimensão(1-Nascente, 2-Pré, 3-Inicial, 4- Adoção organizacional,5-Maturity) 43
  • 45. Maturidade Avaliação • Organização – Patrocínio, cultura, apoio, funding, VALOR, Estratégia • Infraestrutura – Suporte de parte ou de toda a organização (escopo), tipos de tecnologias ou camadas, como estão/estarão integradas com a atual camada , arquiteturas • Gestão de Dados – Variedade, volume, velocidade dos dados para BigD – Qualidade e integração – Operações e armazenamento • Analytics – Tipos de analytics usados, formação de recursos especiais, aplicações • Governança de dados – Os P´s da GD-Políticas, Processos, Padrões e Conformidade, Gestores de dados, segurança e privacidade 45
  • 46. Governança de Big Data • Governança tradicional com nuances • 5V: Velocidade, Variedade, Volume, Veracidade e Valor • Algumas pequenas variações: – Estratégico: novas possibilidades de negócios – Tático: Novos domínios: novos gestores de dados por assunto – Metadados: mais informações relacionadas ao dado: relacionamento entre pessoas, o dado, os processos e o uso. Ex: Monitoração remota de idosos - > Privacidade – Operacional: Volume: implicações em novas plataformas e arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase real) – Políticas de retenção e armazenamento de dados 46
  • 47. Novas Plataformas Data Management • Bancos de Dados: – NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc – Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D), ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O) • Data Warehouse: – HIVE-solução com interface SQL • Análise Preditiva: – MAHOUT: Mining, Machine Learning • Streaming(Tempo Real) – SPLUNK • Processamento paralelo, via expressão de data flow – PIG • Alternativas: – HADOOP-2.0-YARN – SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória- SPARK Streaming,SPARK SQL,etc 47
  • 50. Governança De Ddos Gerência de Arquitetura de Dados Modelagem e Projetos de Dados Armazenamen to e Operações De Dados Gerência de Segurança de Dados Integração e Interoperabili dade Gerência de Dados Mestres -MDM Gerência de BI e DW Gerência de Conteúdos e Documentos Gerência de Metadados Gerência da Qualidade de Dados MCD-Modelo Conceitual Arq.BD Arq.DW Integrado Arq.Corporativa (dados-processos-negócios-sistemas tecnologia) Arq.MetaDados Modelagem dados Modelos lógicos dados Modelos físicos BD Versão e integração de Modelos Implementação de dados Teste/produção BD Backup Recovery/Restart Performance Gerência da tecnologia e Evolução de versões Requisitos de segurança Políticas Padrões Procedimentos Auditoria Versão única-Golden records? Fontes distintas Taxonomia de dados Mestres/Ref-Hierarquias(Classif)/Afiliações(Agregação) ou fontes alternativas Arquitetura de Dados Mestres/Ref(bus,serviços,Replicação,centralização,diretório) DW,Dmarts,ETL BI-Business Intelligence Arquiteturas de BI Gerência sobre DNE(não estruturados) Documentos, conteúdos Backup, recuperação, retenção Gerência de Conteúdo:Indexação Arquitetura Repositório Padrões Distribuição e Entrega MD:negócios, Técnicos, Operacionais Conscientização sobre QD Profiling/Cleansing e avaliação Regras e procedimentos Medições Papéis e estrutura: Comitê-Escritório de dados-gestores de dados Política,Procedimentos Regras para conflitos Supervisão das funções de Gerência de dados Conformidade com Políticas, Padrões, Arquiteturas Promover o dado como ativo Aquisição,extração, Transformação,movimentação Entrega-replicação-federalização Virtualização-suporte 50 DAMA-DMBOK
  • 51. Governança De BIG Data Gerência de Arquitetura de Dados Modelagem e Projetos de Dados Armazenamen to e Operações De Dados Gerência de Segurança de Dados Integração e Interoperabili dade Gerência de Dados Mestres -MDM Gerência de BI e DW Gerência de Conteúdos e Documentos Gerência de Metadados Gerência da Qualidade de Dados Modelos de dados estruturados Modelo de dados não estruturados Arquitetura prioriza a flexibilidade Camadas TR, NRT e Batch Dados armazenados Linhas Colunas Chave-Valor Documentos Grafos-estruturas complexas Dados em alto volume Dados em RT, NRT Impactos em backup Ambientes secundários de storage, custo Igual ao anterior Dados IOT podem ser mais sensíveis: Smart Pill, Elderly Care systems,Smart Meters Visão de Políticas, Padrões, Processos, Procedimentos Pessoas, etc sob esses novos ângulos dos 5V Fail-over Sharding-Replicação Master_Slave-Master-Master Escalabilidade horizontal direta 51 DW/BI integrado com BigD DW-HIVE MAHOUT-Mining, M.Learning ODS-Data Lake Desafio: MD no nível físico Qualidade? O V de Veracidade QD em dados não estruturados Integração de dados Mestres típicos c/ Outros-Redes NOSQL: BD Documentos Dados de Mídia social (Visitor) DAMA-DMBOK2
  • 52. Governança de Dados Gerência de Arquitetura de Dados Modelagem e Projetos de Dados Armazenamen to e Operações De Dados Gerência de Segurança de Dados Integração e Interoperabili dade Gerência de Dados Mestres -MDM Gerência de BI e DW Gerência de Conteúdos e Documentos Gerência de Metadados Gerência da Qualidade de Dados Troca de nome dos processos Processo novo-Integração e Interoperabilidade DAMA-DMBOK2 Nomes antigos: 1-Desenvolvimento de dados-2-Gerência de Operações de dados 1 2
  • 53. 53DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor Definição: Exercício da autoridade e controle(planejamento, monitoração e aplicação das regras) acerca da gestão de ativos de dados Objetivos:  Definir , aprovar e comunicar as estratégias de dados, políticas, padrões, procedimentos, arquiteturas e métricas  Rastrear e forçar a aplicação de regras regulatórias de conformidade e aderência(compliance) via políticas, padrões procedimentos e arquiteturas de dados  Patrocinar, rastrear e supervisionar a entrega de projetos de dados da organização  Gerenciar e resolver pendências relacionadas a dados  Entender e promover o valor dos ativos de dados DAMA-DMBOK-Governança de Dados
  • 54. Atividades Entradas Saídas Métricas e Ferramentas: Métricas: Valor dos dados, Custo de DM, Alcance de Objetivos, # de decisões tomadas, Cobertura dos Gestores de dados, # de profissionais de dados, Maturidade do processo de DM Ferramentas: Website,email,Repositórios, Issue tracker, KPI Entradas: • Objetivos de negócios • Estratégias de negócios • Objetivos de TI • Estratégias de TI • Necessidades de dados • Pendências de dados • Requisitos regulatórios Fornecedores: • Executivos de negócios • Executivos de TI • Gestores de dados • Organismos regulatórios Participantes: • Gestores de dados executivos • Coordenação de gestores de dados • Gestores de dados de negócios • Profissionais de dados • Executivos de gestão de dados • CIO Entregáveis: • Políticas de dados • Padrões de dados • Pendências de dados resolvidas • Projetos e Serviços de Gestão de dados(DM) • Informações e dados com qualidade • Valor de dados reconhecido Consumidores: • Produtores de dados • Gestores de conhecimento • Executivos e Gerentes • Profissionais de dados • Clientes DAMA-DMBOK-Governança de Dados
  • 55. DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor Atividades: • Planejamento de DM(*)  Entender as necessidades estratégicas de dados da organização  Desenvolver e manter uma estratégia de dados  Estabelecer estruturas e papéis de profissionais de dados  Identificar e designar gestores de dados  Estabelecer estruturas de gestão e governança de dados  Desenvolver e aprovar Políticas, Padrões e Procedimentos  Revisar e aprovar a arquitetura de dados  Planejar e patrocinar projetos e serviços de DM(*)  Estimar o valor e os custos associados aos ativos de dados DAMA-DMBOK-Governança de Dados Planejar (*)-Data Management-Gestão de dados
  • 56. DMBOK-Figura 3.1-Diagrama de Contexto de Governança de Dados-adaptação do autor Atividades: • Controle de DM(*)  Supervisionar as estruturas, funções e papéis de dados  Coordenar as atividades de Governança de dados  Gerenciar e resolver pendências de dados  Monitorar e garantir as conformidades regulatórias  Monitorar e garantir aspectos de conformidade com Políticas, Padrões e Arquitetura de dados  Supervisionar projetos e serviços de dados  Comunicar e promover o valor dos ativos de dados DAMA-DMBOK-Governança de Dados (*)-Data Management-Gestão de dados
  • 57. DMM 57 Data Management Maturity Model CMMI Institute
  • 58. VISÃO GERAL NOS ANOS 200X 1 2 3 4 5 QUALIDADE DE DADOS OPERAÇÕES DE DADOS ESTRATÉGIA DE GESTÃO DE DADOS PLATAFORMA E ARQUITETURA 1-realizado 2-gerenciado 3-definido 4-medido 5-otimizado 6 Categorias 25 PA´s Capacidade GOVERNANÇA DE DADOS RSKM(RISCOS)-CM(CONFIGURAÇÃO)-MA(MEDIÇÃO E ANÁLISE)-QA(QUALITY ASSURANCE) DE PROCESSO- GERÊNCIA DE PROCESSO DMM- 1.0 Data Maturity Model PROCESSOS DE SUPORTE Atributos de Processos ISP-Infrastructure Support Practices 58
  • 59. O modelo DMM 25 Áreas de Processos • Propósito – Introducão - Objetivos - Questões – Níveis de capacidade - Produtos de trabalho • Politicas – Processos – Padrões – Governança – Métricas – Tecnologia – Dicas de implementação 300+ Práticas 300+ Produtos de trabalho Data Management Strategy Data Management Strategy Communications Data Management Function Business Case Funding Data Governance Governance Management Business Glossary Metadata Management Data Quality Data Quality Strategy Data Profiling Data Quality Assessment Data Cleansing Data Operations Data Requirements Definition Data Lifecycle Management Provider Management Platform & Architecture Architectural Approach Architectural Standards Data Management Platform Data Integration Historical Data, Archiving and Retention Supporting Processes Measurement and Analysis Process Management Process Quality Assurance Risk Management Configuration Management 59
  • 60. O modelo DMM 60 uaisprocessosmerecem+atençãoquandopensamosemBIGData Estratégia de Data Management(Data Management Strategy) Estratégia de Data Management Comunicações Função de Data Management Plano de Negócios (Business Case) Apoio Financeiro Governança de Dados(Data Governance) Gerência de Governança Glossáriio de Negócios Gerência de Metadados Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados Data Profiling Avaliação de Qualidade de Dados Limpeza de Dados Operações de Dados(Data Operations) Definição de Requisitos de Dados Gerência do Ciclo de vida dos Dados Gerência de Fornecedores de Dados(Provider Management) Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach) Padrões Arquiteturais(ArchitecturalStandards) Plataformas de Data Management(Data Management Platform) Integração de Dados (Data Integration) Dados Históricos(Historical Data) , Arquivamento(Archiving) e Retenção(Retention) Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis) Gerência de Processo(Process Management) Garantia de Qualidade do Processo(Process Quality Assurance) Gerência de Risco(Risk Management) Gerência de Configuração(Configuration Management)
  • 61. O modelo DMM 61 uaisprocessosmerecem+atençãoquandopensamosemBIGData Estratégia de Data Management(Data Management Strategy) Estratégia de Data Management Comunicações Função de Data Management Plano de Negócios (Business Case) Apoio Financeiro Governança de Dados(Data Governance) Gerência de Governança Glossáriio de Negócios Gerência de Metadados Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados Data Profiling Avaliação de Qualidade de Dados Limpeza de Dados Operações de Dados(Data Operations) Definição de Requisitos de Dados Gerência do Ciclo de vida dos Dados Gerência de Fornecedores de Dados(Provider Management) Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach) Padrões Arquiteturais(ArchitecturalStandards) Plataformas de Data Management(Data Management Platform) Integração de Dados (Data Integration) Dados Históricos(Historical Data) , Arquivamento(Archiving) e Retenção(Retention) Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis) Gerência de Processo(Process Management) Garantia de Qualidade do Processo(Process Quality Assurance) Gerência de Risco(Risk Management) Gerência de Configuração(Configuration Management)
  • 62. Como DMBOK e DMM se encontram ? 62
  • 63. QUALIDADE DE DADOS OPERAÇÕES DE DADOS ESTRATÉGIA DE DADOS PLATAFORMA E ARQUITETURA DMBOK-DAMA DMM-CMMI GOVERNANÇA DE DADOS Integração e Interoperabilidade (DMBOK2) (*) Novo nome: Modelagem e Projeto de dados Antigo: Desenvolvimento de Dados (**)Novo nome: Armazenamento e Operações de dados Antigo: Gerência de Operações de dados (**) (*) 63
  • 64. DMBOK2 e DMM DAMA-DMBOK DMM-Categorias e PA´s Governança de Dados Planejar, supervisionar, e controlar as funções de DM, o uso e os recursos relacionados a dados Governança de Dados, Gerência da Governança, Glossário de negócios e Gerência de metadados. Estratégia de dados c/estratégia de DM e funções de DM Arquitetura de Dados A estrutura geral de dados e os recursos relacionados a dados, como parte integral da Arquitetura corporativa Plataforma & Arquitetura (Abordagens e Padrões arquiteturais),Integração de dados, Definição de requisitos de dados, gerência de Ciclo de vida de dados, provedores de dados e Governança de dados c/gerência de DM, glossário e metadados Projeto e Modelagem de Dados Análise, projeto, construção, teste e manutenção de dados Plataforma & Arquitetura, Operações de dados c/definição de requisitos de dados, gerência de Ciclo de vida de dados, provedores de dados Armazenamento e Operações de dados Gerência, implantação e armazenamento dos ativos de dados físicos Operações de Dados, c/ definição de requisitos de dados, Gerência de Ciclo de vida de dados, Provedores de dados
  • 65. DAMA-DMBOK DMM Segurança de Dados Garantir a privacidade, confidencialidade e acesso adequado aos dados Governança de dados, c/ definição de políticas de segurança e acesso, Operações de dados, com a definição de requisitos de dados e gerência de Risco Integração e Interoperabilidade de dados Aquisição, extração, transformação, movimentação entrega, replicação, federalização, virtualização e suporte operacional Plataforma & Arquitetura, Integração de dados Documentos e Conteúdo Armazenar, proteger, indexar e permitir o acesso a dados não estruturados, e torná-los disponíveis para integração e interoperabilidade com dados estruturados Operações de Dados e Plataforma &Arquitetura, definição de requisitos de dados 65 DMBOK2 e DMM
  • 66. DAMA-DMBOK DMM Dados Mestres e de Referências Gerenciar dados compartilhados para reduzir a redundância e garantir a qualidade de dados através de definições e uso de valores padronizados Governança de Dados, c/ gerência de metadados , Plataforma e Arquitetura, via abordagens e padrões arquiteturais e plataformas de integração. DWBI Gerenciar o processamento de dados analítico possibilitando acesso a dados de suporte de decisão para relatórios e análises Governança de Dados, c/ gerência de metadados e glossário de negócios , Plataforma e Arquitetura via padrões e abordagens arquiteturais, Qualidade de dados, c/ estratégia, avaliação, profiling e limpeza . Metadados Coletar, categorizar, manter, integrar, controlar, gerenciar e liberar metadados Governança de Dados, com metadados e glossário Qualidade de Dados Definir, monitorar e manter a integridade de dados e melhorar a qualidade de dados Qualidade de Dados, com estratégia, avaliação, profiling e limpeza 66 DMBOK2 e DMM
  • 67. Como DMBOK e DMM se encontram com Big Data? 67
  • 68. DMBOK e BIGDATA Arquitet ura NormalData BigData  Centralizado  MCD-Modelo Conceitual-E-R-A  Arq.BD-relacional normalizado-esquema  Integrado com Arquitetura Corporativa (dados-processos-negócios- sistemas tecnologia). Integrado com arquitetura de Metadados, de DWBI  Descentralizado  Estruturas não normalizadas, complexas, com arrays, dados dentro de dados, etc  Schemaless-sem necessidade de definição de estrutura upfront  Layout variável  Modelo de dados não estruturados-predominante  Tem Modelos de dados estruturados também
  • 69. Arquitetura NormalData BigData  Arquiteturas e Plataformas mais estruturadas  Centralizada com ACID: Atomicidade, Consistência, Isolamento e Durabilidade  Descentralizada com 2 Phase Commit-ACID  Prioriza consistência imediata  Máquinas robustas centralizadas-single server, com maior investimento  Escalabilidade vertical  Fail prone  Arquitetura descentralizada mais flexível  Dados replicados em topologia Sharding: Master- Slave ou Master-Master  Protocolo BASE-Basically Available, Soft status and Eventually consistent- Teorema CAP  Prioriza a disponibilidade imediata  N Máquinas Commodities com menor investimento  Escalabilidade horizontal  Fail Over DMBOK e BIGDATA
  • 70. Arquitetura NormalData BigData  Produtos Big Shots da indústria: Oracle, DB2, SQL-Server  Foco ACID  Foco ; generalizado nas aplicações  Campos nulos não são armazenados mas sinalizados(is null)  Diversidade de produtos  Open Source, com “features” especiais pagas  Foco BASE, porém alguns com ACID também: Neo4J,MarkLogic, FoundationDB,MongoDB  Vários sabores(modelos), com especializações de aplicação:  Colunar: bom para Count,Sum,AVG,Mean  Key-valor: estrutura simples, com 1 chave e um valor(pode ser elemento complexo)  Tripla/Grafos: relacionamentos complexos, semânticos: João gosta de queijo (tripla)  Documentos: XML, JSON, Blobs  Nulos não são armazenados DMBOK e BIGDATA
  • 71. Arquitetura NormalData BigData  Produtos Big Shots da indústria: Oracle, DB2, SQL-Server  Diversidade de produtos-vide slide seguinte DMBOK e BIGDATA
  • 72. Novos Produtos • Bancos de Dados: – NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc – Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D), ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O) • Data Warehouse: – HIVE-solução com interface SQL • Análise Preditiva: – MAHOUT: Mining, Machine Learning • Streaming(Tempo Real) – SPLUNK • Processamento paralelo, via expressão de data flow – PIG • Alternativas: – HADOOP-2.0-YARN – SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória- SPARK Streaming,SPARK SQL,etc 72
  • 73. Modelagem e projeto de dados NormalData BigData  Modelagem relacional de dados  Modelos lógicos dados  Modelos físicos BD- redundância controlada  Versão e integração de modelos  Implementação de dados  Teste/produção  Modelagem “escondida” no código  Dados armazenados em  Linhas  Colunas  Chave-Valor  Documentos  Grafos-estruturas mais complexas- melhor na arquitetura centralizada  Triple store(sujeito- predicado-objeto)  Redundância incentivada DMBOK2 e BIGDATA
  • 74. Armazena mento e Operação NormalData BigData  Ambiente de BD  Backup  Recovery/Restart  Performance  Gerência da tecnologia  Evolução de versões  Dados em alto volume  Appliances como Netezza- IBM e Teradata  Tempo Real, NearRT e Batch  Impactos em backup e archiving  Impactos em ambientes secundários de storage DMBOK2 e BIGDATA
  • 75. Gerência de Segurança NormalData BigData  Requisitos de segurança  Políticas  Padrões  Procedimentos  Auditoria  Igual ao anterior  Dados IOT podem ser mais sensíveis: Smart Pill, Elderly Care systems, Smart Meters DMBOK2 e BIGDATA
  • 76. Integração e Interopera bilidade NormalData BigData  Aquisição  Extração  Transformação  Movimentação  Entrega-replicação- federalização  Virtualização  Suporte  Escalabilidade vertical Idêntico DMBOK2 e BIGDATA
  • 77. MDM NormalData BigData  Versão única-Golden records?  Fontes distintas  Taxonomia de dados Mestres/Referências  Hierarquias: Classificação e Agregação  Arquitetura de MDM: Bus de serviço, Replicação, Centralização, Diretório Integração de dados mestres tradicionais com dados de clientes em ambientes de Redes sociais ou outros DMBOK2 e BIGDATA
  • 78. DW/BI NormalData BigData  DW  Dmarts  ETL  BI-Business Intelligence  Arquiteturas de BI  HIVE-DW  MAHOUT-Mining, Machine Learning  Conceito de Data Lake- ODS DMBOK2 e BIGDATA
  • 79. Gestão de Documentos NormalData BigData  Gerência sobre DNE(não estruturados  Documentos, conteúdos  Backup, recuperação, retenção  Gerência de Conteúdo  Indexação Mesmos conceitos, com Bancos NOSQL focados em Documentos e estruturas complexas Bancos de dados NOSQL focados em Documentos (MongoDB, CouchDB) DMBOK2 e BIGDATA
  • 80. Metadados NormalData BigData  Arquitetura  Repositório  Padrões  Distribuição e entrega  MD de negócios  MD Técnicos  MD Operacionais  Modelo relacional não guarda metadados de relacionamentos (PK=FK) Metadados no Foco no modelo físico, como no normaldata Alguns produtos guardam metadados de relacionamentos Adição de termos de novos ambientes(redes sociais, smart meter, IOT) no contexto de metadados e glossários de negócios DMBOK2 e BIGDATA
  • 81. Qualidade de dados NormalData BigData  Conscientização sobre QD  Profiling/Cleansing e avaliação  Regras e procedimentos  Medições  O 5º V do Big Data: Veracidade  Aspectos de qualidade em grandes volumes de dados  Aspectos de qualidade em dados não estruturados(variedade)  Valores válidos de um campo grau-instrução e de um post do FB?  Dados que chegam em alta taxa de “ingestão”- verificação RT ou posteriori de qualidade DMBOK2 e BIGDATA
  • 82. Governança de dados NormalData BigData  P´s da GD-Políticas, Processos, Procedimentos e Padrões  Padrões de nomes, abreviações  Padrões de especificação de requisitos  Padrões de modelagem de dados  Padrões de projetos de BD  Padrões de replicação e integração de dados  Padrões arquiteturais  Padrões de procedimentos para os serviços de Dados(DM)- rascunhados pelos profissionais e submetidos ao Conselho de GD, ou a um Comitê tático delegado  Valem os P´s da GD com Políticas, Processos, Padrões e Procedimentos,etc afetados pelos 5 V DMBOK2 e BIGDATA
  • 83. Governança de dados NormalData BigData  Processos-Procedimentos e Padrões para  Metadados, com procedimentos para capturar, manter, integra e usar metadados de negócios e técnicos  Soluções com Arquiteturas centradas em dados, com foco em integração, interoperabilidade e Big Data  Gerência de modelos de dados  Operações: Restart, performance, retenção e aquisição de dados  Gerência de dados Mestres e de Referências  Qualidade: Profiling e Cleansing de dados  DW/BI  ECM-Enterprise Content management  Segurança de dados  idem DMBOK2 e BIGDATA
  • 84. Governança de dados NormalData BigData  Conformidades regulatórias  Resoluções de pendências (Issues), em Qualidade de dados, conflitos de nomes e definições, Regras de negócios, aspectos regulatórios, não-conformidade detectada, conflitos em políticas, padrões, arquitetura e procedimentos, interesses de envolvidos em dados e informações, gerência de mudança, aspectos relacionados com procedimentos de GD e direitos de decisão, negociação de compartilhamento de dados  Especial atenção para Big Data  Políticas com foco em valor de negócios, compliance, segurança,etc DMBOK2 e BIGDATA
  • 85. Governança de dados NormalData BigData  Para a própria GD:  Controle de pendências (identificação, registro e atualização)  Acompanhamento do status da pendência  Documentação de resoluções e pontos de vista de pendências  Escalonamento de resolução de pendências  Documentação e divulgação de pendências resolvidas  Definição de itens de ação e rastreamento de conformidade  Especial atenção para Big Data DMBOK2 e BIGDATA
  • 86. DMM-Data Management Maturity Model Exemplo prático de um projeto de Big Data à luz do modelo DMM (será publicado no Blog do Barbi) 86
  • 87. Referências • Data Management Maturity Model-CMMI Institute-August 2014- Version 1.0 • Data Management Maturity Model-Introduction-University of Ottawa- CMMI Institute-December-2014 • Introduction to DMM Concepts-Course-CMMI Institute-Washington DC-2015 • The DAMA Guide to Data Management Body of Knowledge(Dama- DMBOK Guide)-First Edition 2009 • Dama-DMBOK2-Framework-Patricia Cupoli; Susan Earley; Debora Henderson-September-2012 • OpenDataGovernance-DMBOK2-Chapter4-em revisão • TDWI-The DataWarehouse Institute-Big Data Maturity Model and Assessment Tool- acessado em tdwi.org, em 25 de junho de 2015 87