Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
2. • Carlos Barbieri, Eng, 1970-MSc-INPE-1974, PG Informática-1975
• Cemig-30 anos na área de Dados(ABD,AD,BI), Gerente da Assessoria de Tecnologia
• Professor de Pós-Graduação da FUMEC, PUC-MG nas áreas de BI e Data
Governance
• Consultoria e treinamento no Brasil e Portugal
• Coordenador da área de Qualidade da Fumsoft-Sociedade Mineira de Software,
responsável pelo Programa MPS.BR
– Engenharia de Software-MPS.BR
– Governança e Qualidade de Dados
• Autor de 3 livros na área de Dados, Informações e BI
• Revisor convidado do Modelo DMM-Data Management Maturity Model-CMMI
• CDMP-Certified Data Management Professional-DAMA-Data Management
Association- CBIP(TDWI) e CDMP em DM, DW,DD,DOIP,DGS
(1994) (2002) (2011)
4. Big Data e
Governança de dados
• Objetivo:
– Discutir como a Governança de Dados se
alinhará com os conceitos de BIG DATA?
– Quais as áreas de DM-Data Management serão
as mais modificadas e reavaliadas sob a luz do
conceito?
– Como os dois modelos de referências de
dados(DMBOK e DMM) serão lidos no
contexto de Big Data?
4
5. Big Data e
Governança de dados
• Objetivo:
– Esse material é parte do trabalho que será
publicado na íntegra no Blog do Barbi – Carlos
Barbieri
– blogdobarbi.blogspot.com
5
7. BIG DATA
• Entre o começo do mundo e 2003, foram
produzidos aproximadamente 5 exabytes de
informação
• Agora são criados 5 exabytes a cada
2 DIAS
ERIC SCHMIDT
EXECUTIVE CHAIRMAN-GOOGLE
1 EXABYTES=1024 PB QUE É = 1024 TB, OU SEJA > 1 MILHÃO DE TB
1 HD=1TB=SHOPPING OI- CUSTA R$300,00
A CADA 2 DIAS SÃO PRODUZIDOS=5 MILHÕES DE HD DE 1 TB 7
8. BIG DATA
• Definição de mercado para
representar um novo estado de
informação, caracterizado pelos
– 5 V
– Volume,Velocidade e
Variedade,Veracidade,Valor
– Gartner Group chama de
EIM-Extreme Information
Management
• Nova oportunidade para TI:
novos padrões, novos negócios,
oportunidades de exploração
8
9. Escalas de Informação
Unidades
Kilobyte(KB) 1024 ou 2**10 bytes- O nome se origina de thousand,
em grego. Uma página de texto normalmente tem 2KB
Megabyte(MB)- 1024KB ou 2**20-O nome se origina de large, em
grego. Todo o trabalho de William Shakeaspeare totaliza
5MB e uma canção pop típica tem 4MB
Gigabyte(GB)- 1024MB ou 2**30-O nome se origina de giant, em
grego. Um filme de duas horas pode ser armazenado de
forma comprimida em 1-2GB
Terabyte(TB)- 1024GB ou 2**40-O nome se origina de monster, em
grego. Todos os livros catalogados na Biblioteca do
Congresso americano totalizam 15TB
Petabyte(PB)- 1024TB ou 2**50-Todas as cartas que circularão
pelo Serviço Postal dos EUA, em 2010, totalizarão 5PB. O
Google processa cerca de 1PB por hora de informação
Exabyte(EB)-1024PB ou 2**60-Equivale a 10 bilhões de cópias do
“The Economist”
Zettabyte(ZB)-1024EB ou 2**70-A quantidade total de informação
existente até esse ano está prevista em torno de 1,2ZB
(definido em 1991)
Yottabyte(YB)-1024ZB ou 2**80-Impossível de imaginar (definido
em 1991)
(*)+Ajuste de nomenclatura: SIU(Sistema Internacional de Unidades-base decimal) e CEI(Comissão Eletrotécnica Internacional-base binária)
Novo nome: Mebibytes(MiB)-Gibibytes(GiB)-Tebibytes(TiB)-Pebibytes(PiB)-Exbibytes(EiX)-Zebibytes(ZiB)-Yobibytes(YiB) para as unidades em base binária.
Pela CEI= 1TB=1024GB, para o SIU(1TB=1000GB e agora 1TiB=1024GiB). Porém, ambos continuam plenamente aceitos.
9
10. Novas tendências
Information overloaded: So much data stored in the
world that we may run out of ways to quantify it
• Depois do YottaBytes: 1
seguido de 24 zeros
• International Committee
for Weights and Measures
já pensa na nova dimensão
• Qual seria o prefixo:
campanha para sugestão
somente, visto que o
Committee é que decide:
• 1 com 27 zeros:
• Hellabytes, Brontobytes,
Xennabytes?
10
11. Escala estendida
• Bytes (8 bits)
• Kilobyte(1000 bytes)
• Megabyte(1.000.000 bytes)
• Gigabyte(1.000.000.000 bytes)
• Terabyte(1.000.000.000.000 bytes)
• Petabyte(1.000.000.000.000.000 bytes)
• Exabyte(1.000.000.000.000.000.000 bytes)
• Zetabyte(1.000.000.000.000.000.000.000 bytes)
• No mundo até 2012 existe 2,7 ZB. Até 2020 35 ZB)
• Yottabyte(1.000.000.000.000.000.000.000.000 bytes)
• Xenottabyte(1.000.000.000.000.000.000.000.000.000 bytes)
• Shilentnobyte((1.000.000.000.000.000.000.000.000.000.000 bytes)
• Domegemegrobyte((1.000.000.000.000.000.000.000.000.000.000.000 bytes)
11
Governança de Big Data
é diferente da GD?
12. Governança de Big data
• Governança de Dados tradicional com certas nuances
• 5V: Velocidade, Variedade, Volume, Veracidade e Valor
• Algumas variações:
– Estratégico: novas possibilidades de negócios
– Tático: Novos domínios: novos gestores de dados por assunto
– Metadado: mais informações relacionadas ao dado: relacionamento
entre pessoas, o dado, os processos e o uso. Ex: Monitoração remota
de idosos em sistema de health care - > Privacidade
– Operacional: Volume com implicações em novas plataformas e
arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase real)
– Políticas de retenção e armazenamento de dados
12
13. Lupa sobre a História da humanidade via analytics de
Big and Long Data
1861-1865
Os historiadores garantiam
que a inversão foi imediatamente
após a Guerra Civil
14. Lupa sobre a História da humanidade via analytics
de Big and Long Data
Iphone Conundrum
15. Cientista de dados
(Novo papel da era do Big Data)
• Data Science
• Estatística será o novo “sexy job”
• Matemática computacional
• Aplicações intensamente data driven
• Conhecimento de ferramentas de
mining, conhecimentos de métodos
estatísticos de análise e conhecimento
de necessidades da empresa . Não é
programador
• Conhecimento de Repositórios de
dados
• 2 C: Curiosity( o que posso extrair)
and Cleverness(como extrair e
analisar)
• Considerada uma das + promissoras
profissões do futuro
15
16. Big data é fruto de
novas fontes de dados
• Sistemas/internet
• Sensores(até 2025-50 bilhões ligados na internet)
• Redes Sociais-FB,Twitter-Linkedin,Instagram
• Celulares(voz),Celulares(imagens),Celulares(posição
geográfica)
• GPS
• Câmeras digitais(isoladas,Iphone,Ipad,etc)
• Tocadores de músicas (Itunes)
• Dados de indicadores de saúde(temperatura, pressão, etc)
• Dados sobre genética, genoma, sequenciamento de genes
16
17. Web e
Redes
Sociais
M2M-Máquina
Máquina
Transações c/
Big Data Biometria
Geral
Saúde Sentiment
Analysis
Monitoração de
Pacientes
Análise de
Pedidos
Testes
Genéticos
Registros
Médicos
eletrônicos
Utilities Medidores
Inteligentes
Varejo Programa de
Fidelidade
em
FB,LNK,TW
Etiquetas de
RFID
Reconheci-
mento
Facial
Telecom Análise de
“Churning” de
Clientes
Serviços
baseados em
Localização
Análise de
Fidelidade em
Clientes
Seguros Investigação
de sinistros
Veículos
Telemáticos
Análise de
fraudes
Subscrição
de apólices
Serviços de
Cliente
Chamada de
Quality
Assurance
TI Análise de Log-
clickstream
Indústria
Tipos
Fonte: Big Data Governance
An emerging imperative
Sunil Soares/2012
17
18. Big Data
Exemplos
• Empresa mundial de delivery
• Manipula “big data” antes do “conceito” de big data(desde 1980)
• Rastreia dados de 16.3 milhões de pacotes /dia, para 8.8 milhões de clientes
• Média de 39.5 milhões de requisição de rastreamento(onde está o meu
pacote?) por dia
• Armazena em torno de 16 PB de dados
• Usa dados de sensores telemáticos(veículos da UPS), são controlados com
dados enviados de sensores em 46.000 veículos (velocidade, direção,
frenagem e sistema de transmissão do veículo-drivetrain)
• Dados no business atual: performance diária de entregas e
reotimização de estruturas de rotas
– Em 2011-ganho de 8.4 milhões de galões de combustível, reduzindo 85 milhões de
milhas em rotas diárias
– A economia de uma milha por dia por motorista representa US$30 milhões
– Agora foca na otimização de seus 2000 voos diários (frota própria)
18
19. • Banco americano, investindo em Big Data
• Comprou Hadoop com 50 nós servidores, cada qual com 16 processadores
(800 processadores)
• Capacidade de processar 1 PB de dados
• Substituição do DW por BIG Data(aqui cuidado... Controvérsias, segundo
Bill Inmon e outros )
• Convertendo os processos analíticos existentes para HIVE-plataforma
Apache para estruturação de DW em ambientes distribuídos, através de
uma linguagem SQL like, chamada HIVEQL. Permite também o
processamento tradicional em cima do Hadoop-MapReduce, quando não
for viável a expressão via HIVEQL
• Dados no business atual: Tratando dados estruturados(grande
incidência na área bancária) , mas com a proposta de redução de
custos, via nova plataforma-Hadoop-HIVE
Banco anônimo
19
Big Data
Exemplos
20. • Otimização da aplicação de definição de preços de mercadorias
• Cálculo analítico complexo de otimização de preço de 73 milhões de
itens para a venda reduzindo de dias/horas para minutos/segundos- de
27 horas para uma hora
• Aplicação SAS-HPA-High Performance Analytics
• Permitiu a alteração de preços de forma rápida, dependendo das
variações instantâneas do mercado
• Os dados são extraídos de um sistema de cluster Hadoop para um
sistema de computação paralela e arquitetura in-memory
– Permite a geração de centenas de milhares de modelos em dados
granulares contra centenas de modelos agregados anteriormente
20
Big Data
Exemplos
21. • Linkedin: usa big data e cientistas de dados para desenvolver um conjunto
de novos produtos
• Google: usa big data para refinar o seu produto “core”(máquina de busca) e
os algoritmos de ofertas de ads
– O projeto de self-driving car é considerado também um projeto de Big Data
pela Google
• GE: Big data para melhorar serviços, otimizar os contratos de serviços e os
intervalos de manutenção para produtos industriais
• NetFlix: criou o NetFlix Prize para qualquer equipe de cientistas de dados
que consigam otimizar as recomendações para clientes e agora também usa
BigData para criar seus próprios conteúdos(The House of Cards, por
exemplo)
21
Big Data
Exemplos
22. Pílula Inteligente
(Smart Pill)
• Smart pill: tecnologia de pílulas com
microchips, capazes de mandar com
grande precisão informações
intracorpóreas. Desenvolvido pela
Proteus(Califórnia) para a
Novartis(gigante suiça da área
farmacêutica), num projeto de US$25
milhões. Em submissão para
aprovação das agências reguladoras,
para entrar no mercado. Inicialmente
será usada em casos de
transplantes(de rim), onde o controle
rigoroso das drogas anti-rejeição deve
ser mantido.
• Envia mensagens para um patch
acoplado na pele que retransmite para
o celular, por exemplo. 22
Big Data
Exemplos
25. Big Data
Maturity Model
• Objetiva definir um patamar de comparação
com relação a como as empresas estão
trabalhando Big Data
• Permite uma visão de onde está e para onde uma
empresa deseja ir
• Ajuda na visão das melhores práticas de
Governança e gestão aplicadas sobre Big data
• Avaliação interativa por benchmark-permite
uma quantificação objetiva da sua posição
26. • Big Data: é um conceito mais do que tecnologia. Alto
volume de dados produzido pela sociedade, em
função de novas fontes. 5V(variedade, Volume,
Velocidade, Veracidade e Valor)
• Inclui dados estruturados, semi e não estruturados, de
origens variadas: fontes externas e internas, dados de
streaming, mídia social, geoespacial, sensores, etc
• Exige: infraestrutura de captura, armazenamento,
análise, report, archiving e de Governança
Big Data
Maturity Model
27. Big Data
Maturity Model
Analytics
• Processo inferencial de definição de informações
baseados no conjunto de dados existentes
• Analytics: Já sendo feito há anos
• Analytics com Big data: estende as capacidades
existentes e incorpora novas possibilidades (novo valor)
em função do volume e variedade. Modifica a
“timeliness” das informações em função da velocidade
dos dados, com processamentos em tempo real(RT),
NRT(quase tempo real), streaming,etc, com dados de
fontes variadas como sensores, IOT,etc
28. Big Data
Maturity Model
Analytics
• Agora:
–Mais dados disponíveis, com mais
atributos
–Permite explorar modelos estatísticos
com mais propriedade, ampliando o
conceito de “analytics”
29. Big Data
Maturity Model
Analytics
• Maturidade envolve: Processos , Pessoas
e Tecnologias
• Tecnologias envolvem: Novas formas de
armazenamento e busca, centradas em
processamento distribuído, tratamento in-
memory, disponibilidade priorizada
contra a integridade rígida dos dados,etc
30. Novos Paradigmas
• Dados não estruturados, prioritariamente
• Processamentos Batch e Tempo Real
• Hadoop-Map Reduce-Big Data
• Paradigma do processamento e dos dados distribuídos
• Nova visão: Teorema CAP: Consistência(C ),
Disponibilidade ( Availability) e P(Particionamento)-
Protocolo BASE(Basically Available, Soft state,
Eventually consistent) contra o ACID (Atomicidade-
Consistência-Isolamento-Durabilidade)
• Conceitos: prioriza a disponibilidade e garante a
consistência depois de certo tempo (eventually)
31. Novos Propostas
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
31
33. Novos Propostas
• Todo processo de aferição de maturidade
é definido por uma sequência de estágios,
que vai da maturidade inicial até o ponto
de maior maturidade, onde a empresa terá
o desafio de permanecer, buscando
sempre a melhoria contínua
33
36. Maturidade
Nível 1-Nascente
• Fase pré-Big Data (BigD)
• Baixa preocupação com BigD e seu valor
• Interesse pontual e espalhado
• Pensa em “analytics” de forma isolada
• Governança centrada na TI, sem estratégia de dados
unificada
• DLCM(gerência do ciclo de vida dos dados) inexiste
ou é incipiente
• Tendência à formação de silos de dados
36
37. Maturidade
Nível 2-Pré-adoção
• Primeiras preocupações com BigD e Analytics
• Pode ter alguma tecnologia emergente como Hadoop
• Planos de implementação à curto prazo, mas com foco
departamental ou localizado
• Patrocinador é o CIO e há pouco envolvimento com a área de
negócios
• O sabor ainda é de experimentação
• Algumas explorações de problemas com possíveis soluções de
BigD e analytics
• Visão de GD ainda superficial, com identificação de grandes
fontes de dados, ainda sem políticas, processos e padrões
organizacionais
37
38. Maturidade
Nível 3-Adoção inicial
• Algumas POC´s (provas de conceitos) definidas e realizadas
• Tendência de permanência por tempo maior nesse estágio, ainda sem a
visão organizacional de BigD e analytics
• Pode ter vários tipos de tecnologia(Hadoop, NOSQL), sem uma
estratégia ou visão unificadora
• Estruturas de clusters locais ou nas nuvens
• Padrões e processos em nível departamental ou já organizacional
• Metadados departamentais e uma visão de arquitetura integrada
existem
• BigD (> 10 TB) de dados estruturados armazenados em “appliances” e
aplicações preditivas existem. Foco ainda departamental e concentrado
em dados estruturados ou não estruturados, porém sem integração com
os estruturados(CRM com mídia social-Cliente da empresa com conta
FB, por ex) 38
39. Maturidade
Abismo
• Os desafios para se chegar à Visão Organizacional
• Formação dos recursos humanos adequados(analista Hadoop, Cientista de
dados, formação estatistica, etc). Considerar a longa curva de aprendizado
nessas tecnologias emergentes
• Convergência das equipes de BI e Analytics
• FCS-Fatores críticos de sucesso:
– Apoio financeiro-Cases de sucesso-Comprovação por resultados
– Pontes entre TI e negócios
– GD+DM implementada, com visão em direção ao organizacional-
regras, política, padrões,etc, com envolvimento da área de negócios-P´s
da Governança de Dados
– Visão de arquitetura de dados e plataformas unificadas
39
40. Maturidade
Abismo
• Implantação da Governança de Dados(Big Data)
• Diferente da GD padrão- Considerar os 5 V
– Velocidade-Variedade-Volume- Veracidade-Valor
• Aspectos de DM(Data management): Arquitetura,
Ciclo de vida de dados, Operações, Segurança,
DW/BigD-Analytics, Metadados, Qualidade,
Aspectos de GD,etc
• Estrutura de DMO(PMO), com gestores de BigD
40
41. Maturidade
Nível 4-Adoção organizacional
• Envolvimento da área de negócios
• Maior interação sobre como BigD pode influenciar nos negócios
• Analytics e BigD como diferencial competitivo
• Estratégia de dados com inovação sobre o foco nos dados(arquitetura
unificada, análise, governança, etc)
• Hadoop, NOSQL, appliances, DW, clusters de 50-100 nós --- >
padrões definidos
• Já há alta integração entre Negócios e TI
• Compartilhamento de dados e minimização de silos de BigD
• Metadados em níveis departamentais ou organizacionais
• Governança funcionando, com Conselho,DMO, Comitê e Gestores
41
42. Maturidade
Nível 5-Madura
• Empresa visionária(ainda há poucas)
• Programa de BigD e Analytics planejado e orçado,
com infraestrutura bem definida e Governança
estabelecida
• Amplamente integrado com Negócios
• Camada operacional bem definida, com Hadoop,
NOSQL e outras áreas de DM(gestão de dados),
como segurança, recovery, desempenho,metadados
etc
• Dados com amplitude organizacional
42
43. Maturidade
Avaliação
• Avaliação por benchmark
• Categorias de assuntos-dimensões:
– Organização
– Infraestrutura
– Gestão de Dados
– Analytics
– Governança de dados
• 50 questões(10 por dimensões)
• Questões com pesos diferentes dependendo da organização
• Score por dimensão e geral
• Classificação de maturidade por dimensão(1-Nascente, 2-Pré, 3-Inicial, 4-
Adoção organizacional,5-Maturity)
43
45. Maturidade
Avaliação
• Organização
– Patrocínio, cultura, apoio, funding, VALOR, Estratégia
• Infraestrutura
– Suporte de parte ou de toda a organização (escopo), tipos de tecnologias ou
camadas, como estão/estarão integradas com a atual camada , arquiteturas
• Gestão de Dados
– Variedade, volume, velocidade dos dados para BigD
– Qualidade e integração
– Operações e armazenamento
• Analytics
– Tipos de analytics usados, formação de recursos especiais, aplicações
• Governança de dados
– Os P´s da GD-Políticas, Processos, Padrões e Conformidade, Gestores de
dados, segurança e privacidade
45
46. Governança de Big Data
• Governança tradicional com nuances
• 5V: Velocidade, Variedade, Volume, Veracidade e Valor
• Algumas pequenas variações:
– Estratégico: novas possibilidades de negócios
– Tático: Novos domínios: novos gestores de dados por assunto
– Metadados: mais informações relacionadas ao dado:
relacionamento entre pessoas, o dado, os processos e o uso. Ex:
Monitoração remota de idosos - > Privacidade
– Operacional: Volume: implicações em novas plataformas e
arquiteturas-Hadoop/NoSQL, Plataformas de NRT(Tempo quase
real)
– Políticas de retenção e armazenamento de dados
46
47. Novas Plataformas
Data Management
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
47
50. Governança
De
Ddos
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
MCD-Modelo Conceitual
Arq.BD
Arq.DW
Integrado Arq.Corporativa
(dados-processos-negócios-sistemas
tecnologia)
Arq.MetaDados
Modelagem dados
Modelos lógicos dados
Modelos físicos BD
Versão e integração de
Modelos
Implementação de dados
Teste/produção
BD
Backup
Recovery/Restart
Performance
Gerência da tecnologia e
Evolução de versões
Requisitos de segurança
Políticas
Padrões
Procedimentos
Auditoria
Versão única-Golden records?
Fontes distintas
Taxonomia de dados Mestres/Ref-Hierarquias(Classif)/Afiliações(Agregação)
ou fontes alternativas
Arquitetura de Dados Mestres/Ref(bus,serviços,Replicação,centralização,diretório)
DW,Dmarts,ETL
BI-Business Intelligence
Arquiteturas de BI
Gerência sobre DNE(não estruturados)
Documentos, conteúdos
Backup, recuperação, retenção
Gerência de Conteúdo:Indexação
Arquitetura
Repositório
Padrões
Distribuição e
Entrega
MD:negócios,
Técnicos,
Operacionais
Conscientização sobre QD
Profiling/Cleansing e avaliação
Regras e procedimentos
Medições
Papéis e estrutura: Comitê-Escritório de dados-gestores de dados
Política,Procedimentos
Regras para conflitos
Supervisão das funções de Gerência de dados
Conformidade com Políticas, Padrões, Arquiteturas
Promover o dado como ativo
Aquisição,extração,
Transformação,movimentação
Entrega-replicação-federalização
Virtualização-suporte
50
51. Governança
De
BIG
Data
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
Modelos de dados estruturados
Modelo de dados não estruturados
Arquitetura prioriza a flexibilidade
Camadas TR, NRT e Batch
Dados armazenados
Linhas
Colunas
Chave-Valor
Documentos
Grafos-estruturas complexas
Dados em alto volume
Dados em RT, NRT
Impactos em backup
Ambientes secundários
de storage, custo
Igual ao anterior
Dados IOT podem ser
mais sensíveis: Smart Pill,
Elderly Care systems,Smart Meters
Visão de Políticas, Padrões, Processos, Procedimentos
Pessoas, etc sob esses novos ângulos dos 5V
Fail-over
Sharding-Replicação Master_Slave-Master-Master
Escalabilidade horizontal direta
51
DW/BI integrado com BigD
DW-HIVE
MAHOUT-Mining, M.Learning
ODS-Data Lake
Desafio: MD no nível físico
Qualidade? O V de Veracidade
QD em dados não estruturados
Integração de dados
Mestres típicos c/
Outros-Redes
NOSQL: BD
Documentos
Dados de
Mídia social
(Visitor)
DMBOK
52. Governança
de
Dados
Gerência de
Arquitetura
de Dados
Modelagem e
Projetos de
Dados
Armazenamen
to
e Operações
De Dados
Gerência de
Segurança de
Dados
Integração
e
Interoperabili
dade
Gerência de
Dados Mestres
-MDM
Gerência de
BI e DW
Gerência de
Conteúdos e
Documentos
Gerência de
Metadados
Gerência da
Qualidade de
Dados
Troca de nome dos processos
Processo novo-Integração e Interoperabilidade
DMBOK2
55. VISÃO GERAL NOS ANOS 200X
1
2
3
4
5
QUALIDADE
DE
DADOS
OPERAÇÕES
DE
DADOS
ESTRATÉGIA DE
GESTÃO DE DADOS
PLATAFORMA E
ARQUITETURA
1-realizado
2-gerenciado
3-definido
4-medido
5-otimizado
6 Categorias
25 PA´s
Capacidade
GOVERNANÇA
DE
DADOS
RSKM(RISCOS)-CM(CONFIGURAÇÃO)-MA(MEDIÇÃO E ANÁLISE)-QA(QUALITY
ASSURANCE) DE PROCESSO- GERÊNCIA DE PROCESSO
DMM-
1.0 Data
Maturity
Model
PROCESSOS DE SUPORTE
Atributos de Processos
ISP-Infrastructure
Support Practices
55
56. O modelo DMM
25 Áreas de Processos
• Propósito – Introducão - Objetivos
- Questões – Níveis de capacidade
- Produtos de trabalho
• Politicas – Processos – Padrões –
Governança – Métricas –
Tecnologia – Dicas de
implementação
300+ Práticas
300+ Produtos de trabalho
Data Management Strategy Data Management Strategy
Communications
Data Management Function
Business Case
Funding
Data Governance Governance Management
Business Glossary
Metadata Management
Data Quality Data Quality Strategy
Data Profiling
Data Quality Assessment
Data Cleansing
Data Operations Data Requirements Definition
Data Lifecycle Management
Provider Management
Platform & Architecture Architectural Approach
Architectural Standards
Data Management Platform
Data Integration
Historical Data, Archiving and
Retention
Supporting Processes Measurement and Analysis
Process Management
Process Quality Assurance
Risk Management
Configuration Management
56
57. O modelo DMM
57
uaisprocessosmerecem+atençãoquandopensamosemBIGData
Estratégia de Data Management(Data Management
Strategy)
Estratégia de Data Management
Comunicações
Função de Data Management
Plano de Negócios (Business Case)
Apoio Financeiro
Governança de Dados(Data Governance) Gerência de Governança
Glossáriio de Negócios
Gerência de Metadados
Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados
Data Profiling
Avaliação de Qualidade de Dados
Limpeza de Dados
Operações de Dados(Data Operations) Definição de Requisitos de Dados
Gerência do Ciclo de vida dos Dados
Gerência de Fornecedores de Dados(Provider Management)
Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach)
Padrões Arquiteturais(ArchitecturalStandards)
Plataformas de Data Management(Data Management Platform)
Integração de Dados (Data Integration)
Dados Históricos(Historical Data) , Arquivamento(Archiving) e
Retenção(Retention)
Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis)
Gerência de Processo(Process Management)
Garantia de Qualidade do Processo(Process Quality Assurance)
Gerência de Risco(Risk Management)
Gerência de Configuração(Configuration Management)
58. O modelo DMM
58
uaisprocessosmerecem+atençãoquandopensamosemBIGData
Estratégia de Data Management(Data Management
Strategy)
Estratégia de Data Management
Comunicações
Função de Data Management
Plano de Negócios (Business Case)
Apoio Financeiro
Governança de Dados(Data Governance) Gerência de Governança
Glossáriio de Negócios
Gerência de Metadados
Qualidade de Dados(Data Quality) Estratégia de Qualidade de Dados
Data Profiling
Avaliação de Qualidade de Dados
Limpeza de Dados
Operações de Dados(Data Operations) Definição de Requisitos de Dados
Gerência do Ciclo de vida dos Dados
Gerência de Fornecedores de Dados(Provider Management)
Plataforma & Arquitetura(Platform & Architecture) Abordagem Arquitetural(Architectural Approach)
Padrões Arquiteturais(ArchitecturalStandards)
Plataformas de Data Management(Data Management Platform)
Integração de Dados (Data Integration)
Dados Históricos(Historical Data) , Arquivamento(Archiving) e
Retenção(Retention)
Processos de Suporte(Supporting Processes) Medições & Análise(Measurement and Analysis)
Gerência de Processo(Process Management)
Garantia de Qualidade do Processo(Process Quality Assurance)
Gerência de Risco(Risk Management)
Gerência de Configuração(Configuration Management)
61. DMBOK2 e DMM
DAMA-DMBOK DMM-Categorias e PA´s
Governança de Dados Planejar, supervisionar, e controlar as funções de
DM, o uso e os recursos relacionados a dados
Governança de Dados, Gerência
da Governança, Glossário de
negócios e Gerência de
metadados. Estratégia de dados
c/estratégia de DM e funções de
DM
Arquitetura de Dados A estrutura geral de dados e os recursos relacionados
a dados, como parte integral da Arquitetura
corporativa
Plataforma & Arquitetura
(Abordagens e Padrões
arquiteturais),Integração de
dados, Definição de requisitos de
dados, gerência de Ciclo de vida
de dados, provedores de dados e
Governança de dados c/gerência
de DM, glossário e metadados
Projeto e Modelagem de
Dados
Análise, projeto, construção, teste e manutenção de
dados
Plataforma & Arquitetura,
Operações de dados c/definição
de requisitos de dados, gerência
de Ciclo de vida de dados,
provedores de dados
Armazenamento e
Operações de dados
Gerência, implantação e armazenamento dos ativos
de dados físicos
Operações de Dados, c/ definição
de requisitos de dados, Gerência
de Ciclo de vida de dados,
Provedores de dados
62. DAMA-DMBOK
DMM
Segurança de Dados Garantir a privacidade, confidencialidade e
acesso adequado aos dados
Governança de dados,
c/ definição de
políticas de segurança
e acesso, Operações de
dados, com a definição
de requisitos de dados
e gerência de Risco
Integração e
Interoperabilidade
de dados
Aquisição, extração, transformação,
movimentação entrega, replicação, federalização,
virtualização e suporte operacional
Plataforma &
Arquitetura, Integração
de dados
Documentos e
Conteúdo
Armazenar, proteger, indexar e permitir o acesso
a dados não estruturados, e torná-los disponíveis
para integração e interoperabilidade com dados
estruturados
Operações de Dados e
Plataforma
&Arquitetura,
definição de requisitos
de dados
62
DMBOK2 e DMM
63. DAMA-DMBOK DMM
Dados Mestres e de
Referências
Gerenciar dados compartilhados para reduzir a
redundância e garantir a qualidade de dados através de
definições e uso de valores padronizados
Governança de Dados, c/
gerência de metadados ,
Plataforma e Arquitetura,
via abordagens e padrões
arquiteturais e plataformas
de integração.
DWBI Gerenciar o processamento de dados analítico
possibilitando acesso a dados de suporte de decisão
para relatórios e análises
Governança de Dados, c/
gerência de metadados e
glossário de negócios ,
Plataforma e Arquitetura
via padrões e abordagens
arquiteturais, Qualidade de
dados, c/ estratégia,
avaliação, profiling e
limpeza .
Metadados Coletar, categorizar, manter, integrar, controlar,
gerenciar e liberar metadados
Governança de Dados,
com metadados e glossário
Qualidade de Dados Definir, monitorar e manter a integridade de dados e
melhorar a qualidade de dados
Qualidade de Dados, com
estratégia, avaliação,
profiling e limpeza
63
DMBOK2 e DMM
65. DMBOK e BIGDATA
Arquitet
ura
NormalData BigData
Centralizado
MCD-Modelo
Conceitual-E-R-A
Arq.BD-relacional
normalizado-esquema
Integrado com
Arquitetura Corporativa
(dados-processos-negócios-
sistemas tecnologia).
Integrado com arquitetura de
Metadados, de DWBI
Descentralizado
Estruturas não normalizadas,
complexas, com arrays, dados
dentro de dados, etc
Schemaless-sem necessidade de
definição de estrutura upfront
Layout variável
Modelo de dados não
estruturados-predominante
Tem Modelos de dados
estruturados também
66. Arquitetura NormalData BigData
Arquiteturas e Plataformas
mais estruturadas
Centralizada com ACID:
Atomicidade, Consistência,
Isolamento e Durabilidade
Descentralizada com 2
Phase Commit-ACID
Prioriza consistência
imediata
Máquinas robustas
centralizadas-single server,
com maior investimento
Escalabilidade vertical
Fail prone
Arquitetura descentralizada
mais flexível
Dados replicados em
topologia Sharding: Master-
Slave ou Master-Master
Protocolo BASE-Basically
Available, Soft status and
Eventually consistent-
Teorema CAP
Prioriza a disponibilidade
imediata
N Máquinas Commodities
com menor investimento
Escalabilidade horizontal
Fail Over
DMBOK e BIGDATA
67. Arquitetura NormalData BigData
Produtos Big Shots da
indústria: Oracle, DB2,
SQL-Server
Foco ACID
Foco ; generalizado nas
aplicações
Campos nulos não são
armazenados mas
sinalizados(is null)
Diversidade de produtos
Open Source, com “features”
especiais pagas
Foco BASE, porém alguns com
ACID também: Neo4J,MarkLogic,
FoundationDB,MongoDB
Vários sabores(modelos), com
especializações de aplicação:
Colunar: bom para
Count,Sum,AVG,Mean
Key-valor: estrutura simples, com
1 chave e um valor(pode ser
elemento complexo)
Tripla/Grafos: relacionamentos
complexos, semânticos: João gosta
de queijo (tripla)
Documentos: XML, JSON, Blobs
Nulos não são armazenados
DMBOK e BIGDATA
68. Arquitetura NormalData BigData
Produtos Big Shots da
indústria: Oracle, DB2,
SQL-Server
Diversidade de produtos-vide slide
seguinte
DMBOK e BIGDATA
69. Novos Produtos
• Bancos de Dados:
– NOSQL: Chave-Valor, Documentos (D), Colunares ( C ), Grafos(G), ObjectDB (O) etc
– Cassandra ( C), Hbase ( C ), DynamoDB( C ), MongoDB (D), CouchDB(D),
ElasticSearch (D), Neo4J(G), FlockDB(G), ObjectDB(O), Objectivity(O)
• Data Warehouse:
– HIVE-solução com interface SQL
• Análise Preditiva:
– MAHOUT: Mining, Machine Learning
• Streaming(Tempo Real)
– SPLUNK
• Processamento paralelo, via expressão de data flow
– PIG
• Alternativas:
– HADOOP-2.0-YARN
– SPARK-Alternativa ao Hadoop-MapReduce-Univ. Berkeley-tratamento em memória-
SPARK Streaming,SPARK SQL,etc
69
70. Modelagem
e projeto de
dados
NormalData BigData
Modelagem relacional de
dados
Modelos lógicos dados
Modelos físicos BD-
redundância controlada
Versão e integração de
modelos
Implementação de dados
Teste/produção
Modelagem “escondida” no
código
Dados armazenados em
Linhas
Colunas
Chave-Valor
Documentos
Grafos-estruturas mais
complexas- melhor na
arquitetura centralizada
Triple store(sujeito-
predicado-objeto)
Redundância incentivada
DMBOK2 e BIGDATA
71. Armazena
mento e
Operação
NormalData BigData
Ambiente de BD
Backup
Recovery/Restart
Performance
Gerência da tecnologia
Evolução de versões
Dados em alto volume
Appliances como Netezza-
IBM e Teradata
Tempo Real, NearRT e
Batch
Impactos em backup e
archiving
Impactos em ambientes
secundários de storage
DMBOK2 e BIGDATA
72. Gerência
de
Segurança
NormalData BigData
Requisitos de
segurança
Políticas
Padrões
Procedimentos
Auditoria
Igual ao anterior
Dados IOT podem ser
mais sensíveis: Smart
Pill, Elderly Care
systems, Smart Meters
DMBOK2 e BIGDATA
74. MDM NormalData BigData
Versão única-Golden
records?
Fontes distintas
Taxonomia de dados
Mestres/Referências
Hierarquias:
Classificação e
Agregação
Arquitetura de MDM:
Bus de serviço,
Replicação,
Centralização,
Diretório
Integração de dados mestres
tradicionais com dados de clientes
em ambientes de Redes sociais ou
outros
DMBOK2 e BIGDATA
75. DW/BI NormalData BigData
DW
Dmarts
ETL
BI-Business
Intelligence
Arquiteturas de BI
HIVE-DW
MAHOUT-Mining,
Machine Learning
Conceito de Data Lake-
ODS
DMBOK2 e BIGDATA
76. Gestão de
Documentos
NormalData BigData
Gerência sobre DNE(não
estruturados
Documentos, conteúdos
Backup, recuperação,
retenção
Gerência de Conteúdo
Indexação
Mesmos conceitos, com Bancos
NOSQL focados em Documentos
e estruturas complexas
Bancos de dados NOSQL focados
em Documentos (MongoDB,
CouchDB)
DMBOK2 e BIGDATA
77. Metadados NormalData BigData
Arquitetura
Repositório
Padrões
Distribuição e
entrega
MD de negócios
MD Técnicos
MD Operacionais
Modelo relacional não
guarda metadados de
relacionamentos
(PK=FK)
Metadados no Foco no
modelo físico, como no
normaldata
Alguns produtos guardam
metadados de
relacionamentos
Adição de termos de
novos ambientes(redes
sociais, smart meter, IOT)
no contexto de metadados
e glossários de negócios
DMBOK2 e BIGDATA
78. Qualidade
de dados
NormalData BigData
Conscientização
sobre QD
Profiling/Cleansing
e avaliação
Regras e
procedimentos
Medições
O 5º V do Big Data:
Veracidade
Aspectos de qualidade em
grandes volumes de dados
Aspectos de qualidade em
dados não
estruturados(variedade)
Valores válidos de um
campo grau-instrução e de
um post do FB?
Dados que chegam em alta
taxa de “ingestão”-
verificação RT ou posteriori
de qualidade
DMBOK2 e BIGDATA
79. Governança
de dados
NormalData BigData
P´s da GD-Políticas, Processos,
Procedimentos e Padrões
Padrões de nomes, abreviações
Padrões de especificação de
requisitos
Padrões de modelagem de
dados
Padrões de projetos de BD
Padrões de replicação e
integração de dados
Padrões arquiteturais
Padrões de procedimentos para
os serviços de Dados(DM)-
rascunhados pelos profissionais
e submetidos ao Conselho de
GD, ou a um Comitê tático
delegado
Valem os P´s da GD com
Políticas, Processos, Padrões e
Procedimentos,etc afetados
pelos 5 V
DMBOK2 e BIGDATA
80. Governança
de dados
NormalData BigData
Processos-Procedimentos e Padrões
para
Metadados, com procedimentos
para capturar, manter, integra e usar
metadados de negócios e técnicos
Soluções com Arquiteturas
centradas em dados, com foco em
integração, interoperabilidade e Big
Data
Gerência de modelos de dados
Operações: Restart, performance,
retenção e aquisição de dados
Gerência de dados Mestres e de
Referências
Qualidade: Profiling e Cleansing
de dados
DW/BI
ECM-Enterprise Content
management
Segurança de dados
idem
DMBOK2 e BIGDATA
81. Governança
de dados
NormalData BigData
Conformidades regulatórias
Resoluções de pendências
(Issues), em Qualidade de dados,
conflitos de nomes e definições,
Regras de negócios, aspectos
regulatórios, não-conformidade
detectada, conflitos em políticas,
padrões, arquitetura e
procedimentos, interesses de
envolvidos em dados e
informações, gerência de mudança,
aspectos relacionados com
procedimentos de GD e direitos de
decisão, negociação de
compartilhamento de dados
Especial atenção para Big Data
Políticas com foco em valor de
negócios, compliance,
segurança,etc
DMBOK2 e BIGDATA
82. Governança
de dados
NormalData BigData
Para a própria GD:
Controle de pendências
(identificação, registro e
atualização)
Acompanhamento do status da
pendência
Documentação de resoluções e
pontos de vista de pendências
Escalonamento de resolução de
pendências
Documentação e divulgação de
pendências resolvidas
Definição de itens de ação e
rastreamento de conformidade
Especial atenção para Big Data
DMBOK2 e BIGDATA
84. Referências
• Data Management Maturity Model-CMMI Institute-August 2014-
Version 1.0
• Data Management Maturity Model-Introduction-University of Ottawa-
CMMI Institute-December-2014
• Introduction to DMM Concepts-Course-CMMI Institute-Washington
DC-2015
• The DAMA Guide to Data Management Body of Knowledge(Dama-
DMBOK Guide)-First Edition 2009
• Dama-DMBOK2-Framework-Patricia Cupoli; Susan Earley; Debora
Henderson-September-2012
• OpenDataGovernance-DMBOK2-Chapter4-em revisão
• TDWI-The DataWarehouse Institute-Big Data Maturity Model and
Assessment Tool- acessado em tdwi.org, em 25 de junho de 2015
84