Realizando Limpeza de Dados com
Data Quality Services
Arthur Luz | MCSA & MCT em SQL Server
arthurjosemberg@gmail.com
http://arthurluz.wordpress.com
Patrocinadores
PosConference – 09/10 - SP
• Local
• Microsoft Brasil – SP
• Inscrições
• http://tinyurl.com/SQLSat570
Quem sou eu?
Senior BI Analyst at Datainfo / ANEEL Project
BI and Database Consultant and Instructor in
One Way Solution and BI do Brasil
Writer at SQL Magazine
MCSA e MCT em SQL Server
Official Instructor at Hepta Novintec
 Master Data Management – Conceito
 Data Quality – Atributos
 Data Steward
 MDM e DW – Exemplo de Arquitetura
 SQL Server Data Quality Services
 Instalação do DQS
 Arquitetura do DQS
 Knowledge Base Management
 Data Quality Services na Prática
 Criação de Domínios – Simples e Composto
 Populando a base de Conhecimento
 Politicas de Correspondências
 Projeto de Limpeza de Dados
 Projeto de Correspondências de Dados
 Usando o SSIS para realizar limpeza de dados
Agenda
CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
??
Problema
CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
Customer ID Account No Contact No Customer Address Phone
1235 531 22 Ben Smith 1 High St, Seattle 555 12345
Master Data
Other consumers
(e.g. Data Warehouse ETL)
Solução
Golden Record
Master Data Management - Conceito
O MDM procura garantir que uma organização não utilize múltiplas
(potencialmente inconsistentes) versões de um mesmo dado mestre em
diferentes partes de sua operação, o que ocorre normalmente em grandes
organizações.
Um exemplo de um MDM pobre é o cenário bancário em que um cliente adquire
um Empréstimo Imobiliário e o banco continua oferecendo propostas de
empréstimo imobiliário para aquele cliente, ignorando o fato do cliente já
possuir o produto com o banco.
Isto acontece devido a informação do cliente utilizada pelo departamento de
marketing não é a mesma utilizada pelo setor de relacionamento com o cliente
do banco.
Data Quality - Atributos
1) Validade e integridade - Os dados existentes estão corretos?
2) Acessibilidade - Quando são necessários os dados estão disponíveis, ou é necessário fazer vários
pedidos até se poder ter acesso aos dados?
3) Cobertura - Os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos,
mas também podem existir valores relativos.
4) Pontualidade - Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela
sua disponibilização?
5) Contexto/Precisão - Os dados reproduzem com precisão o
que é suposto descreverem?
6) Confiabilidade - A todo o momento pode haver confiança
nos dados, ou existe alturas do ano em que essa confiança é
maior e outras alturas em que é menor?
7) Integralidade - Os dados contêm toda a informação
relevante?
Data Steward
O Data Steward é a pessoa responsável pela gestão e adequação dos elementos de dados - o
conteúdo e metadados.
Ele tem o papel de especialista de dados, que incorpora processos, políticas, diretrizes e
responsabilidades para a administração de todos os dados das organizações em
conformidade com a política e / ou obrigações regulamentares.
O objetivo global de um Data Steward é a qualidade dos dados, no
que diz respeito aos elementos essenciais e críticos dos dados
existentes dentro de uma estrutura operacional da empresa
específica, dos elementos em seus respectivos domínios.
Isso inclui a captura e documentação (meta informações) para seus
elementos tais como: definições, regras relacionadas, governança,
modelos de dados relacionados, etc.
MDM e DW – Exemplo de Arquitetura
ODS – Operational Data Store
DDS – Dimensional Data Store
MDB – Master Database
NDS – Normalized Data Store
SQL Server Data Quality Services
“A solução de qualidade de dados fornecida pelo Data Quality Services
(DQS) permite que um administrador de dados ou profissional de TI mantenha
a qualidade de seus dados e assegure que os dados sejam adequados para uso
comercial.
O DQS é uma solução controlada por conhecimento que fornece maneiras
assistidas por computador e interativas para gerenciar a integridade e a
qualidade de suas fontes de dados.
O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus
dados. Você pode usar esse conhecimento para executar a limpeza, a
correspondência e a criação de perfil de dados.”
Data Quality Services - Instalação
A instalação é realizada através do SQL Server Installation Center – Enterprise Edition.
Após finalizada a instalação, dois componentes estarão disponíveis. São eles:
Data Quality Server – Precisa ser ativo
após a instalação. Uma Master key será
configurada e três bases de dados serão
criadas dentro da instancia.
Data Quality Client – Cliente para
criação, manuseio e configuração do DQS.
Arquitetura do Data Quality Services
Base de
Conhecimento
Criação
Uso
Mapear
Projeto de Qualidade de Dados
Gerenciamento de Conhecimento
Perfil Integrado
Exportar
Origem
Dados Processados
SQL Server Database
Arquivo Excel / CSV
Serviço de Referência
Criação da KDB
Uso da KDB
Legenda
Knowledge Base Management
O Knowledge Base Management (KBM) é uma base de
conhecimento criada para armazenar informações
pertinentes ao seu negócio, incluindo assim, valores válidos
como também inválidos, regras para normalização e
conformidade dos registros, sendo que após a base criada é
possível utilizá-la em diversos projetos de Data Cleansing ou
Data Matching.
Para a criação de um KBM completo temos 3 atividades:
 Domain Management – Criação das Regras e
Normalizações para os dados;
 Knowledge Discovery – Descobrimento de dados
para os Domínios;
 Matching Policy – Criação de Politicas de
consistências para os Domínios;
Criando e Configurando um
Processo de Qualidade de Dados
na Prática
Email - arthurjosemberg@gmail.com
Linkedin – Arthur Luz
Twitter - @arthurjosemberg
Skype - arthurjosemberg
Blog – arthurluz.wordpress.com
Contatos
https://luanmorenodba.wordpress.com/2
012/08/01/srie-data-quality-services-dqs/
https://msdn.microsoft.com/pt-
br/library/ff877925.aspx
Microsoft MSDN
Blog
Luan Moreno

realizando_limpeza_de_dados_com_data_quality_services

  • 1.
    Realizando Limpeza deDados com Data Quality Services Arthur Luz | MCSA & MCT em SQL Server arthurjosemberg@gmail.com http://arthurluz.wordpress.com
  • 2.
  • 3.
    PosConference – 09/10- SP • Local • Microsoft Brasil – SP • Inscrições • http://tinyurl.com/SQLSat570
  • 5.
    Quem sou eu? SeniorBI Analyst at Datainfo / ANEEL Project BI and Database Consultant and Instructor in One Way Solution and BI do Brasil Writer at SQL Magazine MCSA e MCT em SQL Server Official Instructor at Hepta Novintec
  • 6.
     Master DataManagement – Conceito  Data Quality – Atributos  Data Steward  MDM e DW – Exemplo de Arquitetura  SQL Server Data Quality Services  Instalação do DQS  Arquitetura do DQS  Knowledge Base Management  Data Quality Services na Prática  Criação de Domínios – Simples e Composto  Populando a base de Conhecimento  Politicas de Correspondências  Projeto de Limpeza de Dados  Projeto de Correspondências de Dados  Usando o SSIS para realizar limpeza de dados Agenda
  • 7.
    CRM Marketing SystemOrder ProcessingSystem Customer ID Name Address Phone 1235 Ben Smith 1 High St, Seattle 555 12345 Account Customer Address Phone 531 Benjamin Smith 1 High St, Seattle 555 12345 Contact Name Address Phone 22 B Smith 5 Main St, Seattle 555 54321 ?? Problema
  • 8.
    CRM Marketing SystemOrder ProcessingSystem Customer ID Name Address Phone 1235 Ben Smith 1 High St, Seattle 555 12345 Account Customer Address Phone 531 Benjamin Smith 1 High St, Seattle 555 12345 Contact Name Address Phone 22 B Smith 5 Main St, Seattle 555 54321 Customer ID Account No Contact No Customer Address Phone 1235 531 22 Ben Smith 1 High St, Seattle 555 12345 Master Data Other consumers (e.g. Data Warehouse ETL) Solução Golden Record
  • 9.
    Master Data Management- Conceito O MDM procura garantir que uma organização não utilize múltiplas (potencialmente inconsistentes) versões de um mesmo dado mestre em diferentes partes de sua operação, o que ocorre normalmente em grandes organizações. Um exemplo de um MDM pobre é o cenário bancário em que um cliente adquire um Empréstimo Imobiliário e o banco continua oferecendo propostas de empréstimo imobiliário para aquele cliente, ignorando o fato do cliente já possuir o produto com o banco. Isto acontece devido a informação do cliente utilizada pelo departamento de marketing não é a mesma utilizada pelo setor de relacionamento com o cliente do banco.
  • 10.
    Data Quality -Atributos 1) Validade e integridade - Os dados existentes estão corretos? 2) Acessibilidade - Quando são necessários os dados estão disponíveis, ou é necessário fazer vários pedidos até se poder ter acesso aos dados? 3) Cobertura - Os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos, mas também podem existir valores relativos. 4) Pontualidade - Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela sua disponibilização? 5) Contexto/Precisão - Os dados reproduzem com precisão o que é suposto descreverem? 6) Confiabilidade - A todo o momento pode haver confiança nos dados, ou existe alturas do ano em que essa confiança é maior e outras alturas em que é menor? 7) Integralidade - Os dados contêm toda a informação relevante?
  • 11.
    Data Steward O DataSteward é a pessoa responsável pela gestão e adequação dos elementos de dados - o conteúdo e metadados. Ele tem o papel de especialista de dados, que incorpora processos, políticas, diretrizes e responsabilidades para a administração de todos os dados das organizações em conformidade com a política e / ou obrigações regulamentares. O objetivo global de um Data Steward é a qualidade dos dados, no que diz respeito aos elementos essenciais e críticos dos dados existentes dentro de uma estrutura operacional da empresa específica, dos elementos em seus respectivos domínios. Isso inclui a captura e documentação (meta informações) para seus elementos tais como: definições, regras relacionadas, governança, modelos de dados relacionados, etc.
  • 12.
    MDM e DW– Exemplo de Arquitetura ODS – Operational Data Store DDS – Dimensional Data Store MDB – Master Database NDS – Normalized Data Store
  • 13.
    SQL Server DataQuality Services “A solução de qualidade de dados fornecida pelo Data Quality Services (DQS) permite que um administrador de dados ou profissional de TI mantenha a qualidade de seus dados e assegure que os dados sejam adequados para uso comercial. O DQS é uma solução controlada por conhecimento que fornece maneiras assistidas por computador e interativas para gerenciar a integridade e a qualidade de suas fontes de dados. O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus dados. Você pode usar esse conhecimento para executar a limpeza, a correspondência e a criação de perfil de dados.”
  • 14.
    Data Quality Services- Instalação A instalação é realizada através do SQL Server Installation Center – Enterprise Edition. Após finalizada a instalação, dois componentes estarão disponíveis. São eles: Data Quality Server – Precisa ser ativo após a instalação. Uma Master key será configurada e três bases de dados serão criadas dentro da instancia. Data Quality Client – Cliente para criação, manuseio e configuração do DQS.
  • 15.
    Arquitetura do DataQuality Services Base de Conhecimento Criação Uso Mapear Projeto de Qualidade de Dados Gerenciamento de Conhecimento Perfil Integrado Exportar Origem Dados Processados SQL Server Database Arquivo Excel / CSV Serviço de Referência Criação da KDB Uso da KDB Legenda
  • 16.
    Knowledge Base Management OKnowledge Base Management (KBM) é uma base de conhecimento criada para armazenar informações pertinentes ao seu negócio, incluindo assim, valores válidos como também inválidos, regras para normalização e conformidade dos registros, sendo que após a base criada é possível utilizá-la em diversos projetos de Data Cleansing ou Data Matching. Para a criação de um KBM completo temos 3 atividades:  Domain Management – Criação das Regras e Normalizações para os dados;  Knowledge Discovery – Descobrimento de dados para os Domínios;  Matching Policy – Criação de Politicas de consistências para os Domínios;
  • 17.
    Criando e Configurandoum Processo de Qualidade de Dados na Prática
  • 20.
    Email - arthurjosemberg@gmail.com Linkedin– Arthur Luz Twitter - @arthurjosemberg Skype - arthurjosemberg Blog – arthurluz.wordpress.com Contatos https://luanmorenodba.wordpress.com/2 012/08/01/srie-data-quality-services-dqs/ https://msdn.microsoft.com/pt- br/library/ff877925.aspx Microsoft MSDN Blog Luan Moreno

Notas do Editor

  • #3 Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  • #5 Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  • #12 Titulo, Sexo e Endereco (dominio composto)
  • #18 Dominios - Titulo, Sexo e Endereco (dominio composto)