SlideShare uma empresa Scribd logo
Realizando Limpeza de Dados com
Data Quality Services
Arthur Luz | MCSA & MCT em SQL Server
arthurjosemberg@gmail.com
http://arthurluz.wordpress.com
Patrocinadores
PosConference – 09/10 - SP
• Local
• Microsoft Brasil – SP
• Inscrições
• http://tinyurl.com/SQLSat570
Quem sou eu?
Senior BI Analyst at Datainfo / ANEEL Project
BI and Database Consultant and Instructor in
One Way Solution and BI do Brasil
Writer at SQL Magazine
MCSA e MCT em SQL Server
Official Instructor at Hepta Novintec
 Master Data Management – Conceito
 Data Quality – Atributos
 Data Steward
 MDM e DW – Exemplo de Arquitetura
 SQL Server Data Quality Services
 Instalação do DQS
 Arquitetura do DQS
 Knowledge Base Management
 Data Quality Services na Prática
 Criação de Domínios – Simples e Composto
 Populando a base de Conhecimento
 Politicas de Correspondências
 Projeto de Limpeza de Dados
 Projeto de Correspondências de Dados
 Usando o SSIS para realizar limpeza de dados
Agenda
CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
??
Problema
CRM
Marketing SystemOrder Processing System
Customer ID Name Address Phone
1235 Ben Smith 1 High St, Seattle 555 12345
Account Customer Address Phone
531 Benjamin Smith 1 High St, Seattle 555 12345
Contact Name Address Phone
22 B Smith 5 Main St, Seattle 555 54321
Customer ID Account No Contact No Customer Address Phone
1235 531 22 Ben Smith 1 High St, Seattle 555 12345
Master Data
Other consumers
(e.g. Data Warehouse ETL)
Solução
Golden Record
Master Data Management - Conceito
O MDM procura garantir que uma organização não utilize múltiplas
(potencialmente inconsistentes) versões de um mesmo dado mestre em
diferentes partes de sua operação, o que ocorre normalmente em grandes
organizações.
Um exemplo de um MDM pobre é o cenário bancário em que um cliente adquire
um Empréstimo Imobiliário e o banco continua oferecendo propostas de
empréstimo imobiliário para aquele cliente, ignorando o fato do cliente já
possuir o produto com o banco.
Isto acontece devido a informação do cliente utilizada pelo departamento de
marketing não é a mesma utilizada pelo setor de relacionamento com o cliente
do banco.
Data Quality - Atributos
1) Validade e integridade - Os dados existentes estão corretos?
2) Acessibilidade - Quando são necessários os dados estão disponíveis, ou é necessário fazer vários
pedidos até se poder ter acesso aos dados?
3) Cobertura - Os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos,
mas também podem existir valores relativos.
4) Pontualidade - Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela
sua disponibilização?
5) Contexto/Precisão - Os dados reproduzem com precisão o
que é suposto descreverem?
6) Confiabilidade - A todo o momento pode haver confiança
nos dados, ou existe alturas do ano em que essa confiança é
maior e outras alturas em que é menor?
7) Integralidade - Os dados contêm toda a informação
relevante?
Data Steward
O Data Steward é a pessoa responsável pela gestão e adequação dos elementos de dados - o
conteúdo e metadados.
Ele tem o papel de especialista de dados, que incorpora processos, políticas, diretrizes e
responsabilidades para a administração de todos os dados das organizações em
conformidade com a política e / ou obrigações regulamentares.
O objetivo global de um Data Steward é a qualidade dos dados, no
que diz respeito aos elementos essenciais e críticos dos dados
existentes dentro de uma estrutura operacional da empresa
específica, dos elementos em seus respectivos domínios.
Isso inclui a captura e documentação (meta informações) para seus
elementos tais como: definições, regras relacionadas, governança,
modelos de dados relacionados, etc.
MDM e DW – Exemplo de Arquitetura
ODS – Operational Data Store
DDS – Dimensional Data Store
MDB – Master Database
NDS – Normalized Data Store
SQL Server Data Quality Services
“A solução de qualidade de dados fornecida pelo Data Quality Services
(DQS) permite que um administrador de dados ou profissional de TI mantenha
a qualidade de seus dados e assegure que os dados sejam adequados para uso
comercial.
O DQS é uma solução controlada por conhecimento que fornece maneiras
assistidas por computador e interativas para gerenciar a integridade e a
qualidade de suas fontes de dados.
O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus
dados. Você pode usar esse conhecimento para executar a limpeza, a
correspondência e a criação de perfil de dados.”
Data Quality Services - Instalação
A instalação é realizada através do SQL Server Installation Center – Enterprise Edition.
Após finalizada a instalação, dois componentes estarão disponíveis. São eles:
Data Quality Server – Precisa ser ativo
após a instalação. Uma Master key será
configurada e três bases de dados serão
criadas dentro da instancia.
Data Quality Client – Cliente para
criação, manuseio e configuração do DQS.
Arquitetura do Data Quality Services
Base de
Conhecimento
Criação
Uso
Mapear
Projeto de Qualidade de Dados
Gerenciamento de Conhecimento
Perfil Integrado
Exportar
Origem
Dados Processados
SQL Server Database
Arquivo Excel / CSV
Serviço de Referência
Criação da KDB
Uso da KDB
Legenda
Knowledge Base Management
O Knowledge Base Management (KBM) é uma base de
conhecimento criada para armazenar informações
pertinentes ao seu negócio, incluindo assim, valores válidos
como também inválidos, regras para normalização e
conformidade dos registros, sendo que após a base criada é
possível utilizá-la em diversos projetos de Data Cleansing ou
Data Matching.
Para a criação de um KBM completo temos 3 atividades:
 Domain Management – Criação das Regras e
Normalizações para os dados;
 Knowledge Discovery – Descobrimento de dados
para os Domínios;
 Matching Policy – Criação de Politicas de
consistências para os Domínios;
Criando e Configurando um
Processo de Qualidade de Dados
na Prática
Email - arthurjosemberg@gmail.com
Linkedin – Arthur Luz
Twitter - @arthurjosemberg
Skype - arthurjosemberg
Blog – arthurluz.wordpress.com
Contatos
https://luanmorenodba.wordpress.com/2
012/08/01/srie-data-quality-services-dqs/
https://msdn.microsoft.com/pt-
br/library/ff877925.aspx
Microsoft MSDN
Blog
Luan Moreno

Mais conteúdo relacionado

Mais procurados

Escritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoEscritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoBergson Lopes Rêgo, PMP
 
20BI-Artigo_TCC_final
20BI-Artigo_TCC_final20BI-Artigo_TCC_final
20BI-Artigo_TCC_finalJohn Stracci
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Carlos Barbieri
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
Dicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de DadosDicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de DadosBergson Lopes Rêgo, PMP
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelCarlos Barbieri
 
Bergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de DadosBergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de DadosBergson Lopes Rêgo, PMP
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
Data Mart e Data Warehouse
Data Mart e Data WarehouseData Mart e Data Warehouse
Data Mart e Data WarehouseFernando Peres
 
Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016Bergson Lopes Rêgo, PMP
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados ConceitosCleber Ramos
 
O data center também ficou responsivo
O data center também ficou responsivoO data center também ficou responsivo
O data center também ficou responsivoRodrigo Radaieski
 

Mais procurados (20)

Escritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoEscritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantação
 
20BI-Artigo_TCC_final
20BI-Artigo_TCC_final20BI-Artigo_TCC_final
20BI-Artigo_TCC_final
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
Dicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de DadosDicas para implantação de um Programa de Governança de Dados
Dicas para implantação de um Programa de Governança de Dados
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Implantação da gestão de dados moderna
Implantação da gestão de dados modernaImplantação da gestão de dados moderna
Implantação da gestão de dados moderna
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Bergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de DadosBergson - Novas tendências da Gestão de Dados
Bergson - Novas tendências da Gestão de Dados
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
Data Mart e Data Warehouse
Data Mart e Data WarehouseData Mart e Data Warehouse
Data Mart e Data Warehouse
 
Gestão de Dados - Novos tempos
Gestão de Dados - Novos temposGestão de Dados - Novos tempos
Gestão de Dados - Novos tempos
 
Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016Gestão e Governança de Dados - Evento BI Summit 2016
Gestão e Governança de Dados - Evento BI Summit 2016
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados Conceitos
 
O data center também ficou responsivo
O data center também ficou responsivoO data center também ficou responsivo
O data center também ficou responsivo
 

Semelhante a realizando_limpeza_de_dados_com_data_quality_services

Apresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de DadosApresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de Dadosopensys
 
Data Management Summit
Data Management SummitData Management Summit
Data Management SummitDenodo
 
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Claudio Bonel
 
Fundamentos de Banco de Dados.pptx
Fundamentos de Banco de Dados.pptxFundamentos de Banco de Dados.pptx
Fundamentos de Banco de Dados.pptxNatliaGomes72
 
GID - Governança Integrada de Dados
GID - Governança Integrada de DadosGID - Governança Integrada de Dados
GID - Governança Integrada de DadosBusiness Station
 
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...tdc-globalcode
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesAlexandre Mendes
 
Master Data Management & Virtualização de Dados em SOA
Master Data Management & Virtualização de Dados em SOAMaster Data Management & Virtualização de Dados em SOA
Master Data Management & Virtualização de Dados em SOARicardo Ferreira
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoClaudio Bonel
 
Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIClaudio Bonel
 
Concepcao de banco_de_dados-aula_1
Concepcao de banco_de_dados-aula_1Concepcao de banco_de_dados-aula_1
Concepcao de banco_de_dados-aula_1Carlos Melo
 
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...E-Commerce Brasil
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosCentus Consultoria
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftRodrigo Crespi
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 
Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de DadosMarco Garcia
 
Senior BI - Business Intelligence
Senior BI - Business IntelligenceSenior BI - Business Intelligence
Senior BI - Business IntelligenceSenior Sistemas
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 

Semelhante a realizando_limpeza_de_dados_com_data_quality_services (20)

Apresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de DadosApresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de Dados
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Data Management Summit
Data Management SummitData Management Summit
Data Management Summit
 
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
 
Fundamentos de Banco de Dados.pptx
Fundamentos de Banco de Dados.pptxFundamentos de Banco de Dados.pptx
Fundamentos de Banco de Dados.pptx
 
GID - Governança Integrada de Dados
GID - Governança Integrada de DadosGID - Governança Integrada de Dados
GID - Governança Integrada de Dados
 
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
 
Master Data Management & Virtualização de Dados em SOA
Master Data Management & Virtualização de Dados em SOAMaster Data Management & Virtualização de Dados em SOA
Master Data Management & Virtualização de Dados em SOA
 
BDI_1_conceitos
BDI_1_conceitosBDI_1_conceitos
BDI_1_conceitos
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª Edição
 
Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BI
 
Concepcao de banco_de_dados-aula_1
Concepcao de banco_de_dados-aula_1Concepcao de banco_de_dados-aula_1
Concepcao de banco_de_dados-aula_1
 
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de Dados
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de Dados
 
Senior BI - Business Intelligence
Senior BI - Business IntelligenceSenior BI - Business Intelligence
Senior BI - Business Intelligence
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 

Mais de arthurjosemberg

sql_server_2016_history_tables
sql_server_2016_history_tablessql_server_2016_history_tables
sql_server_2016_history_tablesarthurjosemberg
 
carreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhocarreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhoarthurjosemberg
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatoriosarthurjosemberg
 
carreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhocarreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhoarthurjosemberg
 
global_azure_bootcamp_2016
global_azure_bootcamp_2016global_azure_bootcamp_2016
global_azure_bootcamp_2016arthurjosemberg
 
desvendando_o_microsoft_datazen
desvendando_o_microsoft_datazendesvendando_o_microsoft_datazen
desvendando_o_microsoft_datazenarthurjosemberg
 
Desvendando o Microsoft Datazen
Desvendando o Microsoft DatazenDesvendando o Microsoft Datazen
Desvendando o Microsoft Datazenarthurjosemberg
 
datazen_inicio_ao_fim_sat_df
datazen_inicio_ao_fim_sat_dfdatazen_inicio_ao_fim_sat_df
datazen_inicio_ao_fim_sat_dfarthurjosemberg
 
datazen_inicio_ao_fim_sat_sp
datazen_inicio_ao_fim_sat_spdatazen_inicio_ao_fim_sat_sp
datazen_inicio_ao_fim_sat_sparthurjosemberg
 

Mais de arthurjosemberg (13)

sql_server_2016_history_tables
sql_server_2016_history_tablessql_server_2016_history_tables
sql_server_2016_history_tables
 
carreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhocarreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalho
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatorios
 
carreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalhocarreira_certificacoes_mercado_de_trabalho
carreira_certificacoes_mercado_de_trabalho
 
ssrs_2016_sql_day_bahia
ssrs_2016_sql_day_bahiassrs_2016_sql_day_bahia
ssrs_2016_sql_day_bahia
 
global_azure_bootcamp_2016
global_azure_bootcamp_2016global_azure_bootcamp_2016
global_azure_bootcamp_2016
 
ssrs_2016_sat_joinville
ssrs_2016_sat_joinvillessrs_2016_sat_joinville
ssrs_2016_sat_joinville
 
4_horas_microsoft
4_horas_microsoft4_horas_microsoft
4_horas_microsoft
 
desvendando_o_microsoft_datazen
desvendando_o_microsoft_datazendesvendando_o_microsoft_datazen
desvendando_o_microsoft_datazen
 
Cargas Dinamicas - SSIS
Cargas Dinamicas - SSISCargas Dinamicas - SSIS
Cargas Dinamicas - SSIS
 
Desvendando o Microsoft Datazen
Desvendando o Microsoft DatazenDesvendando o Microsoft Datazen
Desvendando o Microsoft Datazen
 
datazen_inicio_ao_fim_sat_df
datazen_inicio_ao_fim_sat_dfdatazen_inicio_ao_fim_sat_df
datazen_inicio_ao_fim_sat_df
 
datazen_inicio_ao_fim_sat_sp
datazen_inicio_ao_fim_sat_spdatazen_inicio_ao_fim_sat_sp
datazen_inicio_ao_fim_sat_sp
 

realizando_limpeza_de_dados_com_data_quality_services

  • 1. Realizando Limpeza de Dados com Data Quality Services Arthur Luz | MCSA & MCT em SQL Server arthurjosemberg@gmail.com http://arthurluz.wordpress.com
  • 3. PosConference – 09/10 - SP • Local • Microsoft Brasil – SP • Inscrições • http://tinyurl.com/SQLSat570
  • 4.
  • 5. Quem sou eu? Senior BI Analyst at Datainfo / ANEEL Project BI and Database Consultant and Instructor in One Way Solution and BI do Brasil Writer at SQL Magazine MCSA e MCT em SQL Server Official Instructor at Hepta Novintec
  • 6.  Master Data Management – Conceito  Data Quality – Atributos  Data Steward  MDM e DW – Exemplo de Arquitetura  SQL Server Data Quality Services  Instalação do DQS  Arquitetura do DQS  Knowledge Base Management  Data Quality Services na Prática  Criação de Domínios – Simples e Composto  Populando a base de Conhecimento  Politicas de Correspondências  Projeto de Limpeza de Dados  Projeto de Correspondências de Dados  Usando o SSIS para realizar limpeza de dados Agenda
  • 7. CRM Marketing SystemOrder Processing System Customer ID Name Address Phone 1235 Ben Smith 1 High St, Seattle 555 12345 Account Customer Address Phone 531 Benjamin Smith 1 High St, Seattle 555 12345 Contact Name Address Phone 22 B Smith 5 Main St, Seattle 555 54321 ?? Problema
  • 8. CRM Marketing SystemOrder Processing System Customer ID Name Address Phone 1235 Ben Smith 1 High St, Seattle 555 12345 Account Customer Address Phone 531 Benjamin Smith 1 High St, Seattle 555 12345 Contact Name Address Phone 22 B Smith 5 Main St, Seattle 555 54321 Customer ID Account No Contact No Customer Address Phone 1235 531 22 Ben Smith 1 High St, Seattle 555 12345 Master Data Other consumers (e.g. Data Warehouse ETL) Solução Golden Record
  • 9. Master Data Management - Conceito O MDM procura garantir que uma organização não utilize múltiplas (potencialmente inconsistentes) versões de um mesmo dado mestre em diferentes partes de sua operação, o que ocorre normalmente em grandes organizações. Um exemplo de um MDM pobre é o cenário bancário em que um cliente adquire um Empréstimo Imobiliário e o banco continua oferecendo propostas de empréstimo imobiliário para aquele cliente, ignorando o fato do cliente já possuir o produto com o banco. Isto acontece devido a informação do cliente utilizada pelo departamento de marketing não é a mesma utilizada pelo setor de relacionamento com o cliente do banco.
  • 10. Data Quality - Atributos 1) Validade e integridade - Os dados existentes estão corretos? 2) Acessibilidade - Quando são necessários os dados estão disponíveis, ou é necessário fazer vários pedidos até se poder ter acesso aos dados? 3) Cobertura - Os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos, mas também podem existir valores relativos. 4) Pontualidade - Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela sua disponibilização? 5) Contexto/Precisão - Os dados reproduzem com precisão o que é suposto descreverem? 6) Confiabilidade - A todo o momento pode haver confiança nos dados, ou existe alturas do ano em que essa confiança é maior e outras alturas em que é menor? 7) Integralidade - Os dados contêm toda a informação relevante?
  • 11. Data Steward O Data Steward é a pessoa responsável pela gestão e adequação dos elementos de dados - o conteúdo e metadados. Ele tem o papel de especialista de dados, que incorpora processos, políticas, diretrizes e responsabilidades para a administração de todos os dados das organizações em conformidade com a política e / ou obrigações regulamentares. O objetivo global de um Data Steward é a qualidade dos dados, no que diz respeito aos elementos essenciais e críticos dos dados existentes dentro de uma estrutura operacional da empresa específica, dos elementos em seus respectivos domínios. Isso inclui a captura e documentação (meta informações) para seus elementos tais como: definições, regras relacionadas, governança, modelos de dados relacionados, etc.
  • 12. MDM e DW – Exemplo de Arquitetura ODS – Operational Data Store DDS – Dimensional Data Store MDB – Master Database NDS – Normalized Data Store
  • 13. SQL Server Data Quality Services “A solução de qualidade de dados fornecida pelo Data Quality Services (DQS) permite que um administrador de dados ou profissional de TI mantenha a qualidade de seus dados e assegure que os dados sejam adequados para uso comercial. O DQS é uma solução controlada por conhecimento que fornece maneiras assistidas por computador e interativas para gerenciar a integridade e a qualidade de suas fontes de dados. O DQS permite descobrir, compilar e gerenciar conhecimento sobre seus dados. Você pode usar esse conhecimento para executar a limpeza, a correspondência e a criação de perfil de dados.”
  • 14. Data Quality Services - Instalação A instalação é realizada através do SQL Server Installation Center – Enterprise Edition. Após finalizada a instalação, dois componentes estarão disponíveis. São eles: Data Quality Server – Precisa ser ativo após a instalação. Uma Master key será configurada e três bases de dados serão criadas dentro da instancia. Data Quality Client – Cliente para criação, manuseio e configuração do DQS.
  • 15. Arquitetura do Data Quality Services Base de Conhecimento Criação Uso Mapear Projeto de Qualidade de Dados Gerenciamento de Conhecimento Perfil Integrado Exportar Origem Dados Processados SQL Server Database Arquivo Excel / CSV Serviço de Referência Criação da KDB Uso da KDB Legenda
  • 16. Knowledge Base Management O Knowledge Base Management (KBM) é uma base de conhecimento criada para armazenar informações pertinentes ao seu negócio, incluindo assim, valores válidos como também inválidos, regras para normalização e conformidade dos registros, sendo que após a base criada é possível utilizá-la em diversos projetos de Data Cleansing ou Data Matching. Para a criação de um KBM completo temos 3 atividades:  Domain Management – Criação das Regras e Normalizações para os dados;  Knowledge Discovery – Descobrimento de dados para os Domínios;  Matching Policy – Criação de Politicas de consistências para os Domínios;
  • 17. Criando e Configurando um Processo de Qualidade de Dados na Prática
  • 18.
  • 19.
  • 20. Email - arthurjosemberg@gmail.com Linkedin – Arthur Luz Twitter - @arthurjosemberg Skype - arthurjosemberg Blog – arthurluz.wordpress.com Contatos https://luanmorenodba.wordpress.com/2 012/08/01/srie-data-quality-services-dqs/ https://msdn.microsoft.com/pt- br/library/ff877925.aspx Microsoft MSDN Blog Luan Moreno

Notas do Editor

  1. Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  2. Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  3. Titulo, Sexo e Endereco (dominio composto)
  4. Dominios - Titulo, Sexo e Endereco (dominio composto)