©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brazil
Tel.: (55 11) 3842-2616
DataMotion Deduper
Deduplicação e Cruzamento de Dados
Data Matching
©2013DataMotion Tecnologia. Todos direitos reservados
Sobre a DataMotion
Fundação em: • 2005
Matriz: • São Paulo, Brasil
(com clientes também na América Latina, USA e Europa)
Quem somos: • Especialistas em tecnologia para dados
• Provedor de soluções em Tratamento, Enriquecimento e
Integração de Dados
• Líder em tecnologia para Data Quality
• Mais de 30 funcionários
• Diversas empresas multinacionais como clientes
• Time gerencial altamente qualificado, com experiência em
projetos internacionais
©2013DataMotion Tecnologia. Todos direitos reservados
Produtos e Serviços
A DataMotion oferece soluções personalizadas e completas, voltadas às áreas de TI, Integração de
Dados, CRM e Database Marketing. A DataMotion possui o expertise necessário para atender as
demandas relacionadas a gestão corporativa da qualidade da informação, projetos de migração de
dados, MDM, Web Services e processamentos sob medida.
DATA QUALITY
ENRIQUECIMENTO
DE DADOS
CAPTURA DE
DADOS
INTEGRAÇÃO
DE DADOS
GESTÃO DA
INFORMAÇÃO
DATABASE
MARKETING
DATA
WAREHOUSE
MIGRAÇÃO
DE DADOS
©2013DataMotion Tecnologia. Todos direitos reservados
Qualidade de Dados
Roda nos ambientes
› Windows
› Linux
› HP-UX
› AIX
› IBM AS/400
› Solaris
› Mac OS X
Domínio das principais tecnologias do mercado
-Ambiente .Net, C#, Java, Python, PHP
-XML SOAP Web Services, JSON REST
-SQLServer, Oracle, MySQL, etc
Plataforma de ETL que domina seus dados
Extract – Transform – Load
-Lê de uma ou mais fontes de dados
-Transforma dados em qualquer formato
imaginável
-Grava e atualiza dados em qualquer base
de destino
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Deduper
O que é o DataMotion Deduper ?
DataMotion Deduper é uma ferramenta específica para
a realização de processos de Deduplicação de Dados,
Matching e Merge & Purge, que pode processar
virtualmente qualquer tipo e padrão de conteúdo
cadastral, não importando o tamanho e a quantidade de
registros.
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Deduper
Características do Deduper
- Cruzamento e Deduplicação de base de dados
- Processamento simultâneo de vários arquivos de entrada
- Suporte a datasets com diferentes layouts de entrada
- Candidate Key e Match Codes customizáveis
- Suporte simultâneo a inúmeras Match Keys distintas
- 20 tipos de componentes previstos para a Deduplicação
- 10 tipos de formatação para composição de conteúdos
- PreProcessing - Cleansing e validação on the fly
- Processamento da Deduplicação in-memory
- Modo de Debug para trace dos processamentos
- TXTs com log do processamento e arquivos de saída
©2013DataMotion Tecnologia. Todos direitos reservados
Parametrização do Processamento
Interface para parametrização
e execução de todo o
processamento
Ambiente Multithread
©2013DataMotion Tecnologia. Todos direitos reservados
Parametrização do Processamento
©2013DataMotion Tecnologia. Todos direitos reservados
Intepretador de Scripts
Interpretador de Script com
recursos on-the-fly para
validação dos parâmetros
da deduplicação
©2013DataMotion Tecnologia. Todos direitos reservados
Definição das Match Keys
[MATCHCODE]
PreProcessing=TRUE
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]
[PROCESS]
BlankFieldMatching=FALSE
Rule1=MatchKey1[85%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
[RESULT]
OutputTable=OutputTable.txt
DuplicateTable=DuplicateTable.txt
ReportFile=ReportFile.txt
Centenas de parametrizações
podem ser definidas, para
atender as mais sofisticadas
regras de negócio
©2013DataMotion Tecnologia. Todos direitos reservados
Componentes das Chaves
MatchCode Components
[MATCHCODE]
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]
©2013DataMotion Tecnologia. Todos direitos reservados
Regras de Comparação
Na regra abaixo, somente serão considerados conteúdos duplicados caso
(MatchKey1=T E MatchKey2=T) OU então (MatchKey3=T)
[PROCESS]
Rule1=MatchKey1[100%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
Entre [%] é representado o Likeness Threshold ou 'Similaridade' mínima
para o processo de Comparação
©2013DataMotion Tecnologia. Todos direitos reservados
Group ID & Member Number
Após o processo de matching, o Deduper irá computar os campos Group ID e
Member Number para cada registro considerado duplicado. Registros não
considerados duplicados, terão os valores em branco.
- Todos registros duplicados terão os campos GroupID e Member Number preenchidos
- Todos registros com um mesmo GroupID são duplicados entre si
- Todos registros com um mesmo GroupID terão os campos Member Number diferentes
- Um determinado arquivo possui duplicidades quando existir pelo menos um GroupID
- Todo GroupID tem pelo menos dois membros (Member Number)
Através do exemplo do próximo Slide, a interpretação ficará mais clara...
©2013DataMotion Tecnologia. Todos direitos reservados
Group ID & Member Number
Exemplo de interpretação para o processo de deduplicação.
©2013DataMotion Tecnologia. Todos direitos reservados
Exemplo de Match por Inferência
Suponhamos que num processo de deduplicação estejam sendo utilizadas as
seguintes condições de matching:
Candidate Key - Cidade + UF
Condição #1 - Nome + Endereço
Condição #2 - Endereço + Telefone
Regra de negócio: Para um registro ser considerado duplicado com outro,
os conteúdos deverão estar na mesma ‘Window’ (ou seja, deverão possuir
a mesma Candidate Key), bem como, os registros precisarão ser duplicados
considerando-se a condição #1 OU a condição #2. Dessa forma, para se
constituir um match será necessário satisfazer a condição #1 OU #2.
©2013DataMotion Tecnologia. Todos direitos reservados
Exemplo de Match por Inferência
O conteúdo a ser deduplicado é o seguinte:
Através da condição #1*, os registros 1 e 2 devem ser considerados
duplicados entre si. Dada a condição #2*, os registros 2 e 3 também devem
ser considerados duplicados. Se a regra de inferência for habilitada,
quando a condição #1 E a condição #2 forem simultaneamente verdadeiras e
ambas se relacionarem entre si, então será possível afirmar que os registros
3 e 1 também serão considerados duplicados. Assim, no caso acima, ao
todo, teremos 3 registros num mesmo grupo de duplicados.
* - Vide slide anterior
©2013DataMotion Tecnologia. Todos direitos reservados
Operation Type & Source Type
Tipos de Operações permitidas durante o processo de deduplicação:
Operation Type
1 – Processos completos (default)
2 – Somente Fusion Population
3 – Somente Match Key Process
4 – Somente Grouping Process
5 – Somente Survivor Process
6 – Somente Reporting
7 – Full Operation (without phase 2)
8 – Full Operation (without phases 2 and 3)
Source Type – Tipo de arquivo de entrada
1 – Regular Input File
2 – Suppression File
©2013DataMotion Tecnologia. Todos direitos reservados
Maiores Informações
Consulte a DataMotion para obter
informações mais detalhadas sobre o
DataMotion Deduper
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brasil
(55 11) 3842-2616
http://www.datamotion.com.br

Deduplicação e Cruzamento de Dados

  • 1.
    ©2013DataMotion Tecnologia. Todosdireitos reservados DataMotion Tecnologia Rua Gomes de Carvalho 1327 – 11 andar CEP 04547-005 – São Paulo – SP - Brazil Tel.: (55 11) 3842-2616 DataMotion Deduper Deduplicação e Cruzamento de Dados Data Matching
  • 2.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Sobre a DataMotion Fundação em: • 2005 Matriz: • São Paulo, Brasil (com clientes também na América Latina, USA e Europa) Quem somos: • Especialistas em tecnologia para dados • Provedor de soluções em Tratamento, Enriquecimento e Integração de Dados • Líder em tecnologia para Data Quality • Mais de 30 funcionários • Diversas empresas multinacionais como clientes • Time gerencial altamente qualificado, com experiência em projetos internacionais
  • 3.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Produtos e Serviços A DataMotion oferece soluções personalizadas e completas, voltadas às áreas de TI, Integração de Dados, CRM e Database Marketing. A DataMotion possui o expertise necessário para atender as demandas relacionadas a gestão corporativa da qualidade da informação, projetos de migração de dados, MDM, Web Services e processamentos sob medida. DATA QUALITY ENRIQUECIMENTO DE DADOS CAPTURA DE DADOS INTEGRAÇÃO DE DADOS GESTÃO DA INFORMAÇÃO DATABASE MARKETING DATA WAREHOUSE MIGRAÇÃO DE DADOS
  • 4.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Qualidade de Dados Roda nos ambientes › Windows › Linux › HP-UX › AIX › IBM AS/400 › Solaris › Mac OS X Domínio das principais tecnologias do mercado -Ambiente .Net, C#, Java, Python, PHP -XML SOAP Web Services, JSON REST -SQLServer, Oracle, MySQL, etc Plataforma de ETL que domina seus dados Extract – Transform – Load -Lê de uma ou mais fontes de dados -Transforma dados em qualquer formato imaginável -Grava e atualiza dados em qualquer base de destino
  • 5.
    ©2013DataMotion Tecnologia. Todosdireitos reservados DataMotion Deduper O que é o DataMotion Deduper ? DataMotion Deduper é uma ferramenta específica para a realização de processos de Deduplicação de Dados, Matching e Merge & Purge, que pode processar virtualmente qualquer tipo e padrão de conteúdo cadastral, não importando o tamanho e a quantidade de registros.
  • 6.
    ©2013DataMotion Tecnologia. Todosdireitos reservados DataMotion Deduper Características do Deduper - Cruzamento e Deduplicação de base de dados - Processamento simultâneo de vários arquivos de entrada - Suporte a datasets com diferentes layouts de entrada - Candidate Key e Match Codes customizáveis - Suporte simultâneo a inúmeras Match Keys distintas - 20 tipos de componentes previstos para a Deduplicação - 10 tipos de formatação para composição de conteúdos - PreProcessing - Cleansing e validação on the fly - Processamento da Deduplicação in-memory - Modo de Debug para trace dos processamentos - TXTs com log do processamento e arquivos de saída
  • 7.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Parametrização do Processamento Interface para parametrização e execução de todo o processamento Ambiente Multithread
  • 8.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Parametrização do Processamento
  • 9.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Intepretador de Scripts Interpretador de Script com recursos on-the-fly para validação dos parâmetros da deduplicação
  • 10.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Definição das Match Keys [MATCHCODE] PreProcessing=TRUE CandidateKey=ZipCode[3,0]+Name[3,1] MatchKey1=Name[10,1]+Address[10,1] MatchKey2=Telephone[0,3] MatchKey3=Email[0,4] [PROCESS] BlankFieldMatching=FALSE Rule1=MatchKey1[85%]+MatchKey2[90%] Rule2=MatchKey3[100%] [RESULT] OutputTable=OutputTable.txt DuplicateTable=DuplicateTable.txt ReportFile=ReportFile.txt Centenas de parametrizações podem ser definidas, para atender as mais sofisticadas regras de negócio
  • 11.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Componentes das Chaves MatchCode Components [MATCHCODE] CandidateKey=ZipCode[3,0]+Name[3,1] MatchKey1=Name[10,1]+Address[10,1] MatchKey2=Telephone[0,3] MatchKey3=Email[0,4]
  • 12.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Regras de Comparação Na regra abaixo, somente serão considerados conteúdos duplicados caso (MatchKey1=T E MatchKey2=T) OU então (MatchKey3=T) [PROCESS] Rule1=MatchKey1[100%]+MatchKey2[90%] Rule2=MatchKey3[100%] Entre [%] é representado o Likeness Threshold ou 'Similaridade' mínima para o processo de Comparação
  • 13.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Group ID & Member Number Após o processo de matching, o Deduper irá computar os campos Group ID e Member Number para cada registro considerado duplicado. Registros não considerados duplicados, terão os valores em branco. - Todos registros duplicados terão os campos GroupID e Member Number preenchidos - Todos registros com um mesmo GroupID são duplicados entre si - Todos registros com um mesmo GroupID terão os campos Member Number diferentes - Um determinado arquivo possui duplicidades quando existir pelo menos um GroupID - Todo GroupID tem pelo menos dois membros (Member Number) Através do exemplo do próximo Slide, a interpretação ficará mais clara...
  • 14.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Group ID & Member Number Exemplo de interpretação para o processo de deduplicação.
  • 15.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Exemplo de Match por Inferência Suponhamos que num processo de deduplicação estejam sendo utilizadas as seguintes condições de matching: Candidate Key - Cidade + UF Condição #1 - Nome + Endereço Condição #2 - Endereço + Telefone Regra de negócio: Para um registro ser considerado duplicado com outro, os conteúdos deverão estar na mesma ‘Window’ (ou seja, deverão possuir a mesma Candidate Key), bem como, os registros precisarão ser duplicados considerando-se a condição #1 OU a condição #2. Dessa forma, para se constituir um match será necessário satisfazer a condição #1 OU #2.
  • 16.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Exemplo de Match por Inferência O conteúdo a ser deduplicado é o seguinte: Através da condição #1*, os registros 1 e 2 devem ser considerados duplicados entre si. Dada a condição #2*, os registros 2 e 3 também devem ser considerados duplicados. Se a regra de inferência for habilitada, quando a condição #1 E a condição #2 forem simultaneamente verdadeiras e ambas se relacionarem entre si, então será possível afirmar que os registros 3 e 1 também serão considerados duplicados. Assim, no caso acima, ao todo, teremos 3 registros num mesmo grupo de duplicados. * - Vide slide anterior
  • 17.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Operation Type & Source Type Tipos de Operações permitidas durante o processo de deduplicação: Operation Type 1 – Processos completos (default) 2 – Somente Fusion Population 3 – Somente Match Key Process 4 – Somente Grouping Process 5 – Somente Survivor Process 6 – Somente Reporting 7 – Full Operation (without phase 2) 8 – Full Operation (without phases 2 and 3) Source Type – Tipo de arquivo de entrada 1 – Regular Input File 2 – Suppression File
  • 18.
    ©2013DataMotion Tecnologia. Todosdireitos reservados Maiores Informações Consulte a DataMotion para obter informações mais detalhadas sobre o DataMotion Deduper
  • 19.
    ©2013DataMotion Tecnologia. Todosdireitos reservados DataMotion Tecnologia Rua Gomes de Carvalho 1327 – 11 andar CEP 04547-005 – São Paulo – SP - Brasil (55 11) 3842-2616 http://www.datamotion.com.br