Deduplicação e Cruzamento de Dados

©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brazil
Tel.: (55 11) 3842-2616
DataMotion Deduper
Deduplicação e Cruzamento de Dados
Data Matching

Sobre a DataMotion
Fundação em: • 2005
Matriz: • São Paulo, Brasil
(com clientes também na América Latina, USA e Europa)
Quem somos: • Especialistas em tecnologia para dados
• Provedor de soluções em Tratamento, Enriquecimento e
Integração de Dados
• Líder em tecnologia para Data Quality
• Mais de 30 funcionários
• Diversas empresas multinacionais como clientes
• Time gerencial altamente qualificado, com experiência em
projetos internacionais

Produtos e Serviços
A DataMotion oferece soluções personalizadas e completas, voltadas às áreas de TI, Integração de
Dados, CRM e Database Marketing. A DataMotion possui o expertise necessário para atender as
demandas relacionadas a gestão corporativa da qualidade da informação, projetos de migração de
dados, MDM, Web Services e processamentos sob medida.
DATA QUALITY
ENRIQUECIMENTO
DE DADOS
CAPTURA DE
DADOS
INTEGRAÇÃO
DE DADOS
GESTÃO DA
INFORMAÇÃO
DATABASE
MARKETING
DATA
WAREHOUSE
MIGRAÇÃO
DE DADOS

Qualidade de Dados
Roda nos ambientes
› Windows
› Linux
› HP-UX
› AIX
› IBM AS/400
› Solaris
› Mac OS X
Domínio das principais tecnologias do mercado
-Ambiente .Net, C#, Java, Python, PHP
-XML SOAP Web Services, JSON REST
-SQLServer, Oracle, MySQL, etc
Plataforma de ETL que domina seus dados
Extract – Transform – Load
-Lê de uma ou mais fontes de dados
-Transforma dados em qualquer formato
imaginável
-Grava e atualiza dados em qualquer base
de destino

DataMotion Deduper
O que é o DataMotion Deduper ?
DataMotion Deduper é uma ferramenta específica para
a realização de processos de Deduplicação de Dados,
Matching e Merge & Purge, que pode processar
virtualmente qualquer tipo e padrão de conteúdo
cadastral, não importando o tamanho e a quantidade de
registros.

DataMotion Deduper
Características do Deduper
- Cruzamento e Deduplicação de base de dados
- Processamento simultâneo de vários arquivos de entrada
- Suporte a datasets com diferentes layouts de entrada
- Candidate Key e Match Codes customizáveis
- Suporte simultâneo a inúmeras Match Keys distintas
- 20 tipos de componentes previstos para a Deduplicação
- 10 tipos de formatação para composição de conteúdos
- PreProcessing - Cleansing e validação on the fly
- Processamento da Deduplicação in-memory
- Modo de Debug para trace dos processamentos
- TXTs com log do processamento e arquivos de saída

Parametrização do Processamento
Interface para parametrização
e execução de todo o
processamento
Ambiente Multithread

Parametrização do Processamento

Intepretador de Scripts
Interpretador de Script com
recursos on-the-fly para
validação dos parâmetros
da deduplicação

Definição das Match Keys
[MATCHCODE]
PreProcessing=TRUE
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]
[PROCESS]
BlankFieldMatching=FALSE
Rule1=MatchKey1[85%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
[RESULT]
OutputTable=OutputTable.txt
DuplicateTable=DuplicateTable.txt
ReportFile=ReportFile.txt
Centenas de parametrizações
podem ser definidas, para
atender as mais sofisticadas
regras de negócio

Componentes das Chaves
MatchCode Components
[MATCHCODE]
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]

Regras de Comparação
Na regra abaixo, somente serão considerados conteúdos duplicados caso
(MatchKey1=T E MatchKey2=T) OU então (MatchKey3=T)
[PROCESS]
Rule1=MatchKey1[100%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
Entre [%] é representado o Likeness Threshold ou 'Similaridade' mínima
para o processo de Comparação

Group ID & Member Number
Após o processo de matching, o Deduper irá computar os campos Group ID e
Member Number para cada registro considerado duplicado. Registros não
considerados duplicados, terão os valores em branco.
- Todos registros duplicados terão os campos GroupID e Member Number preenchidos
- Todos registros com um mesmo GroupID são duplicados entre si
- Todos registros com um mesmo GroupID terão os campos Member Number diferentes
- Um determinado arquivo possui duplicidades quando existir pelo menos um GroupID
- Todo GroupID tem pelo menos dois membros (Member Number)
Através do exemplo do próximo Slide, a interpretação ficará mais clara...

Group ID & Member Number
Exemplo de interpretação para o processo de deduplicação.

Exemplo de Match por Inferência
Suponhamos que num processo de deduplicação estejam sendo utilizadas as
seguintes condições de matching:
Candidate Key - Cidade + UF
Condição #1 - Nome + Endereço
Condição #2 - Endereço + Telefone
Regra de negócio: Para um registro ser considerado duplicado com outro,
os conteúdos deverão estar na mesma ‘Window’ (ou seja, deverão possuir
a mesma Candidate Key), bem como, os registros precisarão ser duplicados
considerando-se a condição #1 OU a condição #2. Dessa forma, para se
constituir um match será necessário satisfazer a condição #1 OU #2.

Exemplo de Match por Inferência
O conteúdo a ser deduplicado é o seguinte:
Através da condição #1*, os registros 1 e 2 devem ser considerados
duplicados entre si. Dada a condição #2*, os registros 2 e 3 também devem
ser considerados duplicados. Se a regra de inferência for habilitada,
quando a condição #1 E a condição #2 forem simultaneamente verdadeiras e
ambas se relacionarem entre si, então será possível afirmar que os registros
3 e 1 também serão considerados duplicados. Assim, no caso acima, ao
todo, teremos 3 registros num mesmo grupo de duplicados.
* - Vide slide anterior

Operation Type & Source Type
Tipos de Operações permitidas durante o processo de deduplicação:
Operation Type
1 – Processos completos (default)
2 – Somente Fusion Population
3 – Somente Match Key Process
4 – Somente Grouping Process
5 – Somente Survivor Process
6 – Somente Reporting
7 – Full Operation (without phase 2)
8 – Full Operation (without phases 2 and 3)
Source Type – Tipo de arquivo de entrada
1 – Regular Input File
2 – Suppression File

Maiores Informações
Consulte a DataMotion para obter
informações mais detalhadas sobre o
DataMotion Deduper

DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brasil
(55 11) 3842-2616
http://www.datamotion.com.br

Deduplicação e Cruzamento de Dados

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (14)

Semelhante a Deduplicação e Cruzamento de Dados

Semelhante a Deduplicação e Cruzamento de Dados (20)

Deduplicação e Cruzamento de Dados