SlideShare uma empresa Scribd logo
1 de 19
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brazil
Tel.: (55 11) 3842-2616
DataMotion Deduper
Deduplicação e Cruzamento de Dados
Data Matching
©2013DataMotion Tecnologia. Todos direitos reservados
Sobre a DataMotion
Fundação em: • 2005
Matriz: • São Paulo, Brasil
(com clientes também na América Latina, USA e Europa)
Quem somos: • Especialistas em tecnologia para dados
• Provedor de soluções em Tratamento, Enriquecimento e
Integração de Dados
• Líder em tecnologia para Data Quality
• Mais de 30 funcionários
• Diversas empresas multinacionais como clientes
• Time gerencial altamente qualificado, com experiência em
projetos internacionais
©2013DataMotion Tecnologia. Todos direitos reservados
Produtos e Serviços
A DataMotion oferece soluções personalizadas e completas, voltadas às áreas de TI, Integração de
Dados, CRM e Database Marketing. A DataMotion possui o expertise necessário para atender as
demandas relacionadas a gestão corporativa da qualidade da informação, projetos de migração de
dados, MDM, Web Services e processamentos sob medida.
DATA QUALITY
ENRIQUECIMENTO
DE DADOS
CAPTURA DE
DADOS
INTEGRAÇÃO
DE DADOS
GESTÃO DA
INFORMAÇÃO
DATABASE
MARKETING
DATA
WAREHOUSE
MIGRAÇÃO
DE DADOS
©2013DataMotion Tecnologia. Todos direitos reservados
Qualidade de Dados
Roda nos ambientes
› Windows
› Linux
› HP-UX
› AIX
› IBM AS/400
› Solaris
› Mac OS X
Domínio das principais tecnologias do mercado
-Ambiente .Net, C#, Java, Python, PHP
-XML SOAP Web Services, JSON REST
-SQLServer, Oracle, MySQL, etc
Plataforma de ETL que domina seus dados
Extract – Transform – Load
-Lê de uma ou mais fontes de dados
-Transforma dados em qualquer formato
imaginável
-Grava e atualiza dados em qualquer base
de destino
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Deduper
O que é o DataMotion Deduper ?
DataMotion Deduper é uma ferramenta específica para
a realização de processos de Deduplicação de Dados,
Matching e Merge & Purge, que pode processar
virtualmente qualquer tipo e padrão de conteúdo
cadastral, não importando o tamanho e a quantidade de
registros.
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Deduper
Características do Deduper
- Cruzamento e Deduplicação de base de dados
- Processamento simultâneo de vários arquivos de entrada
- Suporte a datasets com diferentes layouts de entrada
- Candidate Key e Match Codes customizáveis
- Suporte simultâneo a inúmeras Match Keys distintas
- 20 tipos de componentes previstos para a Deduplicação
- 10 tipos de formatação para composição de conteúdos
- PreProcessing - Cleansing e validação on the fly
- Processamento da Deduplicação in-memory
- Modo de Debug para trace dos processamentos
- TXTs com log do processamento e arquivos de saída
©2013DataMotion Tecnologia. Todos direitos reservados
Parametrização do Processamento
Interface para parametrização
e execução de todo o
processamento
Ambiente Multithread
©2013DataMotion Tecnologia. Todos direitos reservados
Parametrização do Processamento
©2013DataMotion Tecnologia. Todos direitos reservados
Intepretador de Scripts
Interpretador de Script com
recursos on-the-fly para
validação dos parâmetros
da deduplicação
©2013DataMotion Tecnologia. Todos direitos reservados
Definição das Match Keys
[MATCHCODE]
PreProcessing=TRUE
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]
[PROCESS]
BlankFieldMatching=FALSE
Rule1=MatchKey1[85%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
[RESULT]
OutputTable=OutputTable.txt
DuplicateTable=DuplicateTable.txt
ReportFile=ReportFile.txt
Centenas de parametrizações
podem ser definidas, para
atender as mais sofisticadas
regras de negócio
©2013DataMotion Tecnologia. Todos direitos reservados
Componentes das Chaves
MatchCode Components
[MATCHCODE]
CandidateKey=ZipCode[3,0]+Name[3,1]
MatchKey1=Name[10,1]+Address[10,1]
MatchKey2=Telephone[0,3]
MatchKey3=Email[0,4]
©2013DataMotion Tecnologia. Todos direitos reservados
Regras de Comparação
Na regra abaixo, somente serão considerados conteúdos duplicados caso
(MatchKey1=T E MatchKey2=T) OU então (MatchKey3=T)
[PROCESS]
Rule1=MatchKey1[100%]+MatchKey2[90%]
Rule2=MatchKey3[100%]
Entre [%] é representado o Likeness Threshold ou 'Similaridade' mínima
para o processo de Comparação
©2013DataMotion Tecnologia. Todos direitos reservados
Group ID & Member Number
Após o processo de matching, o Deduper irá computar os campos Group ID e
Member Number para cada registro considerado duplicado. Registros não
considerados duplicados, terão os valores em branco.
- Todos registros duplicados terão os campos GroupID e Member Number preenchidos
- Todos registros com um mesmo GroupID são duplicados entre si
- Todos registros com um mesmo GroupID terão os campos Member Number diferentes
- Um determinado arquivo possui duplicidades quando existir pelo menos um GroupID
- Todo GroupID tem pelo menos dois membros (Member Number)
Através do exemplo do próximo Slide, a interpretação ficará mais clara...
©2013DataMotion Tecnologia. Todos direitos reservados
Group ID & Member Number
Exemplo de interpretação para o processo de deduplicação.
©2013DataMotion Tecnologia. Todos direitos reservados
Exemplo de Match por Inferência
Suponhamos que num processo de deduplicação estejam sendo utilizadas as
seguintes condições de matching:
Candidate Key - Cidade + UF
Condição #1 - Nome + Endereço
Condição #2 - Endereço + Telefone
Regra de negócio: Para um registro ser considerado duplicado com outro,
os conteúdos deverão estar na mesma ‘Window’ (ou seja, deverão possuir
a mesma Candidate Key), bem como, os registros precisarão ser duplicados
considerando-se a condição #1 OU a condição #2. Dessa forma, para se
constituir um match será necessário satisfazer a condição #1 OU #2.
©2013DataMotion Tecnologia. Todos direitos reservados
Exemplo de Match por Inferência
O conteúdo a ser deduplicado é o seguinte:
Através da condição #1*, os registros 1 e 2 devem ser considerados
duplicados entre si. Dada a condição #2*, os registros 2 e 3 também devem
ser considerados duplicados. Se a regra de inferência for habilitada,
quando a condição #1 E a condição #2 forem simultaneamente verdadeiras e
ambas se relacionarem entre si, então será possível afirmar que os registros
3 e 1 também serão considerados duplicados. Assim, no caso acima, ao
todo, teremos 3 registros num mesmo grupo de duplicados.
* - Vide slide anterior
©2013DataMotion Tecnologia. Todos direitos reservados
Operation Type & Source Type
Tipos de Operações permitidas durante o processo de deduplicação:
Operation Type
1 – Processos completos (default)
2 – Somente Fusion Population
3 – Somente Match Key Process
4 – Somente Grouping Process
5 – Somente Survivor Process
6 – Somente Reporting
7 – Full Operation (without phase 2)
8 – Full Operation (without phases 2 and 3)
Source Type – Tipo de arquivo de entrada
1 – Regular Input File
2 – Suppression File
©2013DataMotion Tecnologia. Todos direitos reservados
Maiores Informações
Consulte a DataMotion para obter
informações mais detalhadas sobre o
DataMotion Deduper
©2013DataMotion Tecnologia. Todos direitos reservados
DataMotion Tecnologia
Rua Gomes de Carvalho 1327 – 11 andar
CEP 04547-005 – São Paulo – SP - Brasil
(55 11) 3842-2616
http://www.datamotion.com.br

Mais conteúdo relacionado

Destaque

CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTI
CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTICATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTI
CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTICamila Márcia Contato
 
El constructivismo y el uso de las tic
El constructivismo y el uso de las ticEl constructivismo y el uso de las tic
El constructivismo y el uso de las ticcharitog
 
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...Analyst View of Data Virtualization: Conversations with Boulder Business Inte...
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...Denodo
 
Persamaan Diferensial Orde 2 Variasi Parameter
Persamaan Diferensial  Orde 2 Variasi ParameterPersamaan Diferensial  Orde 2 Variasi Parameter
Persamaan Diferensial Orde 2 Variasi ParameterDian Arisona
 
Spirituality in Anatolian tiger networks
Spirituality in Anatolian tiger networksSpirituality in Anatolian tiger networks
Spirituality in Anatolian tiger networksUniversity of Glasgow
 
Supporting Data Services Marketplace using Data Virtualization
Supporting Data Services Marketplace using Data VirtualizationSupporting Data Services Marketplace using Data Virtualization
Supporting Data Services Marketplace using Data VirtualizationDenodo
 
Etapas del Desarrollo Cognitivo según Piaget: Operaciones Formales
Etapas del Desarrollo Cognitivo según Piaget: Operaciones FormalesEtapas del Desarrollo Cognitivo según Piaget: Operaciones Formales
Etapas del Desarrollo Cognitivo según Piaget: Operaciones FormalesDanny Sayago
 

Destaque (14)

Promissory contracting
Promissory contractingPromissory contracting
Promissory contracting
 
IB Journal Ranking (JWB 2016)
IB Journal Ranking (JWB 2016)IB Journal Ranking (JWB 2016)
IB Journal Ranking (JWB 2016)
 
Edwar y pineda
Edwar y pinedaEdwar y pineda
Edwar y pineda
 
Constructivismo y tic
Constructivismo y ticConstructivismo y tic
Constructivismo y tic
 
CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTI
CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTICATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTI
CATÁLOGO VIRTUAL E MOSTRUÁRIO DE PORCELANATOS - CAMILA LAMBERTI
 
El constructivismo y el uso de las tic
El constructivismo y el uso de las ticEl constructivismo y el uso de las tic
El constructivismo y el uso de las tic
 
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...Analyst View of Data Virtualization: Conversations with Boulder Business Inte...
Analyst View of Data Virtualization: Conversations with Boulder Business Inte...
 
Ceramic world 2015
Ceramic world 2015Ceramic world 2015
Ceramic world 2015
 
Persamaan Diferensial Orde 2 Variasi Parameter
Persamaan Diferensial  Orde 2 Variasi ParameterPersamaan Diferensial  Orde 2 Variasi Parameter
Persamaan Diferensial Orde 2 Variasi Parameter
 
Spirituality in Anatolian tiger networks
Spirituality in Anatolian tiger networksSpirituality in Anatolian tiger networks
Spirituality in Anatolian tiger networks
 
Macrotendencias 2012
Macrotendencias 2012Macrotendencias 2012
Macrotendencias 2012
 
Supporting Data Services Marketplace using Data Virtualization
Supporting Data Services Marketplace using Data VirtualizationSupporting Data Services Marketplace using Data Virtualization
Supporting Data Services Marketplace using Data Virtualization
 
Olhar sobre as tendências futuras
Olhar sobre as tendências futurasOlhar sobre as tendências futuras
Olhar sobre as tendências futuras
 
Etapas del Desarrollo Cognitivo según Piaget: Operaciones Formales
Etapas del Desarrollo Cognitivo según Piaget: Operaciones FormalesEtapas del Desarrollo Cognitivo según Piaget: Operaciones Formales
Etapas del Desarrollo Cognitivo según Piaget: Operaciones Formales
 

Semelhante a Deduplicação e Cruzamento de Dados

Database Class - Pontos de defasagem e questões de brinde.
Database Class - Pontos de defasagem e questões de brinde.Database Class - Pontos de defasagem e questões de brinde.
Database Class - Pontos de defasagem e questões de brinde.Jann Claude Mousquer
 
Dev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataDev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataAlexandre Cardoso
 
DataMotion WhitePaper
DataMotion WhitePaperDataMotion WhitePaper
DataMotion WhitePaperDataFrog
 
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...Fabrício Catae
 
Tratamento de Dados
Tratamento de DadosTratamento de Dados
Tratamento de DadosDataFrog
 
Como funciona um banco de dados? (Worldwide Online TechDay 2010)
Como funciona um banco de dados? (Worldwide Online TechDay 2010)Como funciona um banco de dados? (Worldwide Online TechDay 2010)
Como funciona um banco de dados? (Worldwide Online TechDay 2010)Fabrício Catae
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoRicardo Longa
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
 
Infnet migração do_active_directory
Infnet migração do_active_directoryInfnet migração do_active_directory
Infnet migração do_active_directorymultiplati
 
TDE - Transparent Data Encryption
TDE - Transparent Data EncryptionTDE - Transparent Data Encryption
TDE - Transparent Data EncryptionFelipe Ferreira
 
Day 0 iniciando na carreira em ti
Day 0   iniciando na carreira em tiDay 0   iniciando na carreira em ti
Day 0 iniciando na carreira em tiLuis Henrique Costa
 
Foco no app, viva o serverless!
Foco no app, viva o serverless!Foco no app, viva o serverless!
Foco no app, viva o serverless!Mario Guedes
 
Inside SQL Server: Como funciona um banco de dados?
Inside SQL Server: Como funciona um banco de dados?Inside SQL Server: Como funciona um banco de dados?
Inside SQL Server: Como funciona um banco de dados?Fabrício Catae
 
Visão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISVisão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISFelipe Ferreira
 
Banco de Dados - Sistemas de Gerenciamento de Banco de Dados
Banco de Dados - Sistemas de Gerenciamento de Banco de DadosBanco de Dados - Sistemas de Gerenciamento de Banco de Dados
Banco de Dados - Sistemas de Gerenciamento de Banco de DadosNatanael Simões
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 

Semelhante a Deduplicação e Cruzamento de Dados (20)

Database Class - Pontos de defasagem e questões de brinde.
Database Class - Pontos de defasagem e questões de brinde.Database Class - Pontos de defasagem e questões de brinde.
Database Class - Pontos de defasagem e questões de brinde.
 
Dev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big DataDev Parana - Praticas Devops aplicadas a Big Data
Dev Parana - Praticas Devops aplicadas a Big Data
 
DataMotion WhitePaper
DataMotion WhitePaperDataMotion WhitePaper
DataMotion WhitePaper
 
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
 
Tratamento de Dados
Tratamento de DadosTratamento de Dados
Tratamento de Dados
 
Como funciona um banco de dados? (Worldwide Online TechDay 2010)
Como funciona um banco de dados? (Worldwide Online TechDay 2010)Como funciona um banco de dados? (Worldwide Online TechDay 2010)
Como funciona um banco de dados? (Worldwide Online TechDay 2010)
 
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenhoBig Data como Serviço: da captura à visualização de dados com alto desempenho
Big Data como Serviço: da captura à visualização de dados com alto desempenho
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 
Live - BigData
Live - BigDataLive - BigData
Live - BigData
 
Bancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - ArquiteturasBancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - Arquiteturas
 
Infnet migração do_active_directory
Infnet migração do_active_directoryInfnet migração do_active_directory
Infnet migração do_active_directory
 
TDE - Transparent Data Encryption
TDE - Transparent Data EncryptionTDE - Transparent Data Encryption
TDE - Transparent Data Encryption
 
Day 0 iniciando na carreira em ti
Day 0   iniciando na carreira em tiDay 0   iniciando na carreira em ti
Day 0 iniciando na carreira em ti
 
Foco no app, viva o serverless!
Foco no app, viva o serverless!Foco no app, viva o serverless!
Foco no app, viva o serverless!
 
Inside SQL Server: Como funciona um banco de dados?
Inside SQL Server: Como funciona um banco de dados?Inside SQL Server: Como funciona um banco de dados?
Inside SQL Server: Como funciona um banco de dados?
 
Aulas TSI33A - Banco de Dados I (TSI UTFPR-Toledo)
Aulas TSI33A - Banco de Dados I (TSI UTFPR-Toledo)Aulas TSI33A - Banco de Dados I (TSI UTFPR-Toledo)
Aulas TSI33A - Banco de Dados I (TSI UTFPR-Toledo)
 
Visão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISVisão geral do Integration Services - SSIS
Visão geral do Integration Services - SSIS
 
Tibero
TiberoTibero
Tibero
 
Banco de Dados - Sistemas de Gerenciamento de Banco de Dados
Banco de Dados - Sistemas de Gerenciamento de Banco de DadosBanco de Dados - Sistemas de Gerenciamento de Banco de Dados
Banco de Dados - Sistemas de Gerenciamento de Banco de Dados
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 

Deduplicação e Cruzamento de Dados

  • 1. ©2013DataMotion Tecnologia. Todos direitos reservados DataMotion Tecnologia Rua Gomes de Carvalho 1327 – 11 andar CEP 04547-005 – São Paulo – SP - Brazil Tel.: (55 11) 3842-2616 DataMotion Deduper Deduplicação e Cruzamento de Dados Data Matching
  • 2. ©2013DataMotion Tecnologia. Todos direitos reservados Sobre a DataMotion Fundação em: • 2005 Matriz: • São Paulo, Brasil (com clientes também na América Latina, USA e Europa) Quem somos: • Especialistas em tecnologia para dados • Provedor de soluções em Tratamento, Enriquecimento e Integração de Dados • Líder em tecnologia para Data Quality • Mais de 30 funcionários • Diversas empresas multinacionais como clientes • Time gerencial altamente qualificado, com experiência em projetos internacionais
  • 3. ©2013DataMotion Tecnologia. Todos direitos reservados Produtos e Serviços A DataMotion oferece soluções personalizadas e completas, voltadas às áreas de TI, Integração de Dados, CRM e Database Marketing. A DataMotion possui o expertise necessário para atender as demandas relacionadas a gestão corporativa da qualidade da informação, projetos de migração de dados, MDM, Web Services e processamentos sob medida. DATA QUALITY ENRIQUECIMENTO DE DADOS CAPTURA DE DADOS INTEGRAÇÃO DE DADOS GESTÃO DA INFORMAÇÃO DATABASE MARKETING DATA WAREHOUSE MIGRAÇÃO DE DADOS
  • 4. ©2013DataMotion Tecnologia. Todos direitos reservados Qualidade de Dados Roda nos ambientes › Windows › Linux › HP-UX › AIX › IBM AS/400 › Solaris › Mac OS X Domínio das principais tecnologias do mercado -Ambiente .Net, C#, Java, Python, PHP -XML SOAP Web Services, JSON REST -SQLServer, Oracle, MySQL, etc Plataforma de ETL que domina seus dados Extract – Transform – Load -Lê de uma ou mais fontes de dados -Transforma dados em qualquer formato imaginável -Grava e atualiza dados em qualquer base de destino
  • 5. ©2013DataMotion Tecnologia. Todos direitos reservados DataMotion Deduper O que é o DataMotion Deduper ? DataMotion Deduper é uma ferramenta específica para a realização de processos de Deduplicação de Dados, Matching e Merge & Purge, que pode processar virtualmente qualquer tipo e padrão de conteúdo cadastral, não importando o tamanho e a quantidade de registros.
  • 6. ©2013DataMotion Tecnologia. Todos direitos reservados DataMotion Deduper Características do Deduper - Cruzamento e Deduplicação de base de dados - Processamento simultâneo de vários arquivos de entrada - Suporte a datasets com diferentes layouts de entrada - Candidate Key e Match Codes customizáveis - Suporte simultâneo a inúmeras Match Keys distintas - 20 tipos de componentes previstos para a Deduplicação - 10 tipos de formatação para composição de conteúdos - PreProcessing - Cleansing e validação on the fly - Processamento da Deduplicação in-memory - Modo de Debug para trace dos processamentos - TXTs com log do processamento e arquivos de saída
  • 7. ©2013DataMotion Tecnologia. Todos direitos reservados Parametrização do Processamento Interface para parametrização e execução de todo o processamento Ambiente Multithread
  • 8. ©2013DataMotion Tecnologia. Todos direitos reservados Parametrização do Processamento
  • 9. ©2013DataMotion Tecnologia. Todos direitos reservados Intepretador de Scripts Interpretador de Script com recursos on-the-fly para validação dos parâmetros da deduplicação
  • 10. ©2013DataMotion Tecnologia. Todos direitos reservados Definição das Match Keys [MATCHCODE] PreProcessing=TRUE CandidateKey=ZipCode[3,0]+Name[3,1] MatchKey1=Name[10,1]+Address[10,1] MatchKey2=Telephone[0,3] MatchKey3=Email[0,4] [PROCESS] BlankFieldMatching=FALSE Rule1=MatchKey1[85%]+MatchKey2[90%] Rule2=MatchKey3[100%] [RESULT] OutputTable=OutputTable.txt DuplicateTable=DuplicateTable.txt ReportFile=ReportFile.txt Centenas de parametrizações podem ser definidas, para atender as mais sofisticadas regras de negócio
  • 11. ©2013DataMotion Tecnologia. Todos direitos reservados Componentes das Chaves MatchCode Components [MATCHCODE] CandidateKey=ZipCode[3,0]+Name[3,1] MatchKey1=Name[10,1]+Address[10,1] MatchKey2=Telephone[0,3] MatchKey3=Email[0,4]
  • 12. ©2013DataMotion Tecnologia. Todos direitos reservados Regras de Comparação Na regra abaixo, somente serão considerados conteúdos duplicados caso (MatchKey1=T E MatchKey2=T) OU então (MatchKey3=T) [PROCESS] Rule1=MatchKey1[100%]+MatchKey2[90%] Rule2=MatchKey3[100%] Entre [%] é representado o Likeness Threshold ou 'Similaridade' mínima para o processo de Comparação
  • 13. ©2013DataMotion Tecnologia. Todos direitos reservados Group ID & Member Number Após o processo de matching, o Deduper irá computar os campos Group ID e Member Number para cada registro considerado duplicado. Registros não considerados duplicados, terão os valores em branco. - Todos registros duplicados terão os campos GroupID e Member Number preenchidos - Todos registros com um mesmo GroupID são duplicados entre si - Todos registros com um mesmo GroupID terão os campos Member Number diferentes - Um determinado arquivo possui duplicidades quando existir pelo menos um GroupID - Todo GroupID tem pelo menos dois membros (Member Number) Através do exemplo do próximo Slide, a interpretação ficará mais clara...
  • 14. ©2013DataMotion Tecnologia. Todos direitos reservados Group ID & Member Number Exemplo de interpretação para o processo de deduplicação.
  • 15. ©2013DataMotion Tecnologia. Todos direitos reservados Exemplo de Match por Inferência Suponhamos que num processo de deduplicação estejam sendo utilizadas as seguintes condições de matching: Candidate Key - Cidade + UF Condição #1 - Nome + Endereço Condição #2 - Endereço + Telefone Regra de negócio: Para um registro ser considerado duplicado com outro, os conteúdos deverão estar na mesma ‘Window’ (ou seja, deverão possuir a mesma Candidate Key), bem como, os registros precisarão ser duplicados considerando-se a condição #1 OU a condição #2. Dessa forma, para se constituir um match será necessário satisfazer a condição #1 OU #2.
  • 16. ©2013DataMotion Tecnologia. Todos direitos reservados Exemplo de Match por Inferência O conteúdo a ser deduplicado é o seguinte: Através da condição #1*, os registros 1 e 2 devem ser considerados duplicados entre si. Dada a condição #2*, os registros 2 e 3 também devem ser considerados duplicados. Se a regra de inferência for habilitada, quando a condição #1 E a condição #2 forem simultaneamente verdadeiras e ambas se relacionarem entre si, então será possível afirmar que os registros 3 e 1 também serão considerados duplicados. Assim, no caso acima, ao todo, teremos 3 registros num mesmo grupo de duplicados. * - Vide slide anterior
  • 17. ©2013DataMotion Tecnologia. Todos direitos reservados Operation Type & Source Type Tipos de Operações permitidas durante o processo de deduplicação: Operation Type 1 – Processos completos (default) 2 – Somente Fusion Population 3 – Somente Match Key Process 4 – Somente Grouping Process 5 – Somente Survivor Process 6 – Somente Reporting 7 – Full Operation (without phase 2) 8 – Full Operation (without phases 2 and 3) Source Type – Tipo de arquivo de entrada 1 – Regular Input File 2 – Suppression File
  • 18. ©2013DataMotion Tecnologia. Todos direitos reservados Maiores Informações Consulte a DataMotion para obter informações mais detalhadas sobre o DataMotion Deduper
  • 19. ©2013DataMotion Tecnologia. Todos direitos reservados DataMotion Tecnologia Rua Gomes de Carvalho 1327 – 11 andar CEP 04547-005 – São Paulo – SP - Brasil (55 11) 3842-2616 http://www.datamotion.com.br