20BI-Artigo_TCC_final

106 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
106
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

20BI-Artigo_TCC_final

  1. 1. Projeto de pesquisa Os benefícios de Qualidade de Dados e seus desafios: Padronização, Aplicação de Políticas e Data Profiling. Jonata Stracci Santos, RM 41577 jstracci.inc@gmail.com Orientador: Celso Poderoso RESUMO A informação é o bem mais valioso de qualquer negócio. No atual momento tecnológico, onde dados são gerados e armazenados em múltiplas plataformas corporativas, credibilidade e legitimidade dos dados são essenciais para o sucesso de qualquer negócio. A baixa qualidade de dados tem uma série de consequências negativas para a manutenção e evolução de qualquer organização. Este artigo irá fornecer conceitos gerais de Qualidade de Dados, e ilustrar como Data Profiling pode ser utilizado para melhorar a qualidade dos dados das organizações. Palavras-chave: Qualidade de Dados, Data Profiling, Data Warehouse, Metodologia, Business Intelligence. ABSTRACT Information is the most valuable asset of any given business. In the current technological moment where data is generated and stored in multiple enterprise platforms. Data's credibility and legitimacy are essential to the success of any kind of business. As a result, the poor quality of data has a number of negative consequences to the growth of any organization. This article will provide general concepts of Data Quality, and illustrate how Data Profiling can be used to improve the quality of organization’s data.
  2. 2. Keywords: Data Quality, Data Profiling, Data Warehouse, Methodology, Business Intelligence.
  3. 3. ÍNDICE Introdução................................................................................................................................................4 Qualidade de Dados (Data Quality)...........................................................................................................5 Cenários e Desafios ..............................................................................................................................5 Padronização, Aplicação de Politicas ..............................................................................................................................................................6 Dimensões de Qualidade de Dados...........................................................................................................7 Os principais aspectos de um projeto de Qualidade de Dados.............................................................9 Investigação de dados com Data Profiling ................................................................................................................................................................10 Data Profiling ............................................................................................................................................................11 Metodologia de Data Profiling ............................................................................................................................................................12 Introdução ao Oracle Entreprise Data Quality (OEQD) ................................................................................................................................................................13 Exemplo de Utilização Metodologia e Ferramenta ............................................................................................................................................................15 Primeiro Passo: ............................................................................................................................................................15 Segundo Passo: ..................................................................................................................................19 Conclusão................................................................................................................................................24 Bibliografia..............................................................................................................................................26
  4. 4. Introdução A ausência de metodologia, padrões e monitoração: está diretamente relacionada aos desafios que organizações enfrentam durante o processo de implementação de Qualidade de Dados. “Empresas estão empenhadas e cada vez mais direcionadas a capitalizar a informação e principalmente o conhecimento” (Kuan-Tsae, 1999, p.2). Entretanto, na maioria das vezes estas mesmas empresas estão lutando silenciosamente contra o impacto da baixa qualidade dos dados. Um recente estudo do instituto Gartner como mais de 600 usuários de Business Intelligence apresenta que: 35% destes participantes afirmaram que Qualidade de Dados está entre os três maiores problemas que organizações iram lidar nos próximos 12-18 meses [1]. Quando tratamos especificamente de Business Intelligence, também conhecido amplamente como sistemas de tomada de decisão, é importante destacar que a baixa qualidade dos dados analisados tem um impacto de grande alcance e os efeitos podem ser tangíveis e intangíveis [2]. Além disso, a baixa qualidade de dados leva os usuários de Business Intelligence a desacreditar e por fim abandonar o uso destas ferramentas. Sendo assim, garantir dados completos e consistentes é primordial para uma implantação de Business Intelligence bem sucedida. Em outras palavras a qualidade de dados é o fator chave de sucesso para a tomada de decisão empresarial. Ao logo deste artigo procuro detalhar as Dimensões e Aspectos de Qualidade de dados, Ausência de Padronização e Políticas. Deixando em evidencia os grandes desafios de Qualidade de Dados e sua magnitude. Além disso, será disponibilizado adaptação de metodologia de investigação de dados. Será introduzido diretrizes que poderão, se adotadas, enriquecer qualquer projeto de Qualidade de Dados, em especial para projetos de implementações de Data Warehousing. E por fim, apresentar como uma das ferramentas de Qualidade de Dados – Data Profiling tem um papel essencial na avaliação de conteúdo, estrutura e na qualidade dos dados.
  5. 5. Qualidade de Dados (Data Quality) “Define-se como atividade que detecta e corrige anomalias nos dados” (C. Batini, 1998), ou para um dos maiores especialistas da área Larry P. English “cumprir de forma consistente o trabalho intelectual e as expectativas do cliente final”. Trazendo para o dia-a-dia de projeto, é comum escutar que qualidade de dados é o uso de dados adequadamente para atender aos requisitos de negócios. De fato, em todas as literaturas citadas nesse artigo é possível encontrar um padrão nas citações das características coletivas de Qualidade de Dados tais como: validade, integridade, acessibilidade, pontualidade, contexto, precisão, confiabilidade, integralidade. É importante destacar que, Qualidade de Dados é composta por parâmetros mensuráveis e subjetivos que podem ser totalmente modificados conforme a estratégia de negócio abordada em cada projeto. Dados inconsistentes, imprecisos, incompletos e desatualizados é a principal causa de problemas nas análises, e consequentemente pode ser o maior desafio de implementação de um projeto de Business Intelligence de sucesso. Por exemplo: ineficiência operacional, análise de falhas na otimização de negócios e por fim clientes insatisfeitos [3]. De modo geral, o objetivo do processo de Qualidade de dados (Data Quality - DQ) é de monitorar e melhorar a qualidade de dados da Empresa, de forma objetiva e prática ao longo do tempo. Existe no mercado inúmeros frameworks de DQ, afim de entender e direcionar suas aplicações em organizações. É importante destacar que na pratica, a qualidade de dados é uma preocupação para os profissionais envolvidos em implementações de uma vasta gama de sistemas de informações, que podem variar entre armazenamento de dados, inteligência de negócios (BI), sistemas de relacionamento com o cliente, sistemas de gestão de cadeia de abastecimento, dentre outros [3]. Afim de limitar o escopo deste artigo, levo em consideração na sua totalidade, o relacionamento de DQ (Data Quality- Qualidade de Dados) em relação ao escopo de implantação de sistemas de inteligência de negócio (BI). Cenários e Desafios Existem muitos desafios a serem solucionados ao decorrer de implementação de Qualidade de Dados, ou ainda maiores desafios a serem enfrentados quando tratamos no nível corporativo (Governança de Qualidade de Dados). Entretanto é de amplo conhecimento que na maioria dos casos de implementações de qualidade de dados, em projetos de business Intelligence, o resultado da baixa qualidade de dados tem como origem principal a fonte de dados (Sistemas legado) e/ou falta de especificações de negócio com qualidade. Em outras palavras a baixa qualidade de dados está atrelada a falta de padrões e procedimentos dos sistemas responsáveis pelo dado, por exemplo:
  6. 6. sistemas de relacionamento com o cliente, sistema de armazenamento de controle e nota fiscais, dentre outros. Os grandes vilões desse desafio podem ser; falta de padronizações no processo de entrada de dados, baixa qualidade na documentação do processo de negócio, falta de integridade entre origem de dados, erro na transformação do dado, erro na integração do dado entre sistemas distintos, erro na entrada de dados, dentre outros. Que de fato produzem os problemas mais frequentes de qualidade de dados. Além disso é de grande conhecimento do mercado que erros de entrada de dados são rotineiros, estes erros podem incluir erros ortográficos, transposições de números, códigos incorretos, campo não informado (sem preenchimento), nomes irreconhecíveis, abreviaturas ou siglas, dentre outros [4]. Podemos visualizar esse fato de mercado através de gráfico publicado no artigo Data Warehousing Special Report: Data Quality and the bottom Line – (Eckerson, Wayne W. - TDWI, 2002) [4]. 0 20 40 60 80 100 Entrada de Dados por Funcionário Entrada de Dados por Cliente Mudanca de Sitema Origem de Dados Migração de Dados Expectativa de Usuário Errônea Dados Externos Erro de sistema Outros Origem de Problemas de Qualidade de Dados Figura 1: A entrada de dados nos Sistemas origens (sistemas legado, web ou cliente-servidor ...) e Mudança de sistemas Origem de Dados são as maiores causas de problemas/baixa qualidade de dados para gerentes de Data Warehousing. (Pesquisa considera uma ou mais opções). Padronização, Aplicação de Politicas A falta de adoção de padrões, metodologia, dicionário de dados, e pincipalmente ausência de rotinas de validação são os maiores responsáveis pelo cenário apresentado na Figura 1 [4]. Levando em consideração estas afirmações com o intuito em exemplificar, é possíveis agrupar os problemas de qualidade de dados em um modo geral (mundo técnico) em duas categorias: Problemas evitados por
  7. 7. mecanismos de SGBDRs (Sistemas de Gestão de Base de Dados Relacionais) e Problemas não evitados por mecanismos de SGBDRs. • Problemas evitados por mecanismos de SGBDRs: Os Sistemas de Banco de dados possuem mecanismos a fim de assegurar a integridade dos seus esquemas de dados. Quando bem definidos evitam grandes problemas de qualidade de dados. Exemplo de mecanismos: Not Null, Unique e Primary Key, Foreign Key, Domain, Check, Default e triggers... • Problemas não evitados por mecanismos de SGBDRs: Existem no entanto problemas com dados que não podem ser evitados através da definição de restrições de integridade suportado pelos SGBDRs. Estes problemas podem atingir registros isolados ou conjuntos de registros. Estes problemas podem ser: campo preenchido como “Não Informado”, dados que não representam a realidade no mundo real, dados que não seguem requisitos de negócio, erro de entrada de dados, registros aproximadamente duplicados por entrada de dados equivocado (o mesmo cliente cadastrado duas ou mais vezes, erro manual de entrada de dados), unidade de medida inconsistente, dentre outros possível problemas. Os desafios são inúmeros, e a presente demanda por Qualidade de Dados está presente no dia a dia de qualquer projeto ou área de Business Intelligence, sendo através de demandas regulatórias ou até mesmo de integração de sistemas afim de analisar o cliente. Acredito que com um foco holístico e principalmente corporativo é possível afirmar que cada vez mais o dado (informação) se torna um dos maiores bens de qualquer organização. Dimensões de Qualidade de Dados Agora que já possuímos uma breve bagagem sobre Qualidade de Dados, e principalmente sabemos os maiores desafios que qualquer projeto de Qualidade de Dados irá enfrentar. Uma pergunta básica vem à mente, Quais os principais aspectos que um projeto de Qualidade de Dados ira lidar? Como esse artigo tem o objetivo em apresentar uma das ferramentas que podemos usar para analisar a qualidade de dados (Data Profilling), não poderia deixar de comentar que a maioria dos especialistas do assunto introduzem robustos frameworks afim de planejar e executar projetos de aperfeiçoamento da qualidade dos dados de uma organização. Em outros casos são apresentado dimensões e/ou aspectos de um projeto de Qualidade de Dados. Gostaria de enfatizar que: em ambos os casos são utilizado técnicas e aspectos alinhados com conhecimento do negócio com o objetivo principal em planejar, executar e apresentar o estado atual e futuro da qualidade dos dados organizacional [2]. Em outras palavras a mescla de técnicas e padrões em um framework direciona o projeto de qualidade de
  8. 8. dados. Na tabela abaixo, será apresentado de modo geral os aspectos(dimensões) de um projeto de qualidade de dados. Tabela 1: Tabela descritiva de visão geral das dimensões de Qualidade de Dados. Adaptação de Data Quality Dimensions - Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information [2].
  9. 9. Em cada dimensão são utilizados inúmeras técnicas e ferramentas afim de executar o projeto com sucesso. No nosso caso a ferramenta/técnica de Data Profiling pode ser utilizada para atender demandas das seguintes dimensões: ‘Integridade de Dados Fundamentais’, ‘Exatidão’, ‘Duplicidade’, ‘Transação de Negócio Requisitado’. Onde Data Profiling será detalhado no tópico Investigação de dados com data Profiling. Os principais aspectos de um projeto de Qualidade de Dados No começo do tópico Dimensões de Qualidade de Dados foi levando a questão, Quais os principais aspectos que um projeto de Qualidade de Dados ira lidar? Contudo, já sabemos que o projeto deve ser direcionado através de framework e dimensões de conhecimento e principalmente uma abordagem holística e corporativa, entretanto ainda não temos um panorama geral para solucionar esta pergunta. Sendo assim à partir da consolidação destes argumentos, podemos agora definir em termos gerais os seis aspectos (por Jim Harris – Outubor de 2013) que todos os profissionais de qualidade de dados iram lidar. 1. Investigar: Trata-se da Investigação periódica da qualidade de dados. A atividade de investigação significa analisar os dados dentro de uma ótica qualitativa, sem necessariamente inserir os pontos analisados (ou os problemas descobertos) como regras de validação. É muito importante que seja definido uma periodicidade para a execução da atividade de Investigação de qualidade dos dados. Podemos notar que investigação faz parte de muitas dimensões apresentadas na Tabela 1. Esteja preparado para conhecer os requisitos de negócio e principalmente os processos de negócio. A interação com a área usuária será prioritária. 2. Comunicar: À partir dos levantamentos (investigações) o próximo passo é comunicar, os resultados desta avaliação para o público responsável. Com o objetivo em ajudar a melhorar a compreensão dos dados, verificar relevância dos dados e priorizar questões críticas [5]. É importante destacar que este fórum pode ser muitas vezes estressante e gerar situações desagradáveis, entretanto é essencial para a avaliação dos custos do projeto. Onde à partir desse ponto será definido uma agenda e escopo de trabalho. 3. Colaborar: A colaboração entre áreas, equipes, negócio vs. tecnologia deve se tornar a chave de sucesso do projeto. Depois de ter investigado e comunicado, será necessário reunir a equipe que irá atuar em conjunto para melhorar a qualidade de dados. Uma equipe interdisciplinar será necessário porque podemos ver na maioria das dimensões encontramos necessidades de uma ótima coesão entre o negócio e o técnico
  10. 10. 4. Remediar: Com objetivo em resolver os problemas de qualidade de dados será necessário a combinação entre tarefas de limpeza de dados e prevenção de defeitos. E nesse aspecto que é reforçado a necessidade de uma visão holística e corporativa, onde governança de dados muitas vezes será necessário para atribuir uma prevenção de defeitos estruturada e bem sucedida. Em outras palavras é inevitável que a limpeza de dados é usada para corrigir os problemas atuais, enquanto a prevenção de defeitos está direcionado a construir um futuro melhor. 5. Estimular: Esse aspecto está diretamente ligado ao sucesso de implementações, onde é necessário estimular os próximos passo. É importante sempre relacionar o sucesso de implementações ao impacto nos negócios, tais como riscos mitigados, custo reduzidos, ou até mesmo aumento de receitas. 6. Reiterar: O processo de qualidade de dados é continuo e sempre haverá melhorias em projeções. Além disso o monitoramento do dados também é deve ser continuo. Sabemos que o negócio muda constantemente, a coleta de dados aumenta a cada dia, integração entre sistemas e aquisição de nova companhia são frequentes no mercado. Sendo assim é importante destacar que a jornada de qualidade de dados deve fazer parte do dia a dia de uma corporação. Finalmente, após o detalhamento dos 6 aspectos podemos ter uma visão clara, mesmo que macro, dos aspectos que profissionais que atuam em qualidade de dados iram lidar no seu dia a dia. No próximo tópico será apresentado a metodologia e ferramenta de Data Profiling. Investigação de dados com Data Profiling Até o momento o artigo apresentou uma visão geral sobre Qualidade de Dados. Através da introdução das suas dimensões e aspectos foi possível identificar as principais características, ferramentas e processos. Adiante iremos navegar em linhas detalhadas sobre Data Profiling. O intuito deste tópico; tem o objetivo em descrever, exemplificar e estabelecer metodologia de investigação de dados. Será introduzido diretrizes que poderão, se adotadas, enriquecer qualquer projeto de Qualidade de Dados, em especial para projetos de implementações de Data Warehousing tanto para relatórios de tomada de decisão quanto mineração de dados e similares. Na figura 2 [7] pode-se notar que a utilização de Data Profiling neste artigo se aplica entre as origens de dados (Legado) e o Data Warehouse (destino), entretanto a metodologia aqui detalhada poderá ser utilizada entre integrações de sistemas, construção e manutenção de Data Warehousing, manutenção e implementação de sistema legado, integração de
  11. 11. sistemas externos, dentre outros. É de conhecimento que nenhum projeto de Data Warehousing pode ser desenvolvido sem dados. A coleta desses dados passa através do conhecimento dos diferentes sistemas responsáveis por este grupo de dados. Entretanto a qualidade desses dados será a chave de sucesso de qualquer implementação. Figura 2[7]: Abrangência de qualidade de dados e data Profiling. Existe no mercado ferramentas facilitadoras para implementação de Data Profiling, em outros casos são adotados tarefas manuais com auxílio de ferramentas do tipo Excel e SQL. Nesse artigo será usado como exemplo literário as ferramentas Oracle Data Integrator, que tem o objetivo principal na integração dos dados (Processo de ETL: Extração, Transformação e Carga de dados) e também a extensão Oracle Data Integrator – Data Quality e Data Profiling. Este artigo não tem o intuito em vender, apresentar, direcionar a utilização de uma determinada ferramenta, e sim apresentar adaptação de metodologia de Data Profiling e seus benefícios. Sendo assim dito, é importante destacar que a implementação do processo de Data Profiling fornecera as características do metadados associado ao conjunto de dados de escopo do projeto, que ajudara a reduzir a quantidade de esforços necessários para a integração de dados. As informações recolhidas através de Data Profiling ajuda a automatizar a preparação de dados para a integração (ETL), e se desenvolvida com sucesso produzira redução significativa no custo da construção do Data Warehousing. Jack Olson [6] comenta no seu livro que “a realização de Data Profiling no início de um projeto pode reduzir o custo total do mesmo projeto em 35%.” levando essa afirmação em consideração, ele sugere que para muitos projetos de Data Warehousing o custo de uma ferramenta de Data Profiling é pequeno perto das economias que este projeto irar obter com a implementação da metodologia de Data Profiling. Agora que possuímos uma introdução e já conhecemos que a implementação da metodologia e processos de Data Profiling poderá trazer retorno econômicos para qualquer implementação de Data Warehousing, chegou o momento de apresentar detalhadamente Data Profiling. Data Profiling Data Profiling é definida como uma das atividades do processo de qualidade de dados. Além disso, como apresentado na Tabela 1 Data Profiling (DP) é uma ferramenta usada em muitas dimensões de
  12. 12. um projeto de Qualidade de Dados. O processo de Data Profiling pretende detectar de forma sistemática, erros, inconsistências, redundâncias e a existência de informação incompleta nos dados e respectivos metadados [6]. Depois da análise dos dados, o processo de DP deve produzir um conjunto de relatórios com informação sobre o estado dos dados. Qual o resultado esperados deste relatório/analise? 1. Avaliar se os metadados descrevem exatamente os valores reais da base de dados; 2. Ter uma ideia clara da qualidade dos dados; 3. Direcionar a correção dos dados que apresentam problemas, através de uma ferramenta de limpeza de dados (Data Cleaning); 4. Equacionar a alteração dos requisitos da aplicação (Origem). Avaliar o planejamento de um projeto de remediação. Metodologia de Data Profiling Existe no mercado muitas metodologias de Data Profiling (DP), neste tópico pretendo apresentar adaptação da metodologia proposta por Jack Olson [6]. A adaptação da Metodologia pode ser aplicada em qualquer banco de dados e projeto de qualidade de dados. Contudo deve se respeitar os requisitos de negócio, funcionais e técnicos de cada projeto que adote esta metodologia. Objetivo é reportar de forma rigorosa e sistêmica o maior número de erros. A adaptação se baseia em abordagem bottom-up, começando no elemento mais elementar (coluna) progredindo até os elementos mais complexos (Regra de Negocio). Para que se consiga analisar um escopo de dados na sua totalidade, a adaptação é constituída por três etapas principais: Analise de colunas (Analise das propriedades, dicionários de dados e analise estatísticas, medida mensurável), Analise de Estruturas e Analise de Regras de Negócio [6]. Abaixo será detalhado cada etapa: 1. Analise de colunas: a. Analisar as propriedades de cada coluna a fim de se verificar se a mesma segue de acordo com o conjunto de propriedades da coluna. Exemplo: Analisar se determinado campo deve ser ou não do tipo CHAR ou do tipo STRING. b. Analisar e validar as colunas através de comparação com a definição do dicionário de dados e seu determinado domínio. Exemplo: Confrontar tamanho de CEP conforme os padrões adotados pelo Correio. c. Analisar cada coluna aplicando funções estatísticas tais como cálculo de percentuais, contagens, máximos, mínimos, medias, medianas. Desta forma o analista pode encontrar conclusões sobre possíveis anomalias que existem nos dados de uma
  13. 13. coluna. Exemplo: Usando a função MAX ou MIM o analista ao verificar os resultados pode afirmar que existem ou não inconsistências de domínio na coluna. 2. Analise de Estruturas: Tem como objetivo detectar todas as relações que existem entre as colunas de uma tabela e as relações que existem entre as tabelas de um Banco de dados. Esta etapa relata anomalias no nível da estrutura de banco de dados. O processo de análise da estrutura dos dados é semelhante ao da análise das propriedades de uma coluna. Todo o processo é efetuado através do desenho da solução, definição da solução e da validação da documentação contra a solução aplicada no Banco de Dados. 3. Analise de Regras de Negócio: O terceiro passo da metodologia permite avaliar os dados segundo um conjunto de condições que estão definidas no negócio. A detecção de anomalias é efetuada através da validação das regras de negócio e seu objetivo. Resumidamente o objetivo é testar se os dados obedecem a determinadas condições definidas pelas regras de negócio. E importante destacar que a utilização desta metodologia irá trazer benefício e artefatos para provar qual o escopo de dados que deverá ser corrigido no projeto de qualidade de dados. Além disso, Data Profilling está diretamente relacionado a dimensão Exatidão (Tabela 1) que tem como objetivo mensurar o conteúdo dos dados referente a sua fonte onde podemos relacionar a tarefa 1. C da metodologia apresentada acima. Com a utilização de funções MAX, MIN, o analista de negócio poderá encontrar padrões, e afirmar assertividade no escopo de dados analisado. Sendo assim, podemos concluir que a ferramenta de Data Profiling pode ser usado para avaliar a integridade dos dados. Além disso, Data Profiling tem o objetivo em mostrar se um registro de cliente, campo no sistema de inventario por exemplo, tem um padrão valido e se o conteúdo do dado está de acordo com o esperado pelo negócio. Entretanto, apenas o cliente pode confirmar se o seu RG, por exemplo, armazenado no sistema é de fato correto. Do mesmo modo que apenas contando os produtos na prateleira e comparando estes contra o sistema de inventario, podemos afirmar que o resultado da contagem manual reflete o valor disponível no sistema de estoque. Como o próprio Jack Olson cita [6] "Você não pode dizer se algo está errado, a menos que você possa definir o que é ser certo.", em outras palavras, em circunstâncias especificas será necessário trabalhos manuais e abrangentes, esteja preparado para isso. Introdução ao Oracle Entreprise Data Quality (OEQD) Agora que temos a metodologia de Data Profiling a ser seguida, e sabemos que a aplicação dessa metodologia e seus processo trarão grandes benefícios para a implementação de projeto de qualidade de dados em implementações de Data Warehousing. Será apresentado nesse tópico com intuito em exemplificar a utilização de ferramenta seguindo a adaptação da metodologia proposta acima. Todo projeto de implementação de Data Warehousing passa por processo de escolha de ferramentas, para
  14. 14. este exemplo literário não foi diferente. Após uma avaliação de mercado foi escolhido a utilização das ferramentas Oracle Entreprise Data Quality, que fornece uma camada de ferramentas que atende grande amplitude e funcionalidades para Qualidade de Dados. Onde estas ferramentas podem ser resumidas da seguinte forma: • Data Profiling and Auditing: Ferramentas com intuito em compreender os dados e identificar rapidamente os problemas de dados e monitorar a evolução da qualidade dos dados. • Data Parsing and Standardization: Processadores poderosos para transformar e padronizar nomes, endereços, números de telefone e outros tipos de dados. • Matching, Merging, and Survivorship: Capacidade de integração, opção de harmonização para vinculo ou mescla de registros, configuração de regra de sobrevivência flexível (Survivorship) Um dos principais motivos da escolha das ferramentas Oracle de qualidade de dados está relacionado a amplitude e coesão com os aspectos de qualidade de dados descritos no tópico “os principais aspectos de um projeto de qualidade de dados”. Na figura abaixo apresento a arquitetura que deve ser adotada. Figura 3 [8]: Arquitetura OEDQ (Oracle Entreprise Data Quality), baseado em Getting Started Guide ODQ – 196909 Podemos notar na figura 3 a amplitude de funções que OEDQ irá atender no projeto de qualidade de dados. Além disso, abaixo descrevo detalhadamente esta arquitetura: Oracle Data Profiling: • Metabase Server – contém todos os metadados;
  15. 15. • Scheduler Server – Executa jobs de profiling (carga de tabelas, analise, investigações); • Oracle Data Quality User Interface – Interface gráfica para acesso ao Oracle Data Profiling and Data Quality. • Oracle Data Quality ODBC Adapter – utilizado para conectar via ODBC nas origens. Este componente adicional somente pode ser instalado em Windows. Oracle Data Quality: Utilize os mesmos componentes do Oracle Data Profiling, além disso possui um componente específico “Data Quality Server” (servidor do Oracle Data Quality). • Portas: Durante a instalação do Oracle Data Profiling e Data Quality será necessário a criação de duas portas que devem estar habilitadas entre as máquinas cliente e o servidor. Estas portas são utilizadas pelos seguintes serviços: • Oracle Data Quality Scheduler – Requer uma porta chamada “Scheduler Port”; • Oracle Data Profiling and Quality Metabase Repository – requer uma porta chamada “Repository Port”. Entretanto neste artigo será apresentado apenas exemplo de utilização da ferramenta de Data Profiling, afim de exemplificar a utilização da metodologia apresentado ao longo do artigo. Após a instalação da arquitetura, que não iremos tratar, e principalmente o desenvolvimento de escopo e documentos funcionais que descrevem o negócio. Será iniciado o processo de Data Profiling conforme os passos a seguir. Exemplo de Utilização Metodologia e Ferramenta Com o intuito em explicar a utilização da ferramenta alinhada com a metodologia que foi introduzida neste artigo. Será definido que o escopo deste projeto trata de qualidade de dados de base de cliente entre camada intermedia de carga para sistema de Data Warehousing, maiores detalhamentos serão apresentados ao longo deste tópico. Abaixo será apresentado passo a passo de implementação de Data Profiling alinhando as melhores práticas de utilização da ferramenta e principalmente a utilização da adequação da metodologia de Data Profiling. Primeiro Passo: • Objetivo: Entender os problemas de qualidade de dados
  16. 16. • Abordagem: o Identificar o grupo de dados que será analisado; o Identificar os requisitos de qualidade de dados; o Extrair os dados do sistema origem; o Profiling cada grupo de dados; o Início do desenvolvimento de avaliação de qualidade de dados. • Entregáveis: o Perfil dos dados (Profiling); o Relatórios de qualidade de dados. E de fácil percepção que os processos que são adotados na ferramenta de Data Profiling seguem a adaptação da metodologia descrita ao longo do artigo. O objetivo é alinhar a metodologia e aplicá-la com a ajuda da ferramenta. Abaixo será descrito detalhadamente as abordagens/atividades: Figura 4: Detalhamento dos processos de entendimento de problemas de qualidade de dados, adequação metodologia de Data Profiling e melhores práticas de utilização da ferramenta de Data Profiling Oracle. 1. Carga de arquivo de dados: i. Criar um Data Store: Um ‘data store’ define as informações de conexão com a origem de dados.
  17. 17. Figura 5: Criando novo Data Store. ii. Criar um SnapShot: Um SnapShot é a cópia dos dados oriundos da origem de dados que será armazenada no repositório do EDQ. Figura 6: Criando um SnapShot. 2. Desenvolver processo de Profiling: Crie um novo processo e adicione processadores (funções) de perfis. Figura 7: Exemplo de processo de Profiling. A ferramenta de Data Profiling disponibiliza uma cadeia de processadores (funções) de perfis (Profiling processors), com o intuído em entender e identificar problemas na qualidade de dados. Abaixo podemos ver a descrição de alguns processadores, que alinhado ao requisito de negócio facilitara o esforço de programador.
  18. 18. Figura 8: Exemplo de profiler, funções disponíveis pela ferramenta. 3. Avaliar processo de Profiling: Executar Drill down sobre os dados para investigar possíveis problemas de dados. O ‘Results Browser’ apresenta os resultados de cada função do processo criado. Além disso os links disponibilizados no ‘Results Browser’ possibilita ao analista visualizar os dados reais à partir dos dados encenados. Figura 9: Results Browser, após a exclusão do processo de profiling será disponibilizado resultados conforme apresentado na figura. Figura 10: Results Browser detalhados.
  19. 19. Na figura 10 pode ser notar a versatilidade da ferramenta que disponibiliza informações sobre o processo executado de Profiling. Em outras palavras, à partir do desenvolvimento do processo de profiling seguindo os requisitos de negócio e principalmente a metodologia de data profiling podemos obter uma grande gama de analises, estas que não só ajudaram na definição de escopo de dados a serem atacados na qualidade de dados da integração como disponibiliza os dados em si. 4. Preparar resultado de Profiling: Criar grupo de relatórios para documentar os resultados de profiling. Também será possível o desenvolvimento de gráficos. Figura 11: Opções de relatórios disponíveis. Segundo Passo: • Objetivo: Detalhar e Avaliar Profilling • Abordagem: o Priorizar tarefas detalhadas de Profiling o Executar tarefas detalhadas de Profiling o Desenvolver avalição detalhada • Entregáveis: o Avaliação de qualidade de dados detalhada
  20. 20. O segundo passo é composto por tarefas que tem como objetivo final apresentar avaliação detalhada da qualidade de dados. Esta avaliação detalhada seguira os resultados esperados pela metodologia de data profiling tais como avaliar metadados, avaliação da qualidade de dados, direcionar a correção dentre outros. Abaixo será detalhado o segundo passo: Figura 12: Detalhamento dos processos de detalhamento e avaliação de profiling. Processo incremental à partir dos resultados do primeiro passo. O primeiro passo indicou que existe prováveis problemas de qualidade de dados como por exemplo: o número do telefone do cliente. Lembrando que o objetivo desse artigo é apresentar a metodológica e exemplificar a utilização da ferramenta, sendo assim poderá ser aplicado estes passos em qualquer massa de dados. Agora que fechamos o escopo da baixa qualidade de dados do campo número de telefone do cliente, será necessário ‘digging down’, que em outras palavras significa ir a fundo no problema. À partir do detalhamento será possível auxiliar a identificação de problemas específicos e subsequentes auditoria e correção necessária na origem, no processo de negócio e em alguns casos em processo de ETL de origem para DW. E importante destacar que quando o desenvolvimento de DW está relacionado a governança de dados corporativo muitas vezes a solução do problema de baixa qualidade de dados será aplicado no menor nível, em outras palavras na origem de dados. Entretanto, em alguns casos a solução será aplicada em processos de ETL de camadas intermediarias do DW. Esta solução dependera do escopo do projeto que irá aplicar a metodologia apresentada nesse artigo. Voltando para o escopo do problema de qualidade, o próximo passo será a criação de snapshot que extrai apenas as informações do campo número de telefone a partir da fonte de dados. 1. Criar Snapshot detalhado:
  21. 21. Figura 13: Criando snapshot detalhado apenas com os campos necessários para o detalhamento do problema de qualidade de dados do campo telefone. 2. Desenvolver processo de profiling detalhado: Com o Snapshot número de telefone criado, agora será necessário desenvolver processo de profiling detalhado que possuirá funções adicionais para ajudar a entender os dados e conduzir os tipos de remediação e auditoria. Após o desenvolvimento do processo o mesmo necessita ser executado. Conforme figura 14. 3. Avaliar resultados de profiling detalhado:
  22. 22. Figura 14: Processo detalhado de profiling e resultado. Avaliar os resultado detalhados utilizando ‘drill down’ em cada resultado de atributo detalhado. Exemplo, examinar o retorno do profiling com funções Min / Max que neste caso mostra que o comprimento máximo de todos os dados do número de telefone está dentro da especificação. No entanto, o valor do comprimento máximo não é um número de telefone válido, levando então a necessidade de criar profiling adicionais, tais como a verificação de caracteres inválidos dentro do número de telefone de dados. A figura 14 mostra exemplo de processo de profiling detalhado já executado, que tem como objetivo testar a qualidade de regra de negócio que segue os seguintes requisitos: Número de Telefone não deve exceder 25 caracteres, Extensão do número de telefone não deve exceder 20 caracteres, Código de Área não deve exceder 10 caracteres. Esse exemplo segue o tipo três da metodologia de data profiling – Analise da regra de negócio. Conforme figura 14 podemos notar que todos os campos seguem os requisitos de negócio, entretanto o teste Max do campo PRIMARY_PHONE_NUMEBER apresenta um e-mail como retorno máximo sendo assim encontrado erro de qualidade de dados. Em resumo o campo foi preenchido no mínimo uma vez com um valor não valido. Uma das características mais importantes da ferramenta na tarefa de avaliação do resultado do profiling é o ‘drill down’, fique atendo as possíveis formas de utilizar esta função. Figura 15: ‘Drill down’ no registro especifico com baixa qualidade de dados, registro que possui e-mail no campo telefone. Também é possível identificar padrões de preenchimento do campo telefone à partir do ‘drill down’ conforme figura abaixo 16.
  23. 23. Figura 16: Padrão de preenchimento do campo telefone. Em resumo, a utilização adequada da metodologia de data profiling com auxílio das funcionalidades da ferramenta Oracle Data Profiling (Oracle Data Integrator) alinhado com os requisitos de negócio irá proporcionar o foco da baixa qualidade de dados. 4. Desenvolver plano de remediação preliminar: Desenvolver plano de remediação preliminar à partir dos resultados do profiling e principalmente das violações de qualidade de dados. Isso inclui violações especificas relacionadas os requisitos e regras definidas para a qualidade de dados. Onde dependendo do projeto a solução pode ser aplicada em camadas intermediarias, e/ou no processo de coleta de dados, e/ou na origem de dados. Essa tarefa tem como objetivo principal apresentar as remediações. E também será necessário definir próximos passos e cenário de soluções. Conforme referência ao aspecto remediar descrito no tópico ‘Os principais aspectos de um projeto de qualidade de dados’, podemos afirmar que esta tarefa tem total coesão com este aspecto. Sem mais delongas, abaixo podemos notar o gráfico que apresenta a avaliação do exemplo campo telefônico, detalhado por campo e por regra de negócio.
  24. 24. Figura 17: Gráfico com o resultado da avaliação de Data Profiling para o exemplo, campo número de telefone. Neste exemplo o plano de remediação tem como foco criar processo de qualidade de dados entre a extração do dado da origem e processo de carga no DW. Onde será aplicado as seguintes tarefas, por exemplo, determinar formato padrão do campo telefônico, determinar caracteres valido e não valido na carga, remover caracteres inválidos. Lembrando que será necessário a solicitação, revisão do requisitos funcionais juntamente com a área usuário afim de solicitar e validar o formato correto do campo telefone, normalizar o mesmo e por fim aplicar solução no processo de carga. Em resumo, esse exemplo mostrou passo-a-passo como deve ser aplicado a metodologia de Data Profiling usando a ferramenta Oracle Data Integrator - Profiling com o intuito em criar perfis de qualidade de dados, possibilitando menor esforço para a implementação de qualidade de dados em projeto de Data Warehousing. Este tópico teve o intuito em apresentar solução em linhas gerais para o desenvolvimento de data profiling. Lembrando que a ferramenta também possui funções de Cleansing (limpeza de dados) e Monitoring (Monitoração) que atendem outros aspectos de um projeto de Qualidade de Dados. A utilização da metodologia de Data Profiling com auxílio da ferramenta acrescenta um valor significativo e tangível para qualquer projeto de BI (Data Warehousing) quando utilizado para fornecer evidencias detalhada de uma massa de dados. Além disso, Data Profiling ajudara a expor regras de negócio que estão embutidas em dados trazendo eficiência durante as etapas de integração de dados. Conclusão A estratégia de Qualidade de Dados deve ser projetada para ser ágil e adaptável. Ela deve ser tratada como um processo vivo, que pode ser aperfeiçoado continuamente com o intuito em atender aos objetivos empresariais. Atualmente a crescente demanda por qualidade de dados está totalmente relacionado ao momento que vivemos onde a informação é uma das estratégias principais para
  25. 25. qualquer organização se destacar no mercado. Não importa se a necessidade de projeto de qualidade de dados segue exigências legais ou regulatórias, a demanda por projetos de qualidade de dados tende apenas a crescer. Sendo assim é importante entender os aspectos de qualidade de dados e principalmente a adoção de metodologia e/ou frameworks que direcione as políticas, padrões e atividades de um projeto de qualidade de dados. Além disso, a abordagem de qualidade de dados deve ser holística e na maioria dos casos deve seguir uma perspectiva empresarial, caso contrário pode se perder a assertividade e gerar soluções inconsistentes com inúmeras ‘versões da verdade’. Lembre-se que antes de entender o que está errado, será necessário definir o que é ser certo. Tenha em mente que os dados devem ser gerenciados por todo o seu ciclo de vida desde a entrada por sistemas legado até o consumo destes em relatórios gerenciais. Entretanto as iniciativas de qualidade de dados em implementações de Data Warehousing (BI) não devem ser colocadas em segundo plano, com a justificativa de cumprir as metas de prazo ou de orçamento. É importante destacar que a carga de dados sem qualidade em um projeto de Data Warehousing resultara em relatórios sem credibilidade. Por fim, as tarefas de Qualidade de Dados devem ser um esforço conjunto de negócios e de TI para garantir o sucesso da iniciativa. O objetivo deste artigo foi apresentar em termos gerais o que é qualidade de dados, e principalmente como Data Profiling pode ajudar a melhora continua de qualidade de dados em uma implementação de Data Warehousing. Entretanto a adequação da metodologia de Data Profiling aqui apresentada pode ser utilizada em qualquer projeto de qualidade de dados, com o intuito em trazer benefícios financeiros e principalmente elevar a credibilidade dos dados. Qualidade de dados é o fator chave de sucesso para a tomada de decisão empresarial.
  26. 26. Bibliografia • [1] Gartner, ‘Gartner Says Organizations Must Establish Data Stewardship Roles to Improve Data Quality’, January 2008 -Disponível em: http://www.gartner.com/newsroom/id/589207 • [2] Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information (Morgan Kaufmann Publishers © 2008) • [3] C. Batini, Data Quality: Concepts, Methodlogies and techiniques (Data-Centric System and Application) – ( Springer, New York, 1a ed., 1998 ) • [4] Eckerson, Wayne W., Data Warehousing Special Report: Data Quality and the bottom Line – (TDWI, 2002) Disponível em: http://download.101com.com/pub/tdwi/Files/DQReport.pdf • [5] Jim Harris is the OCDQ Blogger – Obsessive Compulsive Data Quality – Outubro 2013 Disponível em: http://www.ocdqblog.com/home/data-quality-in-six-verbs.html • [6] J. E. Olson, Data Quality: The Accuracy Dimension ( Morgan Kaufmann, 1a ed., Dezembro 2002 ) • [7] Comprehensive Data Quality with Oracle Data Integrator and Oracle Enterprise Data Quality ( Oracle White Paper – Janeiro 2013 ) Disponível em: http://www.oracle.com/technetwork/middleware/data-integrator/overview/oracledi-comprehensive-quality-131748.pdf • [8] Getting Started Guide ODQ – 196909, Oracle, October 2009 - Disponível em: http://www.oracle.com/technetwork/middleware/data-integration/overview/odq-11g-getting-started-guide-196909.pdf • Kuan-Tsae Huang, Yang W. Lee, and Richard Y. Wang, Quality Information and Knowledge (Prentice Hall PTR, 1999), p. 2. • Larry P. English John Wiley, Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits (Sons, 1999) (Larry P. English, p 24 1999)

×