Garbage in, garbage out. Para quem trabalha em projectos de BI, ou em qualquer outra área que contemple alguma componente de integração de dados, esta é uma verdade de La Palice. Traduzindo de uma forma muito simplista, não se pode esperar dados de qualidade como output de um processo, quando os dados de entrada do mesmo não têm a qualidade necessária.
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
Garbage in, garbage out - Qualidade dos Dados vs Dados de Qualidade
1. Gilberto Pereira
Project Manager
gilberto.pereira@pessoaseprocessos.com
Garbage in, garbage out. Para quem trabalha
em projectos de BI, ou em qualquer outra
área que contemple alguma componente de
integração de dados, esta é uma verdade de
La Palice. Traduzindo de uma forma muito
simplista, não se pode esperar dados de
qualidade como output de um processo,
quando os dados de entrada do mesmo não
têm a qualidade necessária.
O que é então a qualidade dos dados? É a
percepção de que esses dados servem os
propósitos a que se destinam, tendo em
conta o contexto de utilização. Cobre vários
aspectos sobre os dados, que vão desde a
sua integridade, completude, confiança,
correcção, precisão, relevância, consistência,
condições de acesso, estado de actualização,
e muitos outros.
Uma das tarefas de um consultor num
projecto de BI é precisamente garantir a
qualidade dos dados, por outras palavras, ser
responsável pelo “Data Quality
Management” do projecto. É nossa
responsabilidade explorar a riqueza dos
dados que o cliente dispõe, tentando sempre
obter outputs de qualidade, mesmo quando
os dados disponíveis têm uma qualidade,
digamos, duvidosa. E para isso contamos
com a ajuda do Data Quality Management
Framework, que não é mais do que uma
versão do nosso já bem conhecido ciclo de
vida das aplicações.
A primeira fase é o Data Assessment. É aqui
que, após um processo de descoberta e
validação dos dados, se decide quais os que
não podem ser usados, por não
apresentarem a qualidade mínima necessária.
É aqui também que se seleccionam os dados
que podem ser usados directamente, ou
aqueles para os quais são necessárias
alterações aos processos de geração, para
que possam vir a ser usados.
De seguida vem a fase do Data
Transformation, onde se definem e
implementam os processos de extracção,
transformação e carga (ETL) necessários
para garantir que temos os dados que
necessitamos, onde necessitamos, e no
formato que necessitamos.
A 3ª fase é a fase de Data Monitoring, onde
se certifica que os dados mantêm os critérios
de qualidade necessários para cumprir com
os objectivos do projecto. No decorrer
destes processos de monitorização podem
ocorrer necessidades de correcção ou novas
descobertas, pelo que o ciclo deve ser
reiniciado, transformando assim o Data
Quality Management num processo contínuo
que só termina verdadeiramente quando a
aplicação para a qual foi implementado for
descontinuada.
Nota: Este texto não se encontra escrito ao
abrigo do novo acordo ortográfico.
Qualidade dos
Dados vs Dados de
Qualidade