Esp #002-validación de datos en la era digital-traducido

“OK, but where did that data come from?”

Data validation in the
Digital Age

Tom Johnson Cheryl Phillips
Managing Director Data Enterprise Editor
Inst. for Analytic Journalism Seattle Times
Santa Fe, New Mexico USA Seattle, Washington USA
tom@jtjohnson.com
cphillips@seattletImes.com
1

“OK, pero ¿de dónde provienen los datos?”

Validación de datos en
la Era Digital

Tom Johnson
Managing Director
Inst. for Analytic Journalism
Santa Fe, New Mexico USA
tom@jtjohnson.com
2

Digital Age
Presentation by Cheryl Phillips and Tom Johnson at
National Institute of Computer-Assisted Reporting Conference
Date/Time: Friday, Feb. 24 at 11 a.m.
Location: Frisco/Burlington Room
St. Louis, Missouri USA

This PowerPoint deck and Tipsheets posted at:

http:// s d r v . m s / w N t i M 7

3

Validación de datos en la Era Digital

Presentación por Tom Johnson en
Fecha/Hora:
Locación:
Gracias a Cheryl Phillips, Data Enterprise Editor, Seattle Times
Seattle, Washington USA

Esta presentación de Power Point y hoja de tips están
publicados en
FIX THIS http:// s d r v . m s / w N t
iM7
4

The methodology / = the value of the data set and your story

1
Important point

Open data is
good; bad data
is bad.

5


1
Punto importante
Siempre se debe
Open data es que todos los
asumir
buena, pero están sucios. Por
datos
datos malos, son deben ser
lo tanto,
malos. probados para la
validación.
6


2
Important point

A data base (or
report) is only as
good as the
methodology used
to create it.
7

2

Punto importante

Una base de datos (o
informe) es sólo tan
buena como la
metodología utilizada
para crearla.
8

3
Data sets are living things; they have pedigree and genealogy

Important points
•Most [all?] data sets are living
things.
•And they have a pedigree, a
genealogy.
•Data sets live in a dynamic
environment.
•Understand the DB ecology

9

3
Data sets are living things; they have pedigree and genealogy

Punto importante
•La mayoría [casi todos] los
conjuntos de datos se refieren
a seres vivos
•Y tienen un árbol genealógico,
una genealogía.
•Los conjuntos de datos viven
en un ambiente dinámico.
•Entender la ecología de las
bases de datos
10

How bad data can mislead
Illinois and Missouri sex-offender DB
•“St. Louis Post-Dispatch - 2 May 1999: A11 – “ABOUT 700 SEX
OFFENDERS DO NOT APPEAR TO LIVE AT THE ADDRESSES
LISTED ON A ST. LOUIS REGISTRY; MANY SEX OFFENDERS NEVER
MAKE THE LIST” By Reese Dunklin; Data Analysis By David Heath and Julie
Luca
•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A
“Criminal checks deficient; State's database of convictions is
hurt by lack of reporting, putting public safety at risk, law
officials say” By Diane Jennings and Darlean Spangenberger
•See stories here

Cómo los malos datos pueden inducir a error
La base de datos de los delicuentes sexuales de
los estados de Illinois y Missouri
“St. Louis Post-Dispatch - 2 Mayo 1999: A11 – “Alrededor de
700 delincuentes sexuales no parecen vivir en las direcciones
señaladas en un registro de ST. LUIS. Muchos delincuentes
sexuales no aparecen en la lista” By Reese Dunklin; Data Analysis By
David Heath and Julie Luca
•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A
“Controles criminales deficientes. La base de datos de las
condenas del estado se ve perjudicada por la falta de
información, poniendo en riesgo la seguridad pública, afirman
los funcionarios encargados .” By Diane Jennings and Darlean
Spangenberger
•Vea la historia aquí

Reportero de WKRC televisión vinculado a
delincuente sexual registrado

El reportero de WKRC, Rich Jaffe, enfrenta un problema: de acuerdo a documentos policiales, él es un
delicuente sexual

Ejemplo de un reportero que descubre que su nombre
está en una base de datos de delincuentes sexuales
porque alguien usó su número de seguro social. (Como
si usaran la "cédula“ o carnet de identificación.) URL
VideoClip

How bad data can do you wrong
2011 - New Mexico Sec. of State’s “questionable
voters” data set – “The Big Bundle”
•~1.1m voters
•Previous SoS didn’t clean voter rolls
•Matched name, address, DoB and SS#
– SSA data base; NM driver’s licenses
– 2 variables “mismatch” =  Questionable?
– Asked State Police (not AG’s office) to investigate

Cómo los datos incorrectos pueden hacerle daño
2011 – Conjunto de datos de votantes
cuestionables de la Secretaría del Estado de
Nuevo México- "El paquete grande“
~1.1m votantes en total: cuestionables 67.000
•El SoS previo no limpió las lista de votantes
•Se cotejaron nombres, dirección, fecha de nacimiento
y #SS
– Las bases de datos de la SSA, las licencias de conducir de
Nuevo México
– 2 variables “no coincidieron" cuestionable?
– Se solicitó a la policía del Estado (no a la oficina AG) que
investigara

Problems with Sec. of State methodology

• What’s the error rate of original DB?
• Definition of “error”? (Gonzales or Gonzalez)
• Sample(s) by county and state total?
• Error rates of comparative DBs?
• Aggregation of error problem
• 2011 Help America Vote Verification Transaction
Totals, Year-to-Date, by State
https://www.socialsecurity.gov/open/havv/havv-year-

Problemas con la metodología de la Sec. de Estado

• ¿Cuál es la tasa de error de la base de datos
original?
• Definición de "error"? (Gonzáles o González)
• Totales de las muestras por condados y estados?
• Tasas de error de bases de datos comparativas?
• El problema de la agregación del error.
• Totales del 2011 de las transacciones de
verificación de Ayude a América a Votar, Año a
fecha por estado.
• https://www.socialsecurity.gov/open/havv/havv-year-to

There be dragons!

A most
Data base
wonderful
rich with story!!!
potential

19

Validación del proceso de bases de
datos

Hay dragones!

Base de Un
datos rica reportaje
en potencial maravilloso

20

Building genealogy for target DB

1. Pre-plan 1. Acquire latest data and
•2nd monitor related documents
•“Logbook” apps 1. Do tables conform to
1. Lit. review/ interview peers record layout?
1. Do data fit theoretical 1. Do documents specify expected
models? ranges & frequencies?

1. Do a “critical biography” of 1. Are data values missing or
the data out of range?
1. Does biography raise 1. Statistical analysis
critical warnings?
1. Have others run analysis of Review major checklist
this data?
Source: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe,
NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459

Construyendo una genealogía para la base de
datos objeto.
1. Planificación previa 1. Adquirir los últimos datos y
- Segundo monitor documentos relacionados
- Aplicaciones de bitácora 1. ¿Las tablas se ajustan al
1. Revisión de la literatura / diseño determinado?
entrevista de colegas
1. ¿ Los documentos especifican los
1. Los datos se ajustan a los rangos y frecuencias esperados?
modelos teóricos? 1. ¿Hay valores de datos
1. Haga una "biografía crítica" faltantes o fuera de rango?
de los datos
1. ¿La biografía crea 1. Análisis estadístico
advertencias críticas? Revise los puntos de atención
1. Otros han realizado el mayores
análisis de estos datos?
Fuente: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe,
NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459


1. Pre-plan 1. Acquire latest data and
• Changes in
•2nd monitor related docs
definitions?
•“Logbook” apps 1. Do tables conform to
• review/ interview peers
1. Lit. By administrators? record layout?
• Formal or informal?
1. Do By statute?
• data fit theoretical 1. Do docs specify expected
models? ranges & frequencies?
• Changes in collection
1.methods, data entry,
Do a “critical biography” of 1. Are data values missing or
the data out of range?
vetting, updating, file
1.type/format?raise
Does biography 1. Review major checklist
critical warnings?
• Changes in users and
1.usage
Have others run analysis of
this data?
• Data cleaning

datos objeto.- Advertencias importantes
1. Planificación previa 1. Adquirir los últimos datos y
• ¿Hay cambios en las
- Aplicaciones
definiciones? de bitácora 1. ¿Las tablas se ajustan al
• ¿Por los administradores?
1. Revisión de la literatura / diseño determinado?
• ¿ Formal o colegas
entrevista deinformal?
• ¿ Por ley? 1. ¿ Los documentos especifican los
•1. Los datos se ajustan a los
¿ Hay cambios en los rangos y frecuencias esperados?
modelos teóricos?
métodos de recolección, 1. ¿Hay valores de datos
1. Haga una datos, vetos,
ingreso de "biografía crítica" faltantes o fuera de rango?
actualización, el tipo/formato
de los datos
de archivo ? crea 1. Análisis estadístico
1. ¿La biografía
• ¿Hay cambios críticas?
advertencias en los usuarios Revise los puntos de atención
y en el uso?
1. Otros han realizado el mayores
• Limpieza de los datos

Data Quality checkpoints

• Constancy of definitions and coding categories?
• All at same time and location?
• Completeness: How many records have unfilled
cells? Are the tendencies of “nulls” consistent in
all records, variable types?
• Precision: Are the numbers rounded or?
• Hope for fine-grained, not summaries or aggregates
• Can be especially important with temporal and
geographic data, i.e. What is the range(s) of the time
scales?

Puntos de control de la calidad de los
datos
• ¿Hay constancia de las definiciones y categorías
de codificación?
• Todo en el mismo momento y lugar?
• Integridad: ¿Cuántos registros de datos tienen
células sin llenar? ¿Son las tendencias de "nulos"
consistentes en todos los registros, tipos de
variables?
• Precisión: ¿Están los números redondeados o no?
• Espere datos detallados y no resúmenes o agregados
• Puede ser especialmente importante con datos
temporales y geográficos, ej. ¿ Cuál es el rango (s) de
las escalas de tiempo?

Newsroom methods for
measuring data quality

• Test frequencies on key fields
Bicycle accidents in Seattle included a time field. But
it was almost always noon when accidents occurred.
Caveat: Don’t over-reach with your conclusions or
analysis

Métodos de las salas de prensa o redacciones
para medir la calidad de los datos

• Ponga a prueba las frecuencias en las áreas clave
– La base de datos de los accidentes de bicicleta en Seattle
incluye un campo de hora. Pero casi siempre era mediodía,
cuando los accidentes se producían.
– Advertencia: No se extralimite en sus
conclusiones o análisis

Outliers are important
Explore the reasons behind anomalies or unexpected
trends in the data.
From the state of WA: After
going back and forth with our
analyst on this, we decided it
would be easiest for her to
just pull the data. You would
have been able to get most of
the way there through that
fiscal.wa.gov site, but there
was some stimulus money
you wouldn’t have captured
and we included the changes
so far to the current
biennium (based on the
supplemental the legislature
approved in December).

Los valores extremos son importantes
Explore las razones detrás de las anomalías o tendencias
inesperadas en los datos.
Desde el estado de WA: Después
de ir para adelante y para atrás
con nuestro analista en esto,
decidimos que sería más fácil
para ella sólo sacar los datos. Se
hubiera podido obtener las
mismas conclusiones a través del
sitio fiscal.wa.gov, pero había
dinero de estímulo que no se
hubiera conseguido así que se
incluyeron los cambios hasta el
momento para el bienio actual
(basado en el suplemento que la
Asamblea Legislativa aprobó en
diciembre).

Other Key Data Checks

– When updating data,
make sure nothing
has changed. Check
definitions for
expansion or
reduction. Talk to
creator of the data.
– Be ready to kill a
story.

Otros controles claves de los datos
• Al actualizar los datos,
asegúrese de que nada
ha cambiado. Revise las
King County inspecciones de restaurantes
definiciones para la
expansión o reducción.
Hable con el creador de
los datos.
• Esté preparado para
eliminar una historia.
• O cambiar la historia

– Do the math: run sums, percent change, other
calculations. Test your math against the results in
the database – do they match?
– Look for unexpected nulls
– Run a group by query and sort alphabetically by
major fields to test for misspellings or other
categorization errors.
– If your data should include every city, or every
county in the state, does it? Are you missing
data?

Aspectos adicionales para validar los datos
• Haga el cálculo: ejecute las sumas, cambio en los
porcentajes, otros cálculos. Ponga a prueba su
matemáticas contra los resultados de la base de datos.
¿Coinciden?
• Busque nulos inesperados
• Corra un grupo de consulta y ordénelo alfabéticamente
en los campos más importantes para probar si no hay
errores ortográficos u otros errores en la
categorización.
• Revise si los datos contemplan la información de todo
lo que debería estar incluido. Por ejemplo, todas las
ciudades o condados del estado. ¿Están? ¿Le faltan
datos?


– Check with experts
• Research the methodology used with the kind of data
you are working with.
• Have experts test your analysis.
– Version control for Web frameworks – use some
kind of version control for your database, even if
it’s in an Excel spreadsheet. Any time you change
it, log what you did and when and why.

Aspectos adicionales para validar los datos

• Consulte con expertos
• Investigue acerca de la metodología utilizada con
datos similares a los datos con los que se está
trabajando.
• Haga que expertos prueben su análisis

• El control de versiones para marcos en la web -
Utilice algún tipo de control de versión de su base
de datos, incluso aunque esté en una hoja de cálculo
Excel. Cada vez que lo cambie, registre lo que hizo y
cuándo y por qué.

– Test the data against source documents.

Aspecto adicional para validar los datos

• Prueba de los datos contra los
documentos originales.
• ¿Existen leyes que originaron la base de
datos que se creó?
• Si es así, ¿los datos reflejan el lenguaje y la
intención de esas leyes?
¿No es así? Entonces, el trabajo del
periodista es preguntar "¿Por qué?"

• Pre-plan • Acquire latest data and
2nd monitor related docs

NOW you are ready to
“Logbook” apps
• Do tables conform to record
• Lit. review/ interview peers layout?

write a story•Do docs&specifyon
• Do data fit theoretical
models?
based expected
ranges frequencies?
a data base!values missing or
• Do a “critical biography” of
the data
• Are data
out of range?
• Does biography raise critical • Review major checklist
warnings?
• Have others run analysis of Analysis
this data?

datos objeto.
• Planificación previa • Adquirir los últimos datos y

AHORA usted tablas se ajustan al
• ¿Las está
- Aplicaciones de bitácora
• Revisión de la literatura /
diseño determinado?
listo para escribir una
entrevista de colegas • ¿Los documentos especifican
• Los datos se ajustan a los los rangos y frecuencias
modelos teóricos? esperados?
historia basada en datos
• ¿Hay valores de
• Haga una "biografía
faltantes o fuera de rango?
crítica" de los datos
una base deRevisede atenciónmayores
• datos!
• ¿La biografía crea los puntos
advertencias críticas?
• Otros han realizado el Análisis

Summing Up

• Databases are constantly dynamic, “living” things.
Look for and measure their energy and change.
• Beware of rounding error
– Always try to get the most fine-grained data possible in its
ORIGINAL data form or application, i.e. avoid PDFs with
SUMMARY data
• Beware of changing definitions
• Beware of changing…
• Data collectors, data entry personnel, changing process of
editing and usage.

Recapitulación

• Las bases de datos son cosas constantemente
dinámicas y vivas. Busca y mide su energía y
cambio.
• Tenga cuidado con los errores de redondeo
• Siempre trate de obtener los datos más detallados posible en su
forma de datos o aplicación original, es decir, evitar los archivos
PDF con los datos RESUMEN
• Tenga cuidado con las definiciones cambiantes
• Tenga cuidado con los cambios de …
• Los recolectores de datos, personal que ingresa los
datos, el cambio en el proceso de edición y uso.

“OK, but where did that data come from?”

Many Thanks
This PowerPoint deck and Tipsheets posted at:

Managing Director Data Enterprise Editor
Inst. for Analytic Journalism Seattle Times
Santa Fe, New Mexico USA Seattle, Washington USA
tom@jtjohnson.com
43

“OK, pero de dónde vinieron los datos?”

Muchas Gracias
Esta presentación de PowerPoint y Hojas de Tips están
publicadas en:

Director Gerente Data Enterprise Editor
Seattle Times
Instituto de Periodismo Analítico
Seattle, Washington USA
Santa Fe, New Mexico USA
tom@jtjohnson.com
44

Big topic:
Are there other
agencies or institutions
already looking at the
same data?
Source: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

2011 Data de Verificación de Ayuda a América a Votar

Gran tema:
¿Hay otras agencias o
instituciones que ya
están revisando los
mismos datos?
Fuente: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Esp #002-validación de datos en la era digital-traducido

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Esp #002-validación de datos en la era digital-traducido

Semelhante a Esp #002-validación de datos en la era digital-traducido (20)

Mais de J T "Tom" Johnson

Mais de J T "Tom" Johnson (20)

Último

Último (20)

Esp #002-validación de datos en la era digital-traducido

Notas do Editor