SlideShare uma empresa Scribd logo
1 de 64
Baixar para ler offline
UNIVERSIDAD CARLOS III DE MADRID
FACULTAD DE HUMANIDADES COMUNICACIÓN Y DOCUMENTACIÓN
DEPARTAMENTO DE BIBLIOTECONOMÍA Y DOCUMENTACIÓN
Máster en Investigación en Documentación
2011/2012
Trabajo de Fin de Máster
LA RELACIÓN DEL PERIODISMO DE DATOS CON BIG DATA Y OPEN DATA
Autora: Ángeles Mariño
Tutor: Dr. Luis Joyanes Aguilar
2
TRABAJO DE FIN DE MÁSTER HA SIDO POSIBLE GRACIAS A LA BECA MAEC-AECID PARA
EXTRANJEROS, CONVOCADA POR LA AGENCIA ESPAÑOLA DE COOPERACIÓN INTERNACIONAL
PARA EL DESARROLLO Y QUE ME FUE CONCEDIDA EN EL PERÍODO ACADÉMICO 2011-2012.
3
CONTENIDO
1.INTRODUCCIÓN A LA INVESTIGACIÓN ....................................................................... 5
1.1 ANTECEDENTES Y MOTIVACIÓN ............................................................................................................................... 5
1.2 OBJETIVOS ............................................................................................................................................................... 5
1.3 OBJETO Y ESTADO DE LA CUESTIÓN ......................................................................................................................... 6
1.4 HIPÓTESIS ................................................................................................................................................................ 9
1.5 JUSTIFICACIÓN......................................................................................................................................................... 9
1.6 METODOLOGÍA ......................................................................................................................................................... 9
1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN................................................................ 12
2.PERIODISMO DE DATOS .................................................................................................. 13
2.1 INTRODUCCIÓN ...................................................................................................................................................... 13
2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR ......................................... 15
2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN ...................................................................................................... 16
2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS ................................................... 17
2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS.................................................................................................... 25
2.5.1 OBJETIVIDAD Y TRANSPARENCIA....................................................................................... 25
2.5.2 NECESIDAD DE ORDENAR ................................................................................................... 26
2.5.3 TRABAJO EN GRUPO........................................................................................................... 27
2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS? ............................................................................................................ 27
2.6.1 COMPILAR LOS DATOS........................................................................................................ 28
2.6.2 FILTRADO Y LIMPIEZA DE DATOS ....................................................................................... 29
2.6.3 CONTEXTUALIZAR LA INFORMACIÓN................................................................................. 30
2.6.4 COMBINAR LOS DATOS ....................................................................................................... 31
2.6.5 COMUNICACIÓN DE LOS DATOS.......................................................................................... 32
2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS............................................................................................................ 38
2.7.1 “¿DÓNDE VAN MIS IMPUESTOS?” ....................................................................................... 38
2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR”......................................................................... 39
3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS.............................................. 40
3.1 MAPAS.................................................................................................................................................................... 40
3.2 SCREEN SCRAPING (RASPADO)................................................................................................................................ 41
3.3 LENGUAJE DE SCRIPTS ........................................................................................................................................... 41
3.4 MANEJO DE BASES DE DATOS ................................................................................................................................. 41
3.5 VISUALIZACIÓN DE DATOS ..................................................................................................................................... 42
3.6 LIMPIEZA DE DATOS ............................................................................................................................................... 42
3.7 ANÁLISIS ESTADÍSTICO........................................................................................................................................... 43
3.8 OTRAS HERRAMIENTAS .......................................................................................................................................... 43
4.BIG DATA.............................................................................................................................. 44
4.1 BIG DATA Y SU INFLUENCIA EN EL PERIODISMO.................................................................................................... 49
4.2 EJEMPLO DE TRABAJO PERIODÍSTICO CON GRANDES BASES DE DATOS.................................................................. 50
4
5.OPEN DATA (DATOS ABIERTOS) ................................................................................... 52
5.1 OPEN DATA Y EL PERIODISMO............................................................................................................................... 53
5.2 ESPAÑA................................................................................................................................................................... 54
5.3 FORMATO............................................................................................................................................................... 56
6.CONCLUSIÓN....................................................................................................................... 56
7. ANEXO .................................................................................................................................. 58
7.1 FRASES ................................................................................................................................................................... 58
7.2 BIBLIOGRAFÍA........................................................................................................................................................ 59
7.2.1 BIBLIOGRAFÍA INTRODUCCIÓN A LA INVESTIGACIÓN ........................................................ 59
7.2.2 BIBLIOGRAFÍA PERIODISMO DE DATOS.............................................................................. 60
7.2.3 BIBLIOGRAFÍA BIG DATA Y OPEN DATA............................................................................ 62
ILUSTRACIONES
ILUSTRACIÓN 1. "THE COLOUR OF MONEY". .............................................................................................................. 18
ILUSTRACIÓN 2. "LESS WIND, LOTS OF DAMAGE". ...................................................¡ERROR! MARCADOR NO DEFINIDO.
ILUSTRACIÓN 3. "THE HOMICIDE REPORT". ............................................................................................................... 21
ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED"........................................................................................................ 22
ILUSTRACIÓN 5. “THE INVERTED PYRAMID OF DATA JOURNALISM”. .......................¡ERROR! MARCADOR NO DEFINIDO.
ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. ................... 33
ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH” (1815). ........................................................................... 33
ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”.. 34
ILUSTRACIÓN 9. “SIETE GÉNEROS”.. ........................................................................................................................... 35
ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”............................................................. 37
ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?".................................................................................................... 38
ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF PAIN”.................................................................................... 40
ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH”.. ............................................................................. 45
ILUSTRACIÓN 14. "DATA INFLATION"......................................................................................................................... 46
ILUSTRACIÓN 15. "DOLLARS FOR DOCS".................................................................................................................... 50
5
1. INTRODUCCIÓN A LA INVESTIGACIÓN
A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también
fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de
contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o
exclusivamente en bases de datos y documentación en línea para crear una historia.
Dos de los fenómenos que más han ido acelerando el desarrollo de esta nueva especialidad han sido
Big Data y Open Data, los cuales han ido impulsando el desarrollo de nuevas herramientas para su
análisis y comunicación. De ahí que los periodistas fueron –y continúan- adquiriendo nuevas
habilidades en orden a analizar, filtrar y hacer visibles grandes masas de datos.
Lo que pretende este Trabajo de Fin de Máster es estudiar esta nueva disciplina en el marco de la
Documentación y ser tanto material de consulta para periodistas que quieren adentrarse en la actividad
como para documentalistas que quieren hacer llegar el material de su trabajo a la población a través de
los medios de comunicación.
1.1 ANTECEDENTES Y MOTIVACIÓN
Mi formación de grado y mi experiencia profesional se han dado más que nada en el periodismo
gráfico. Por ello, cuando comencé el Máster de Investigación en Documentación en la Universidad
Carlos III creí que mis estudios apuntarían a perfeccionar la tarea documentalista del periodista.
Sin embargo, diferentes factores se conjugaron para que encontrara en el Periodismo de Datos un
interés aún mayor. Pues en este caso no se trata sólo de la tarea de documentarse para contextualizar
una noticia, sino de que los datos se vuelven la noticia misma.
Y entre los factores que me llevaron a tomar esta decisión se encuentra el rápido desarrollo del
Periodismo de Datos a nivel internacional, aunque con todavía poco anclaje en el mundo académico en
español. Y, aunque el Periodismo de Datos tiene sus antecedentes en tiempos previos a la llegada de
Internet, éste sumado a Big Data, Open Data y otros fenómenos han cambiado el panorama hasta
llegar al actual contexto que es de sobreabundancia de información.
Profesionalmente entonces, es de mi interés que tanto los periodistas conozcan el potencial de las
enormes cantidades de datos disponibles para la creación de noticias como que los mismos
responsables de la creación y puesta a disposición de datos, los documentalistas, conozcan dicho
potencial.
1.2 OBJETIVOS
6
Por lo tanto, el objetivo general planteado para esta investigación, es realizar una introducción
actualizada al Periodismo de Datos (tanto su contextualización y definición como las herramientas y
habilidades que involucra) y relacionarla con los fenómenos de Big Data y Open Data.
Por ende, los objetivos específicos que se han determinado son los siguientes:
1. El Periodismo de Datos. Dar a conocer las características de esta especialización del
periodismo, analizando tanto sus antecedentes como su presente.
2. Big Data y Open Data y su influencia en el Periodismo de Datos. Describir cómo ambos
fenómenos potencian nuevos contenidos informativos.
3. Herramientas del Periodismo de Datos. Repasar las principales herramientas que facilitan el
trabajo de elaboración y lectura de los datos aplicables a los medios de comunicación.
1.3 OBJETO Y ESTADO DE LA CUESTIÓN
Wikileaks didn't invent data journalism. But it did give newsrooms a reason to adopt it. There was just
too much data for it to happen any other way.
Simon Rogers, enero 2011
Es de destacar que el trabajo presente se centrará en el tratamiento con fines periodísticos del enorme
volumen de datos disponibles en el entorno digital. Esto es, el Periodismo de Datos o Data Journalism
como se le llama más comúnmente en su terminología anglosajona.
El término “Periodismo de Datos” comienza a divulgarse en los años noventa como respuesta a
cantidades de información antes desconocidas y a nuevas herramientas para su tratamiento en las
noticias. Sin embargo, cobró más fuerza en los últimos años, con las iniciativas aisladas sobre todo de
diarios de Estados Unidos y de Gran Bretaña, hasta la actualidad cuando ya se han sumado al
movimiento medios de otros países y no sólo diarios sino también programas de televisión.
Para entender mejor el agitado momento en que se encuentra el Periodismo de Datos alcanza con
destacar acontecimientos relevantes recientes:
- En 2011, de 16 ganadores del concurso “Knight News Challenge” de la Knight Foundation
para subvencionar innovaciones en los medios de difusión, 14 eran de proyectos relacionados
con el Periodismo de Datos. Asimismo, la convocatoria 2012 también repartirá más de 1
millón de dólares en iniciativas centradas específicamente en este tema.
- En enero de 2012 se lanza el primer concurso internacional de Periodismo de Datos. La
iniciativa es de la Global Editors Network (GEN) en asociación con Google y el European
7
Journalism Centre. Durante los tres meses que se mantiene abierta la convocatoria, se postulan
más de 300 trabajos procedentes de 60 países.
- Recientemente, en abril de 2012, en el marco de “The School of Data”, durante el Festival
Internacional de Periodismo en Italia se lanzó “The Data Journalism Handbook”, un manual
para Periodismo de Datos de código abierto y escrito de manera colaborativa entre
especialistas de todo el mundo.
Y, a pesar de que hechos como este hacen parecer que el Periodismo de Datos es un fenómeno nuevo,
este tiene importantes antecedentes. Pero el caudal informativo actual y las herramientas a disposición
de los periodistas son los que marcan la gran diferencia.
De estos antecedentes, cabe destacar que el Periodismo de Datos tiene sus raíces en el “Computer
Assisted Reporting” (CAR), que en español se traduce como “Periodismo Asistido por Computadora”
y en el “Periodismo de Precisión”, el cual cobró impulso en los años sesenta sobre todo gracias al
profesional y académico Philip Meyer1
.
Por parte de CAR, este nació en la década del ’50 transformándose en el primer acercamiento
organizado y sistemático del uso de los ordenadores para recolectar y analizar datos en orden a
mejorar las noticias. Su primer uso fue por parte de la CBC (Canadian Broadcasting Corporation) que
en 1952 que lo implementó para predecir los resultados de las elecciones presidenciales
(BOUNEGRU, 2012).
Y, en tanto que CAR es una técnica, basándose en ella es que Meyer comienza a vislumbrar un
“cambio de concepción de la actividad periodística”, en la que “la vieja tradición de los periodistas
transportadores de información está siendo sustituida por periodistas procesadores de información”
1
Actualmente, Philip Meyer es profesor emérito de la Universidad de North Carolina en Chapel Hill.
8
(MEYER, 1993). Y fue el mismo Philip Meyer quien, inspirado en la propuesta de un colega, llamó
así entonces al Periodismo que era el objeto de sus estudios y afición y asentó el nombre en su libro
del año 1973, “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Este
libro fue fundamental para un acercamiento académico a esta práctica del Periodismo, rol que cumple
hasta la actualidad ya que sigue siendo un manual de consulta.
Este último tipo de Periodismo, según la definición de Meyer (1993) es “la aplicación de métodos
científicos de investigación social y comportamental a la práctica del Periodismo”. Tales métodos
pueden incluir sondeos, encuestas, análisis de contenido…consiguiendo que su eje sean los números y
las estadísticas.
Sin embargo, aunque hay una relación directa entre el Periodismo de Precisión y el Periodismo de
Datos, este último término es más amplio ya que abarca toda información procesable por ordenadores.
Su práctica se ha fortalecido desde 2010 a partir de la forma en que medios como The Guardian y The
New York Times trataron las grandes cantidades de información que se derivaron de los cables de
WikiLeaks.
Pero hasta llegar allí, según Liliana Bounegru (2012), del European Journalism Centre una de las
primeras alusiones a lo que hoy se conoce como Periodismo de Datos es la que hizo en 2006 el
periodista Adrian Holovaty en su ensayo “A fundamental way newspaper sites need to change”. El
texto de Holovaty discurre sobre que hay contenidos que si se los tratase a partir de una base de datos
podrían complementar los “big blob of text”, es decir los “grandes bloques de texto”.
A la actualidad todavía existe una discusión sobre si Periodismo de Datos no es lo mismo que CAR o
el Periodismo de Precisión pero actualizado. Sin embargo, quienes lo defienden como una nueva
especialización apuntan a que los datos son la noticia en sí.
1.3.1 TÉCNICAS Y HERRAMIENTAS QUE LO HACEN POSIBLE
Asimismo, el Periodismo de Datos no puede comprenderse en su totalidad sin mencionar las
herramientas tecnológicas que involucra y que constantemente están evolucionando. Por lo tanto, este
existe no sólo porque hay más información a disposición sino también porque surgen nuevas técnicas
para el proceso de esta.
“Hablar de Periodismo de Datos es referirnos a técnicas nuevas en la creación de información
periodística que requiere de conocimientos específicos y destrezas en el uso de bases de datos y
presentación (visualización) de la información en nuevas interfaces”. (FLORES Y CEBRIÁN, 2012)
9
Tal es la conclusión de Jesús Flores Vivar – Doctor en Ciencias de la Información de la Universidad
Complutense de Madrid- y de Cebrián Herreros, quienes en la actualidad trabajan en un proyecto de
investigación de técnicas del Periodismo de Datos2
.
1.4 HIPÓTESIS
El caudal de información disponible que se ha visto potenciado en los últimos años gracias a Internet
ha derivado en una nueva manera de información periodística: el Periodismo de Datos. Especialmente
la extensión de fenómenos como Big Data y Open Data ha llevado a que los periodistas aprendan tanto
el uso de las nuevas herramientas que exige la lectura de grandes cantidades de datos, como la
limpieza (o normalización y unificación) de estos para luego comunicar la información al público.
1.5 JUSTIFICACIÓN
Por una parte, la intención de este trabajo es dar a conocer el nuevo uso que se está haciendo en el
Periodismo de la cantidad de información disponible en el mundo digital, especialmente de bases de
datos tanto públicas como privadas.
Por otra parte, entendemos que hay una necesidad de dar un anclaje académico en español a un tema
que prolifera a gran velocidad pero que lo hace más que nada en inglés y más en circuitos
profesionales de la información que en mundo universitario.
Además, aquello que se desarrolla en el presente trabajo es de utilidad tanto para periodistas e
informadores como para documentalistas, quienes son los responsables de crear y hacer accesibles
bases de datos y documentos.
1.6 METODOLOGÍA
El presente trabajo requirió una documentación incesante debido a que el Periodismo de Datos es un
tema que está floreciendo tanto desde el ámbito de la investigación como del profesional y relacionado
al cual surgen constantemente nuevos conocimientos y, más que nada, herramientas.
Así pues, entre las fuentes de información utilizadas para realizar esta investigación es de mencionar
que primero se hizo una lectura de los contenidos más recientes, para luego ir a los antecedentes y a
las fuentes académicas. De los primeros destacamos el “Data Journalism Handbook”, el cual fue
publicado muy recientemente, ya iniciado este trabajo, y es un manual completo y actualizado sobre el
tema.
2
En el marco del “Proyecto Cybermedia II: Desarrollos e innovaciones del periodismo en las redes sociales en Internet y
telefonía móvil. Convergencias, modelos de negocios, servicio y formación”.
10
Este nació como una iniciativa colectiva en el Festival Mozilla 2011 en Londres y culminó en abril de
2012 cuando fue presentado en el International Journalism Festival, en Perugia (Italia). Sus
principales propulsores fueron la Open Knowledge Foundation y el European Journalism Centre que
convocaron a algunos de los profesionales más expertos en el tema para colaborar de manera conjunta
en su redacción.
La intención era escribir un manual que sirviese de introducción al Periodismo de Datos y que
respondiese a las siguientes preguntas:
- ¿Dónde puedo encontrar datos?
- ¿Cómo puedo pedir datos?
- ¿Qué herramientas puedo utilizar?
- ¿Cómo puedo encontrar historias en los datos?
Por otra parte, entre las fuentes de constante actualización caben mencionar los artículos que brindan
fundaciones e instituciones con autorizada voz en lo que respecta al estudio constante del Periodismo
y de las Ciencias de la Información como el Nieman Journalism Lab -un proyecto conjunto de la
Nieman Foundation y la Universidad de Harvard-, el Poynter Institute y el Freedom Forum for Media
Studies (www.freedomforum.org).
También están aquellos contenidos de consultoras privadas especialistas en temas de tecnología como
O’Reilly Media que posee un sello editorial propio y la asociación Investigative Reporters and Editors
(IRE) que en su sitio web cuenta con revistas, publicaciones y enlaces a su centro asociado, el
National Institute for Computer-Assisted Reporting (NICAR). También son importantes los estudios
de la consultora internacional McKinsey Global Institute, al igual que los de Cisco Systems o IBM.
En cuanto a publicaciones, algunas de las más prestigiosas que han tratado de manera especial los
temas que se citan en este trabajo son “The Economist”, “Wired” y “Nature”. Luego están los aportes
de blogs de profesionales –en el marco o no de sus medios de trabajo- y que se han convertido en unos
de los principales promotores del tema en cuestión, como el de Paul Bradshaw, también consultor y
profesor de Periodismo on-line de la Universidad de Birmingham o las columnas de Simon Rogers en
“The Data Blog”, del diario inglés The Guardian.
Este último también es autor del libro que se cuenta entre los de más reciente publicación relacionados
al Periodismo de Datos, llamado “Facts are sacred” (ROGERS, 2011) que, basado en la experiencia
propia, propone que una nueva misión del periodista es la de mediar entre la información disponible
de organizaciones públicas o privadas y el procesamiento de esta para la audiencia.
11
Otra voz especializada que cabe mencionar es la del profesor y periodista español Alberto Cairo, con
quien tomé el curso en línea "Introducción a la Infografía y Visualización para Periodistas”, ofrecido
por el Centro Knight para el Periodismo en las Américas. El español es autor de dos libros
recomendables para la puesta en práctica de este periodismo, especialmente en lo que refiere a la
visualización de los datos: “El arte funcional: infografía y visualización de la información” e
“Infografía 2.0: visualización interactiva de información en prensa”.
En cuanto a los antecedentes académicos, basé gran parte de la bibliografía en el creador del concepto
de Periodismo de Precisión Philip Meyer y en quienes siguieron y ampliaron sus enseñanzas.
De Meyer revisé aquella bibliografía suya a mi alcance incluyendo el discurso de su última
comparecencia pública de relevancia, la cual la hizo en 2011 con ochenta años de edad. Su gran aporte
ha estado en reforzar el costado científico del Periodismo con sus métodos de investigación tomados
de las ciencias sociales (encuestas, estadísticas, matemáticas…).
En España, su traductor y principal divulgador es José Luis Dader, profesor de la Universidad
Complutense de Madrid y quien amplió también su teorización con libros como “Periodismo de
Precisión: vía socioinformática de descubrir noticias”. En él procura dar importancia y contenido
teórico a una rama del periodismo descuidada en su criterio ya que afirma que “mientras disponemos
de ríos de tinta sobre el deber ser o los valores del periodismo, la cuestión de los métodos
ingenuamente se soslaya y resulta casi inexistente en la discusión de la profesión” (DADER, 1997).
Dader sugiere también el aprovechamiento de las bases de datos, de las nuevas tecnologías
informativas y de Internet para descubrir y tratar nuevas noticias mediante técnicas estadísticas y
científicas que lleven a un periodismo preciso.
Así pues, estos dos autores han sido la base bibliográfica de este trabajo, a partir de quienes enlacé
para conocer otros académicos y otros estudiosos del Periodismo de Precisión.
En la actualidad se habla más del Periodismo de Datos y su bibliografía ha ido actualizándose de
manera permanente y por vías no sólo académicas: publicaciones, libros, ponencias y congresos,
medios de comunicación e Internet, sobre todo.
Para este trabajo he procurado concentrarme sobre todo en estas últimas publicaciones, de las cuales
por lo menos el setenta por ciento se encuentran en inglés.
Cabe mencionar también que en el mes de julio de 2012 (del 23 al 27) asistí al Curso de Verano
“Periodismo de Datos” organizado por la Universidad Complutense. Allí también amplié mis
conocimientos y fuentes de información.
12
1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN
“El desarrollo de Internet y de las tecnologías de la información ha alterado el panorama de las fuentes
y de los sistemas de recuperación inherentes a ellas, debido a la aparición de tipos documentales
completamente nuevos y de aplicaciones de navegabilidad e intercambio de información que han
potenciado la interconexión entre usuarios y la transferencia de información entre ellos”. (CORDÓN
et alter, 2012)
Con esta frase de las primeras páginas del libro “Las Nuevas fuentes de información: información y
búsqueda documental en el contexto de la web 2.0” quiero destacar cuánto me ha servido el
intercambio de información al que se refieren los autores, para llegar a contenido valioso y de
importancia para este trabajo.
Pues tanto Internet como la web 2.0 han venido a complementar los medios convencionales de
información. Entre las herramientas utilizadas y más consultadas para este trabajo destaco:
- Herramientas RSS o de Sindicación de Contenidos: imprescindibles para el manejo de la
información y la actualización permanente.
- Twitter: las cuentas de especialistas en Periodismo de Datos como Alberto Cairo
@albertocairo, Guardian Data Store @datastore, Paul Bradshaw @paulbradshaw, Sandra
Crucianelli @spcrucianelli, Mar Cabra @cabralens, La Nación Data @LNdata, Marcelo
Soares @msoares, entre otros
- Wikis: destaco sobre todo el del grupo de Periodismo de Datos del MediaLab Prado de
Madrid donde los profesionales aportan todo aquello que consideran de relevancia para el
desarrollo de esta práctica.
- Blogs de actualización permanente y novedades constantes. Cabe mencionar:
o Data Driven Journalism (datadrivenjournalism.net), una iniciativa del European
Journalism Centre (http://ejc.net/) para acercar a los periodistas al uso de bases de
datos y fuentes de información con distintas técnicas, herramientas y habilidades.
o Open Knwoledge Foundation Blog (http://okfn.org/)
o El Online Journalism Blog (http://onlinejournalismblog.com/), el cual comenta y
debate acerca de entre otros temas, el Periodismo de Datos. Su editor es Paul
Bradshaw
o NaciónData (http://blogs.lanacion.com.ar/data/), blog del diario La Nación de
Argentina especializado en periodismo y datos. Nació en 2012, durante el proceso de
este trabajo.
13
o DataBlog (http://datablog.ahref.eu/), el cual forma parte del proyecto iData,
patrocinado por la fundación Ahref y que pretende desarrollar la primera plataforma
italiana para el Periodismo de Datos.
o A final de contas (http://afinaldecontas.blogfolha.uol.com.br/), blog del diario Folha
de São Paulo con iniciativa similar a la de otros medios. Escrito por el periodista
Marcelo Soares, también nació en abril de 2012.
o DataBlog de The Guardian(http://www.guardian.co.uk/news/datablog), blog pionero
especializado en este tema e inspirador de otros. Nació en 2009 como parte del
proyecto DataStore que dirige Simon Rogers.
o ProPublica (http://www.propublica.org/), fundación periodística sin fines de lucro de
Estados Unidos que ya ha ganado dos premios Pulitzer por sus trabajos de
investigación. Destaca por la importancia que da al Periodismo de Datos.
- Revistas y libros electrónicos, a algunos de los cuales tuve acceso mediante la biblioteca y los
recursos electrónicos de la Universidad Carlos III de Madrid.
Sistema de citas y fuentes bibliográficas
En el texto del trabajo he utilizado el sistema de citas “autor-fecha” y para crear las referencias
bibliográficas de las fuentes de información consultadas he utilizado las normas ISO 690 e ISO 690-2.
En cuanto a la bibliografía, esta se ha reunido y figuran tras lo grandes bloques que conforman el
trabajo. En primer lugar, figura la dedicada a la introducción; le sigue el apartado relacionado con el
Periodismo de Datos y, por último, la destinada a fuentes sobre Big Data y Open Data.
Para la gestión de toda la información bibliográfica y documental me he auxiliado con los gestores de
información Refworks y Zotero. Este último ha sido usado particularmente para las páginas web.
1.PERIODISMO DE DATOS
2.1 INTRODUCCIÓN
Un campo que se está perfeccionando y está desarrollando una nueva especialización a raíz de la
multiplicación de los datos en el mundo digital es el Periodismo. Y, si bien para esta disciplina no es
algo nuevo la lectura, el análisis y la publicación de bases de datos, sí lo son la importancia que estas
han adquirido y las nuevas herramientas y habilidades necesarias para mejor aprovechamiento de los
datos en orden a su comunicación.
De ello trata el Periodismo de Datos, una especialización que suena cada vez más entre los
profesionales de los medios a partir sobre todo de la avalancha de información que ha significado la
14
aparición de Internet y de fenómenos como Big Data, Open Data y la lectura y comunicación de las
historias que hay detrás de los datos.
Pues en este tipo de periodismo el eje no es retransmitir los datos de las bases de datos tal cual se
consiguen o están disponibles –si bien puede hacerse-, sino que su función es la de informar a partir de
ellas. Entonces, se pueden establecer relaciones entre los datos, practicar minería de datos, aplicar
estadísticas, armar una secuencia… Es decir, extraer una historia de los datos. Y los datos pueden ser
tanto el origen de una investigación para una noticia como pueden acompañar una noticia o pueden ser
la noticia misma.
Periodismo de Datos hace entonces referencia al conjunto de herramientas y prácticas que utilizan
datos para la construcción de una historia (o noticia). Y estos datos pueden tanto acompañar una
historia como ser fuentes de una investigación.
Según la definición del profesor Jesús Flores Vivar (2012): “El Periodismo de Datos es una forma de
periodismo de investigación que utiliza la informática (ordenadores y sistemas algorítmicos) para
buscar, contrastar, visualizar, combinar datos y proporcionar información de diferentes fuentes,
públicas o privadas”.
El video documental “Journalism in the age of data” (2010) que llevó a cabo el periodista
especializado en multimedia Geoff McGhee (2009) para la universidad de Standford, fue un
disparador para dejar asentado tanto la necesidad de desarrollar más este Periodismo como las
iniciativas que ya apuntaban en esa dirección.
En el vídeo, McGhee procura mostrar la importancia de fusionar las narrativas tradicionales del
periodismo con los avances tecnológicos en torno a la explotación de los datos. Para ello entrevistó a
profesionales de medios de comunicación e investigadores de distintos centros que trabajaban tanto en
el desentrañar y comunicar los datos como en las herramientas idóneas para ello, sobre todo en lo que
refiere a su visualización.
Y como ya demostraba McGhee en dicho material, en la actualidad, cada vez más los medios son
conscientes de la cantidad de historias que hay detrás de los datos y que no se las conoce porque no se
las busca. Pero están ahí, están en los archivos, en las bases de datos, en los Boletines Oficiales de
Estados, en los informes oficiales, en las bibliotecas, en las empresas, en Internet.
Desentrañarlas, darles contexto y hacerlas visibles y notorias al resto de la población es la misión del
Periodismo de Datos (en inglés, Data Journalism), más que nunca ahora que existe tanta información
al alcance de la mano gracias a Internet y a las nuevas tecnologías de la información.
15
Claro que hay algunos medios que han sido pioneros o que llevan la delantera respecto de otros. Así
por ejemplo, el periódico estadounidense The New York Times tiene un equipo de 25 personas sólo
para proyectos de visualización de datos. Algunas de ellas son expertas en estadísticas, otras en
Periodismo, otras en diseño gráfico, programación…
También hay medios que destacan por haber hecho una verdadera apuesta al Periodismo de Datos,
tanto desde la incorporación de herramientas específicas como desde su promoción. Entre los que cabe
mencionar se encuentran el diario británico The Guardian con su “Datablog”, el estadounidense Los
Angeles Times, el diario La Información de España, el proyecto “NaciónData” del diario La Nación de
Argentina y el blog “Ao final de Contas” del diario Folha de São Paulo.
2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE
PRECISIÓN Y CAR
Pero, ¿qué es exactamente y en qué consiste el Periodismo de Datos? Para entenderlo conviene revisar
sus antecedentes pues esta no es una forma nueva y desconocida de comunicar. La diferencia está en
cómo se la practica en la actualidad, en un contexto de una cantidad de información difícil de prever
hace un tiempo.
El movimiento principal que antecede al Periodismo de Datos es el ya mencionado Periodismo de
Precisión, una rama del Periodismo de Investigación que surgió como una respuesta al Nuevo
Periodismo de la década del ’60 y que se entiende como la utilización de programas informáticos y
técnicas de las ciencias sociales como las estadísticas para aportar pruebas y no sólo anécdotas en
reportajes periodísticos.
Como término, “Periodismo de Precisión” toma fuerza a partir del libro de 1973 del académico Philip
Meyer “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Y, a pesar de
que Meyer ha sido el principal promotor de esta disciplina, académicos sugieren que su historia podría
remontarse a los años treinta cuando la revista Fortune publicó la que se cree fue la primera encuesta
científica llevada a cabo por un medio de comunicación (DEMERS Y NICHOLS, 1987),.
A ello le seguirán otros ejemplos periodísticos esporádicos hasta que en la década del ’60 los
ordenadores hicieron más fácil el trabajo de la recolección de datos y su análisis (DEMERS Y
NICHOLS, 1987). Es para estos años que Philip Meyer se interesa en el estudio de los métodos
empíricos de investigación social para su aplicación en el periodismo y lo lleva a cabo con una beca
Nieman en la Universidad de Harvard.
A partir de allí combinará una carrera tanto académica y de investigación como una profesional en
medios periodísticos. Así es que en 1968 gana un premio Pulitzer por su publicación en el Detroit
16
Free Press acerca de las causas de una protesta racial en Detroit. Esta investigación se realizó con los
métodos del Periodismo de Precisión y se volvió una referencia en la historia de este hasta la
actualidad.
Lo que allí había hecho el estudio del equipo de Meyer fue un cruce de datos que llevaron a
contradecir la idea errónea de que los disturbios habían sido causados por negros procedentes del sur
de Estados Unidos o por personas de bajo nivel educativo.
Después de ello, Meyer se dedicará a divulgar sus conocimientos y métodos de investigación
periodística en el ámbito académico - actualmente es profesor emérito de la School of Journalism and
Mass Communication en la Universidad de North Carolina at Chapel Hill- y con publicaciones y
libros.
De manera paralela, una variante del Periodismo de Precisión que se desarrolla junto con este, es el
Periodismo de Investigación Asistido por Ordenador (Computer-Assisted Investigative Reporting,
CAR por sus siglas en inglés).
Este periodismo es todavía promovido bajo este nombre si bien podría enmarcarse dentro de la
disciplina más general que tratamos en este trabajo, el Periodismo de Datos. Su principal divulgador es
el National Institute for Computer-Assisted Reporting (NICAR) un programa del Investigative
Reporters and Editors, Inc. Bajo su patrocinio es que anualmente desde 1989 se lleva a cabo la
conferencia CAR, donde se difunden los avances en herramientas para encontrar y analizar
información en formato electrónico.
2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN
Para Meyer, el Periodismo de Precisión es “la aplicación de métodos científicos de investigación
social y comportamental a la práctica del Periodismo” (MEYER, 1993). Para el autor, en 1973 algunos
de esos métodos incluían el sondeo o encuesta de opinión, el experimento psicosocial y el análisis de
contenido.
Es decir, proponía tomar herramientas de las ciencias sociales para el análisis cuantitativo para que
fueran aplicadas en el periodismo, sin por ello alterar la misión de “localizar hechos, comprenderlos y
explicarlos sin pérdida de tiempo”.
Demers y Nichols (1987) también sugieren que el Periodismo de Precisión es un método de
investigación, “un modo de aprender sobre el mundo”. Y su diferencial, según afirman, radica en que
esos métodos cuantitativos de investigación social sirven para conseguir la noticia.
17
Por su parte, la definición que brinda el académico español José Luis Dader es: “se entiende por
‘Periodismo de Precisión’ la información periodística que, sobre cualquier asunto de trascendencia
social, aplica o analiza sistemáticamente métodos empíricos de investigación científica, de carácter
numérico o no numérico, con especial inclinación al campo de las ciencias sociales. En dicha actividad
el énfasis corresponderá a la validez y fiabilidad del método de análisis, por encima de la mayor o
menor espectacularidad de los resultados” (DADER, 1997).
Respecto a su comparación con el Periodismo de Investigación, Dader ha escrito que estos guardan
relación pero no se tratan de lo mismo pues “ni todo el Periodismo de Investigación aplica las
estrategias metodológicas y conocimientos instrumentales del Periodismo de Precisión, ni este último
se aplica tan sólo en proyectos de investigación periodística” (DADER, 1997).
La diferencia está en la metodología de investigación pues el periodista de precisión es el que aplica
métodos como el análisis estadístico, la encuesta sociológica y el rastreo en bases de datos.
2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE
DATOS
Al momento en que Philip Meyer comienza a hacer difusión y practica el Periodismo de Precisión,
todavía no era posible pensar en computadores personales para cada periodista, lo que dificultaba su
puesta en marcha.
Es durante la década del setenta que esto empieza a ser posible y es finalmente en los ochenta que los
ordenadores se vuelven más accesibles y permiten a los periodistas tener acceso a un conjunto de datos
que antes no era posible.
Por ese entonces proliferan también las encuestas y los sondeos de opinión. Incluso para finales de los
ochenta los principales periódicos anglosajones tenían ya departamentos exclusivamente de
información socio-estadística. Estos eran llevados por profesionales de las ramas de estadísticas y
gestión de bases de datos que, entre otras misiones, daban soporte a casos de investigación
periodística.
De a poco entonces, esta rama del periodismo fue generando visibilidad, sobre todo en los Estados
Unidos. Algunos de los hechos que lo ilustran y marcan antecedentes en la historia reciente del
Periodismo de Datos son:
1986. Reconocimiento con un premio Pulitzer al reportaje del Dallas Morning News que, basándose
en cruce de bases de datos por ordenador, denunciaron la existencia de discriminación racial en la
adjudicación de viviendas públicas en Texas.
18
1989. Premio Pulitzer de Periodismo Investigativo al periodista Bill Dedman por el reportaje “The
colour of money”. Este se trataba de una serie de artículos publicados en el diario estadounidense The
Atlanta Constitution en los que, a partir de un análisis informático de los formularios que debían
rellenar prestamistas hipotecarios, quedaba en evidencia que había discriminación por parte de estos.
Como consecuencia de dicha investigación se introdujeron reformas en las condiciones crediticias de
bancos de todo el país. A continuación, una imagen que formaba parte del reportaje:
ILUSTRACIÓN 1. "THE COLOUR OF MONEY". FUENTE: HTTP://POWERREPORTING.COM/COLOR/
1991. Philip Meyer publica “The new precision journalism: a reporter’s introduction to social science
methods”, tercera edición de su libro donde explica y actualiza cómo hacer análisis de datos y
estadística con los ordenadores del momento.
19
1993. The Miami Herald gana un premio Pulitzer por su especial sobre la devastación producida por el
huracán Andrew titulado “What went wrong?”. En este número, un equipo de periodistas entre los que
se encontraba Steve Doigt -hoy un férreo impulsor del Periodismo de Datos-, decidió comprobar
cuánto del nivel de destrucción del huracán había sido responsabilidad de autoridades municipales y
constructores. Para ello recopiló cuatro bases de datos oficiales que, según el académico José Luis
Dader (2006) fueron las siguientes:
1) Los informes de las 50.000 inspecciones de daños realizadas en el condado tras el paso del huracán
2) El registro de datos de la propiedad de 1992, que incluía información detallada del tipo de vivienda,
valor y año de construcción de todas las edificaciones del área
3) El fichero de Memorias de Edificación de todas esas construcciones, que recogía información
minuciosa sobre los tipos y calidades de los materiales utilizados
4) El Censo de Edificación y Planificación del condado, con más de 7 millones de expedientes de
permisos de construcción e inspecciones realizadas en los últimos años.
Tras un cruce de toda esta información, el Miami Herald realizó un especial de 16 páginas en las que
podía verse un mapa de las zonas afectadas por el huracán y cuadros estadísticos. Lo que terminaron
por demostrar fue que el número de casas construidas después de 1979 y que declaraban haber sido
destruidas totalmente doblaba a las de construcción previa. Además, dejaban evidencia de que los
vientos más fuertes no habían sido causantes de más destrucción sino que también, esto se
correlacionaba con los hogares de construcción posterior a 1979.
En conclusión, había sido causante de más daño la reducción de los controles de calidad de
construcción que la fuerza el huracán.
20
ILUSTRACIÓN 2 "LESS WIND, LOTS OF DAMAGE". FUENTE: CUENTA DE FLICKR DE DANIEL X. O'NEIL,
HTTP://WWW.FLICKR.COM/PHOTOS/JUGGERNAUTCO/SETS/72157607210036175/DETAIL/
2006. El periodista Adrian Holovaty (2006) publica su ensayo “A fundamental way newspaper sites
need to change” a partir del cual se extiende la necesidad de profundizar en el “Periodismo de Datos”.
Según especialistas en el tema como el periodista Simon Rogers, Holovaty pudo haber sido el primero
en hablar de “Data Journalism”, término anglosajón de “Periodismo de Datos”, para anclarlo como
una tendencia.
21
2007. Entre ejemplos de Periodismo de Datos que empiezan a multiplicarse destaca el de Los Angeles
Times llamado “The homicide report” y consiste en un mapa interactivo
(http://projects.latimes.com/homicide/map/) con una base de datos para conocer todos los casos de
homicidio en el distrito de Los Ángeles desde 2007 hasta la actualidad, presentando detalles de cada
uno de los asesinatos que de la región. En este mapa se pueden filtrar los datos de las víctimas según
raza, edad, género, causa de muerte, ubicación y otros parámetros. También pueden verse fotos de
estos.
Para Rich Gordon (2007), profesor asociado de la escuela Medill de Periodismo en la Northwetern
University de Estados Unidos), esta iniciativa representa que cuando se unen el reportaje tradicional
con las nuevas capacidades de uso de las bases de datos, surgen nuevas formas de periodismo.
ILUSTRACIÓN 3. "THE HOMICIDE REPORT". FUENTE: LOS ANGELES TIMES
22
2009. Premio Pulitzer para el diario estadounidense St. Petersburg Times por el proyecto “Politi Fact”
en el que se comparaban las declaraciones juradas de políticos con hechos reales y concretos para
evaluar el grado de veracidad. Trabajo basado en el uso de estadísticas y bases de datos.
2010. Las filtraciones más importantes de Wikileaks cambian el panorama del Periodismo de Datos y
sitios de noticias como The Guardian, a través de su “Datablog”, y The New York Times llevan esta
modalidad a su auge.
ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED". FUENTE: GUARDIAN.COM.UK
2011. Los 16 proyectos ganadores del Knight News Challenge, un concurso anual de la Knight
Foundation destinado a promover las mejores ideas relacionadas con la innovación en el ámbito del
periodismo, tienen al Periodismo de Datos como principal objetivo. El total de dinero que se les
destina testimonia su importancia, 4,7 millones de dólares.
En 2011 nace también el proyecto Overview, una herramienta de visualización de documentos. Ofrece
organizarlos y conectarlos para ayudar a los periodistas a encontrar historias en medio de tanta
información. Es una iniciativa del periodista Jonathan Stray con la financiación de la agencia de
noticias Associated Press.
23
2012. Algo que marcó la transición que está viviendo el Periodismo de Datos fue el lanzamiento en
enero de 2012 del primer concurso internacional de esta especialidad, una iniciativa del Global Editors
Network en alianza con Google. Además, este mismo año se publica el manual de Periodismo de
Datos, ya citado anteriormente, “The Data Journalism Handbook”, una iniciativa colaborativa en la
que participaron periodistas de todo el mundo.
Como puede deducirse, el Periodismo de Precisión tuvo al comienzo una mayor incidencia en Estados
Unidos mientras que en Europa la evolución fue más lenta (Dader, 1993). En España incluso, como
también documenta el académico José Luis Dader, habían aplicaciones de un Periodismo de Precisión
pero sin que sus profesionales supieran del movimiento: “la relativa presencia de actuaciones
periodísticas intuitivas, catalogables entre nosotros bajo el rótulo que nos ocupa, choca con la
perplejidad generalizada que su sola mención continúa produciendo entre la mayoría de los periodistas
y profesores españoles de Ciencias de la Información”.
Años después, ya para cuando comienza a hablarse de Periodismo de Datos a raíz de la multiplicación
de bases de datos y herramientas para su tratamiento, la evolución se da paralelamente en distintos
ámbitos geográficos. Estados Unidos no pierde su vanguardia con medios de comunicación cabeceras
como The New York Times mientras que en Europa sus primeros promotores están en Inglaterra con
The Guardian y en Alemania con Der Spiegel.
Y la gran bisagra en la evolución del Periodismo de Datos no está sólo en fenómenos de desarrollo
continuo como puede ser Big Data. También, hubo hechos puntuales y entre ellos es de mencionar el
“Cablegate”, la filtración de documentos diplomáticos -especialmente de Estados Unidos- y que
difundió el sitio Wikileaks.
Al respecto, en diciembre de 2010, Paul Bradshaw escribió en su blog onlinejournalismblog.com un
artículo que tituló “Un embajador avergonzado es una tragedia, 15 mil civiles muertos es una
estadística”. Allí deducía, a partir del efecto Wikileaks en la prensa, que el Big Data traía nuevos
desafíos: “hay que humanizar y personalizar grandes conjuntos de datos de una manera tal que ello no
vaya en contra de la complejidad del tema que se está tratando”.
24
Es decir, en medio de enormes cantidades de datos, el periodista debe intentar lograr un interés con
ellos a pesar de que a los lectores les interesen más las historias individualizadas, como la del
embajador avergonzado con el que ejemplifica este punto.
Al respecto, es válido también comentar que los mismos datos necesitan de los medios de
comunicación pues de otra manera es posible que el público no se acerque a ellos, por la complejidad
que esto representa.
Como escribió el periodista John Keenan (agosto 2010) en The Guardian: “Sin el análisis, el
comentario y la explicación de periodistas especializados, los documentos habrían quedado en el sitio
de Wikileaks llamando la atención sólo de aquellos con un ferviente interés en el conflicto. La Casa
Blanca y el Pentágono, apenas se habrían inmutado”.
Eso es precisamente lo que entendió Julian Assange, el fundador de Wikileaks, cuando decidió hacer
la distribución de sus documentos a través de grandes diarios occidentales, los cuales fueron El País
de España; The New York Times de Estados Unidos; The Guardian de Reino Unido, Le Monde de
Francia y Der Spiegel de Alemania.
Al mismo tiempo, en una visión actualizada del Periodismo de Precisión y ya con el Periodismo de
Datos como una tendencia, Philip Meyer dio un discurso el 3 de octubre de 2011, como invitado a la
Hedy Lamarr Lecture sobre Changing Needs in Journalism en la Academia Austríaca de las Ciencias.
En su exposición, que luego fue difundida por los reportes Nieman, dijo:
Necesitamos una estructura para ver la verdad de los hechos. (…). ¿Es posible que encontremos la
manera de unir estas dos estrategias (Periodismo Narrativo y Periodismo de Precisión) y contar
historias sobre los datos que se basan en teorías verificables?
Para dar una respuesta a este interrogante, se remontó a la historia del término “Periodismo de
Precisión”, el cual fue acuñado por el profesor Everette E. Dennis en la Universidad de Obregón en
1971. Lo que intentaba este, era explicar el nuevo Periodismo, basado en métodos científicos. Pero
como desde hacía unos años se hablaba de “nuevo periodismo” para referirse a la corriente literaria del
oficio, lo diferenciaron.
Y continuó entonces con su discurso, acercándose a la definición de lo que se conoce como
Periodismo de Datos:
“Ambos géneros, el Periodismo Narrativo y el Periodismo de Precisión, son especialidades que
requieren determinadas habilidades. Si tuviéramos que mezclar ambos, ¿cómo lo llamaríamos? El
término que me gusta es ‘narrativa basada en evidencia’. Ello implica una buena historia basada en
25
evidencia verificable. Sí, esa sería una especialidad esotérica. Pero creo que hay un mercado que se
está desarrollando para ella. El mercado de la información nos está llevando cada vez hacia una
mayor especialización. Y tanto el Periodismo de precisión como el Periodismo narrativo atraen a una
audiencia sofisticada, una que aprecia la necesidad de estructurar la información de una manera que
centre la atención en la verdad.”
Y casi cuarenta años después de que el profesor Meyer remarcara por primera vez la necesidad de
aplicar métodos sociales en la investigación periodística hoy no sólo se aplican en los más importantes
medios de comunicación, sino que también las nuevas tecnologías permiten toda una variante de
actividades a partir de ello. El ejemplo principal es la exploración personal que puede hacer la
audiencia de tantas bases de datos ahora a su disposición.
2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS
En la actualidad, el Periodismo de Datos exige una especialización, tal como remarcó Philip Meyer.
De ahí que sobrevenga la necesidad de aprender las nuevas herramientas, de sortear las dificultades
que representa la lectura de cierto formato de datos y de facilitar la tarea de lectura de la audiencia.
Es decir que, como cualquier nueva tendencia también tiene sus puntos fuertes y débiles. En cuanto a
una de sus principales consecuencias positivas se encuentra la objetividad y transparencia que pueden
brindar los datos, ya que el lector también tiene la posibilidad de interpretarlos y sacar sus propias
conclusiones.
Por otra parte, tanta información a disposición puede complicar la tarea de su lectura. De ahí la
necesidad de ordenar. A continuación, un listado de características del Periodismo de Datos.
2.5.1 OBJETIVIDAD Y TRANSPARENCIA
"Aquel periodista que adapte los instrumentos del método científico a su propia tarea, gozará de la
posibilidad de realizar útiles evaluaciones con la mucha más potente objetividad de la ciencia”
Philip Meyer, 1993
El profesor de gráficos en la Universidad de Miami, Alberto Cairo (25 de abril 2011) coincide
indirectamente con Philip Meyer cuando en un texto sobre “infográficos peligrosos” se refiere al
método científico como “el mayor avance de la Humanidad en su lucha por superar limitaciones
perceptivas, ilusiones inconscientes e impulsos emocionales: un sistema que antepone la evidencia
empírica a la opinión subjetiva, aunque esta última se rebele contra sus conclusiones, a veces
contrarias a la intuición, al statu quo... y al sentido común”.
26
Como es común aprender en las carreras de Periodismo, la objetividad es un principio de este, si bien
hay quienes la defienden y quienes no pues la neutralidad absoluta no es algo que pueda asegurarse en
el discurso comunicativo
En relación con el Periodismo de Datos, la lectura de los datos y su puesta a disposición contribuye a
una mayor transparencia y objetividad en la tarea comunicativa. Es más, hay quienes defienden que
“la transparencia es la nueva objetividad” (THE ECONOMIST, julio 2011).
2.5.2 NECESIDAD DE ORDENAR
Philip Meyer también reflexionó en 2011 en su discurso en la Academia Austríaca de las Ciencias
acerca de la gran cantidad de información actual y la necesidad de organizar: “Creería que todos
estamos de acuerdo en que las tecnologías de la era de la información producen datos más rápido de lo
que producen conocimiento. En lugar de remplazar el periodismo, Internet está creando una nueva
necesidad de mercado: para la síntesis y la interpretación del flujo constante de hechos”.
Para el académico, los datos sin procesar son lo mismo que el ruido, de ahí que a medida que se
multiplica la información disponible en el mundo, también se multiplican las necesidades para
procesarlo.
Asimismo, Guy Laurence, CEO de Vodafone Reino Unido argumentaba en una entrevista de Simon
Rogers –editor del “Datablog” del periódico británico The Guardian- que antes el acceso a la
información era un gran problema mientras que ahora, la prioridad es saber manejarla: “Nos hicieron
creer que cuanto más datos, mejor, pero eso ya no es verdad”.
Regresando a Meyer, en su discurso ya mencionado (2011) también dijo que ahora que la información
es abundante lo importante es su procesamiento: “Necesitamos una estructura para ver ‘la verdad de
los hechos”.
Para ello, Meyer (1993) reconoce que en la actualidad no sólo alcanza con aplicar el método científico
a los datos. Ahora también es necesario saber nadar entre un mundo de datos: “El periodista debe
ahora ser un administrador de datos acumulados, un procesador de datos y un analista de esos datos”.
Los pasos que Meyer enumera para trabajar con los datos en periodismo son:
1. Recopilarlos
2. Almacenarlos
3. Recuperarlos
4. Analizarlos
27
5. Resumirlos
6. Comunicarlos
2.5.3 TRABAJO EN GRUPO
Una característica que todos los expertos en Periodismo de Datos coinciden es que cuanto más un
trabajo en equipo sea, mejores resultados se pueden obtener. Sobre todo a la actualidad, cuando las
herramientas se multiplican y se valoran cada vez más las especializaciones.
Cierto es que así como se multiplican las herramientas estas se simplifican. Sin embargo, en un trabajo
completo de Periodismo de Datos intervienen diferentes capacidades como las que dan la Estadística,
la Sociología, la Programación, el Diseño Gráfico y el Periodismo.
Puede haber reporteros que reúnan conocimientos de estadística por ejemplo, pero no es lo más
común. Por tanto, según mencionaba Meyer (2011) ello exige una inversión por parte de los medios:
“Necesitaremos más reportaje en equipo y editores capaces de reclutar y manejar los talentos que
hacen falta”.
José Luis Dader (1993) asegura también en el prólogo de la versión española de “Periodismo de
Precisión. Nuevas Fronteras para la investigación periodística” que “este tipo de aventura profesional
es una tarea de equipo”. Pues el periodista puede encontrarse en su tarea con dificultades técnicas y de
métodos, para lo que es una solución buscar la ayuda de especialistas.
2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS?
En un post de julio de 2011 Paul Bradshaw propuso en su blog cuatro fases de trabajo en el
Periodismo de Datos: compilar los datos, filtrarlos, contextualizarlos y combinarlos para luego
transmitirlos.
28
Ilustración 5 “THE INVERTED PYRAMID OF DATA JOURNALISM”. FUENTE: ONLINEJOURNALISMBLOG.COM
2.6.1 COMPILAR LOS DATOS
Para Paul Bradshaw, la búsqueda de datos puede iniciarse por dos razones: o porque hay una pregunta
que necesita datos para su respuesta o porque hay datos que plantean un interrogante. Como sea, hay
que encontrarlos o incluso crearlos, por ejemplo, a través de encuestas.
Para ello están las bases de datos, públicas o privadas. Las privadas no necesariamente son secretas,
pero no está pensadas para el uso de los periodistas por lo que se puede pedir consultarlas o pagar por
ellas, dado el caso.
Algunas de las fuentes más consultadas a partir de las cuales surgen historias son (BRADSHAW, abril
2010):
- Fuentes gubernamentales, locales, nacionales e internacionales
- Organismos que monitorean a diferentes organizaciones
- Instituciones académicas y científicas
- Organismos de la salud
29
- Grupos de presión y organizaciones sociales
- Empresas
- Los medios comunicación
Los modos de recuperación que Philip Meyer enumeraba en la versión actualizada de Periodismo de
Precisión eran los siguientes:
- CdRom, para ser leídas en el ordenador personal.
- Conexión
- Fuentes de acceso público
- Recepción mediante conexión a Internet
- De texto completo y bibliográficas
Con las nuevas tecnologías y facilidades de la informática, las maneras de recuperación se han
ampliado considerablemente. De ahí que las enumeradas por Paul Bradshaw en su artículo de 2011
sean diferentes y actualizadas. A continuación, citamos algunas de las que el periodista inglés
propone, más otras a considerar:
- Información provista al periodista directamente por una organización (todavía no es común
que los datos estén adjuntos a los comunicados de prensa)
- Recuperada luego de búsquedas avanzadas dentro de sitios gubernamentales
- Haciendo scraping en bases de datos ocultas con herramientas como Scraperwiki,
Yahoo!Pipes y el complemento de Firefox Outwit Hub.
- A través de la conversión de documentos para su análisis.
- Tomando información de las APIs
- Recolectando información por uno mismo a través de observaciones, encuestas o formularios,
entre otras formas.
2.6.2 FILTRADO Y LIMPIEZA DE DATOS
Un problema que presenta el trabajar con bases de datos públicas o ajenas –incluso propias- es que
pueden contener errores de tipeo –o de otro tipo- que podrían alterar la verdad de los contenidos que se
pretenden comunicar.
“Para evaluar la información de una base de datos hay que preguntarse siempre quién suministró los
datos originales y cuándo y cómo se recolectaron. Muchas bases de datos gubernamentales son
compilaciones de material procedente de muy diversas fuentes, cuya fiabilidad y meticulosidad no es
uniforme”. (MEYER, 1993)
30
Para ello es que un paso fundamental al trabajar con estas bases de datos es proceder a su revisión y
“limpieza”. Numerosas herramientas permiten descubrir típicos errores humanos sin necesidad de ir
registro por registro. Una de ellas es Google Refine que descubre palabras aproximadas, entradas
vacías y duplicados.
Philip Meyer también repetía en su libro “Periodismo de Precisión. Nuevas Fronteras para la
investigación periodística.” (1993): “Nunca consideres como palabra de Dios lo que el ordenador te
indica. Habrá siempre que rastrear el paso anterior a la creación de la base de datos, comprobando
los documentos impresos o lo realizado por las personas que reunieron los datos.”
Asimismo, este ítem también incluye la conversión de datos al formato con el que se pretende trabajar.
Lo más común en este caso es el paso de información presente en archivos PDF a planillas de cálculo
como Microsof Excel. No siempre es una tarea sencilla y, a pesar de que existen herramientas gratuitas
(PDFtotext, Cometdocs.com, PDFtoexcelonline.com, Zamzar.com) y de pago (PDFconverter, Adobe
Acrobat X Pro, Nitro PDF), es necesaria una revisión meticulosa.
Relacionado a este punto, otra tarea frecuente en el Periodismo de Datos es la extracción de
información de una página web a un documento de texto. Y, para cuando el “copiar” y “pegar” no
funciona correctamente, sobre todo con listas y tablas, existen herramientas para convertir información
en lenguaje HTML para su uso en un documento de texto o planilla de cálculo. Un ejemplo de ellas
es la que facilita Google: ImportHTML.
2.6.3 CONTEXTUALIZAR LA INFORMACIÓN
Es necesario preguntarse de dónde viene la información, cuál es su historia, qué instituciones
intervinieron, porqué se recolectó, cómo, dónde…
Entonces, si llega a manos de un periodista la base de datos de crímenes de una ciudad esta sólo tendrá
sentido si se conoce la cantidad de población, el historial, la calidad de vida, el desempleo, la
inflación, etcétera.
Es decir, una base de datos puede no ser interesante en sí misma hasta que se cruzan dos variables. Así
por ejemplo, un registro de accidentes de una ciudad que se combina con el nivel educativo de los
conductores protagonistas de estos puede tal vez dar lugar a una conclusión relevante. Es entonces
cuando entra en juego la capacidad del periodista para hacerse las preguntas que deriven en material
de noticia.
Es en este paso también que entran en juego los conocimientos estadísticos y la importancia de esta
ciencia dentro del periodismo y del mundo de la información.
31
Respecto a las estadísticas, en una entrevista de 2008 a Hal Varian, economista jefe de Google y
profesor de Tecnologías de la Información en la Universidad de Berkeley, este ya predecía que en la
próxima década se iba a tender inevitablemente al campo estadístico: "La capacidad de trabajar los
datos - ser capaz de entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos- va a
ser una habilidad de enorme importancia en las próximas décadas (..). Porque es ahora que realmente
se dispone de datos, esencialmente libres y en todas partes. Así que el factor que falta es la capacidad
de entenderlos y extraer valor de ellos” (MCKINSEY QUARTERLY, enero 2009)
Y Philip Meyer (1993) también ya lo decía en cuanto a su aplicación en el oficio del periodista:
“Hubo un tiempo en que todo lo que hacía falta era amor a la verdad, vigor físico y cierta gracia
literaria. Todavía el periodista necesita esos recursos, pero ya han dejado de ser suficientes.”
Un número por sí solo no significa mucho. Debe tener un contexto, debe ser comparado con otros
números. Para José Luis Dader (1997), la estadística consiste “en una aplicación práctica de la
matemática, destinada a hacer visible, mediante una explicación condensada –y por tanto asequible al
conocimiento humano-, la variabilidad de relaciones ciertas, pero a primera vista invisibles, que
existen en grandes masas de datos o poblaciones”.
Es de mencionar que, en la actualidad, uno de los más grandes precursores de las estadísticas es el
médico sueco Hans Rosling. Él no sólo insiste en la necesidad de aplicar las estadísticas en la tarea de
la comunicación sino también en todas las áreas de la vida para entender el mundo actual.
Conocido también por sus presentaciones en las charlas TED (organización internacional de
divulgación de ideas) para promover el entendimiento del mundo a través de las estadísticas, en una
entrevista de Ulrike Reinhard (marzo 2011), Rosling pone en palabras su percepción respecto al
universo de datos actual: “Mi idea fundamental es que el mundo ha cambiado tanto que lo que la gente
necesita no es más datos sino una nueva mentalidad. Necesita un nuevo sistema de almacenamiento
con el que poder manejar esta información”.
2.6.4 COMBINAR LOS DATOS
Este paso se refiere a la fusión de datos de diferentes fuentes en una sola. Un modo típico en
periodismo que incluye esta tarea está representado por los mashups, aplicaciones que toman y
mezclan datos existentes en la web para crear algo nuevo.
El de mapas es de los más utilizados en el periodismo y sirve para ver cómo se distribuye algo en el
espacio. Un ejemplo sería un mapa qué muestre cuáles son los países que acumulan más de cien
32
medallas de oro en la historia de los Juegos Olímpicos basándose en los datos de una tabla de
información extraída de, por mencionar una fuente probable, Wikipedia.
2.6.5 COMUNICACIÓN DE LOS DATOS
La forma de transmitir los datos a la audiencia es lo que más ha variado en los últimos años gracias a
las nuevas tecnologías de la información y herramientas que permiten que estos se vuelvan más fáciles
de manipular y de acceder. De allí que una característica fundamental del Periodismo de Datos actual
es la visualización de estos en tablas y gráficos.
2.6.5.1 INFOGRAFÍA Y VISUALIZACIÓN DE DATOS
En el mundo académico suele diferenciarse entre la “infografía” y la “visualización de datos” alegando
que la infografía se preocupa en presentar la información de una manera que pueda ser asimilada por
la audiencia, mientras que la visualización permite la exploración al usuario a través de esos datos.
Sin embargo, Alberto Cairo, autor del libro “El arte funcional: infografía y visualización de
información” habla de una “frontera difusa” entre ambos conceptos (16 de abril, 2011). Pues este
periodista español considera que “la relación entre infografía y visualización es un continuo” ya que
“todo gráfico (de datos, cartográfico, etc.) presenta, pero también puede convertirse en una
herramienta que una audiencia manipule mentalmente para explicarse unos datos, para extraer de ellos
significados, tendencias, para vincularlos con su propia vida, para buscar en ellos su propio barrio, su
ciudad, su vivienda.”
He ahí parte del potencial de la visualización de datos en los medios de comunicación ya que permite
esa interacción del lector sobre todo con las nuevas herramientas.
Y, aunque las formas visuales de presentar datos parecen novedosas, lo cierto es que, al menos las más
típicas, existen desde hace dos siglos gracias a los estudios de mapas en historia y geografía y en otras
disciplinas como las matemáticas.
Así, al que se considera como el inventor de la tabla moderna es al ingeniero escocés William Playfair
quien en The Commercial and Political Atlas de 1786 y en el Statistical Breviary de 1801 inventó y
utilizó un gráfico de barras, uno de fiebre y otro de tarta, los gráficos estadísticos que son más
utilizados en la actualidad. Uno de ellos es el que presentamos a continuación y que plasma en un
diseño gráfico la evolución del comercio de Inglaterra en relación a Dinamarca y Noruega entre 1700
y 1780.
33
ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. FUENTE:
HTTP://UPLOAD.WIKIMEDIA.ORG/WIKIPEDIA/COMMONS/D/D8/PLAYFAIR_TIMESERIES.PNG
Además de las mencionadas, otras formas de comunicación visual de datos se inventaron durante el
siglo XIX como el mapa geológico de William Smith de 1815 que los cartografistas llaman “el mapa
que cambió el mundo”:
ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH” (1815). FUENTE:
HTTP://EN.WIKIPEDIA.ORG/WIKI/FILE:GEOLOGICAL_MAP_BRITAIN_WILLIAM_SMITH_1815.JPG
34
Pero cuando comienzan a asomar las cantidades masivas de datos, se tornan necesarias nuevas
herramientas para su lectura y comprensión. De ahí que se comenzaran a utilizar aquellas específicas
para la visualización de datos que poco a poco fueron mejorando y convirtiéndose de uso común,
sobre todo desde el momento en que se las comprendió como una forma alternativa de comunicación.
Así, cada vez más herramientas facilitan a cualquier usuario la visualización de datos. Una que tuvo
especial repercusión fue ManyEyes, de IBM, la cual funciona en Internet y es de acceso gratuito. Con
esta herramienta, a partir de bases de datos se pueden diseñar visualizaciones para cruzar los datos y
encontrar nuevas relaciones.
ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”. FUENTE:
MANYEYES.
La visualización entre otras cosas, sirve para “poner datos en contexto”, según explica Jeffrey Heer, de
la Universidad de Stanford en el video de Geoff McGhee (2010) “Journalism in the age of data”
(2010).
A su vez, Cole Nussbaumer (2011), experta en visualización de datos en Silicon Valley- prefiere
hablar de “humanización” de datos, pues al presentarlos de manera creativa es posible hacer de ellos
una historia más transparente.
Uno de los medios precursores y que constantemente está innovando en visualización de datos es The
New York Times.
2.6.5.1.1 “LA NARRATIVA DE LA VISUALIZACIÓN”
Para Edwar Segel y Jeffrey Heer (2010), de la Universidad de Stanford, la visualización de datos no
sólo revela historias sino que también puede contarlas, igual que si fuese una historia escrita.
35
Para ambos académicos las visualizaciones estáticas a lo largo del tiempo han sido utilizadas para
apoyar la narración, generalmente en forma de diagramas insertos en un cuerpo mayor de texto. Y es
en este formato que el texto transmite la historia, y la imagen por lo general proporciona evidencia de
apoyo o detalles relacionados.
Ahora, para ellos, una nueva clase de visualizaciones cada vez más complejas tratan de combinar
narraciones con gráficos interactivos y narradores y periodistas, especialmente en línea.
A su vez, describieron siete géneros de narrativas de visualización: el estilo revista, el gráfico anotado,
el diagrama de flujo, la tira cómica, las diapositivas, el vídeo y el “cartel dividido”.
ILUSTRACIÓN 9. “SIETE GÉNEROS”. FUENTE: (SEGEL Y HEER, 2010).
El gurú del Periodismo de Precisión, Philip Meyer (2011) también considera que la narrativa va a la
par de los datos, pues en el siglo XXI es necesario tanto el Periodismo de precisión –el cual toma sus
herramientas de la ciencia- como el Periodismo narrativo, basado en el arte:
“La ciencia crea estructura con lo que Lippmann denomina modelos esquemáticos, que provienen de
la teoría. El arte crea la estructura a través del diseño de la narrativa en la narración.”
Por ello no es cuestión de poner los datos como son y abrumar al lector. Hay que preguntarse qué es lo
que este quiere saber a partir del gráfico, qué es lo que puede llegar a preguntarse.
Igualmente, Alberto Cairo insiste en la necesidad de no caer en la simplificación excesiva. Y habla de
dos corrientes en el campo de la visualización de la información: la de los minimalistas (racionales,
científicos) y la de los de una perspectiva más emocional y estética.
36
En cuanto a la teoría, Cairo (2011) recuerda a Edward Tufte, un influyente profesor de estadística que
es defensor de la corriente minimalista y un aberrador de la “ideología de la decoración”. Incluso este
habla de la “basura de gráficos” (chart junk) que hay que evitar, como estilos que dificultan la lectura
de los datos, grillas sobrecargadas, texturas incomprensibles…
Algunas de las reglas que enumera en su libro básico “The visual display of quantitative information”
son:
- Mostrar los datos
- Maximizar el uso de data-ink (tinta destinada a los datos).3
- Evitar el chart-junk, o todo lo que dificulte la lectura de los datos
- Utilizar elementos multifuncionales, que facilitan la lectura.
- Múltiplos pequeños
- Textos y leyendas con la orientación tradicional
- Hacer un uso cuidadoso del color
Su postura es en ocasiones extrema. Sin embargo, sus principios tuvieron y tienen hasta la actualidad
gran percusión entre diseñadores y comunicadores. Sin embargo, en las dos últimas décadas también
se le ha rebatido su postura minimalista, basada más en apreciaciones personales que en hechos
empíricos.
Por su parte, están aquellos defensores de un uso más estético y emocional de los gráficos. Entre ellos
se incluye el influyente Nigel Holmes, referente de la infografía moderna y defensor de la inclusión de
ilustraciones junto a los datos.
Para Cairo (2011), la estética no está de más siempre y cuando el gráfico no esté por encima del rigor
informativo: “rendirse en ocasiones a lo lúdico y crear un gráfico que tenga más artificio que sustancia
puede ser positivo, dependiendo del asunto y del contexto”.
Por su parte, las nuevas herramientas tecnológicas permiten que sin llegar a la simplificación absoluta
se creen gráficos interactivos que permiten a la audiencia buscar aquello que les sea de más interés.
El siguiente es un ejemplo de gráfico interactivo que realizó el The New York Times el pasado junio
llamado “Where the Heat and the Thunder hit their shots”. Aquí se pueden comparar las fortalezas de
los jugadores de baloncesto del Miami Heat y del Oklahoma City Thunder basándose en sus patrones
de disparo.
3
La regla central de Tufte es la ratio data-ink, la cual representa la cantidad de tinta que debe llevar la ilustración
en orden a representar los datos de manera aceptable.
37
ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”. FUENTE: THE NEW YORK TIMES.
2.6.5.2 OTRAS FORMAS DE COMUNICAR LOS DATOS
La visualización de los datos se presenta como una de las formas que se están volviendo cada vez más
populares para presentar la información a los lectores. Sin embargo, según Paul Bradshaw (abril 2010)
en su teoría de la Pirámide Invertida del Periodismo de Datos, hay otras maneras de comunicar los
datos:
38
- La narración: un artículo escrito de manera tradicional en el que se incluyen los datos
recolectados.
- Comunicación social: los datos pueden conseguirse a través de las redes sociales o a través de
convocatorias y concursos.
- Humanización: presentar los números con ejemplos reales para ilustrar una historia. No solo
datos abstractos.
- Personalizar: la interacción con los datos permite a los usuarios buscar aquello que les es de su
interés personal. Por ejemplo: “¿cómo le afectan los recortes de este trimestre según región?”.
- Utilizar: semejante a personalizar, la comunicación de los datos puede permitir al usuario
buscar aquella información que le interese, sea o no que lo afecte a nivel personal.
2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS
2.7.1 “¿DÓNDE VAN MIS IMPUESTOS?”
En Internet, el sitio español www.dondevanmisimpuestos.es es una iniciativa de la Fundación
Ciudadana Civio la cual cuenta con el apoyo de la Open Knowdlege Foundation. Se trata de un
proyecto de Periodismo de Datos para dar conocer los destinos del dinero según los Presupuestos
Generales del Estado desde 2008 hasta 2011.
Inspirada en el proyecto inglés “Where Does My Money Go?”, básicamente es una visualización
interactiva en la que el usuario o lector puede ir desplegando los gráficos según cuáles sean sus
intereses. Por ejemplo, puede ver los presupuestos que se destinan a Cultura, Artes Recreativas y
Religión y a su vez cuánto de esto va, por ejemplo, a Bibliotecas y Archivos. También está la
posibilidad de ver los presupuestos por comunidades autónomas año a año.
Esta información es posible porque está disponible en los Boletines Oficiales del Estado. Sin embargo,
lo que ya no puede saberse en España es si efectivamente ese dinero fue destinado tal como estaba
planeado por las trabas que presenta el no contar con una Ley de Acceso a la Información4
.
En este caso se trata de un diseño realizado a través de las tablas en las que se recolectó la información
de los Presupuestos Generales de los gastos anuales de la Administración Central del Estado
(ministerios, agencias dependientes y otros organismos públicos, como el Congreso) y la Seguridad
Social.
ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?". FUENTE: WWW.DONDEVANMISIMPUESTOS.ES
4
Ver apartado sobre Open Data.
39
2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR”
Es un reportaje de The Seattle Times de Estados Unidos cuyo título original es “Methadone and the
politics of pain” y fue publicado en tres partes en diciembre de 2011. Galardonado con el premio Data
Journalism Award en la categoría “Data-Driven Investigation”, consistió en la denuncia de todo lo
que hay detrás del consumo del analgésico metadona.
Su elaboración llevó diez meses y en el equipo participaron cinco personas. Entre otras cosas
revelaban que desde 2003 habían muerto 2173 personas en el estado de Washington por sobredosis de
metadona, la mayoría de ellas de clases bajas. Denunciaban también que el fármaco tiene un interés
financiero para el Estado, además de que deja a los pacientes con un dolor crónico.
El reportaje incluyó representaciones gráficas de los datos demográficos de las muertes relacionadas
con la metadona. El más ambicioso de ellos traza las direcciones de aquellas personas que habían
muerto por una sobredosis accidental vinculada a la metadona. Utilizando un código de colores, el
gráfico del Estado fue dividido en cinco partes según ingresos lo que permitía ver que había más
muertes en las comunidades más pobres.
A su vez, la investigación estuvo sustentada en tres bases de datos: la de los certificados de muerte del
Estado con detalles de la causa de muerte, entre otros; las notas de texto acerca de las muertes, por
ejemplo las escritas por los médicos y la del Comprehensive Hospital Abstract Reporting System
(CHARSEl) con datos sobre cientos de miles de hospitalizaciones, diagnósticos, procedimientos
realizados, costo de la estancia y la situación económica de cada paciente.
40
ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF PAIN”.FUENTE: THE SEATTLE TIMES
3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS
Como se ha mencionado a lo largo del trabajo, numerosas herramientas están a disposición de los
periodistas, diseñadores o quien lo quiera para hacer Periodismo de Datos. A continuación, algunas de
ellas clasificadas según el uso que se le puede dar en la elaboración de un contenido.
3.1 MAPAS
QUANTUM GIS (QGIS): sistema de información geográfica de código libre. Herramienta para crear
mapas a partir del análisis de bases de datos.
41
OPENHEATMAP: una herramienta fácil de usar mientras los datos estén clasificados por país, región
o provincial.
ARC GIS: Sistema de información que permite crear, analizar, almacenar y difundir datos, modelos,
mapas y globos en 3D.
POSTGIS: módulo que añade soporte espacial a la base de datos objeto-relacional PostgreSQL, para
su utilización en Sistema de Información Geográfica (SIG).
GRASS: también un software SIG libre.
3.2 SCREEN SCRAPING (RASPADO)
Esta actividad se refiere a una técnica de programación para extraer mediante ingeniería inversa la
información de un PDF, plantilla de Excel, página web, gráfico…
SCRAPERWIKI: una herramienta en línea que permite a cualquiera recoger, guardar y publicar la
información de una página web y convertirla en una base de datos.
READABILITY: aplicación para facilitar la lectura de contenido en la web y que permite extraer el
texto.
SCRAPER (extensión para Chrome): sirve para extraer tablas de páginas webs.
3.3 LENGUAJE DE SCRIPTS
RUBY: lenguaje de programación de código abierto y dinámico.
PYTHON: lenguaje de programación también de código abierto fácil de leer y escribir.
ACTIONSCRIPT: lenguaje de la plataforma Adobe Flash
PERL:lenguaje de programación.
PHP:lenguaje de programación.
3.4 MANEJO DE BASES DE DATOS
MICROSOFT EXCEL: no es un gestor de bases de datos sino una hoja de cálculo, pero cuando se trata
de conjuntos de datos hasta de tamaño medio es la herramienta más utilizada por los periodistas. Su
funcionalidad primera es el trabajo con planillas de cálculo y la aplicación de diversas funciones en
estas, en orden al análisis y administración de datos.
42
OPENOFFICECALC: tiene la misma finalidad que MicrosoftExcel aunque es de código abierto y
presenta menos funciones que este.
Cuando las hojas de cálculo no son suficientes para el trabajo del periodista este necesita un gestor de
bases de datos relacional, sobre todo cuando se trata de unir varias hojas de cálculo o si se trabaja con
grandes conjuntos de datos. Algunos de estos gestores pueden ser: SQLITE, MYSQL,
POSTGRESQL, MICROSOFTACCESS Y SQL SERVER.
3.5 VISUALIZACIÓN DE DATOS
MANYEYES: aplicación que mezcla los datos y convierte números complejos y datos de bases de
datos en visualizaciones que pueden ser tanto para la web como para la prensa escrita. Es una creación
del grupo de investigación de IBM, el cual procuraba con esta herramienta la “democratización de la
visualización” ya que es fácil de utilizar y de compartir.
YAHOO PIPES: es una herramienta informática semejante a ManyEyes.
TABLEAU PUBLIC: versión gratuita del software Tableau. Es integrable y puede insertarse con facilidad en
la página web, blog o medio del usuario. No es confidencial pues queda abierto al público y tiene un límite de
cien mil registros y 50 MB por usuario. Su herramienta “Show me” indica qué tipo de gráficos se adapta a la
información que se está analizando.
GOOGLE FUSION TABLES: es una herramienta ideal para principiantes. Permite visualizar los datos y
publicarlos y compartirlos como mapas, líneas de tiempo y gráficos. Se pueden combinar las tablas de datos,
filtrarlos y ordenarlos. Además, permite a otros dejar comentarios sobre cada uno de estos. Una desventaja es
que los datos quedan en los servidores de Google, aun cuando se elija configurarlos en privado.
3.6 LIMPIEZA DE DATOS
Esto es para unificar criterios antes de cruzar datos. Es decir, formateo de datos.
Por ejemplo, si a la ciudad de Buenos Aires se la nombra como BA, Capital Federal o Ciudad
Autónoma de Buenos Aires en la misma base de datos; entonces será necesario unificarlas. En este
caso se trata de establecer consistencia en los datos estableciendo un control de autoridades dirigido a
denominar a cada entidad, sea nombre de persona, corporación o concepto, de una única manera.
DATA WRANGLER: herramienta del Grupo de Visualización de la Universidad de Standford.
Funciona en el mismo explorador y todavía está en fase demo. Su ventaja es que permite, entre otras
cosas, borrar de manera sistemáticas filas en blanco, reacomodar los datos para que haya sólo uno por
fila, formatear datos mediante la deducción automática… Su desventaja es la relacionada con la
43
seguridad de los datos pues estos son enviados a un sitio externo, por lo que para información
confidencial no es tan recomendable (KANDEL et al., 2011)
GOOGLE REFINE: se trata de una poderosa herramienta gratuita para explorar datos y limpiarlos de
fácil manera. Funciona a través del navegador, pero es una aplicación de escritorio por lo que los datos
con los que se trabaja no se hacen públicos.
Su principal función es el clustering o limpieza de datos basada en similitudes y corrección de erratas
–tanto en textos como en números-, que agrupa por aproximación distintos valores de celda que
pueden referirse a lo mismo. Para ello utiliza diferentes algoritmos y el usuario puede elegir el que
desea utilizar, pues van desde los más simples hasta los más estrictos.
Su desventaja es que no tiene todas las funciones de una hoja de cálculo aunque se parezca a una. Sin
embargo, los datos se pueden importar y exportar desde formatos varios como CVS, Excel, XML y
JSON.
3.7 ANÁLISIS ESTADÍSTICO
EL PROYECTO R: R es un sistema estadístico que sus autores prefieren llamar de “entorno” y es la
evolución o nueva implementación del lenguaje S que había sido desarrollado en AT&T por Rick
Becker, John Chambers y Allan Wilks. Es OpenSource, multiplataforma y su uso se está extendiendo
cada vez más. Algunas de las operaciones que pueden realizarse son: almacenamiento y manipulación
efectiva de datos; operadores para cálculo sobre variables indexadas (Arrays), en particular matrices; una
colección de herramientas para análisis de datos; posibilidades de visualización de datos y un lenguaje de
programación. Su gran potencial es que es extensible.
SPSS (STADISTICAL PRODUCT AND SERVICE SOLUTIONS): software estadístico muy poderoso,
de pago.
3.8 OTRAS HERRAMIENTAS
DOCUMENT CLOUD: proyecto ganador de uno de los desafíos de la Knight Foundation que está
pensado para que los periodistas de diferentes medios de comunicación publiquen sus documentos en
una misma plataforma, con marcaciones propias si se quiere. Un caso de su uso que merece mención
también por relacionarse con información abierta es el del diario The New York Times que publicó
25.000 hojas de correos electrónicos de la candidata a vicepresidenta de Estados Unidos, Sarah Palin.
Así, al estar a disposición del público, los lectores también podían marcar aquello que les parecía
relevante y ayudar a los periodistas.
TEXTMATE: editor de texto plano con soporte para múltiples lenguajes de programación.
44
4.BIG DATA
Big Data o lo que es lo mismo en español, los grandes volúmenes de datos, es el fenómeno que en
tecnología de la información hace referencia precisamente a aquellas cantidades de datos tan altas que
es difícil imaginarlas.
Y así como es difícil imaginarlas, es de comprender el problema que representan en distintos ámbitos
de la vida, tanto a nivel individual como general. Pues así como Big Data trajo beneficios también
surgen constantemente nuevas necesidades en orden a poder almacenar tanta información, compartirla,
organizarla y visualizarla.
Para intentar imaginar a qué se refiere Big Data conviene destacar el último informe sobre el Universo
Digital de la consultora internacional IDC de junio de 2011 (GANTZ, Jhon; REINSEL, David, 2011)
según el cual toda la información digital del mundo se duplica cada dos años. Y lo que calculaban para
fines de dicho año es que se llegaría a los 1,8 zettabytes de datos –cifra todavía por confirmar si se
alcanzó-. Para tener una idea aproximada, un zettabyte son 1.000.000.000 billones de bytes.
Dicho estudio -patrocinado por la empresa líder en almacenamiento EMC- se realiza anualmente
desde 2007 y cada año ha arrojado conclusiones sorprendentes, como la que deduce que el 75 por
ciento de la actual información en la web es creada por los individuos y que los datos a la actualidad
siguen superando la capacidad de almacenamiento disponible.
Las principales conclusiones del año a año de este estudio podrían resumirse de la siguiente manera:
- En 2006, la cantidad de información digital creada, capturada y replicada fue de 161 mil
millones de gigabytes, lo mismo que tres millones de veces la información contenida en todos
los libros de la historia. La conversión de lo analógico en digital es gran responsable del
crecimiento.
- En 2007, la cantidad de información digital era de 281 mil millones de gigabytes. Este mismo
año, por primera vez toda la información creada, capturada y replicada había excedido el
almacenamiento disponible.
- En 2008 se crearon 487 mil millones de gigabytes y alrededor del 70 por ciento fue
responsabilidad de los individuos.
- En 2009, según revelaba el informe 2010 de IDC, la información había crecido en el mundo
un 62 por ciento hasta casi alcanzar 800.000 petabytes. Para imaginarlo, el informe compara
esta cantidad con una torre de DVDs que va y vuelve de la Tierra a la Luna.
- Por último, en 2010 la información ya alcanzaba y superaba la barrera del zettabyte llegando a
1,2 de esta última medida. Además, los usuarios se vuelven responsables del 75 por ciento del
45
contenido disponible y no sólo por la creación de información sino por la información que
generan alrededor de ello.
ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH”. FUENTE: IDC’S DIGITAL UNIVERSE STUDY.
Los efectos de tanta información disponible se manifiestan constantemente y hasta han transformado
el panorama social. Así es que el tráfico de datos también ha crecido exponencialmente y según el
Informe Global de la Nube (2010-2015) de Cisco se calcula que este se cuadriplicará para 2015 hasta
llegar a los 4,8 zettabytes.
Por aclarar aquí a qué es lo que se refiere el término “la nube” o “computación en la nube” (Cloud
Computing), esta no tiene una definición estándar aceptada. Por lo que una que encuentra acepción y
que puede considerarse en este trabajo es la de 2008 del IEEE Computer Society (MCFEDRIES,
2008):
“Estamos al borde de la computación en la nube, en la que no sólo los datos sino incluso nuestro
software reside dentro de la nube, y podemos acceder a todo, no sólo a través de nuestros equipos, sino
también a través de dispositivos como teléfonos inteligentes, PDAs, electrodomésticos, consolas de
juegos e incluso coches "
A su vez, para el profesor y experto Luis Joyanes Aguilar “los datos y las aplicaciones se reparten en
nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de
Internet, Google, Microsoft, IBM, Sun Microsystems, Oracle, Amazon…, y poco a poco a cientos de
grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a
disposición de sus empleados, investigadores, doctorandos, etc.” (JOYANES, 2009).
46
De parte de todo esto se trata el fenómeno al que se llama Big Data, que no es una “cosa” o algo
estático, sino que alude a un concepto dinámico. Según la definición de IDC, las tecnologías de Big
Data, describen “una nueva generación de tecnologías y arquitecturas, diseñadas para extraer valor de
grandes volúmenes de datos, permitiendo la captura a alta velocidad, su descubrimiento y/o análisis”
(GANTZ, Jhon; REINSEL, David, 2011).
Las medidas
Para conocer con exactitud las medidas y tamaños de datos a los que se hace mención en este trabajo,
es pertinente prestar atención al gráfico siguiente.
ILUSTRACIÓN 14. "DATA INFLATION". FUENTE: THE ECONOMIST.
Este cuadro corresponde al artículo “All too much” de la revista The Economist (febrero 2010) e
ilustra de manera clara las unidades que miden la información digital. Como allí se especifica, estas
están tomadas de la Oficina Internacional de Pesos y Medidas que en 1991 agregó los términos zetta y
yotta, siendo estos los dos últimos.
Así, para tener una estimación de cuanta información representa cada medida, The Economist hace
comparaciones. Un B (byte) podría ser un número en código informático. Dos KB (kilobytes) son una
página de sólo texto. Cinco MB (megabytes) podrían ser todas las obras de Shakespeare. Entre uno y
dos GB (gigabytes) alcanzan para una película comprimida de dos horas. Todos los libros catalogados
de la Biblioteca del Congreso de Estados Unidos son 15 TB (terabytes). Luego, un PB (petabyte)
47
equivalía en 2010 a toda la información que Google procesaba en una hora. Un EB (exabyte) podrían
ser mil millones de copias de la revista The Economist. Por su parte, 1,2 ZB (zettabyte) es la cantidad
de información que había en total en 2010. Mientas que un YB (yottabyte) es todavía “muy grande
como para imaginar”.
Un desafío en todos los ámbitos
Con el correr de los últimos años es así como Big Data se ha ido convirtiendo en un elemento central
del mundo actual. Y, sobre todo se ha vuelto un desafío. Por ejemplo para aquellas empresas que
manejan inmensurables cantidades de información a cada hora. Pensar sino solamente en Facebook,
Google o Twitter. Sólo en la plataforma de videos de YouTube se suben 72 horas de contenido por
minuto5
, para tener una idea aproximada de los volúmenes de información a los que hacemos mención.
Precisamente, por el lado empresarial es que el tema Big Data fue objeto de una cobertura especial de
la revista The Economist de febrero de 2010 que se tituló “Data, data, everywhere”. Allí se dio cuenta
de la “astronómica” cantidad de información que es procesada cada segundo -“en el mundo hay una
cantidad de información digital inimaginable que se multiplica cada vez más rápido”- y del negocio
que representa la economía centrada en los datos, si bien todavía faltaban las herramientas. En ese
mismo reportaje así lo admitía el ejecutivo de Microsoft Craig Mundie: “Usted puede ver las líneas
generales de esta economía pero las implicaciones técnicas de esta, la infraestructura e incluso el
modelo de negocio, en este momento todavía no se comprenden bien”.
La empresa del buscador Google bien sabe también la importancia que tiene la información y su
potencial de negocio. Esto lo pone constantemente de manifiesto y puede evidenciarse en que el
primer número de la primera revista de su autoría, “Think Quarterly” estuvo destinada a los datos y se
llamó “The Data Issue”. En su introducción, Matt Brittin (2011), el Managing director de Google
Reino Unido e Irlanda, invita a los lectores a inspirarse con la revista para “encontrar, entre un mar de
información, los indicadores mágicos que le ayudarán a transformar su negocio”.
Big Data es un desafío empresarial tanto por los problemas que puede acarrear, como por las
oportunidades que representa. Un importante ejemplo es el tema del almacenamiento disponible que
todavía es inferior a la cantidad de datos existente. Tener en cuenta al respecto que un gigabyte de
contenido almacenado puede generar un tráfico de hasta un petabyte sin que este sea almacenado,
como es el caso del streaming de televisión o de las llamadas de voz.
5
Cfr. “It's YouTube's 7th birthday... and you’ve outdone yourselves, again”. YouTube Blog (Mayo 2012)
48
Pero, según el informe de IBM, “What is big data? Bringing big data to the Enterprise”(2012), este
fenómeno de Big Data, es “más que una simple cuestión de tamaño, es una oportunidad para encontrar
ideas en nuevos y emergentes tipos de datos y contenidos, para hacer un negocio más ágil y dar
respuestas a preguntas que antes podían parecer fuera de alcance”.
Lo mismo decía la consultora Gartner Inc.-especializada en tecnologías de la información- en
“Pattern-Based Strategy IT Research Report”, una publicación de 2011 en la que advertía que las
empresas no debían tomar el almacenamiento como el único problema que acarrean los grandes
volúmenes de datos. También están la variedad y la velocidad. La variedad en el sentido de que cada
vez hay más tipos de información con los que lidiar y la velocidad tanto por la rapidez con la que se
producen los datos como por lo rápido que la información deber ser procesada para satisfacer la
demanda.
De todas maneras, para los analistas de Gartner, BigData es un tema complejo pero el verdadero
problema está en encontrarle sentido a tanta información y en buscar patrones que ayuden a las
organizaciones a tomar mejores decisiones.
Y, así como The Economist o Google con Think Quarterly no fueron ni los primeros medios relevantes
ni los únicos en centrarse en Big Data como un tema actual y preponderante, previamente ya había
habido otros indicios como el de la revista “Wired”. Esta, en su número de julio de 2008 habló de la
“Era del Petabyte”, enfocada a destacar el potencial de la lectura matemática y estadística de los datos,
sin importar el ámbito de su aplicación pues es la cantidad de información lo que hace la diferencia.
Es en ese sentido que BigData permite una nueva forma de investigación en la que los números hablan
por sí mismos: “La nueva disponibilidad de grandes volúmenes de datos junto con las herramientas
estadísticas de hacer cálculos de estas cifras ofrece una nueva forma de entender el mundo”. Se refiere
a la aplicación de algoritmos tan solo sea para descifrar tendencias y costumbres de los usuarios, por
ejemplo.
Asimismo, el desafío no sólo alcanza a las empresas en lo que refiere a almacenamiento y buen uso.
También alcanza a los individuos y a la sociedad en general que deben aprender a manejarse en un
mundo con sobreabundancia de información y aprovechar su potencial.
O puede también alcanzar ámbitos específicos, como el científico por mencionar uno. Es así como la
prestigiosa revista Nature en septiembre de 2008, hizo también su especial sobre el tema Big Data
para resaltar los cambios que este fenómeno exige en el ámbito de la investigación: “Los
investigadores deben obligarse a documentarse y manejar la información con el mismo
profesionalismo que invierten en sus experimentos.” Incluso, en su editorial llega a afirmar que el
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)
111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)

Mais conteúdo relacionado

Mais procurados

Compendio de Arquitectura, Redes de Computadoras y Sistemas operativos
Compendio de Arquitectura, Redes de Computadoras y Sistemas operativosCompendio de Arquitectura, Redes de Computadoras y Sistemas operativos
Compendio de Arquitectura, Redes de Computadoras y Sistemas operativosVictor Zapata
 
Festival Internacional de Cine de San Sebastián
Festival Internacional de Cine de San SebastiánFestival Internacional de Cine de San Sebastián
Festival Internacional de Cine de San SebastiánPABLO RODRIGUEZ GONZALEZ
 
Proyecto de grado
Proyecto de gradoProyecto de grado
Proyecto de gradoWILLMADRID
 
La Virtualización Sociedad de la Información del Siglo XXI
La Virtualización Sociedad de la  Información del Siglo XXILa Virtualización Sociedad de la  Información del Siglo XXI
La Virtualización Sociedad de la Información del Siglo XXILuis Reyes
 
Los Instrumentos de Pedernal en el Tigre, Campeche
Los Instrumentos de Pedernal en el Tigre, CampecheLos Instrumentos de Pedernal en el Tigre, Campeche
Los Instrumentos de Pedernal en el Tigre, CampecheCarolina Meza Rodriguez
 
Comunicación y Letras
Comunicación y LetrasComunicación y Letras
Comunicación y Letrasboterobot
 
EVALUACION SENSORIAL
EVALUACION SENSORIAL EVALUACION SENSORIAL
EVALUACION SENSORIAL fredy serra
 
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍAS
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍASREGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍAS
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍASLuciano Renteria
 
La comunicación digital en las universidades públicas: el portal web de la UN...
La comunicación digital en las universidades públicas: el portal web de la UN...La comunicación digital en las universidades públicas: el portal web de la UN...
La comunicación digital en las universidades públicas: el portal web de la UN...Oscar Israel Román Quispe
 

Mais procurados (20)

Compendio de Arquitectura, Redes de Computadoras y Sistemas operativos
Compendio de Arquitectura, Redes de Computadoras y Sistemas operativosCompendio de Arquitectura, Redes de Computadoras y Sistemas operativos
Compendio de Arquitectura, Redes de Computadoras y Sistemas operativos
 
Festival Internacional de Cine de San Sebastián
Festival Internacional de Cine de San SebastiánFestival Internacional de Cine de San Sebastián
Festival Internacional de Cine de San Sebastián
 
Manual obgyn-2016
Manual obgyn-2016Manual obgyn-2016
Manual obgyn-2016
 
Infocomunicación en la Gestión Docente
Infocomunicación en la Gestión DocenteInfocomunicación en la Gestión Docente
Infocomunicación en la Gestión Docente
 
Desarrollodela telesaludenal
Desarrollodela telesaludenalDesarrollodela telesaludenal
Desarrollodela telesaludenal
 
Proyecto de grado
Proyecto de gradoProyecto de grado
Proyecto de grado
 
Modelo di-codaes
Modelo di-codaesModelo di-codaes
Modelo di-codaes
 
La Virtualización Sociedad de la Información del Siglo XXI
La Virtualización Sociedad de la  Información del Siglo XXILa Virtualización Sociedad de la  Información del Siglo XXI
La Virtualización Sociedad de la Información del Siglo XXI
 
Los Instrumentos de Pedernal en el Tigre, Campeche
Los Instrumentos de Pedernal en el Tigre, CampecheLos Instrumentos de Pedernal en el Tigre, Campeche
Los Instrumentos de Pedernal en el Tigre, Campeche
 
Manual kumagai
Manual kumagaiManual kumagai
Manual kumagai
 
Dx sibinal segundo
Dx sibinal segundoDx sibinal segundo
Dx sibinal segundo
 
Libro orientacion
Libro orientacionLibro orientacion
Libro orientacion
 
Crmapp
CrmappCrmapp
Crmapp
 
Comunicación y Letras
Comunicación y LetrasComunicación y Letras
Comunicación y Letras
 
INFORMÁTICA 1
INFORMÁTICA 1INFORMÁTICA 1
INFORMÁTICA 1
 
EVALUACION SENSORIAL
EVALUACION SENSORIAL EVALUACION SENSORIAL
EVALUACION SENSORIAL
 
Orientacion vocacional 2012
Orientacion vocacional 2012Orientacion vocacional 2012
Orientacion vocacional 2012
 
INFORMÁTICA 2
INFORMÁTICA 2INFORMÁTICA 2
INFORMÁTICA 2
 
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍAS
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍASREGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍAS
REGISTRA Y CONTROLA LAS OPERACIONES DE MERCANCÍAS
 
La comunicación digital en las universidades públicas: el portal web de la UN...
La comunicación digital en las universidades públicas: el portal web de la UN...La comunicación digital en las universidades públicas: el portal web de la UN...
La comunicación digital en las universidades públicas: el portal web de la UN...
 

Semelhante a 111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)

GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIA
GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIAGESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIA
GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIADANIEL MORENO
 
Estudio Fesabid: Prospectiva de una profesión en constante evolución
Estudio Fesabid: Prospectiva de una profesión en constante evoluciónEstudio Fesabid: Prospectiva de una profesión en constante evolución
Estudio Fesabid: Prospectiva de una profesión en constante evoluciónFESABID
 
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docx
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docxEJEMPLO DE INFORME DE PRÁCTICA 2023[1].docx
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docxCarlossantizo13
 
Computacion tic integracion
Computacion tic integracionComputacion tic integracion
Computacion tic integracionJhonatan C-l
 
Proyecto De EducacióN Sanitaria
Proyecto De EducacióN SanitariaProyecto De EducacióN Sanitaria
Proyecto De EducacióN SanitariaKike Él Único
 
Evaluacion final.en.es
Evaluacion final.en.esEvaluacion final.en.es
Evaluacion final.en.esONG Institute
 
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...Miriam J. Espinosa
 
Difusión y divulgación científica en internet
Difusión y divulgación científica en internetDifusión y divulgación científica en internet
Difusión y divulgación científica en internetEva Polo
 
Difusión y-divulgación-científica-en-internet
Difusión y-divulgación-científica-en-internetDifusión y-divulgación-científica-en-internet
Difusión y-divulgación-científica-en-internetUniversia Perú
 
Caracterización-hidrológica-distrito-Cutervo (1).pdf
Caracterización-hidrológica-distrito-Cutervo (1).pdfCaracterización-hidrológica-distrito-Cutervo (1).pdf
Caracterización-hidrológica-distrito-Cutervo (1).pdfTulioEnriqueMillones
 
Separata integración de las tic en el currículo
Separata integración de las tic en el currículoSeparata integración de las tic en el currículo
Separata integración de las tic en el currículoAlbertJordan6
 
Relatos-del-Corredor.pdf
Relatos-del-Corredor.pdfRelatos-del-Corredor.pdf
Relatos-del-Corredor.pdfEvaTaquia
 

Semelhante a 111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1) (20)

GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIA
GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIAGESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIA
GESTIÓN DE AMBIENTES VIRTUALES PARA MODALIDAD DE EDUCACIÓN A DISTANCIA
 
Estudio Fesabid: Prospectiva de una profesión en constante evolución
Estudio Fesabid: Prospectiva de una profesión en constante evoluciónEstudio Fesabid: Prospectiva de una profesión en constante evolución
Estudio Fesabid: Prospectiva de una profesión en constante evolución
 
Maestria
MaestriaMaestria
Maestria
 
0281 williams
0281 williams0281 williams
0281 williams
 
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docx
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docxEJEMPLO DE INFORME DE PRÁCTICA 2023[1].docx
EJEMPLO DE INFORME DE PRÁCTICA 2023[1].docx
 
Proyecto bdd
Proyecto bddProyecto bdd
Proyecto bdd
 
bases de datos
bases de datos bases de datos
bases de datos
 
Arantza canales informe
Arantza canales informeArantza canales informe
Arantza canales informe
 
Directrices para proyectos de digitalización
Directrices para proyectos de digitalizaciónDirectrices para proyectos de digitalización
Directrices para proyectos de digitalización
 
Computacion tic integracion
Computacion tic integracionComputacion tic integracion
Computacion tic integracion
 
Proyecto De EducacióN Sanitaria
Proyecto De EducacióN SanitariaProyecto De EducacióN Sanitaria
Proyecto De EducacióN Sanitaria
 
Tesis vf hospital lazarte final (1)
Tesis  vf   hospital lazarte final (1)Tesis  vf   hospital lazarte final (1)
Tesis vf hospital lazarte final (1)
 
Evaluacion final.en.es
Evaluacion final.en.esEvaluacion final.en.es
Evaluacion final.en.es
 
TRABAJO PRÁCTICO - EL IDH.docx
TRABAJO PRÁCTICO - EL IDH.docxTRABAJO PRÁCTICO - EL IDH.docx
TRABAJO PRÁCTICO - EL IDH.docx
 
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...
Proyecto final análisis de los recursos tecnológicos en el nivel básico del s...
 
Difusión y divulgación científica en internet
Difusión y divulgación científica en internetDifusión y divulgación científica en internet
Difusión y divulgación científica en internet
 
Difusión y-divulgación-científica-en-internet
Difusión y-divulgación-científica-en-internetDifusión y-divulgación-científica-en-internet
Difusión y-divulgación-científica-en-internet
 
Caracterización-hidrológica-distrito-Cutervo (1).pdf
Caracterización-hidrológica-distrito-Cutervo (1).pdfCaracterización-hidrológica-distrito-Cutervo (1).pdf
Caracterización-hidrológica-distrito-Cutervo (1).pdf
 
Separata integración de las tic en el currículo
Separata integración de las tic en el currículoSeparata integración de las tic en el currículo
Separata integración de las tic en el currículo
 
Relatos-del-Corredor.pdf
Relatos-del-Corredor.pdfRelatos-del-Corredor.pdf
Relatos-del-Corredor.pdf
 

Último

Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚ
Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚSemanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚ
Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚCOBRIZA.org
 
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...AlexisTorres963861
 
Boletin semanal informativo 12. Marzo 2024.pdf
Boletin semanal informativo 12. Marzo 2024.pdfBoletin semanal informativo 12. Marzo 2024.pdf
Boletin semanal informativo 12. Marzo 2024.pdfNueva Canarias-BC
 
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo Emprendo
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo EmprendoQuienes serán Beneficiarios en Renta Ciudadana 2024 Yo Emprendo
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo EmprendoLina Maria Corrales
 
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdf
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdfmanifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdf
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdfredaccionxalapa
 
Conapremm registra el primero ahogado de Semana Santa 2024 en Honduras
Conapremm registra el primero ahogado de Semana Santa 2024 en HondurasConapremm registra el primero ahogado de Semana Santa 2024 en Honduras
Conapremm registra el primero ahogado de Semana Santa 2024 en HondurasAlexisTorres963861
 
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024UCS
 
Boletín semanal informativo 11. Marzo 2024.pdf
Boletín semanal informativo  11. Marzo 2024.pdfBoletín semanal informativo  11. Marzo 2024.pdf
Boletín semanal informativo 11. Marzo 2024.pdfNueva Canarias-BC
 
Recomendaciones al CNGS - estrategias en materia de garantías de seguridad
Recomendaciones al CNGS - estrategias en materia de garantías de seguridadRecomendaciones al CNGS - estrategias en materia de garantías de seguridad
Recomendaciones al CNGS - estrategias en materia de garantías de seguridadjusttestingemailinbo
 
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdfredaccionxalapa
 

Último (11)

Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚ
Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚSemanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚ
Semanario HILDĘBRANDT EN SUS TRECE® 08.03.2024 PERÚ
 
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...
Registran dos fallecidos por sumersión en lo que va de la Semana Santa en Hon...
 
Boletin semanal informativo 12. Marzo 2024.pdf
Boletin semanal informativo 12. Marzo 2024.pdfBoletin semanal informativo 12. Marzo 2024.pdf
Boletin semanal informativo 12. Marzo 2024.pdf
 
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1074
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1074LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1074
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1074
 
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo Emprendo
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo EmprendoQuienes serán Beneficiarios en Renta Ciudadana 2024 Yo Emprendo
Quienes serán Beneficiarios en Renta Ciudadana 2024 Yo Emprendo
 
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdf
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdfmanifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdf
manifiesto y acuerdo habitantes de cotaxta vs grupo mas.pdf
 
Conapremm registra el primero ahogado de Semana Santa 2024 en Honduras
Conapremm registra el primero ahogado de Semana Santa 2024 en HondurasConapremm registra el primero ahogado de Semana Santa 2024 en Honduras
Conapremm registra el primero ahogado de Semana Santa 2024 en Honduras
 
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024
RESOLUCION TEN - UCS 10/24 ELECCIONES INTERNAS 2024
 
Boletín semanal informativo 11. Marzo 2024.pdf
Boletín semanal informativo  11. Marzo 2024.pdfBoletín semanal informativo  11. Marzo 2024.pdf
Boletín semanal informativo 11. Marzo 2024.pdf
 
Recomendaciones al CNGS - estrategias en materia de garantías de seguridad
Recomendaciones al CNGS - estrategias en materia de garantías de seguridadRecomendaciones al CNGS - estrategias en materia de garantías de seguridad
Recomendaciones al CNGS - estrategias en materia de garantías de seguridad
 
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_24_AL_30_DE_MARZO_DE_2024.pdf
 

111830154 la-relacion-del-periodismo-de-datos-con-big-data-y-open-data (1)

  • 1. UNIVERSIDAD CARLOS III DE MADRID FACULTAD DE HUMANIDADES COMUNICACIÓN Y DOCUMENTACIÓN DEPARTAMENTO DE BIBLIOTECONOMÍA Y DOCUMENTACIÓN Máster en Investigación en Documentación 2011/2012 Trabajo de Fin de Máster LA RELACIÓN DEL PERIODISMO DE DATOS CON BIG DATA Y OPEN DATA Autora: Ángeles Mariño Tutor: Dr. Luis Joyanes Aguilar
  • 2. 2 TRABAJO DE FIN DE MÁSTER HA SIDO POSIBLE GRACIAS A LA BECA MAEC-AECID PARA EXTRANJEROS, CONVOCADA POR LA AGENCIA ESPAÑOLA DE COOPERACIÓN INTERNACIONAL PARA EL DESARROLLO Y QUE ME FUE CONCEDIDA EN EL PERÍODO ACADÉMICO 2011-2012.
  • 3. 3 CONTENIDO 1.INTRODUCCIÓN A LA INVESTIGACIÓN ....................................................................... 5 1.1 ANTECEDENTES Y MOTIVACIÓN ............................................................................................................................... 5 1.2 OBJETIVOS ............................................................................................................................................................... 5 1.3 OBJETO Y ESTADO DE LA CUESTIÓN ......................................................................................................................... 6 1.4 HIPÓTESIS ................................................................................................................................................................ 9 1.5 JUSTIFICACIÓN......................................................................................................................................................... 9 1.6 METODOLOGÍA ......................................................................................................................................................... 9 1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN................................................................ 12 2.PERIODISMO DE DATOS .................................................................................................. 13 2.1 INTRODUCCIÓN ...................................................................................................................................................... 13 2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR ......................................... 15 2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN ...................................................................................................... 16 2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS ................................................... 17 2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS.................................................................................................... 25 2.5.1 OBJETIVIDAD Y TRANSPARENCIA....................................................................................... 25 2.5.2 NECESIDAD DE ORDENAR ................................................................................................... 26 2.5.3 TRABAJO EN GRUPO........................................................................................................... 27 2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS? ............................................................................................................ 27 2.6.1 COMPILAR LOS DATOS........................................................................................................ 28 2.6.2 FILTRADO Y LIMPIEZA DE DATOS ....................................................................................... 29 2.6.3 CONTEXTUALIZAR LA INFORMACIÓN................................................................................. 30 2.6.4 COMBINAR LOS DATOS ....................................................................................................... 31 2.6.5 COMUNICACIÓN DE LOS DATOS.......................................................................................... 32 2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS............................................................................................................ 38 2.7.1 “¿DÓNDE VAN MIS IMPUESTOS?” ....................................................................................... 38 2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR”......................................................................... 39 3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS.............................................. 40 3.1 MAPAS.................................................................................................................................................................... 40 3.2 SCREEN SCRAPING (RASPADO)................................................................................................................................ 41 3.3 LENGUAJE DE SCRIPTS ........................................................................................................................................... 41 3.4 MANEJO DE BASES DE DATOS ................................................................................................................................. 41 3.5 VISUALIZACIÓN DE DATOS ..................................................................................................................................... 42 3.6 LIMPIEZA DE DATOS ............................................................................................................................................... 42 3.7 ANÁLISIS ESTADÍSTICO........................................................................................................................................... 43 3.8 OTRAS HERRAMIENTAS .......................................................................................................................................... 43 4.BIG DATA.............................................................................................................................. 44 4.1 BIG DATA Y SU INFLUENCIA EN EL PERIODISMO.................................................................................................... 49 4.2 EJEMPLO DE TRABAJO PERIODÍSTICO CON GRANDES BASES DE DATOS.................................................................. 50
  • 4. 4 5.OPEN DATA (DATOS ABIERTOS) ................................................................................... 52 5.1 OPEN DATA Y EL PERIODISMO............................................................................................................................... 53 5.2 ESPAÑA................................................................................................................................................................... 54 5.3 FORMATO............................................................................................................................................................... 56 6.CONCLUSIÓN....................................................................................................................... 56 7. ANEXO .................................................................................................................................. 58 7.1 FRASES ................................................................................................................................................................... 58 7.2 BIBLIOGRAFÍA........................................................................................................................................................ 59 7.2.1 BIBLIOGRAFÍA INTRODUCCIÓN A LA INVESTIGACIÓN ........................................................ 59 7.2.2 BIBLIOGRAFÍA PERIODISMO DE DATOS.............................................................................. 60 7.2.3 BIBLIOGRAFÍA BIG DATA Y OPEN DATA............................................................................ 62 ILUSTRACIONES ILUSTRACIÓN 1. "THE COLOUR OF MONEY". .............................................................................................................. 18 ILUSTRACIÓN 2. "LESS WIND, LOTS OF DAMAGE". ...................................................¡ERROR! MARCADOR NO DEFINIDO. ILUSTRACIÓN 3. "THE HOMICIDE REPORT". ............................................................................................................... 21 ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED"........................................................................................................ 22 ILUSTRACIÓN 5. “THE INVERTED PYRAMID OF DATA JOURNALISM”. .......................¡ERROR! MARCADOR NO DEFINIDO. ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. ................... 33 ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH” (1815). ........................................................................... 33 ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”.. 34 ILUSTRACIÓN 9. “SIETE GÉNEROS”.. ........................................................................................................................... 35 ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”............................................................. 37 ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?".................................................................................................... 38 ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF PAIN”.................................................................................... 40 ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH”.. ............................................................................. 45 ILUSTRACIÓN 14. "DATA INFLATION"......................................................................................................................... 46 ILUSTRACIÓN 15. "DOLLARS FOR DOCS".................................................................................................................... 50
  • 5. 5 1. INTRODUCCIÓN A LA INVESTIGACIÓN A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia. Dos de los fenómenos que más han ido acelerando el desarrollo de esta nueva especialidad han sido Big Data y Open Data, los cuales han ido impulsando el desarrollo de nuevas herramientas para su análisis y comunicación. De ahí que los periodistas fueron –y continúan- adquiriendo nuevas habilidades en orden a analizar, filtrar y hacer visibles grandes masas de datos. Lo que pretende este Trabajo de Fin de Máster es estudiar esta nueva disciplina en el marco de la Documentación y ser tanto material de consulta para periodistas que quieren adentrarse en la actividad como para documentalistas que quieren hacer llegar el material de su trabajo a la población a través de los medios de comunicación. 1.1 ANTECEDENTES Y MOTIVACIÓN Mi formación de grado y mi experiencia profesional se han dado más que nada en el periodismo gráfico. Por ello, cuando comencé el Máster de Investigación en Documentación en la Universidad Carlos III creí que mis estudios apuntarían a perfeccionar la tarea documentalista del periodista. Sin embargo, diferentes factores se conjugaron para que encontrara en el Periodismo de Datos un interés aún mayor. Pues en este caso no se trata sólo de la tarea de documentarse para contextualizar una noticia, sino de que los datos se vuelven la noticia misma. Y entre los factores que me llevaron a tomar esta decisión se encuentra el rápido desarrollo del Periodismo de Datos a nivel internacional, aunque con todavía poco anclaje en el mundo académico en español. Y, aunque el Periodismo de Datos tiene sus antecedentes en tiempos previos a la llegada de Internet, éste sumado a Big Data, Open Data y otros fenómenos han cambiado el panorama hasta llegar al actual contexto que es de sobreabundancia de información. Profesionalmente entonces, es de mi interés que tanto los periodistas conozcan el potencial de las enormes cantidades de datos disponibles para la creación de noticias como que los mismos responsables de la creación y puesta a disposición de datos, los documentalistas, conozcan dicho potencial. 1.2 OBJETIVOS
  • 6. 6 Por lo tanto, el objetivo general planteado para esta investigación, es realizar una introducción actualizada al Periodismo de Datos (tanto su contextualización y definición como las herramientas y habilidades que involucra) y relacionarla con los fenómenos de Big Data y Open Data. Por ende, los objetivos específicos que se han determinado son los siguientes: 1. El Periodismo de Datos. Dar a conocer las características de esta especialización del periodismo, analizando tanto sus antecedentes como su presente. 2. Big Data y Open Data y su influencia en el Periodismo de Datos. Describir cómo ambos fenómenos potencian nuevos contenidos informativos. 3. Herramientas del Periodismo de Datos. Repasar las principales herramientas que facilitan el trabajo de elaboración y lectura de los datos aplicables a los medios de comunicación. 1.3 OBJETO Y ESTADO DE LA CUESTIÓN Wikileaks didn't invent data journalism. But it did give newsrooms a reason to adopt it. There was just too much data for it to happen any other way. Simon Rogers, enero 2011 Es de destacar que el trabajo presente se centrará en el tratamiento con fines periodísticos del enorme volumen de datos disponibles en el entorno digital. Esto es, el Periodismo de Datos o Data Journalism como se le llama más comúnmente en su terminología anglosajona. El término “Periodismo de Datos” comienza a divulgarse en los años noventa como respuesta a cantidades de información antes desconocidas y a nuevas herramientas para su tratamiento en las noticias. Sin embargo, cobró más fuerza en los últimos años, con las iniciativas aisladas sobre todo de diarios de Estados Unidos y de Gran Bretaña, hasta la actualidad cuando ya se han sumado al movimiento medios de otros países y no sólo diarios sino también programas de televisión. Para entender mejor el agitado momento en que se encuentra el Periodismo de Datos alcanza con destacar acontecimientos relevantes recientes: - En 2011, de 16 ganadores del concurso “Knight News Challenge” de la Knight Foundation para subvencionar innovaciones en los medios de difusión, 14 eran de proyectos relacionados con el Periodismo de Datos. Asimismo, la convocatoria 2012 también repartirá más de 1 millón de dólares en iniciativas centradas específicamente en este tema. - En enero de 2012 se lanza el primer concurso internacional de Periodismo de Datos. La iniciativa es de la Global Editors Network (GEN) en asociación con Google y el European
  • 7. 7 Journalism Centre. Durante los tres meses que se mantiene abierta la convocatoria, se postulan más de 300 trabajos procedentes de 60 países. - Recientemente, en abril de 2012, en el marco de “The School of Data”, durante el Festival Internacional de Periodismo en Italia se lanzó “The Data Journalism Handbook”, un manual para Periodismo de Datos de código abierto y escrito de manera colaborativa entre especialistas de todo el mundo. Y, a pesar de que hechos como este hacen parecer que el Periodismo de Datos es un fenómeno nuevo, este tiene importantes antecedentes. Pero el caudal informativo actual y las herramientas a disposición de los periodistas son los que marcan la gran diferencia. De estos antecedentes, cabe destacar que el Periodismo de Datos tiene sus raíces en el “Computer Assisted Reporting” (CAR), que en español se traduce como “Periodismo Asistido por Computadora” y en el “Periodismo de Precisión”, el cual cobró impulso en los años sesenta sobre todo gracias al profesional y académico Philip Meyer1 . Por parte de CAR, este nació en la década del ’50 transformándose en el primer acercamiento organizado y sistemático del uso de los ordenadores para recolectar y analizar datos en orden a mejorar las noticias. Su primer uso fue por parte de la CBC (Canadian Broadcasting Corporation) que en 1952 que lo implementó para predecir los resultados de las elecciones presidenciales (BOUNEGRU, 2012). Y, en tanto que CAR es una técnica, basándose en ella es que Meyer comienza a vislumbrar un “cambio de concepción de la actividad periodística”, en la que “la vieja tradición de los periodistas transportadores de información está siendo sustituida por periodistas procesadores de información” 1 Actualmente, Philip Meyer es profesor emérito de la Universidad de North Carolina en Chapel Hill.
  • 8. 8 (MEYER, 1993). Y fue el mismo Philip Meyer quien, inspirado en la propuesta de un colega, llamó así entonces al Periodismo que era el objeto de sus estudios y afición y asentó el nombre en su libro del año 1973, “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Este libro fue fundamental para un acercamiento académico a esta práctica del Periodismo, rol que cumple hasta la actualidad ya que sigue siendo un manual de consulta. Este último tipo de Periodismo, según la definición de Meyer (1993) es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo”. Tales métodos pueden incluir sondeos, encuestas, análisis de contenido…consiguiendo que su eje sean los números y las estadísticas. Sin embargo, aunque hay una relación directa entre el Periodismo de Precisión y el Periodismo de Datos, este último término es más amplio ya que abarca toda información procesable por ordenadores. Su práctica se ha fortalecido desde 2010 a partir de la forma en que medios como The Guardian y The New York Times trataron las grandes cantidades de información que se derivaron de los cables de WikiLeaks. Pero hasta llegar allí, según Liliana Bounegru (2012), del European Journalism Centre una de las primeras alusiones a lo que hoy se conoce como Periodismo de Datos es la que hizo en 2006 el periodista Adrian Holovaty en su ensayo “A fundamental way newspaper sites need to change”. El texto de Holovaty discurre sobre que hay contenidos que si se los tratase a partir de una base de datos podrían complementar los “big blob of text”, es decir los “grandes bloques de texto”. A la actualidad todavía existe una discusión sobre si Periodismo de Datos no es lo mismo que CAR o el Periodismo de Precisión pero actualizado. Sin embargo, quienes lo defienden como una nueva especialización apuntan a que los datos son la noticia en sí. 1.3.1 TÉCNICAS Y HERRAMIENTAS QUE LO HACEN POSIBLE Asimismo, el Periodismo de Datos no puede comprenderse en su totalidad sin mencionar las herramientas tecnológicas que involucra y que constantemente están evolucionando. Por lo tanto, este existe no sólo porque hay más información a disposición sino también porque surgen nuevas técnicas para el proceso de esta. “Hablar de Periodismo de Datos es referirnos a técnicas nuevas en la creación de información periodística que requiere de conocimientos específicos y destrezas en el uso de bases de datos y presentación (visualización) de la información en nuevas interfaces”. (FLORES Y CEBRIÁN, 2012)
  • 9. 9 Tal es la conclusión de Jesús Flores Vivar – Doctor en Ciencias de la Información de la Universidad Complutense de Madrid- y de Cebrián Herreros, quienes en la actualidad trabajan en un proyecto de investigación de técnicas del Periodismo de Datos2 . 1.4 HIPÓTESIS El caudal de información disponible que se ha visto potenciado en los últimos años gracias a Internet ha derivado en una nueva manera de información periodística: el Periodismo de Datos. Especialmente la extensión de fenómenos como Big Data y Open Data ha llevado a que los periodistas aprendan tanto el uso de las nuevas herramientas que exige la lectura de grandes cantidades de datos, como la limpieza (o normalización y unificación) de estos para luego comunicar la información al público. 1.5 JUSTIFICACIÓN Por una parte, la intención de este trabajo es dar a conocer el nuevo uso que se está haciendo en el Periodismo de la cantidad de información disponible en el mundo digital, especialmente de bases de datos tanto públicas como privadas. Por otra parte, entendemos que hay una necesidad de dar un anclaje académico en español a un tema que prolifera a gran velocidad pero que lo hace más que nada en inglés y más en circuitos profesionales de la información que en mundo universitario. Además, aquello que se desarrolla en el presente trabajo es de utilidad tanto para periodistas e informadores como para documentalistas, quienes son los responsables de crear y hacer accesibles bases de datos y documentos. 1.6 METODOLOGÍA El presente trabajo requirió una documentación incesante debido a que el Periodismo de Datos es un tema que está floreciendo tanto desde el ámbito de la investigación como del profesional y relacionado al cual surgen constantemente nuevos conocimientos y, más que nada, herramientas. Así pues, entre las fuentes de información utilizadas para realizar esta investigación es de mencionar que primero se hizo una lectura de los contenidos más recientes, para luego ir a los antecedentes y a las fuentes académicas. De los primeros destacamos el “Data Journalism Handbook”, el cual fue publicado muy recientemente, ya iniciado este trabajo, y es un manual completo y actualizado sobre el tema. 2 En el marco del “Proyecto Cybermedia II: Desarrollos e innovaciones del periodismo en las redes sociales en Internet y telefonía móvil. Convergencias, modelos de negocios, servicio y formación”.
  • 10. 10 Este nació como una iniciativa colectiva en el Festival Mozilla 2011 en Londres y culminó en abril de 2012 cuando fue presentado en el International Journalism Festival, en Perugia (Italia). Sus principales propulsores fueron la Open Knowledge Foundation y el European Journalism Centre que convocaron a algunos de los profesionales más expertos en el tema para colaborar de manera conjunta en su redacción. La intención era escribir un manual que sirviese de introducción al Periodismo de Datos y que respondiese a las siguientes preguntas: - ¿Dónde puedo encontrar datos? - ¿Cómo puedo pedir datos? - ¿Qué herramientas puedo utilizar? - ¿Cómo puedo encontrar historias en los datos? Por otra parte, entre las fuentes de constante actualización caben mencionar los artículos que brindan fundaciones e instituciones con autorizada voz en lo que respecta al estudio constante del Periodismo y de las Ciencias de la Información como el Nieman Journalism Lab -un proyecto conjunto de la Nieman Foundation y la Universidad de Harvard-, el Poynter Institute y el Freedom Forum for Media Studies (www.freedomforum.org). También están aquellos contenidos de consultoras privadas especialistas en temas de tecnología como O’Reilly Media que posee un sello editorial propio y la asociación Investigative Reporters and Editors (IRE) que en su sitio web cuenta con revistas, publicaciones y enlaces a su centro asociado, el National Institute for Computer-Assisted Reporting (NICAR). También son importantes los estudios de la consultora internacional McKinsey Global Institute, al igual que los de Cisco Systems o IBM. En cuanto a publicaciones, algunas de las más prestigiosas que han tratado de manera especial los temas que se citan en este trabajo son “The Economist”, “Wired” y “Nature”. Luego están los aportes de blogs de profesionales –en el marco o no de sus medios de trabajo- y que se han convertido en unos de los principales promotores del tema en cuestión, como el de Paul Bradshaw, también consultor y profesor de Periodismo on-line de la Universidad de Birmingham o las columnas de Simon Rogers en “The Data Blog”, del diario inglés The Guardian. Este último también es autor del libro que se cuenta entre los de más reciente publicación relacionados al Periodismo de Datos, llamado “Facts are sacred” (ROGERS, 2011) que, basado en la experiencia propia, propone que una nueva misión del periodista es la de mediar entre la información disponible de organizaciones públicas o privadas y el procesamiento de esta para la audiencia.
  • 11. 11 Otra voz especializada que cabe mencionar es la del profesor y periodista español Alberto Cairo, con quien tomé el curso en línea "Introducción a la Infografía y Visualización para Periodistas”, ofrecido por el Centro Knight para el Periodismo en las Américas. El español es autor de dos libros recomendables para la puesta en práctica de este periodismo, especialmente en lo que refiere a la visualización de los datos: “El arte funcional: infografía y visualización de la información” e “Infografía 2.0: visualización interactiva de información en prensa”. En cuanto a los antecedentes académicos, basé gran parte de la bibliografía en el creador del concepto de Periodismo de Precisión Philip Meyer y en quienes siguieron y ampliaron sus enseñanzas. De Meyer revisé aquella bibliografía suya a mi alcance incluyendo el discurso de su última comparecencia pública de relevancia, la cual la hizo en 2011 con ochenta años de edad. Su gran aporte ha estado en reforzar el costado científico del Periodismo con sus métodos de investigación tomados de las ciencias sociales (encuestas, estadísticas, matemáticas…). En España, su traductor y principal divulgador es José Luis Dader, profesor de la Universidad Complutense de Madrid y quien amplió también su teorización con libros como “Periodismo de Precisión: vía socioinformática de descubrir noticias”. En él procura dar importancia y contenido teórico a una rama del periodismo descuidada en su criterio ya que afirma que “mientras disponemos de ríos de tinta sobre el deber ser o los valores del periodismo, la cuestión de los métodos ingenuamente se soslaya y resulta casi inexistente en la discusión de la profesión” (DADER, 1997). Dader sugiere también el aprovechamiento de las bases de datos, de las nuevas tecnologías informativas y de Internet para descubrir y tratar nuevas noticias mediante técnicas estadísticas y científicas que lleven a un periodismo preciso. Así pues, estos dos autores han sido la base bibliográfica de este trabajo, a partir de quienes enlacé para conocer otros académicos y otros estudiosos del Periodismo de Precisión. En la actualidad se habla más del Periodismo de Datos y su bibliografía ha ido actualizándose de manera permanente y por vías no sólo académicas: publicaciones, libros, ponencias y congresos, medios de comunicación e Internet, sobre todo. Para este trabajo he procurado concentrarme sobre todo en estas últimas publicaciones, de las cuales por lo menos el setenta por ciento se encuentran en inglés. Cabe mencionar también que en el mes de julio de 2012 (del 23 al 27) asistí al Curso de Verano “Periodismo de Datos” organizado por la Universidad Complutense. Allí también amplié mis conocimientos y fuentes de información.
  • 12. 12 1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN “El desarrollo de Internet y de las tecnologías de la información ha alterado el panorama de las fuentes y de los sistemas de recuperación inherentes a ellas, debido a la aparición de tipos documentales completamente nuevos y de aplicaciones de navegabilidad e intercambio de información que han potenciado la interconexión entre usuarios y la transferencia de información entre ellos”. (CORDÓN et alter, 2012) Con esta frase de las primeras páginas del libro “Las Nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0” quiero destacar cuánto me ha servido el intercambio de información al que se refieren los autores, para llegar a contenido valioso y de importancia para este trabajo. Pues tanto Internet como la web 2.0 han venido a complementar los medios convencionales de información. Entre las herramientas utilizadas y más consultadas para este trabajo destaco: - Herramientas RSS o de Sindicación de Contenidos: imprescindibles para el manejo de la información y la actualización permanente. - Twitter: las cuentas de especialistas en Periodismo de Datos como Alberto Cairo @albertocairo, Guardian Data Store @datastore, Paul Bradshaw @paulbradshaw, Sandra Crucianelli @spcrucianelli, Mar Cabra @cabralens, La Nación Data @LNdata, Marcelo Soares @msoares, entre otros - Wikis: destaco sobre todo el del grupo de Periodismo de Datos del MediaLab Prado de Madrid donde los profesionales aportan todo aquello que consideran de relevancia para el desarrollo de esta práctica. - Blogs de actualización permanente y novedades constantes. Cabe mencionar: o Data Driven Journalism (datadrivenjournalism.net), una iniciativa del European Journalism Centre (http://ejc.net/) para acercar a los periodistas al uso de bases de datos y fuentes de información con distintas técnicas, herramientas y habilidades. o Open Knwoledge Foundation Blog (http://okfn.org/) o El Online Journalism Blog (http://onlinejournalismblog.com/), el cual comenta y debate acerca de entre otros temas, el Periodismo de Datos. Su editor es Paul Bradshaw o NaciónData (http://blogs.lanacion.com.ar/data/), blog del diario La Nación de Argentina especializado en periodismo y datos. Nació en 2012, durante el proceso de este trabajo.
  • 13. 13 o DataBlog (http://datablog.ahref.eu/), el cual forma parte del proyecto iData, patrocinado por la fundación Ahref y que pretende desarrollar la primera plataforma italiana para el Periodismo de Datos. o A final de contas (http://afinaldecontas.blogfolha.uol.com.br/), blog del diario Folha de São Paulo con iniciativa similar a la de otros medios. Escrito por el periodista Marcelo Soares, también nació en abril de 2012. o DataBlog de The Guardian(http://www.guardian.co.uk/news/datablog), blog pionero especializado en este tema e inspirador de otros. Nació en 2009 como parte del proyecto DataStore que dirige Simon Rogers. o ProPublica (http://www.propublica.org/), fundación periodística sin fines de lucro de Estados Unidos que ya ha ganado dos premios Pulitzer por sus trabajos de investigación. Destaca por la importancia que da al Periodismo de Datos. - Revistas y libros electrónicos, a algunos de los cuales tuve acceso mediante la biblioteca y los recursos electrónicos de la Universidad Carlos III de Madrid. Sistema de citas y fuentes bibliográficas En el texto del trabajo he utilizado el sistema de citas “autor-fecha” y para crear las referencias bibliográficas de las fuentes de información consultadas he utilizado las normas ISO 690 e ISO 690-2. En cuanto a la bibliografía, esta se ha reunido y figuran tras lo grandes bloques que conforman el trabajo. En primer lugar, figura la dedicada a la introducción; le sigue el apartado relacionado con el Periodismo de Datos y, por último, la destinada a fuentes sobre Big Data y Open Data. Para la gestión de toda la información bibliográfica y documental me he auxiliado con los gestores de información Refworks y Zotero. Este último ha sido usado particularmente para las páginas web. 1.PERIODISMO DE DATOS 2.1 INTRODUCCIÓN Un campo que se está perfeccionando y está desarrollando una nueva especialización a raíz de la multiplicación de los datos en el mundo digital es el Periodismo. Y, si bien para esta disciplina no es algo nuevo la lectura, el análisis y la publicación de bases de datos, sí lo son la importancia que estas han adquirido y las nuevas herramientas y habilidades necesarias para mejor aprovechamiento de los datos en orden a su comunicación. De ello trata el Periodismo de Datos, una especialización que suena cada vez más entre los profesionales de los medios a partir sobre todo de la avalancha de información que ha significado la
  • 14. 14 aparición de Internet y de fenómenos como Big Data, Open Data y la lectura y comunicación de las historias que hay detrás de los datos. Pues en este tipo de periodismo el eje no es retransmitir los datos de las bases de datos tal cual se consiguen o están disponibles –si bien puede hacerse-, sino que su función es la de informar a partir de ellas. Entonces, se pueden establecer relaciones entre los datos, practicar minería de datos, aplicar estadísticas, armar una secuencia… Es decir, extraer una historia de los datos. Y los datos pueden ser tanto el origen de una investigación para una noticia como pueden acompañar una noticia o pueden ser la noticia misma. Periodismo de Datos hace entonces referencia al conjunto de herramientas y prácticas que utilizan datos para la construcción de una historia (o noticia). Y estos datos pueden tanto acompañar una historia como ser fuentes de una investigación. Según la definición del profesor Jesús Flores Vivar (2012): “El Periodismo de Datos es una forma de periodismo de investigación que utiliza la informática (ordenadores y sistemas algorítmicos) para buscar, contrastar, visualizar, combinar datos y proporcionar información de diferentes fuentes, públicas o privadas”. El video documental “Journalism in the age of data” (2010) que llevó a cabo el periodista especializado en multimedia Geoff McGhee (2009) para la universidad de Standford, fue un disparador para dejar asentado tanto la necesidad de desarrollar más este Periodismo como las iniciativas que ya apuntaban en esa dirección. En el vídeo, McGhee procura mostrar la importancia de fusionar las narrativas tradicionales del periodismo con los avances tecnológicos en torno a la explotación de los datos. Para ello entrevistó a profesionales de medios de comunicación e investigadores de distintos centros que trabajaban tanto en el desentrañar y comunicar los datos como en las herramientas idóneas para ello, sobre todo en lo que refiere a su visualización. Y como ya demostraba McGhee en dicho material, en la actualidad, cada vez más los medios son conscientes de la cantidad de historias que hay detrás de los datos y que no se las conoce porque no se las busca. Pero están ahí, están en los archivos, en las bases de datos, en los Boletines Oficiales de Estados, en los informes oficiales, en las bibliotecas, en las empresas, en Internet. Desentrañarlas, darles contexto y hacerlas visibles y notorias al resto de la población es la misión del Periodismo de Datos (en inglés, Data Journalism), más que nunca ahora que existe tanta información al alcance de la mano gracias a Internet y a las nuevas tecnologías de la información.
  • 15. 15 Claro que hay algunos medios que han sido pioneros o que llevan la delantera respecto de otros. Así por ejemplo, el periódico estadounidense The New York Times tiene un equipo de 25 personas sólo para proyectos de visualización de datos. Algunas de ellas son expertas en estadísticas, otras en Periodismo, otras en diseño gráfico, programación… También hay medios que destacan por haber hecho una verdadera apuesta al Periodismo de Datos, tanto desde la incorporación de herramientas específicas como desde su promoción. Entre los que cabe mencionar se encuentran el diario británico The Guardian con su “Datablog”, el estadounidense Los Angeles Times, el diario La Información de España, el proyecto “NaciónData” del diario La Nación de Argentina y el blog “Ao final de Contas” del diario Folha de São Paulo. 2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR Pero, ¿qué es exactamente y en qué consiste el Periodismo de Datos? Para entenderlo conviene revisar sus antecedentes pues esta no es una forma nueva y desconocida de comunicar. La diferencia está en cómo se la practica en la actualidad, en un contexto de una cantidad de información difícil de prever hace un tiempo. El movimiento principal que antecede al Periodismo de Datos es el ya mencionado Periodismo de Precisión, una rama del Periodismo de Investigación que surgió como una respuesta al Nuevo Periodismo de la década del ’60 y que se entiende como la utilización de programas informáticos y técnicas de las ciencias sociales como las estadísticas para aportar pruebas y no sólo anécdotas en reportajes periodísticos. Como término, “Periodismo de Precisión” toma fuerza a partir del libro de 1973 del académico Philip Meyer “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Y, a pesar de que Meyer ha sido el principal promotor de esta disciplina, académicos sugieren que su historia podría remontarse a los años treinta cuando la revista Fortune publicó la que se cree fue la primera encuesta científica llevada a cabo por un medio de comunicación (DEMERS Y NICHOLS, 1987),. A ello le seguirán otros ejemplos periodísticos esporádicos hasta que en la década del ’60 los ordenadores hicieron más fácil el trabajo de la recolección de datos y su análisis (DEMERS Y NICHOLS, 1987). Es para estos años que Philip Meyer se interesa en el estudio de los métodos empíricos de investigación social para su aplicación en el periodismo y lo lleva a cabo con una beca Nieman en la Universidad de Harvard. A partir de allí combinará una carrera tanto académica y de investigación como una profesional en medios periodísticos. Así es que en 1968 gana un premio Pulitzer por su publicación en el Detroit
  • 16. 16 Free Press acerca de las causas de una protesta racial en Detroit. Esta investigación se realizó con los métodos del Periodismo de Precisión y se volvió una referencia en la historia de este hasta la actualidad. Lo que allí había hecho el estudio del equipo de Meyer fue un cruce de datos que llevaron a contradecir la idea errónea de que los disturbios habían sido causados por negros procedentes del sur de Estados Unidos o por personas de bajo nivel educativo. Después de ello, Meyer se dedicará a divulgar sus conocimientos y métodos de investigación periodística en el ámbito académico - actualmente es profesor emérito de la School of Journalism and Mass Communication en la Universidad de North Carolina at Chapel Hill- y con publicaciones y libros. De manera paralela, una variante del Periodismo de Precisión que se desarrolla junto con este, es el Periodismo de Investigación Asistido por Ordenador (Computer-Assisted Investigative Reporting, CAR por sus siglas en inglés). Este periodismo es todavía promovido bajo este nombre si bien podría enmarcarse dentro de la disciplina más general que tratamos en este trabajo, el Periodismo de Datos. Su principal divulgador es el National Institute for Computer-Assisted Reporting (NICAR) un programa del Investigative Reporters and Editors, Inc. Bajo su patrocinio es que anualmente desde 1989 se lleva a cabo la conferencia CAR, donde se difunden los avances en herramientas para encontrar y analizar información en formato electrónico. 2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN Para Meyer, el Periodismo de Precisión es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo” (MEYER, 1993). Para el autor, en 1973 algunos de esos métodos incluían el sondeo o encuesta de opinión, el experimento psicosocial y el análisis de contenido. Es decir, proponía tomar herramientas de las ciencias sociales para el análisis cuantitativo para que fueran aplicadas en el periodismo, sin por ello alterar la misión de “localizar hechos, comprenderlos y explicarlos sin pérdida de tiempo”. Demers y Nichols (1987) también sugieren que el Periodismo de Precisión es un método de investigación, “un modo de aprender sobre el mundo”. Y su diferencial, según afirman, radica en que esos métodos cuantitativos de investigación social sirven para conseguir la noticia.
  • 17. 17 Por su parte, la definición que brinda el académico español José Luis Dader es: “se entiende por ‘Periodismo de Precisión’ la información periodística que, sobre cualquier asunto de trascendencia social, aplica o analiza sistemáticamente métodos empíricos de investigación científica, de carácter numérico o no numérico, con especial inclinación al campo de las ciencias sociales. En dicha actividad el énfasis corresponderá a la validez y fiabilidad del método de análisis, por encima de la mayor o menor espectacularidad de los resultados” (DADER, 1997). Respecto a su comparación con el Periodismo de Investigación, Dader ha escrito que estos guardan relación pero no se tratan de lo mismo pues “ni todo el Periodismo de Investigación aplica las estrategias metodológicas y conocimientos instrumentales del Periodismo de Precisión, ni este último se aplica tan sólo en proyectos de investigación periodística” (DADER, 1997). La diferencia está en la metodología de investigación pues el periodista de precisión es el que aplica métodos como el análisis estadístico, la encuesta sociológica y el rastreo en bases de datos. 2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS Al momento en que Philip Meyer comienza a hacer difusión y practica el Periodismo de Precisión, todavía no era posible pensar en computadores personales para cada periodista, lo que dificultaba su puesta en marcha. Es durante la década del setenta que esto empieza a ser posible y es finalmente en los ochenta que los ordenadores se vuelven más accesibles y permiten a los periodistas tener acceso a un conjunto de datos que antes no era posible. Por ese entonces proliferan también las encuestas y los sondeos de opinión. Incluso para finales de los ochenta los principales periódicos anglosajones tenían ya departamentos exclusivamente de información socio-estadística. Estos eran llevados por profesionales de las ramas de estadísticas y gestión de bases de datos que, entre otras misiones, daban soporte a casos de investigación periodística. De a poco entonces, esta rama del periodismo fue generando visibilidad, sobre todo en los Estados Unidos. Algunos de los hechos que lo ilustran y marcan antecedentes en la historia reciente del Periodismo de Datos son: 1986. Reconocimiento con un premio Pulitzer al reportaje del Dallas Morning News que, basándose en cruce de bases de datos por ordenador, denunciaron la existencia de discriminación racial en la adjudicación de viviendas públicas en Texas.
  • 18. 18 1989. Premio Pulitzer de Periodismo Investigativo al periodista Bill Dedman por el reportaje “The colour of money”. Este se trataba de una serie de artículos publicados en el diario estadounidense The Atlanta Constitution en los que, a partir de un análisis informático de los formularios que debían rellenar prestamistas hipotecarios, quedaba en evidencia que había discriminación por parte de estos. Como consecuencia de dicha investigación se introdujeron reformas en las condiciones crediticias de bancos de todo el país. A continuación, una imagen que formaba parte del reportaje: ILUSTRACIÓN 1. "THE COLOUR OF MONEY". FUENTE: HTTP://POWERREPORTING.COM/COLOR/ 1991. Philip Meyer publica “The new precision journalism: a reporter’s introduction to social science methods”, tercera edición de su libro donde explica y actualiza cómo hacer análisis de datos y estadística con los ordenadores del momento.
  • 19. 19 1993. The Miami Herald gana un premio Pulitzer por su especial sobre la devastación producida por el huracán Andrew titulado “What went wrong?”. En este número, un equipo de periodistas entre los que se encontraba Steve Doigt -hoy un férreo impulsor del Periodismo de Datos-, decidió comprobar cuánto del nivel de destrucción del huracán había sido responsabilidad de autoridades municipales y constructores. Para ello recopiló cuatro bases de datos oficiales que, según el académico José Luis Dader (2006) fueron las siguientes: 1) Los informes de las 50.000 inspecciones de daños realizadas en el condado tras el paso del huracán 2) El registro de datos de la propiedad de 1992, que incluía información detallada del tipo de vivienda, valor y año de construcción de todas las edificaciones del área 3) El fichero de Memorias de Edificación de todas esas construcciones, que recogía información minuciosa sobre los tipos y calidades de los materiales utilizados 4) El Censo de Edificación y Planificación del condado, con más de 7 millones de expedientes de permisos de construcción e inspecciones realizadas en los últimos años. Tras un cruce de toda esta información, el Miami Herald realizó un especial de 16 páginas en las que podía verse un mapa de las zonas afectadas por el huracán y cuadros estadísticos. Lo que terminaron por demostrar fue que el número de casas construidas después de 1979 y que declaraban haber sido destruidas totalmente doblaba a las de construcción previa. Además, dejaban evidencia de que los vientos más fuertes no habían sido causantes de más destrucción sino que también, esto se correlacionaba con los hogares de construcción posterior a 1979. En conclusión, había sido causante de más daño la reducción de los controles de calidad de construcción que la fuerza el huracán.
  • 20. 20 ILUSTRACIÓN 2 "LESS WIND, LOTS OF DAMAGE". FUENTE: CUENTA DE FLICKR DE DANIEL X. O'NEIL, HTTP://WWW.FLICKR.COM/PHOTOS/JUGGERNAUTCO/SETS/72157607210036175/DETAIL/ 2006. El periodista Adrian Holovaty (2006) publica su ensayo “A fundamental way newspaper sites need to change” a partir del cual se extiende la necesidad de profundizar en el “Periodismo de Datos”. Según especialistas en el tema como el periodista Simon Rogers, Holovaty pudo haber sido el primero en hablar de “Data Journalism”, término anglosajón de “Periodismo de Datos”, para anclarlo como una tendencia.
  • 21. 21 2007. Entre ejemplos de Periodismo de Datos que empiezan a multiplicarse destaca el de Los Angeles Times llamado “The homicide report” y consiste en un mapa interactivo (http://projects.latimes.com/homicide/map/) con una base de datos para conocer todos los casos de homicidio en el distrito de Los Ángeles desde 2007 hasta la actualidad, presentando detalles de cada uno de los asesinatos que de la región. En este mapa se pueden filtrar los datos de las víctimas según raza, edad, género, causa de muerte, ubicación y otros parámetros. También pueden verse fotos de estos. Para Rich Gordon (2007), profesor asociado de la escuela Medill de Periodismo en la Northwetern University de Estados Unidos), esta iniciativa representa que cuando se unen el reportaje tradicional con las nuevas capacidades de uso de las bases de datos, surgen nuevas formas de periodismo. ILUSTRACIÓN 3. "THE HOMICIDE REPORT". FUENTE: LOS ANGELES TIMES
  • 22. 22 2009. Premio Pulitzer para el diario estadounidense St. Petersburg Times por el proyecto “Politi Fact” en el que se comparaban las declaraciones juradas de políticos con hechos reales y concretos para evaluar el grado de veracidad. Trabajo basado en el uso de estadísticas y bases de datos. 2010. Las filtraciones más importantes de Wikileaks cambian el panorama del Periodismo de Datos y sitios de noticias como The Guardian, a través de su “Datablog”, y The New York Times llevan esta modalidad a su auge. ILUSTRACIÓN 4. "AFGHANISTAN IEDS MAPPED". FUENTE: GUARDIAN.COM.UK 2011. Los 16 proyectos ganadores del Knight News Challenge, un concurso anual de la Knight Foundation destinado a promover las mejores ideas relacionadas con la innovación en el ámbito del periodismo, tienen al Periodismo de Datos como principal objetivo. El total de dinero que se les destina testimonia su importancia, 4,7 millones de dólares. En 2011 nace también el proyecto Overview, una herramienta de visualización de documentos. Ofrece organizarlos y conectarlos para ayudar a los periodistas a encontrar historias en medio de tanta información. Es una iniciativa del periodista Jonathan Stray con la financiación de la agencia de noticias Associated Press.
  • 23. 23 2012. Algo que marcó la transición que está viviendo el Periodismo de Datos fue el lanzamiento en enero de 2012 del primer concurso internacional de esta especialidad, una iniciativa del Global Editors Network en alianza con Google. Además, este mismo año se publica el manual de Periodismo de Datos, ya citado anteriormente, “The Data Journalism Handbook”, una iniciativa colaborativa en la que participaron periodistas de todo el mundo. Como puede deducirse, el Periodismo de Precisión tuvo al comienzo una mayor incidencia en Estados Unidos mientras que en Europa la evolución fue más lenta (Dader, 1993). En España incluso, como también documenta el académico José Luis Dader, habían aplicaciones de un Periodismo de Precisión pero sin que sus profesionales supieran del movimiento: “la relativa presencia de actuaciones periodísticas intuitivas, catalogables entre nosotros bajo el rótulo que nos ocupa, choca con la perplejidad generalizada que su sola mención continúa produciendo entre la mayoría de los periodistas y profesores españoles de Ciencias de la Información”. Años después, ya para cuando comienza a hablarse de Periodismo de Datos a raíz de la multiplicación de bases de datos y herramientas para su tratamiento, la evolución se da paralelamente en distintos ámbitos geográficos. Estados Unidos no pierde su vanguardia con medios de comunicación cabeceras como The New York Times mientras que en Europa sus primeros promotores están en Inglaterra con The Guardian y en Alemania con Der Spiegel. Y la gran bisagra en la evolución del Periodismo de Datos no está sólo en fenómenos de desarrollo continuo como puede ser Big Data. También, hubo hechos puntuales y entre ellos es de mencionar el “Cablegate”, la filtración de documentos diplomáticos -especialmente de Estados Unidos- y que difundió el sitio Wikileaks. Al respecto, en diciembre de 2010, Paul Bradshaw escribió en su blog onlinejournalismblog.com un artículo que tituló “Un embajador avergonzado es una tragedia, 15 mil civiles muertos es una estadística”. Allí deducía, a partir del efecto Wikileaks en la prensa, que el Big Data traía nuevos desafíos: “hay que humanizar y personalizar grandes conjuntos de datos de una manera tal que ello no vaya en contra de la complejidad del tema que se está tratando”.
  • 24. 24 Es decir, en medio de enormes cantidades de datos, el periodista debe intentar lograr un interés con ellos a pesar de que a los lectores les interesen más las historias individualizadas, como la del embajador avergonzado con el que ejemplifica este punto. Al respecto, es válido también comentar que los mismos datos necesitan de los medios de comunicación pues de otra manera es posible que el público no se acerque a ellos, por la complejidad que esto representa. Como escribió el periodista John Keenan (agosto 2010) en The Guardian: “Sin el análisis, el comentario y la explicación de periodistas especializados, los documentos habrían quedado en el sitio de Wikileaks llamando la atención sólo de aquellos con un ferviente interés en el conflicto. La Casa Blanca y el Pentágono, apenas se habrían inmutado”. Eso es precisamente lo que entendió Julian Assange, el fundador de Wikileaks, cuando decidió hacer la distribución de sus documentos a través de grandes diarios occidentales, los cuales fueron El País de España; The New York Times de Estados Unidos; The Guardian de Reino Unido, Le Monde de Francia y Der Spiegel de Alemania. Al mismo tiempo, en una visión actualizada del Periodismo de Precisión y ya con el Periodismo de Datos como una tendencia, Philip Meyer dio un discurso el 3 de octubre de 2011, como invitado a la Hedy Lamarr Lecture sobre Changing Needs in Journalism en la Academia Austríaca de las Ciencias. En su exposición, que luego fue difundida por los reportes Nieman, dijo: Necesitamos una estructura para ver la verdad de los hechos. (…). ¿Es posible que encontremos la manera de unir estas dos estrategias (Periodismo Narrativo y Periodismo de Precisión) y contar historias sobre los datos que se basan en teorías verificables? Para dar una respuesta a este interrogante, se remontó a la historia del término “Periodismo de Precisión”, el cual fue acuñado por el profesor Everette E. Dennis en la Universidad de Obregón en 1971. Lo que intentaba este, era explicar el nuevo Periodismo, basado en métodos científicos. Pero como desde hacía unos años se hablaba de “nuevo periodismo” para referirse a la corriente literaria del oficio, lo diferenciaron. Y continuó entonces con su discurso, acercándose a la definición de lo que se conoce como Periodismo de Datos: “Ambos géneros, el Periodismo Narrativo y el Periodismo de Precisión, son especialidades que requieren determinadas habilidades. Si tuviéramos que mezclar ambos, ¿cómo lo llamaríamos? El término que me gusta es ‘narrativa basada en evidencia’. Ello implica una buena historia basada en
  • 25. 25 evidencia verificable. Sí, esa sería una especialidad esotérica. Pero creo que hay un mercado que se está desarrollando para ella. El mercado de la información nos está llevando cada vez hacia una mayor especialización. Y tanto el Periodismo de precisión como el Periodismo narrativo atraen a una audiencia sofisticada, una que aprecia la necesidad de estructurar la información de una manera que centre la atención en la verdad.” Y casi cuarenta años después de que el profesor Meyer remarcara por primera vez la necesidad de aplicar métodos sociales en la investigación periodística hoy no sólo se aplican en los más importantes medios de comunicación, sino que también las nuevas tecnologías permiten toda una variante de actividades a partir de ello. El ejemplo principal es la exploración personal que puede hacer la audiencia de tantas bases de datos ahora a su disposición. 2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS En la actualidad, el Periodismo de Datos exige una especialización, tal como remarcó Philip Meyer. De ahí que sobrevenga la necesidad de aprender las nuevas herramientas, de sortear las dificultades que representa la lectura de cierto formato de datos y de facilitar la tarea de lectura de la audiencia. Es decir que, como cualquier nueva tendencia también tiene sus puntos fuertes y débiles. En cuanto a una de sus principales consecuencias positivas se encuentra la objetividad y transparencia que pueden brindar los datos, ya que el lector también tiene la posibilidad de interpretarlos y sacar sus propias conclusiones. Por otra parte, tanta información a disposición puede complicar la tarea de su lectura. De ahí la necesidad de ordenar. A continuación, un listado de características del Periodismo de Datos. 2.5.1 OBJETIVIDAD Y TRANSPARENCIA "Aquel periodista que adapte los instrumentos del método científico a su propia tarea, gozará de la posibilidad de realizar útiles evaluaciones con la mucha más potente objetividad de la ciencia” Philip Meyer, 1993 El profesor de gráficos en la Universidad de Miami, Alberto Cairo (25 de abril 2011) coincide indirectamente con Philip Meyer cuando en un texto sobre “infográficos peligrosos” se refiere al método científico como “el mayor avance de la Humanidad en su lucha por superar limitaciones perceptivas, ilusiones inconscientes e impulsos emocionales: un sistema que antepone la evidencia empírica a la opinión subjetiva, aunque esta última se rebele contra sus conclusiones, a veces contrarias a la intuición, al statu quo... y al sentido común”.
  • 26. 26 Como es común aprender en las carreras de Periodismo, la objetividad es un principio de este, si bien hay quienes la defienden y quienes no pues la neutralidad absoluta no es algo que pueda asegurarse en el discurso comunicativo En relación con el Periodismo de Datos, la lectura de los datos y su puesta a disposición contribuye a una mayor transparencia y objetividad en la tarea comunicativa. Es más, hay quienes defienden que “la transparencia es la nueva objetividad” (THE ECONOMIST, julio 2011). 2.5.2 NECESIDAD DE ORDENAR Philip Meyer también reflexionó en 2011 en su discurso en la Academia Austríaca de las Ciencias acerca de la gran cantidad de información actual y la necesidad de organizar: “Creería que todos estamos de acuerdo en que las tecnologías de la era de la información producen datos más rápido de lo que producen conocimiento. En lugar de remplazar el periodismo, Internet está creando una nueva necesidad de mercado: para la síntesis y la interpretación del flujo constante de hechos”. Para el académico, los datos sin procesar son lo mismo que el ruido, de ahí que a medida que se multiplica la información disponible en el mundo, también se multiplican las necesidades para procesarlo. Asimismo, Guy Laurence, CEO de Vodafone Reino Unido argumentaba en una entrevista de Simon Rogers –editor del “Datablog” del periódico británico The Guardian- que antes el acceso a la información era un gran problema mientras que ahora, la prioridad es saber manejarla: “Nos hicieron creer que cuanto más datos, mejor, pero eso ya no es verdad”. Regresando a Meyer, en su discurso ya mencionado (2011) también dijo que ahora que la información es abundante lo importante es su procesamiento: “Necesitamos una estructura para ver ‘la verdad de los hechos”. Para ello, Meyer (1993) reconoce que en la actualidad no sólo alcanza con aplicar el método científico a los datos. Ahora también es necesario saber nadar entre un mundo de datos: “El periodista debe ahora ser un administrador de datos acumulados, un procesador de datos y un analista de esos datos”. Los pasos que Meyer enumera para trabajar con los datos en periodismo son: 1. Recopilarlos 2. Almacenarlos 3. Recuperarlos 4. Analizarlos
  • 27. 27 5. Resumirlos 6. Comunicarlos 2.5.3 TRABAJO EN GRUPO Una característica que todos los expertos en Periodismo de Datos coinciden es que cuanto más un trabajo en equipo sea, mejores resultados se pueden obtener. Sobre todo a la actualidad, cuando las herramientas se multiplican y se valoran cada vez más las especializaciones. Cierto es que así como se multiplican las herramientas estas se simplifican. Sin embargo, en un trabajo completo de Periodismo de Datos intervienen diferentes capacidades como las que dan la Estadística, la Sociología, la Programación, el Diseño Gráfico y el Periodismo. Puede haber reporteros que reúnan conocimientos de estadística por ejemplo, pero no es lo más común. Por tanto, según mencionaba Meyer (2011) ello exige una inversión por parte de los medios: “Necesitaremos más reportaje en equipo y editores capaces de reclutar y manejar los talentos que hacen falta”. José Luis Dader (1993) asegura también en el prólogo de la versión española de “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística” que “este tipo de aventura profesional es una tarea de equipo”. Pues el periodista puede encontrarse en su tarea con dificultades técnicas y de métodos, para lo que es una solución buscar la ayuda de especialistas. 2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS? En un post de julio de 2011 Paul Bradshaw propuso en su blog cuatro fases de trabajo en el Periodismo de Datos: compilar los datos, filtrarlos, contextualizarlos y combinarlos para luego transmitirlos.
  • 28. 28 Ilustración 5 “THE INVERTED PYRAMID OF DATA JOURNALISM”. FUENTE: ONLINEJOURNALISMBLOG.COM 2.6.1 COMPILAR LOS DATOS Para Paul Bradshaw, la búsqueda de datos puede iniciarse por dos razones: o porque hay una pregunta que necesita datos para su respuesta o porque hay datos que plantean un interrogante. Como sea, hay que encontrarlos o incluso crearlos, por ejemplo, a través de encuestas. Para ello están las bases de datos, públicas o privadas. Las privadas no necesariamente son secretas, pero no está pensadas para el uso de los periodistas por lo que se puede pedir consultarlas o pagar por ellas, dado el caso. Algunas de las fuentes más consultadas a partir de las cuales surgen historias son (BRADSHAW, abril 2010): - Fuentes gubernamentales, locales, nacionales e internacionales - Organismos que monitorean a diferentes organizaciones - Instituciones académicas y científicas - Organismos de la salud
  • 29. 29 - Grupos de presión y organizaciones sociales - Empresas - Los medios comunicación Los modos de recuperación que Philip Meyer enumeraba en la versión actualizada de Periodismo de Precisión eran los siguientes: - CdRom, para ser leídas en el ordenador personal. - Conexión - Fuentes de acceso público - Recepción mediante conexión a Internet - De texto completo y bibliográficas Con las nuevas tecnologías y facilidades de la informática, las maneras de recuperación se han ampliado considerablemente. De ahí que las enumeradas por Paul Bradshaw en su artículo de 2011 sean diferentes y actualizadas. A continuación, citamos algunas de las que el periodista inglés propone, más otras a considerar: - Información provista al periodista directamente por una organización (todavía no es común que los datos estén adjuntos a los comunicados de prensa) - Recuperada luego de búsquedas avanzadas dentro de sitios gubernamentales - Haciendo scraping en bases de datos ocultas con herramientas como Scraperwiki, Yahoo!Pipes y el complemento de Firefox Outwit Hub. - A través de la conversión de documentos para su análisis. - Tomando información de las APIs - Recolectando información por uno mismo a través de observaciones, encuestas o formularios, entre otras formas. 2.6.2 FILTRADO Y LIMPIEZA DE DATOS Un problema que presenta el trabajar con bases de datos públicas o ajenas –incluso propias- es que pueden contener errores de tipeo –o de otro tipo- que podrían alterar la verdad de los contenidos que se pretenden comunicar. “Para evaluar la información de una base de datos hay que preguntarse siempre quién suministró los datos originales y cuándo y cómo se recolectaron. Muchas bases de datos gubernamentales son compilaciones de material procedente de muy diversas fuentes, cuya fiabilidad y meticulosidad no es uniforme”. (MEYER, 1993)
  • 30. 30 Para ello es que un paso fundamental al trabajar con estas bases de datos es proceder a su revisión y “limpieza”. Numerosas herramientas permiten descubrir típicos errores humanos sin necesidad de ir registro por registro. Una de ellas es Google Refine que descubre palabras aproximadas, entradas vacías y duplicados. Philip Meyer también repetía en su libro “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística.” (1993): “Nunca consideres como palabra de Dios lo que el ordenador te indica. Habrá siempre que rastrear el paso anterior a la creación de la base de datos, comprobando los documentos impresos o lo realizado por las personas que reunieron los datos.” Asimismo, este ítem también incluye la conversión de datos al formato con el que se pretende trabajar. Lo más común en este caso es el paso de información presente en archivos PDF a planillas de cálculo como Microsof Excel. No siempre es una tarea sencilla y, a pesar de que existen herramientas gratuitas (PDFtotext, Cometdocs.com, PDFtoexcelonline.com, Zamzar.com) y de pago (PDFconverter, Adobe Acrobat X Pro, Nitro PDF), es necesaria una revisión meticulosa. Relacionado a este punto, otra tarea frecuente en el Periodismo de Datos es la extracción de información de una página web a un documento de texto. Y, para cuando el “copiar” y “pegar” no funciona correctamente, sobre todo con listas y tablas, existen herramientas para convertir información en lenguaje HTML para su uso en un documento de texto o planilla de cálculo. Un ejemplo de ellas es la que facilita Google: ImportHTML. 2.6.3 CONTEXTUALIZAR LA INFORMACIÓN Es necesario preguntarse de dónde viene la información, cuál es su historia, qué instituciones intervinieron, porqué se recolectó, cómo, dónde… Entonces, si llega a manos de un periodista la base de datos de crímenes de una ciudad esta sólo tendrá sentido si se conoce la cantidad de población, el historial, la calidad de vida, el desempleo, la inflación, etcétera. Es decir, una base de datos puede no ser interesante en sí misma hasta que se cruzan dos variables. Así por ejemplo, un registro de accidentes de una ciudad que se combina con el nivel educativo de los conductores protagonistas de estos puede tal vez dar lugar a una conclusión relevante. Es entonces cuando entra en juego la capacidad del periodista para hacerse las preguntas que deriven en material de noticia. Es en este paso también que entran en juego los conocimientos estadísticos y la importancia de esta ciencia dentro del periodismo y del mundo de la información.
  • 31. 31 Respecto a las estadísticas, en una entrevista de 2008 a Hal Varian, economista jefe de Google y profesor de Tecnologías de la Información en la Universidad de Berkeley, este ya predecía que en la próxima década se iba a tender inevitablemente al campo estadístico: "La capacidad de trabajar los datos - ser capaz de entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos- va a ser una habilidad de enorme importancia en las próximas décadas (..). Porque es ahora que realmente se dispone de datos, esencialmente libres y en todas partes. Así que el factor que falta es la capacidad de entenderlos y extraer valor de ellos” (MCKINSEY QUARTERLY, enero 2009) Y Philip Meyer (1993) también ya lo decía en cuanto a su aplicación en el oficio del periodista: “Hubo un tiempo en que todo lo que hacía falta era amor a la verdad, vigor físico y cierta gracia literaria. Todavía el periodista necesita esos recursos, pero ya han dejado de ser suficientes.” Un número por sí solo no significa mucho. Debe tener un contexto, debe ser comparado con otros números. Para José Luis Dader (1997), la estadística consiste “en una aplicación práctica de la matemática, destinada a hacer visible, mediante una explicación condensada –y por tanto asequible al conocimiento humano-, la variabilidad de relaciones ciertas, pero a primera vista invisibles, que existen en grandes masas de datos o poblaciones”. Es de mencionar que, en la actualidad, uno de los más grandes precursores de las estadísticas es el médico sueco Hans Rosling. Él no sólo insiste en la necesidad de aplicar las estadísticas en la tarea de la comunicación sino también en todas las áreas de la vida para entender el mundo actual. Conocido también por sus presentaciones en las charlas TED (organización internacional de divulgación de ideas) para promover el entendimiento del mundo a través de las estadísticas, en una entrevista de Ulrike Reinhard (marzo 2011), Rosling pone en palabras su percepción respecto al universo de datos actual: “Mi idea fundamental es que el mundo ha cambiado tanto que lo que la gente necesita no es más datos sino una nueva mentalidad. Necesita un nuevo sistema de almacenamiento con el que poder manejar esta información”. 2.6.4 COMBINAR LOS DATOS Este paso se refiere a la fusión de datos de diferentes fuentes en una sola. Un modo típico en periodismo que incluye esta tarea está representado por los mashups, aplicaciones que toman y mezclan datos existentes en la web para crear algo nuevo. El de mapas es de los más utilizados en el periodismo y sirve para ver cómo se distribuye algo en el espacio. Un ejemplo sería un mapa qué muestre cuáles son los países que acumulan más de cien
  • 32. 32 medallas de oro en la historia de los Juegos Olímpicos basándose en los datos de una tabla de información extraída de, por mencionar una fuente probable, Wikipedia. 2.6.5 COMUNICACIÓN DE LOS DATOS La forma de transmitir los datos a la audiencia es lo que más ha variado en los últimos años gracias a las nuevas tecnologías de la información y herramientas que permiten que estos se vuelvan más fáciles de manipular y de acceder. De allí que una característica fundamental del Periodismo de Datos actual es la visualización de estos en tablas y gráficos. 2.6.5.1 INFOGRAFÍA Y VISUALIZACIÓN DE DATOS En el mundo académico suele diferenciarse entre la “infografía” y la “visualización de datos” alegando que la infografía se preocupa en presentar la información de una manera que pueda ser asimilada por la audiencia, mientras que la visualización permite la exploración al usuario a través de esos datos. Sin embargo, Alberto Cairo, autor del libro “El arte funcional: infografía y visualización de información” habla de una “frontera difusa” entre ambos conceptos (16 de abril, 2011). Pues este periodista español considera que “la relación entre infografía y visualización es un continuo” ya que “todo gráfico (de datos, cartográfico, etc.) presenta, pero también puede convertirse en una herramienta que una audiencia manipule mentalmente para explicarse unos datos, para extraer de ellos significados, tendencias, para vincularlos con su propia vida, para buscar en ellos su propio barrio, su ciudad, su vivienda.” He ahí parte del potencial de la visualización de datos en los medios de comunicación ya que permite esa interacción del lector sobre todo con las nuevas herramientas. Y, aunque las formas visuales de presentar datos parecen novedosas, lo cierto es que, al menos las más típicas, existen desde hace dos siglos gracias a los estudios de mapas en historia y geografía y en otras disciplinas como las matemáticas. Así, al que se considera como el inventor de la tabla moderna es al ingeniero escocés William Playfair quien en The Commercial and Political Atlas de 1786 y en el Statistical Breviary de 1801 inventó y utilizó un gráfico de barras, uno de fiebre y otro de tarta, los gráficos estadísticos que son más utilizados en la actualidad. Uno de ellos es el que presentamos a continuación y que plasma en un diseño gráfico la evolución del comercio de Inglaterra en relación a Dinamarca y Noruega entre 1700 y 1780.
  • 33. 33 ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. FUENTE: HTTP://UPLOAD.WIKIMEDIA.ORG/WIKIPEDIA/COMMONS/D/D8/PLAYFAIR_TIMESERIES.PNG Además de las mencionadas, otras formas de comunicación visual de datos se inventaron durante el siglo XIX como el mapa geológico de William Smith de 1815 que los cartografistas llaman “el mapa que cambió el mundo”: ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH” (1815). FUENTE: HTTP://EN.WIKIPEDIA.ORG/WIKI/FILE:GEOLOGICAL_MAP_BRITAIN_WILLIAM_SMITH_1815.JPG
  • 34. 34 Pero cuando comienzan a asomar las cantidades masivas de datos, se tornan necesarias nuevas herramientas para su lectura y comprensión. De ahí que se comenzaran a utilizar aquellas específicas para la visualización de datos que poco a poco fueron mejorando y convirtiéndose de uso común, sobre todo desde el momento en que se las comprendió como una forma alternativa de comunicación. Así, cada vez más herramientas facilitan a cualquier usuario la visualización de datos. Una que tuvo especial repercusión fue ManyEyes, de IBM, la cual funciona en Internet y es de acceso gratuito. Con esta herramienta, a partir de bases de datos se pueden diseñar visualizaciones para cruzar los datos y encontrar nuevas relaciones. ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO: 1946-2005”. FUENTE: MANYEYES. La visualización entre otras cosas, sirve para “poner datos en contexto”, según explica Jeffrey Heer, de la Universidad de Stanford en el video de Geoff McGhee (2010) “Journalism in the age of data” (2010). A su vez, Cole Nussbaumer (2011), experta en visualización de datos en Silicon Valley- prefiere hablar de “humanización” de datos, pues al presentarlos de manera creativa es posible hacer de ellos una historia más transparente. Uno de los medios precursores y que constantemente está innovando en visualización de datos es The New York Times. 2.6.5.1.1 “LA NARRATIVA DE LA VISUALIZACIÓN” Para Edwar Segel y Jeffrey Heer (2010), de la Universidad de Stanford, la visualización de datos no sólo revela historias sino que también puede contarlas, igual que si fuese una historia escrita.
  • 35. 35 Para ambos académicos las visualizaciones estáticas a lo largo del tiempo han sido utilizadas para apoyar la narración, generalmente en forma de diagramas insertos en un cuerpo mayor de texto. Y es en este formato que el texto transmite la historia, y la imagen por lo general proporciona evidencia de apoyo o detalles relacionados. Ahora, para ellos, una nueva clase de visualizaciones cada vez más complejas tratan de combinar narraciones con gráficos interactivos y narradores y periodistas, especialmente en línea. A su vez, describieron siete géneros de narrativas de visualización: el estilo revista, el gráfico anotado, el diagrama de flujo, la tira cómica, las diapositivas, el vídeo y el “cartel dividido”. ILUSTRACIÓN 9. “SIETE GÉNEROS”. FUENTE: (SEGEL Y HEER, 2010). El gurú del Periodismo de Precisión, Philip Meyer (2011) también considera que la narrativa va a la par de los datos, pues en el siglo XXI es necesario tanto el Periodismo de precisión –el cual toma sus herramientas de la ciencia- como el Periodismo narrativo, basado en el arte: “La ciencia crea estructura con lo que Lippmann denomina modelos esquemáticos, que provienen de la teoría. El arte crea la estructura a través del diseño de la narrativa en la narración.” Por ello no es cuestión de poner los datos como son y abrumar al lector. Hay que preguntarse qué es lo que este quiere saber a partir del gráfico, qué es lo que puede llegar a preguntarse. Igualmente, Alberto Cairo insiste en la necesidad de no caer en la simplificación excesiva. Y habla de dos corrientes en el campo de la visualización de la información: la de los minimalistas (racionales, científicos) y la de los de una perspectiva más emocional y estética.
  • 36. 36 En cuanto a la teoría, Cairo (2011) recuerda a Edward Tufte, un influyente profesor de estadística que es defensor de la corriente minimalista y un aberrador de la “ideología de la decoración”. Incluso este habla de la “basura de gráficos” (chart junk) que hay que evitar, como estilos que dificultan la lectura de los datos, grillas sobrecargadas, texturas incomprensibles… Algunas de las reglas que enumera en su libro básico “The visual display of quantitative information” son: - Mostrar los datos - Maximizar el uso de data-ink (tinta destinada a los datos).3 - Evitar el chart-junk, o todo lo que dificulte la lectura de los datos - Utilizar elementos multifuncionales, que facilitan la lectura. - Múltiplos pequeños - Textos y leyendas con la orientación tradicional - Hacer un uso cuidadoso del color Su postura es en ocasiones extrema. Sin embargo, sus principios tuvieron y tienen hasta la actualidad gran percusión entre diseñadores y comunicadores. Sin embargo, en las dos últimas décadas también se le ha rebatido su postura minimalista, basada más en apreciaciones personales que en hechos empíricos. Por su parte, están aquellos defensores de un uso más estético y emocional de los gráficos. Entre ellos se incluye el influyente Nigel Holmes, referente de la infografía moderna y defensor de la inclusión de ilustraciones junto a los datos. Para Cairo (2011), la estética no está de más siempre y cuando el gráfico no esté por encima del rigor informativo: “rendirse en ocasiones a lo lúdico y crear un gráfico que tenga más artificio que sustancia puede ser positivo, dependiendo del asunto y del contexto”. Por su parte, las nuevas herramientas tecnológicas permiten que sin llegar a la simplificación absoluta se creen gráficos interactivos que permiten a la audiencia buscar aquello que les sea de más interés. El siguiente es un ejemplo de gráfico interactivo que realizó el The New York Times el pasado junio llamado “Where the Heat and the Thunder hit their shots”. Aquí se pueden comparar las fortalezas de los jugadores de baloncesto del Miami Heat y del Oklahoma City Thunder basándose en sus patrones de disparo. 3 La regla central de Tufte es la ratio data-ink, la cual representa la cantidad de tinta que debe llevar la ilustración en orden a representar los datos de manera aceptable.
  • 37. 37 ILUSTRACIÓN 10. “WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”. FUENTE: THE NEW YORK TIMES. 2.6.5.2 OTRAS FORMAS DE COMUNICAR LOS DATOS La visualización de los datos se presenta como una de las formas que se están volviendo cada vez más populares para presentar la información a los lectores. Sin embargo, según Paul Bradshaw (abril 2010) en su teoría de la Pirámide Invertida del Periodismo de Datos, hay otras maneras de comunicar los datos:
  • 38. 38 - La narración: un artículo escrito de manera tradicional en el que se incluyen los datos recolectados. - Comunicación social: los datos pueden conseguirse a través de las redes sociales o a través de convocatorias y concursos. - Humanización: presentar los números con ejemplos reales para ilustrar una historia. No solo datos abstractos. - Personalizar: la interacción con los datos permite a los usuarios buscar aquello que les es de su interés personal. Por ejemplo: “¿cómo le afectan los recortes de este trimestre según región?”. - Utilizar: semejante a personalizar, la comunicación de los datos puede permitir al usuario buscar aquella información que le interese, sea o no que lo afecte a nivel personal. 2.7 DOS EJEMPLOS DE PERIODISMO DE DATOS 2.7.1 “¿DÓNDE VAN MIS IMPUESTOS?” En Internet, el sitio español www.dondevanmisimpuestos.es es una iniciativa de la Fundación Ciudadana Civio la cual cuenta con el apoyo de la Open Knowdlege Foundation. Se trata de un proyecto de Periodismo de Datos para dar conocer los destinos del dinero según los Presupuestos Generales del Estado desde 2008 hasta 2011. Inspirada en el proyecto inglés “Where Does My Money Go?”, básicamente es una visualización interactiva en la que el usuario o lector puede ir desplegando los gráficos según cuáles sean sus intereses. Por ejemplo, puede ver los presupuestos que se destinan a Cultura, Artes Recreativas y Religión y a su vez cuánto de esto va, por ejemplo, a Bibliotecas y Archivos. También está la posibilidad de ver los presupuestos por comunidades autónomas año a año. Esta información es posible porque está disponible en los Boletines Oficiales del Estado. Sin embargo, lo que ya no puede saberse en España es si efectivamente ese dinero fue destinado tal como estaba planeado por las trabas que presenta el no contar con una Ley de Acceso a la Información4 . En este caso se trata de un diseño realizado a través de las tablas en las que se recolectó la información de los Presupuestos Generales de los gastos anuales de la Administración Central del Estado (ministerios, agencias dependientes y otros organismos públicos, como el Congreso) y la Seguridad Social. ILUSTRACIÓN 11. "¿DÓNDE VAN MIS IMPUESTOS?". FUENTE: WWW.DONDEVANMISIMPUESTOS.ES 4 Ver apartado sobre Open Data.
  • 39. 39 2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR” Es un reportaje de The Seattle Times de Estados Unidos cuyo título original es “Methadone and the politics of pain” y fue publicado en tres partes en diciembre de 2011. Galardonado con el premio Data Journalism Award en la categoría “Data-Driven Investigation”, consistió en la denuncia de todo lo que hay detrás del consumo del analgésico metadona. Su elaboración llevó diez meses y en el equipo participaron cinco personas. Entre otras cosas revelaban que desde 2003 habían muerto 2173 personas en el estado de Washington por sobredosis de metadona, la mayoría de ellas de clases bajas. Denunciaban también que el fármaco tiene un interés financiero para el Estado, además de que deja a los pacientes con un dolor crónico. El reportaje incluyó representaciones gráficas de los datos demográficos de las muertes relacionadas con la metadona. El más ambicioso de ellos traza las direcciones de aquellas personas que habían muerto por una sobredosis accidental vinculada a la metadona. Utilizando un código de colores, el gráfico del Estado fue dividido en cinco partes según ingresos lo que permitía ver que había más muertes en las comunidades más pobres. A su vez, la investigación estuvo sustentada en tres bases de datos: la de los certificados de muerte del Estado con detalles de la causa de muerte, entre otros; las notas de texto acerca de las muertes, por ejemplo las escritas por los médicos y la del Comprehensive Hospital Abstract Reporting System (CHARSEl) con datos sobre cientos de miles de hospitalizaciones, diagnósticos, procedimientos realizados, costo de la estancia y la situación económica de cada paciente.
  • 40. 40 ILUSTRACIÓN 12. “METHADONE AND THE POLITICS OF PAIN”.FUENTE: THE SEATTLE TIMES 3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS Como se ha mencionado a lo largo del trabajo, numerosas herramientas están a disposición de los periodistas, diseñadores o quien lo quiera para hacer Periodismo de Datos. A continuación, algunas de ellas clasificadas según el uso que se le puede dar en la elaboración de un contenido. 3.1 MAPAS QUANTUM GIS (QGIS): sistema de información geográfica de código libre. Herramienta para crear mapas a partir del análisis de bases de datos.
  • 41. 41 OPENHEATMAP: una herramienta fácil de usar mientras los datos estén clasificados por país, región o provincial. ARC GIS: Sistema de información que permite crear, analizar, almacenar y difundir datos, modelos, mapas y globos en 3D. POSTGIS: módulo que añade soporte espacial a la base de datos objeto-relacional PostgreSQL, para su utilización en Sistema de Información Geográfica (SIG). GRASS: también un software SIG libre. 3.2 SCREEN SCRAPING (RASPADO) Esta actividad se refiere a una técnica de programación para extraer mediante ingeniería inversa la información de un PDF, plantilla de Excel, página web, gráfico… SCRAPERWIKI: una herramienta en línea que permite a cualquiera recoger, guardar y publicar la información de una página web y convertirla en una base de datos. READABILITY: aplicación para facilitar la lectura de contenido en la web y que permite extraer el texto. SCRAPER (extensión para Chrome): sirve para extraer tablas de páginas webs. 3.3 LENGUAJE DE SCRIPTS RUBY: lenguaje de programación de código abierto y dinámico. PYTHON: lenguaje de programación también de código abierto fácil de leer y escribir. ACTIONSCRIPT: lenguaje de la plataforma Adobe Flash PERL:lenguaje de programación. PHP:lenguaje de programación. 3.4 MANEJO DE BASES DE DATOS MICROSOFT EXCEL: no es un gestor de bases de datos sino una hoja de cálculo, pero cuando se trata de conjuntos de datos hasta de tamaño medio es la herramienta más utilizada por los periodistas. Su funcionalidad primera es el trabajo con planillas de cálculo y la aplicación de diversas funciones en estas, en orden al análisis y administración de datos.
  • 42. 42 OPENOFFICECALC: tiene la misma finalidad que MicrosoftExcel aunque es de código abierto y presenta menos funciones que este. Cuando las hojas de cálculo no son suficientes para el trabajo del periodista este necesita un gestor de bases de datos relacional, sobre todo cuando se trata de unir varias hojas de cálculo o si se trabaja con grandes conjuntos de datos. Algunos de estos gestores pueden ser: SQLITE, MYSQL, POSTGRESQL, MICROSOFTACCESS Y SQL SERVER. 3.5 VISUALIZACIÓN DE DATOS MANYEYES: aplicación que mezcla los datos y convierte números complejos y datos de bases de datos en visualizaciones que pueden ser tanto para la web como para la prensa escrita. Es una creación del grupo de investigación de IBM, el cual procuraba con esta herramienta la “democratización de la visualización” ya que es fácil de utilizar y de compartir. YAHOO PIPES: es una herramienta informática semejante a ManyEyes. TABLEAU PUBLIC: versión gratuita del software Tableau. Es integrable y puede insertarse con facilidad en la página web, blog o medio del usuario. No es confidencial pues queda abierto al público y tiene un límite de cien mil registros y 50 MB por usuario. Su herramienta “Show me” indica qué tipo de gráficos se adapta a la información que se está analizando. GOOGLE FUSION TABLES: es una herramienta ideal para principiantes. Permite visualizar los datos y publicarlos y compartirlos como mapas, líneas de tiempo y gráficos. Se pueden combinar las tablas de datos, filtrarlos y ordenarlos. Además, permite a otros dejar comentarios sobre cada uno de estos. Una desventaja es que los datos quedan en los servidores de Google, aun cuando se elija configurarlos en privado. 3.6 LIMPIEZA DE DATOS Esto es para unificar criterios antes de cruzar datos. Es decir, formateo de datos. Por ejemplo, si a la ciudad de Buenos Aires se la nombra como BA, Capital Federal o Ciudad Autónoma de Buenos Aires en la misma base de datos; entonces será necesario unificarlas. En este caso se trata de establecer consistencia en los datos estableciendo un control de autoridades dirigido a denominar a cada entidad, sea nombre de persona, corporación o concepto, de una única manera. DATA WRANGLER: herramienta del Grupo de Visualización de la Universidad de Standford. Funciona en el mismo explorador y todavía está en fase demo. Su ventaja es que permite, entre otras cosas, borrar de manera sistemáticas filas en blanco, reacomodar los datos para que haya sólo uno por fila, formatear datos mediante la deducción automática… Su desventaja es la relacionada con la
  • 43. 43 seguridad de los datos pues estos son enviados a un sitio externo, por lo que para información confidencial no es tan recomendable (KANDEL et al., 2011) GOOGLE REFINE: se trata de una poderosa herramienta gratuita para explorar datos y limpiarlos de fácil manera. Funciona a través del navegador, pero es una aplicación de escritorio por lo que los datos con los que se trabaja no se hacen públicos. Su principal función es el clustering o limpieza de datos basada en similitudes y corrección de erratas –tanto en textos como en números-, que agrupa por aproximación distintos valores de celda que pueden referirse a lo mismo. Para ello utiliza diferentes algoritmos y el usuario puede elegir el que desea utilizar, pues van desde los más simples hasta los más estrictos. Su desventaja es que no tiene todas las funciones de una hoja de cálculo aunque se parezca a una. Sin embargo, los datos se pueden importar y exportar desde formatos varios como CVS, Excel, XML y JSON. 3.7 ANÁLISIS ESTADÍSTICO EL PROYECTO R: R es un sistema estadístico que sus autores prefieren llamar de “entorno” y es la evolución o nueva implementación del lenguaje S que había sido desarrollado en AT&T por Rick Becker, John Chambers y Allan Wilks. Es OpenSource, multiplataforma y su uso se está extendiendo cada vez más. Algunas de las operaciones que pueden realizarse son: almacenamiento y manipulación efectiva de datos; operadores para cálculo sobre variables indexadas (Arrays), en particular matrices; una colección de herramientas para análisis de datos; posibilidades de visualización de datos y un lenguaje de programación. Su gran potencial es que es extensible. SPSS (STADISTICAL PRODUCT AND SERVICE SOLUTIONS): software estadístico muy poderoso, de pago. 3.8 OTRAS HERRAMIENTAS DOCUMENT CLOUD: proyecto ganador de uno de los desafíos de la Knight Foundation que está pensado para que los periodistas de diferentes medios de comunicación publiquen sus documentos en una misma plataforma, con marcaciones propias si se quiere. Un caso de su uso que merece mención también por relacionarse con información abierta es el del diario The New York Times que publicó 25.000 hojas de correos electrónicos de la candidata a vicepresidenta de Estados Unidos, Sarah Palin. Así, al estar a disposición del público, los lectores también podían marcar aquello que les parecía relevante y ayudar a los periodistas. TEXTMATE: editor de texto plano con soporte para múltiples lenguajes de programación.
  • 44. 44 4.BIG DATA Big Data o lo que es lo mismo en español, los grandes volúmenes de datos, es el fenómeno que en tecnología de la información hace referencia precisamente a aquellas cantidades de datos tan altas que es difícil imaginarlas. Y así como es difícil imaginarlas, es de comprender el problema que representan en distintos ámbitos de la vida, tanto a nivel individual como general. Pues así como Big Data trajo beneficios también surgen constantemente nuevas necesidades en orden a poder almacenar tanta información, compartirla, organizarla y visualizarla. Para intentar imaginar a qué se refiere Big Data conviene destacar el último informe sobre el Universo Digital de la consultora internacional IDC de junio de 2011 (GANTZ, Jhon; REINSEL, David, 2011) según el cual toda la información digital del mundo se duplica cada dos años. Y lo que calculaban para fines de dicho año es que se llegaría a los 1,8 zettabytes de datos –cifra todavía por confirmar si se alcanzó-. Para tener una idea aproximada, un zettabyte son 1.000.000.000 billones de bytes. Dicho estudio -patrocinado por la empresa líder en almacenamiento EMC- se realiza anualmente desde 2007 y cada año ha arrojado conclusiones sorprendentes, como la que deduce que el 75 por ciento de la actual información en la web es creada por los individuos y que los datos a la actualidad siguen superando la capacidad de almacenamiento disponible. Las principales conclusiones del año a año de este estudio podrían resumirse de la siguiente manera: - En 2006, la cantidad de información digital creada, capturada y replicada fue de 161 mil millones de gigabytes, lo mismo que tres millones de veces la información contenida en todos los libros de la historia. La conversión de lo analógico en digital es gran responsable del crecimiento. - En 2007, la cantidad de información digital era de 281 mil millones de gigabytes. Este mismo año, por primera vez toda la información creada, capturada y replicada había excedido el almacenamiento disponible. - En 2008 se crearon 487 mil millones de gigabytes y alrededor del 70 por ciento fue responsabilidad de los individuos. - En 2009, según revelaba el informe 2010 de IDC, la información había crecido en el mundo un 62 por ciento hasta casi alcanzar 800.000 petabytes. Para imaginarlo, el informe compara esta cantidad con una torre de DVDs que va y vuelve de la Tierra a la Luna. - Por último, en 2010 la información ya alcanzaba y superaba la barrera del zettabyte llegando a 1,2 de esta última medida. Además, los usuarios se vuelven responsables del 75 por ciento del
  • 45. 45 contenido disponible y no sólo por la creación de información sino por la información que generan alrededor de ello. ILUSTRACIÓN 13. “A DECADE OF DIGITAL UNIVERSE GROWTH”. FUENTE: IDC’S DIGITAL UNIVERSE STUDY. Los efectos de tanta información disponible se manifiestan constantemente y hasta han transformado el panorama social. Así es que el tráfico de datos también ha crecido exponencialmente y según el Informe Global de la Nube (2010-2015) de Cisco se calcula que este se cuadriplicará para 2015 hasta llegar a los 4,8 zettabytes. Por aclarar aquí a qué es lo que se refiere el término “la nube” o “computación en la nube” (Cloud Computing), esta no tiene una definición estándar aceptada. Por lo que una que encuentra acepción y que puede considerarse en este trabajo es la de 2008 del IEEE Computer Society (MCFEDRIES, 2008): “Estamos al borde de la computación en la nube, en la que no sólo los datos sino incluso nuestro software reside dentro de la nube, y podemos acceder a todo, no sólo a través de nuestros equipos, sino también a través de dispositivos como teléfonos inteligentes, PDAs, electrodomésticos, consolas de juegos e incluso coches " A su vez, para el profesor y experto Luis Joyanes Aguilar “los datos y las aplicaciones se reparten en nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de Internet, Google, Microsoft, IBM, Sun Microsystems, Oracle, Amazon…, y poco a poco a cientos de grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a disposición de sus empleados, investigadores, doctorandos, etc.” (JOYANES, 2009).
  • 46. 46 De parte de todo esto se trata el fenómeno al que se llama Big Data, que no es una “cosa” o algo estático, sino que alude a un concepto dinámico. Según la definición de IDC, las tecnologías de Big Data, describen “una nueva generación de tecnologías y arquitecturas, diseñadas para extraer valor de grandes volúmenes de datos, permitiendo la captura a alta velocidad, su descubrimiento y/o análisis” (GANTZ, Jhon; REINSEL, David, 2011). Las medidas Para conocer con exactitud las medidas y tamaños de datos a los que se hace mención en este trabajo, es pertinente prestar atención al gráfico siguiente. ILUSTRACIÓN 14. "DATA INFLATION". FUENTE: THE ECONOMIST. Este cuadro corresponde al artículo “All too much” de la revista The Economist (febrero 2010) e ilustra de manera clara las unidades que miden la información digital. Como allí se especifica, estas están tomadas de la Oficina Internacional de Pesos y Medidas que en 1991 agregó los términos zetta y yotta, siendo estos los dos últimos. Así, para tener una estimación de cuanta información representa cada medida, The Economist hace comparaciones. Un B (byte) podría ser un número en código informático. Dos KB (kilobytes) son una página de sólo texto. Cinco MB (megabytes) podrían ser todas las obras de Shakespeare. Entre uno y dos GB (gigabytes) alcanzan para una película comprimida de dos horas. Todos los libros catalogados de la Biblioteca del Congreso de Estados Unidos son 15 TB (terabytes). Luego, un PB (petabyte)
  • 47. 47 equivalía en 2010 a toda la información que Google procesaba en una hora. Un EB (exabyte) podrían ser mil millones de copias de la revista The Economist. Por su parte, 1,2 ZB (zettabyte) es la cantidad de información que había en total en 2010. Mientas que un YB (yottabyte) es todavía “muy grande como para imaginar”. Un desafío en todos los ámbitos Con el correr de los últimos años es así como Big Data se ha ido convirtiendo en un elemento central del mundo actual. Y, sobre todo se ha vuelto un desafío. Por ejemplo para aquellas empresas que manejan inmensurables cantidades de información a cada hora. Pensar sino solamente en Facebook, Google o Twitter. Sólo en la plataforma de videos de YouTube se suben 72 horas de contenido por minuto5 , para tener una idea aproximada de los volúmenes de información a los que hacemos mención. Precisamente, por el lado empresarial es que el tema Big Data fue objeto de una cobertura especial de la revista The Economist de febrero de 2010 que se tituló “Data, data, everywhere”. Allí se dio cuenta de la “astronómica” cantidad de información que es procesada cada segundo -“en el mundo hay una cantidad de información digital inimaginable que se multiplica cada vez más rápido”- y del negocio que representa la economía centrada en los datos, si bien todavía faltaban las herramientas. En ese mismo reportaje así lo admitía el ejecutivo de Microsoft Craig Mundie: “Usted puede ver las líneas generales de esta economía pero las implicaciones técnicas de esta, la infraestructura e incluso el modelo de negocio, en este momento todavía no se comprenden bien”. La empresa del buscador Google bien sabe también la importancia que tiene la información y su potencial de negocio. Esto lo pone constantemente de manifiesto y puede evidenciarse en que el primer número de la primera revista de su autoría, “Think Quarterly” estuvo destinada a los datos y se llamó “The Data Issue”. En su introducción, Matt Brittin (2011), el Managing director de Google Reino Unido e Irlanda, invita a los lectores a inspirarse con la revista para “encontrar, entre un mar de información, los indicadores mágicos que le ayudarán a transformar su negocio”. Big Data es un desafío empresarial tanto por los problemas que puede acarrear, como por las oportunidades que representa. Un importante ejemplo es el tema del almacenamiento disponible que todavía es inferior a la cantidad de datos existente. Tener en cuenta al respecto que un gigabyte de contenido almacenado puede generar un tráfico de hasta un petabyte sin que este sea almacenado, como es el caso del streaming de televisión o de las llamadas de voz. 5 Cfr. “It's YouTube's 7th birthday... and you’ve outdone yourselves, again”. YouTube Blog (Mayo 2012)
  • 48. 48 Pero, según el informe de IBM, “What is big data? Bringing big data to the Enterprise”(2012), este fenómeno de Big Data, es “más que una simple cuestión de tamaño, es una oportunidad para encontrar ideas en nuevos y emergentes tipos de datos y contenidos, para hacer un negocio más ágil y dar respuestas a preguntas que antes podían parecer fuera de alcance”. Lo mismo decía la consultora Gartner Inc.-especializada en tecnologías de la información- en “Pattern-Based Strategy IT Research Report”, una publicación de 2011 en la que advertía que las empresas no debían tomar el almacenamiento como el único problema que acarrean los grandes volúmenes de datos. También están la variedad y la velocidad. La variedad en el sentido de que cada vez hay más tipos de información con los que lidiar y la velocidad tanto por la rapidez con la que se producen los datos como por lo rápido que la información deber ser procesada para satisfacer la demanda. De todas maneras, para los analistas de Gartner, BigData es un tema complejo pero el verdadero problema está en encontrarle sentido a tanta información y en buscar patrones que ayuden a las organizaciones a tomar mejores decisiones. Y, así como The Economist o Google con Think Quarterly no fueron ni los primeros medios relevantes ni los únicos en centrarse en Big Data como un tema actual y preponderante, previamente ya había habido otros indicios como el de la revista “Wired”. Esta, en su número de julio de 2008 habló de la “Era del Petabyte”, enfocada a destacar el potencial de la lectura matemática y estadística de los datos, sin importar el ámbito de su aplicación pues es la cantidad de información lo que hace la diferencia. Es en ese sentido que BigData permite una nueva forma de investigación en la que los números hablan por sí mismos: “La nueva disponibilidad de grandes volúmenes de datos junto con las herramientas estadísticas de hacer cálculos de estas cifras ofrece una nueva forma de entender el mundo”. Se refiere a la aplicación de algoritmos tan solo sea para descifrar tendencias y costumbres de los usuarios, por ejemplo. Asimismo, el desafío no sólo alcanza a las empresas en lo que refiere a almacenamiento y buen uso. También alcanza a los individuos y a la sociedad en general que deben aprender a manejarse en un mundo con sobreabundancia de información y aprovechar su potencial. O puede también alcanzar ámbitos específicos, como el científico por mencionar uno. Es así como la prestigiosa revista Nature en septiembre de 2008, hizo también su especial sobre el tema Big Data para resaltar los cambios que este fenómeno exige en el ámbito de la investigación: “Los investigadores deben obligarse a documentarse y manejar la información con el mismo profesionalismo que invierten en sus experimentos.” Incluso, en su editorial llega a afirmar que el