El documento presenta una introducción al concepto de "data pipeline" y sus diferentes etapas, incluyendo: 1) plantear preguntas, 2) obtener información de fuentes abiertas u oficiales, 3) extraer los datos utilizando herramientas como importHTML, ImportData o ImportXML, 4) limpiar los datos utilizando funciones de búsqueda y reemplazo, 5) analizar los datos mediante pivot tables o R, y 6) visualizar los resultados utilizando herramientas como Infogram, CartoDB o Tableau Public. El documento también menciona form
9. Datos
• Dataset: Una colección de Datos, usualmente el
mismo tipo de datos. Ejemplo: Alumnos de este taller; un
Álbum de Canciones
• Metadata: Datos sobre los Datos. De dónde vienen,
cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus
nombres, medio en el cual trabajan, sección, rol, desdecuándo.
Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
• Datos Abiertos: Datos liberados y que cualquiera
tiene permitido usar,reusar, construir cosas con ellos y compartir
los resultados
10. ¿Cómo empezamos a trabajar?
El “Data Pipeline” inicia
planteándose una pregunta para
luego encontrar la información,
extraerla, limpiarla, verificarla,
analizarla y presentarla.
http://es.schoolofdata.org/tag/pipeline/#sth
ash.1hteD09x.dpuf
12. Comenzamos con una o más preguntas
¿Qué sucede en mi país?
¿En qué se gasta el presupuesto público?
¿Cuántos partidos ganó mi selección?
Y así…..
1
13. 2 Obtener la información
Algunas fuentes y portales
oficiales de datos
O haciendo uso de pedidos de
acceso a la información
HACKEANDO
14. Nerd Moment
Extracción (Hackeand0). Acá los datos se
convierten desde cualquier formato de entrada
que se ha adquirido (por ejemplo, archivos
XLS, PDF o incluso documentos de texto
plano) en una forma que se puede utilizar para
su posterior procesamiento y análisis.
La mayoría de veces implica cargar los datos en un
sistema de base de datos, como MySQL o
PostgreSQL.
O si eres más c00l MongoDB, Redis, SQLite, etc.
15. SCRAPPING
• Scraping es un término que, traducido al español,
literalmente quiere decir “rascado”. Sin embargo, en
este contexto, se refiere a la limpieza y filtro de los
datos.
• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-
sitios-web-scraping/#sthash.0qgjKaad.dpuf
• ImportHTML en Google Spreadsheets
3 Extraer
16. • The Google spreadsheet formula:
=importHTML("","table",N)
=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United
_Kingdom_settlements_by_population","table",2) - See more at:
http://schoolofdata.org/handbook/recipes/liberating-html-
tables/#sthash.tDFCZOhd.dpuf
IMPORTDATA o
IMPORTXML
17. Extraer los datos
• Tabula Permite extraer tablas de PDFs.
• SmallPDF y Nitro Permiten convertir archivos de
PDF a csv. La versión gratuita de Nitro permite un
máximo de 50 páginas.
• Import.io Permite scrappear de manera fácil
algunos sitios web
18. Limpiar los datos
• Buscar+Reemplazar: Permite fácilmente buscar
términos en la hoja de cálculo y reemplazarlos por
otros (google docs)
• Open Refine: Permite limpiar, modificar y exportar
bases de datos. Además es gratuita.
4
19. Análisis de datos
• Pivot Tables Una herramienta simple pero
poderosa que permite hacer y responder preguntas
con los datos.
• R para los usuarios más avanzados, R es un
lenguaje y entorno de programación para el análisis
estadístico. Es gratuito y de software libre.
5
20. Visualización6
• Con infogram se pueden crear gráficos e infografías
con un par de clicks. La herramienta es gratuita aunque
para usar todas sus opciones se requiere pagar una
cuota.
• CartoDB es ideal para visualizar información
geolocalizada.
• Tableau Public El programa se descarga y offline
permite hacer diferentes tipos de visualizaciones.
• Datawrapper Útil para hacer diferentes tipos de
gráficos, todo de forma gratuita.
• Google Fusion Tables Permite organizar, visualizar y
compartir información organizada en tablas de datos.
22. ¿Cómo se implementa?
• Skillshares (online)
• Blog y web
• Data workshops (offline)
• Expedición de datos (online y offline)
• Other events and Data Projects – Collaborations
25. 10 min
Tarea: Encuentra una página web con una tabla y obtén
información de ella.
http://schoolofdata.org/handbook/recipes/liberating-
html-tables/
http://schoolofdata.org/handbook/recipes/scraper-
extension-for-chrome/
• Una vez que tengas la tabla en tu hoja de cálculo, lo más
seguro es que quieras jugar con los datos o cambiarlos
de hoja. Haz clic en el botón superior izquierdo y
selecciona paste special (pegado especial) y luego paste
values only (pegar sólo valores).
26. Desafío: Ayuda a liberar el
presupuesto
Tarea: ¡Encuentra un PDF encarcelado que puedas
liberar!
• Por ejemplo, existen muchos PDFs que necesitan tu
ayuda en este link: Budget Library of the
International Budget Partnership.
27. Liberar el presupuesto
Una vez que liberes tus datos, compártelos con
alguien y ahórrales el penoso trabajo. Incluso los pues
subir al OpenSpending group en Datahub o al
OpenSpending Mailing List , complementado con una
explicación de lo que hiciste.