O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Curso_Analisis_Datos_UFBA

EL ARTE DEL ANÁLISIS DE DATOS: DE LAS HOJAS DE CÁLCULO A R

Curso de extensión en:
Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
Universidade Federal da Bahía (UFBA)
Abril 2010

  • Entre para ver os comentários

Curso_Analisis_Datos_UFBA

  1. 1. El “arte”del análisis de datos: De las hojas de cálculo a R Juan Freire Universidade da Coruña http://juanfreire.net/ Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC) Universidade Federal da Bahía (UFBA) Abril 2010
  2. 2. ¿Para qué el análisis de datos? • Fuentes de información disponibles • Hipótesis a priori • Patrones posibles
  3. 3. http://en.wikipedia.org/wiki/Data_analysis Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of highlighting useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
  4. 4. Texto Cultural analytics (Lev Manovich) Visualization shows 1048576 Manga pages Each point represents one page grey points - all pages in the set red points - all pages corresponding to a single title: Anatolia Story (artist: Chie Shinohara) X axis - brightness mean Y axis - entropy
  5. 5. Antes de iniciar el diseño del análisis de datos Análisis cuantitativos ... a veces de información cualitativa • Hipótesis • Exploración de patrones
  6. 6. Fuentes de información - Unidades de información (casos) - Contenido (variables) - Tipos de contenido (codificación): cuantitativo semi-cuantitativo (ordenado) categórico 1/0
  7. 7. Fases del análisis de datos a) Diseño de bases de datos: variables (codificación); casos b) Exploración de datos - Visualización c) Depuración de datos: errores, outliers, redefinición de variables d) Análisis estadísticos - Visualización
  8. 8. Análisis exploratorio Métodos gráficos • Depuración de datos • Visualización de patrones: sugerir hipótesis • Planificar la obtención de nueva información
  9. 9. Gráficos estadísticos Visualización de datos cuantitativos • Box-plots • Histogramas • Scatter plots • ...
  10. 10. Blox plots
  11. 11. Histogramas
  12. 12. Pareto chart
  13. 13. Scatter plot
  14. 14. Correlation scatter-plot matrix for ordered-categorical data
  15. 15. A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page.
  16. 16. Detección de outliers An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense, this definition leaves it up to the analyst (or a consensus process) to decide what will be considered abnormal. Before abnormal observations can be singled out, it is necessary to characterize normal observations. Engeneering Statistics Handbook
  17. 17. Errores / Outliers
  18. 18. Algunos ejemplos de análisis de datos y visualización científica en arte
  19. 19. Harun Farocki. Deep Play
  20. 20. Harun Farocki – Deep Play
  21. 21. Ben Fry. Cartografías genéticas (Processing)
  22. 22. Ben Fry. Cartografías genéticas. Processing
  23. 23. Análisis y visualización de redes tróficas
  24. 24. Compilation and Network Analyses of Cambrian Food Webs Chengjiang Shale Burgess Shale
  25. 25. East River Valley Trophic Web
  26. 26. Little Rock Lake Trophic Web: Dynamic View 5
  27. 27. Software para análisis de datos y visualización • Bases de datos • Hojas de cálculo • Paquetes de gráficos (+ estadística básica) • Paquetes estadísticos (+visualización + lenguaje de programación)
  28. 28. Curvas de aprendizaje R resultados hoja de cálculo planilha eletrônica tiempo
  29. 29. Sistemas de gestión de bases de datos • OpenOffice.org Base • Microsoft Office Access • mySQL • ...
  30. 30. Holas de cálculo (Planilha eletrônica) • Open Office.org Calc • Gnumeric • Microsoft Office Excel • Google Docs • ...
  31. 31. http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif
  32. 32. OpenOffice.org Calc
  33. 33. Gnumeric
  34. 34. Algunos usos de hojas de cálculo • Gestión e importación de datos • Tablas de dinámicas • Correlación y regresión
  35. 35. Sofware estadítico • SAS: Business Analytics and Business Intelligence Software. Windows. $$$$$$$. GUI • IBM SPSS Statistics (antes: Statistical Package for the Social Sciences). Windows, Mac, Linux. $$$. GUI • Statistica. Windows, Mac. $$$. GUI • R. Software libre. Linux, Mac, Windows. Línea de comandos
  36. 36. http://www.r-project.org/
  37. 37. ¿Qué es R? • Lenguaje de programación • Software libre, gratuito y multiplataforma • Línea de comandos • Extensible • Área de trabajo
  38. 38. Paquetes en R • Colecciones de funciones, datos y código • compilado • formato estandarizado
  39. 39. Extensiones de la interfaz • Windows, Mac: Tienen una GUI que te deja hacer bastantes cosas con menús • Edición de Scripts: • Interno a la GUI • Externo: Tinn-R, R-WinEdt, o mediante plugins
  40. 40. Tinn-R
  41. 41. ggplot2

×