SlideShare uma empresa Scribd logo
1 de 66
Baixar para ler offline
LIBRO DE RESÚMENES
IV JORNADAS DE USUARIOS DE R
CREAL, BARCELONA
15 Y 16 DE NOVIEMBRE DE 2012
COMITÉS ORGANIZADOR Y CIENTÍFICO
http://r-es.org/4j
13 DE NOVIEMBRE DE 2012
© 2012 Organización de las IV Jornadas de Usuarios de R
Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la
misma licencia 3.0 España de Creative Commons. Para ver una copia de esta licencia,
visite:
http://creativecommons.org/licenses/by-nc-sa/3.0/es/legalcode.es.
Usted es libre de copiar, distribuir y comunicar públicamente la obra, y hacer obras
derivadas bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los créditos de la obra de la manera especi-
ficada por el autor o el licenciador (pero no de una manera que sugiera que tiene
su apoyo o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o gene-
ra una obra derivada, sólo puede distribuir la obra generada bajo una licencia
idéntica a ésta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licencia
de esta obra. Alguna de estas condiciones puede no aplicarse si se obtiene el permiso
del titular de los derechos de autor. Nada en esta licencia menoscaba o restringe los
derechos morales del autor.
I
Índice general
Índice general III
Información General IX
Presentación X
Información útil XI
Comité organizador XIII
Comité científico XIV
Patrocinadores XV
Programa XVI
I Sesión de Comunicaciones I 1
1 Funciones geoestadísticas y funciones de base radial en el programa R: Pa-
quete geospt 2
Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra Esperanza
Melo Martínez
Universidad Distrital Francisco José de Caldas
Universidad Nacional de Colombia
Universidad de Barcelona - España.
2 Investigación operativa reproducible. Aplicación a la optimización de sis-
temas energéticos 3
Emilio L. Cano, Javier M. Moguerza
Dpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos
3 MicroDatosEs: un paquete para leer ficheros de microdatos públicos 4
Carlos-J. Gil Bellosta
datanalytics
III
ÍNDICE GENERAL
4 Flujo de trabajo reproducible con R 5
Aureli Alabert
Universitat Autònoma de Barcelona
5 A study of poverty and income inequality in the EU countries 6
Jitka Bartosova, Nicholas T. Longford
University of Economics in Prague, Jindrichuv Hradec, Czech Republic
SNTL and UPF, Barcelona, Spain
II Sesión de Comunicaciones II 7
6 Caracterizacion Del Software Estadistico En Las Escuelas De Estadistica
Del Ecuador. Enfoque En El Software R 8
Rubén Pazmiño Maji
Escuela Superior Politécnica de Chimborazo
7 A cross-country air quality analysis using R 9
Olga Ivina
Collaborative statistician at CREAL. Research fellow at the University of Girona
8 Inferencia estadística para el equilibrio de Hardy-Weinberg en estudios de
genotipado con Missing Data 10
Milagros Sánchez Mayor, Jan Graffelman
Department of Statistics and Operations Research
Universitat Politècnica de Catalunya
Barcelona, Spain
9 Representación de las Dinámicas de Precios Hoteleros mediante R 12
Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres Manzanera
CICtourGUNE
10 El paquete complex.surv.dat.sim de R: Simulación de datos de superviven-
cia complejos 13
David Moriña, Albert Navarro
Centre Tecnològic de Nutrició i Salut
Facultat de Medicina, Universitat Autònoma de Barcelona
BioStatNet
11 De Excel a html utilizando knitr+markdown+googleVis . Un ejemplo 14
José-Luis Cañadas Reche
Técnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-CSIC
12 Programación Lineal y Programación Dinámica con R 15
Beatriz González Pérez, Victoria López López, Juan Sampedro Ruiz
Facultad de Matemáticas, Universidad Complutense de Madrid
Facultad de Informática, Universidad Complutense de Madrid
Facultad de Matemáticas, Universidad Complutense de Madrid
IV
Índice general
13 Selección de variables y modelizado predictivo en R 16
Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, Manuel
Julian Alía-Martínez, Roberto Fernández-Martínez
Grupo EDMANS, Universidad de La Rioja
14 Evaluación de modelos paramétricos de predicción de irradiación global
solar mediante variables meteorológicas típicas 17
Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, Oscar
Perpiñan-Lamigueiro
Grupo EDMANS, Universidad de La Rioja
Universidad Politécnica de Madrid
15 Uso de métodos de interpolación espacial para la predicción de variables
en entornos vitivinícolas 19
Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia,
Andres Sanz Garcia
Grupo EDMANS, Universidad de La Rioja
IIISesión de Comunicaciones III 20
16 R como caja de herramientas para SIG y Teledetección: reflexiones a partir
de experiencias 21
Agustín Lobo
Institut de Ciències del Terra Jaume Almera. Consejo Superior de Investigaciones
Científicas
17 Simulación de perfiles genéticos de riesgo 22
Víctor Urrea Gales, María Luz Calle Rosingana
Universidad de Vic
18 Construcción de un Índice Global de Valoración 23
Ane Zarragoitia, Arantza Urkaregi, Jesús Morán
UPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miembro
de la red BIOSTATNET
Unidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Bara-
kaldo. Bizkaia.
19 kerdiest:: An R Package for Distribution Function Estimation and Applica-
tions 25
Graciela Estévez-Pérez, Alejandro Quintela-del-Río
Departamento de Matemáticas - Universidad de A Coruña
IVSesión de Comunicaciones IV 27
20 seq2R: Detección de puntos de cambio en secuencias genómicas. 28
Nora M. Villanueva , Marta Sestelo, Javier Roca-Pardiñas
Departamento de Estadística e Investigación Operativa
Universidad de Vigo
V
ÍNDICE GENERAL
21 Exploring bi-allelic genetic markers with the HardyWeinberg package 29
Jan Graffelman
Departament d,Estadística i Investigació Operativa
Universitat Politècnica de Catalunya
22 FWDselect: Selección de variables en modelos de regresión 31
Marta Sestelo, Nora M. Villanueva, Javier Roca-Pardiñas
Departamento de Estadística e Investigación Operativa
Universidad de Vigo
23 Reducción unidimensional de 12 items en la escala de sobrecarga de Zarit 32
Borja Santos, Eduardo González, Javier Ballesteros
Universidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For-
mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212)
Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio.
Universidad del País Vasco (UPV), Departamento de Neurociencias y Cibersam G-
16.
24 The optimalAllocation package for longitudinal studies design with time-
varying exposure 34
Jose Barrera-Gómez, Xavier Basagaña
Centre for Research in Environmental Epidemiology, Barcelona, Spain.
IMIM (Hospital del Mar Research Institute), Barcelona, Spain.
CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain.
V Talleres 35
25 Web scraping con R 36
Gregorio R. Serrano
Dpto. de Economía Cuantitativa
Fctad. CC. Económicas y Empresariales, UCM
26 Informes dinámicos con LaTeX y R: utilización de Sweave y knitr. 37
Francesc Carmona
Departamento de Estadística. Universidad de Barcelona.
27 Interfaces Web 2.0 para R con Tiki 38
Xavier de Pedro Puente
Unidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB-
VHIR). Barcelona. http://ueb.vhir.org
28 Edición (y mucho más) potente en R con ESS (Emacs Speaks Statistics) 39
Alex Sánchez
Departament d’Estadística. Universitat de Barcelona. Barcelona, Espanya.
Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca.
29 Machine Learning in R 40
Alexandros Karatzoglou
Telefonica Investigación y Desarrollo
VI
Índice general
30 Introducción a las Reference Classes (programación orientada a objetos en R) 41
Aleix Ruiz de Villa
TSS - Transport Systems and Simulations
31 Introducción práctica a la librería ggplot2 y su integración con ggmap. 42
Lluís Ramon, Andreu Vall, Roger Borràs
Oficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat de
Catalunya. Miembro del R Users Group Barcelona.
Asistente de investigación en IESE Business School, Departamento de Dirección de
Producción, Tecnología y Operaciones. Miembro del R Users Group Barcelona.
Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya.
Miembro del R Users Group Barcelona.
Autores e Instituciones 43
Índice de autores 44
Índice de Instituciones 45
VII
Información General
IX
Presentación
Las IV Jornadas de Usuarios de R tendrán lugar en el Centro de Investigación en
Epidemiología Ambiental (CREAL), ubicado en el Parque de Investigación Biomédica
de Barcelona (PRBB), los días 15 y 16 de Noviembre de 2012. El parque incluye seis
centros de investigación que son un claro ejemplo de la importacia de R tanto en el
ámbito biomédico como el académico, ya que todos ellos utilizan este software para
llevar a cabo sus estudios o formar a futuros investigadores. Las jornadas, como no
podría ser de otra forma, van a incluir trabajos de todos los ámbitos y están abiertas
tanto a usuarios como a entusiastas de R independientemente de su área de interés. Los
objetivos para estas jornadas serán los mismos que para las anteriores que tan buenos
resultados obtuvieron. Estos objetivos incluyen:
Proporcionar un punto de encuentro a los usuarios de R
Fomentar la colaboración entre ellos en un ambiente multidisciplinar
Divulgar el conocimiento del lenguaje y sus posibilidades
Promover el uso de R
En esta edición, además de las ponencias invitadas, las presentaciones orales y los
talleres, se llevarán a cabo presentaciones breves donde el ponente expondrá de forma
concisa los resultados y conclusiones de alguna investigación llevada a cabo con R que
puedan ser de interés para otros colegas.
Desde el comité organizador nos gustaría destacar la excelente labor llevada a cabo
por el comité científico, a los ponentes de los talleres y a todos los asistentes que han
permitido confeccionar el programa que a continuación detallamos y esperamos que
sea de vuestro interés.
Esperamos que las jornadas resulten lo más provechosas posibles y que disfrutéis
de una confortable estancia en Barcelona.
X
Información útil
Ubicación de las jornadas
Las jornadas se celebrara´n en el PRBB. En este enlace se puede ver cómo acceder
por transporte público.
Las comunicaciones orales y breves se llevarán a cabo en la sala Xipre situada en la
primera planta del edificio, justo donde se ubica el CREAL. Su situación estará señali-
zada a la entrada del paque.
Para acceder al edificio cada participante se deberá identificar en recepción donde
disponen de una lista con todos los asistentes.
Talleres
Los participantes a los talleres deben traer su propio ordenador portátil con las
herramientas que indiquen los responsables de talleres. La inscripción de los talleres
se realizará tal y como indica la web de las jornadas . Dado el limitado número de
plazas, se reservará plaza por orden de inscripción. Los talleres se desarrollarán en la
Sala Xipre (donde se lleva a cabo el congreso), y en la Sala Ramón y Cajal (jueves día
15) y Sala Charles Darwin (viernes día 16), ambas situadas en la planta baja del edificio
(locales interiores).
Certificados
Los certificados se enviarán por correo electrónico una vez pasadas las Jornadas.
XI
INFORMACIÓN ÚTIL
Material
Todo el material, está disponible a través de la página web de las Jornadas . Adicio-
nalmente, se entregará a los inscritos una memoria USB con el material adicional que
haga falta para los talleres, así como la última versión disponbile del programa de las
jornadas y libro de comunicaciones, a fecha de grabado de las memorias USB.
XII
Comité organizador
Juan R. González, (coordinador) y por orden alfabético,
Aleix Ruiz de Villa
Alex Sanchez
Carlos J. Gil Bellosta
Esteban Vegas
Llorenç Badiella
Lluis Ramon
Paco Carmona
Roger Borras
Xavier de Pedro
y el soporte técnico de Iolanda Molina (CREAL)
XIII
Comité científico
Juan José Gibaja (coordinador), y por orden alfabético:
Gregorio R. Serrano
Joan Vila
Jose Barrera
Miguel Ángel Rodríguez Muíños
Oscar Perpiñán Lamigueiro
Otto F. Wagner
Ramón Díaz Uriarte
Sandra Barragán
XIV
Patrocinadores
XV
Programa
JUEVES 15 DE NOVIEMBRE
• 09:00-09:30 Acreditación y recogida de información
• 09:30-09:45 Inauguración oficial de las Jornadas. J.R. González.
• 09:45-10:30 Conferencia Inaugural. J. Vila: Enseñando estadística: como me-
jorar los conocimientos utilizando R para la creación de prácticas individua-
lizadas.
• 10:30-12:00 Sesión de Comunicaciones (I) Moderador: G.R Serrano
◦ 10:30-10:45 C. E. Melo Funciones geoestadísticas y funciones de base
radial en el programa R: Paquete geospt
◦ 10:45-11:00 E. L. Cano Investigación operativa reproducible. Aplicación
a la optimización de sistemas energéticos
◦ 11:00-11:15 C. J. Gil MicroDatosEs: un paquete para leer ficheros de mi-
crodatos públicos
◦ 11:15-11:30 A. Alabert Flujo de trabajo reproducible con R
◦ 11:30-11:45 N. Longford A study of poverty and income inequality in
the EU countries
• 12:00-12:30 Café
• 12:30-14:00 Sesión de Comunicaciones (II) Moderador: A. Sánchez
◦ 12:30-12:45 R. Pazmiño Caracterizacion del software estadistico en las
escuelas de estadistica del Ecuador. Enfoque en el software R
◦ 12:45-13:00 O. Ivina A cross-country air quality analysis using R
◦ Comunicaciones Breves
13:00-13:07 M. Sánchez Inferencia estadística para el equilibrio de
Hardy-Weinberg en estudios de genotipado con Missing Data
13:07-13:15 I. Roman Representación de las Dinámicas de Precios
Hoteleros mediante R
13:15-13:22 D. Moriña El paquete complex.surv.dat.sim de R: Simu-
lación de datos de supervivencia complejos
13:22-13:30 J-L. Cañadas De Excel a html utilizando knitr + mark-
down + googleVis . Un ejemplo
13:30-13:37 B. González Programación Lineal y Programación Diná-
mica con R
XVI
13:37-13:45 A. Sanz-García Selección de variables y modelizado pre-
dictivo en R
13:45-13:52 F. Antoñanzas-Torres Evaluación de modelos paramétri-
cos de predicción de irradiación global solar mediante variables me-
teorológicas típicas
13:52-14:00 R. Fernández Uso de métodos de interpolación espacial
para la predicción de variables en entornos vitivinícolas
• 14:00-16:00 Comida
• 16:00-17:45 Talleres (I)
◦ G. R. Serrano Web scraping con R
◦ F. Carmona Informes dinámicos con LaTeX y R: utilización de Sweave y
knitr.
• 17:45-18:15 Café
• 18:15-20:00 Talleres (II)
◦ X. de Pedro Interfaces Web 2.0 para R con Tiki
◦ A. Sánchez Edición (y mucho más) potente en R con ESS (.Emacs Speaks
Statistics")
• 20:00-21:00 Asamblea Asociación “Comunidad R-Hispano”
• 21:30 Cena
VIERNES 16 DE NOVIEMBRE
• 10:00-11:00 Sesión de Comunicaciones (III) Moderador: F. Carmona
◦ 10:00-10:15 A. Lobo R como caja de herramientas para SIG y Teledetec-
ción: reflexiones a partir de experiencias
◦ 10:15-10:30 V. Urrea Gales Simulación de perfiles genéticos de riesgo
◦ 10:30-10:45 A. Urkaregi Construcción de un Índice Global de Valoración
◦ 10:45-11:00 G. Estévez-Pérez kerdiest: An R Package for Distribution
Function Estimation and Applications
• 11:00-12:00 Sesión de Comunicaciones (IV) Moderador: Ll. Ramon
◦ 11:00-11:15 N. M. Villanueva seq2R: Detección de puntos de cambio en
secuencias genómicas
◦ 11:15-11:30 J Graffelman Exploring bi-allelic genetic markers with the
HardyWeinberg package
◦ 11:30-11:45 M. Sestelo FWDselect: Selección de variables en modelos de
regresión
◦ 11:45-12:00 B. Santos Reducción unidimensional de 12 items de la Es-
cala de sobrecarga de Zarit en cuidadores de pacientes con demencia
mediante teoría de respuesta a los ítems.
◦ 12:00-12:15 J. Barrera The optimal Allocation package for longitudinal
studies design with time-varying esposure
• 12:15-12:45 Café
• 12:45-14:30 Talleres (III)
XVII
PROGRAMA
◦ A. Karatzoglou Machine learning in R
• 14:30-16:15 Comida
• 16:15-18:00 Talleres (IV)
◦ A. Ruiz Introducción a las Reference Classes (programación orientada a
objetos en R)
◦ Ll. Ramon, R. Borras y A. Vall Introducción práctica a la librería ggplot2
y su integración con ggmap
• 18:00-18:30 Café
• 18:30-19:00 Clausura Oficial de las IV Jornadas
XVIII
Sesión de Comunicaciones I
1
1 Funciones geoestadísticas y funciones
de base radial en el programa R:
Paquete geospt
Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra Esperanza
Melo Martínez
Universidad Distrital Francisco José de Caldas
Universidad Nacional de Colombia
Universidad de Barcelona - España.
Proponemos una serie de funciones que están diseñadas en el programa R. Estas
permiten un análisis geoestadístico más completo junto con la ayuda de paquetes pre-
viamente diseñados en R, tales como: geoR, gstat y sgeostat, entre otros. De esta ma-
nera, estas contribuciones son: una función para la construcción del variograma expe-
rimental de la media recortada, una función para la construcción del pocketplot para
datos grillados (útil para el análisis de estacionariedad local), y funciones de base radial
(multicuadrática, multicuadrática inversa, spline con tensión, completamente regula-
rizada spline y spline capa delgada) con tendencia para optimizar, predecir y realizar
validación cruzada en el espacio, una función para producir un gráfico que muestra
el comportamiento del parámetro de suavizamiento “eta”, asociado con la función de
base radial, y una función que genera una tabla con el resumen de las estadísticas
de la validación cruzada para evaluar la exactitud de los métodos de interpolación
(geoestadísticos y determinísticos) con base en los errores de predicción. Se describen
brevemente algunas de las funciones, y luego se ilustra su funcionamiento con varios
ejercicios. El paquete esta implementado en el programa (R Development Core Team
(2012)) y se encuentra disponible en el Comprehensive R Archive Network (CRAN) en
http://cran.r-project.org/web/packages/geospt.
2
2 Investigación operativa reproducible.
Aplicación a la optimización de
sistemas energéticos
Emilio L. Cano, Javier M. Moguerza
Dpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos
Cuando resolvemos problemas de optimización, antes de la llamada al soluciona-
dor (solver) con el algoritmo adecuado, normalmente se deben realizar un conjunto
de tareas diversas. Estas tareas incluyen preparación de datos, análisis estadístico, o
representaciones gráficas, entre otras. Del mismo modo, una vez obtenida la solución,
estos resultados pueden ser tratados y presentados de distintas formas. En este tra-
bajo presentamos un método para aplicar las técnicas de investigación reproducible
a la toma de decisiones respecto a la optimización de sistemas energéticos a nivel de
edificio. Se propone un marco de trabajo integrado utilizando el software estadístico y
lenguage de programación R. Esta solución permite la representación de los modelos,
la instancia del problema, y los resultados en distintos formatos, tanto para ser inter-
pretados por las máquinas como por las personas. Este enfoque, frente al sistema de
copiar-y-pegar, proporciona a los investigadores operativos una poderosa herramienta
para incrementar su productividad y, por lo tanto, su competitividad.
2.1. Bibliografía
EnRiMa. 2012. Energy efficiency and risk management in public buildings. www.enrima-
project.eu.
Kallrath, Josef. 2012. Algebraic modeling languages: Introduction and overview.
Josef Kallrath, ed., Algebraic
Modeling Systems, Applied Optimization, vol. 104. Springer Berlin Heidelberg,
3–10. doi:10.1007/ 978-3-642-23592-4 1.
Knuth, Donald E. 1984. Literate programming. The Computer Journal 27(2) 97–111.
Baggerly, Keith A., Kevin R. Coombes. 2009. Deriving chemosensitivity from cell
lines: Forensic bioinformatics and reproducible research in high-throughput biology.
The Annals of Applied Statistics 3(4) 1309–1334.
Theussl, Stefan. 2012. CRAN Task View: Optimization and Mathematical Program-
ming. Internet. URL http://cran.r-project.org/web/views/Optimization.html. [retrie-
ved 2012-06-29].
3
3 MicroDatosEs: un paquete para leer
ficheros de microdatos públicos
Carlos-J. Gil Bellosta
datanalytics
El paquete MicroDatosEs automatiza la lectura en R de ficheros de microdatos (pro-
cedentes de encuestas, censos, etc.) que diversos organismos públicos españoles (como
el INE, el CIS, etc.) ponen a disposición de la ciudadanía y que tienen una gran impor-
tancia tanto científica como social. Desafortunadamente, el formato en el que se publi-
can, exige un penoso proceso de carga si se quieren importar a R (u otros programas
de análisis estadístico).
El paquete MicroDatosEs combina los metadatos necesarios para realizar la impor-
tación automática de dichos ficheros a R facilitando su análisis y fomentando así, en
general, el uso de esa información por parte de los investigadores, medios de comuni-
cación, etc. Trata de fomentar además el uso de R por parte de un sector de los usuarios
de la estadística que, hasta la fecha, vienen prefiriendo el uso de otros paquetes de aná-
lisis estadístico distintos de R.
La charla subraya en primer lugar la importancia de ese tipo de información así
como la conveniencia de extender el uso de R en ámbitos como el de la estadística
pública y el periodismo de datos para pasar luego a una descripción de la estructura
modular del paquete y sus mecanismos de expansión para leer nuevos tipos de ficheros
de microdatos.
4
4 Flujo de trabajo reproducible con R
Aureli Alabert
Universitat Autònoma de Barcelona
La reproducibilidad es clave tanto para el avance científico como para los análisis
estadísticos. És también importante para facilitar el propio desarrollo de los análisis y
evitar errores.
Recientemente han aparecido diversas herramientas que facilitan la generación au-
tomática de informes estadísticos, siguiendo la filosofia literate programming, que au-
tomatiza la generación simultánea de un código y de la documentación de ese código.
Se mostrará el uso de programas como markdown, pandoc, latex, etc, junto con el
package de R knitr, para implementar esta idea en la práctica, produciendo informes
reproducibles de calidad en html, pdf o slidy.
5
5 A study of poverty and income
inequality in the EU countries
Jitka Bartosova, Nicholas T. Longford
University of Economics in Prague, Jindrichuv Hradec, Czech Republic
SNTL and UPF, Barcelona, Spain
The European Union Statistics and Income and Living Conditions is a collection
of annual surveys in the country of EU. It has a cross-sectional and a longitudinal
part. The presentation will describe a comprehensive agenda for the analysis of these
surveys, with a focus on the Lorenz curve and Gini coefficients in the countries, and
for some countries also in their regions. An integral part of the analysis are graphical
displays.
The analyses are implemented in user-defined (custom-written) functions in R with
a link to the database which comprises Stata and Excel files. The functions are organi-
sed in three sets. One set is for simple tasks, such as data input and reduction, gene-
rating basic data summaries, and evaluation of the Lorenz curve for a country and
year. Another set combines several of these tasks; their main arguments are country
and year and they return a matrix or list of results. A third set of functions operates
on these results to generate diagrams and to condense the results to objects that are
easy to inspect and comprehend. Together with a set of auxiliary functions they will be
organised in an R package.
The contribution was partially supported by project IG F6/3/2012 "Quantitative
Study of the Social Situation of Juniors and Seniors.of the Internal Grant Agency of
University of Economics in Prague, Czech Republic.
6
Sesión de Comunicaciones II
7
6 Caracterizacion Del Software
Estadistico En Las Escuelas De
Estadistica Del Ecuador. Enfoque En
El Software R
Rubén Pazmiño Maji
Escuela Superior Politécnica de Chimborazo
El día jueves 10 de Abril del 2008 se emitió el decreto 1014 por parte de la presi-
dencia del Ec. Rafael Correa Delgado que promueve el uso de software libre en las
instituciones públicas del Ecuador. Se han hecho algunos esfuerzos para impulsar su
utilización. En las instituciones educativas de nivel bajo y medio se ha impulsado la
utilización de software libre donando computadores con el sistema operativo Ubuntu,
se ha apostado también a la capacitación de los docentes en la utilización de Libreof-
fice y sus aplicaciones educativas. En el ámbito universitario cada institución define
sus estrategias, pero no todas son claras ni explicitas en sus reglamentos y actividades.
Con éste trabajo se desea caracterizar la utilización de Software Estadístico en el ca-
so de todas las escuelas de Estadística del Ecuador. Haciéndose especial énfasis en la
utilización del Software estadístico R. Además se comparte las primeras apreciaciones
por parte de estudiantes universitarios en la utilización de R, como primer software
estadístico de estudio.
8
7 A cross-country air quality analysis
using R
Olga Ivina
Collaborative statistician at CREAL. Research fellow at the University of Girona
a macrolevel, quality of air at a given country depends on various factors. Among
them are: country’s economic determinants, such as GDP per capita and its industrial
profile, as well as population determinants, such as quality of life and people’s edu-
cation, infrastructure, climate and policies. This research makes use of the data from
the World Bank and the IMD World Competitiveness Yearbook. Annual PM10 concen-
trations across more than 50 countries have been taken up as a measure of air quality,
since it is a common factor for all the countries that has been tracked by the WHO and
the World Bank.
A decision tree model based of the CART algorithm has been fitted for 2009 data
with the use of the rpart package. Descriptive statistics analysis has been performed
with the use of stats package functions.
7.1. Bibliografía
1. Sergey Aivazian, On the Key Factors of Socio-Economic Policy and Institutio-
nal Development that Determine the Improvement of the Quality of Life. – Austrian
Journal of Statistics, 2008, vol. 37 (1).
2. The IMD World Competitiveness Yearbook, 2009.
3. Philip L. H. Yu, Wai Ming Wan and Paul H. Lee, Decision Tree Modeling for
Ranking Data, 2011, Preference Learning, Part 1, pages 83-106
4. Terry M Therneau and Beth Atkinson, Package ‘rpart’, version 3.1-54, 2012.
9
8 Inferencia estadística para el
equilibrio de Hardy-Weinberg en
estudios de genotipado con Missing
Data
Milagros Sánchez Mayor, Jan Graffelman
Department of Statistics and Operations Research
Universitat Politècnica de Catalunya
Barcelona, Spain
El modelo de Hardy-Weinberg siendo una proposición teórica es muy valioso para
evaluar los factores evolutivos que están operando en las poblaciones. Si una pobla-
ción no presenta estructura genética según este equilibrio, es porque están actuando
algunos de los factores evolutivos. Según la relación entre homocigotos o heterocigo-
tos, esperados y observados, se pueden deducir varias desviaciones. En términos de
marcadores, entre ellos los SNPs, podemos remarcar 2 aplicaciones importantes en el
Equilibrio de Hardy-Weinberg: (I) Con él detectar errores de genotipado. (II) Si un mar-
cador está asociado a una enfermedad, se espera desequilibrio de Hardy-Weinberg, es
decir, el equilibrio de Hardy-Weinberg para un determinado marcador puede indicar
que este marcador esté en un gen involucrado con la enfermedad. Cuando tenemos
presente Missing Data la inferencia estadística sobre el equilibrio de Hardy-Weinberg
en presencia de datos genotípicos puede estar sesgada, por lo que nos planteamos eva-
luar la sensibilidad del coeficiente de endogamia (f) a través de distintos procedimien-
tos de sustitución de datos omitidos, es decir, inferencia sobre f para HWE teniendo
en cuenta los datos faltantes. Varios modelos de imputación han sido desarrollados en
diferentes contextos. En general la estrategia para construir modelos de imputación
caen en 2 categorías: (i) Modelación Conjunta, dentro de ésta encontramos los Mode-
los de Localización General. (ii) Imputación Múltiple de Regresión Secuencial, SRMI:
también referido como Imputación Múltiple a través de Chained Equations. Para el
estudio usamos diferentes paquetes implementados en el software R. Estos son MICE,
CAT y MIX. A través del curso del estudio, hicimos comparaciones de las diferentes
metodologías que usan cada paquete de estos. Llegamos a que la modelación usan-
do MICE (imputación multivariada) y CAT (imputación univariada) incluyendo sólo
SNPs tuvieron la misma tendencia, imputar sobre aquella categoría de mayor conteo.
Los modelos implementados incluyendo las intensidades solamente a través de MICE
y MIX, siguieron el mismo patrón de imputación, aumentar la categoría de los heteroci-
gotos y los modelos donde incluimos tanto las intensidades como los SNPs observados
y no observados, sus categorías se equilibraban. De las varias alternativas, vimos cuál
10
de éstas completaba los datos faltantes y justificara mejor los fundamentos teóricos de
los procedimientos aplicados, llegamos a que el Modelo de Localización General era la
metodología más eficiente implementado en el programa MIX.
11
9 Representación de las Dinámicas de
Precios Hoteleros mediante R
Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres Manzanera
CICtourGUNE
Al igual que en otras industrias, las técnicas de Revenue Managemet se están im-
plantando en el sector hotelero. Estas técnicas permiten regular la oferta y la demanda
maximizando el beneficio. Las habitaciones de los hoteles, como los asientos de un
avión, son productos perecederos con altos costes fijos y bajos costes variables. Dichas
características junto con la reserva anticipada propician prácticas de Revenue Manage-
ment relacionadas con las Dinámicas de Precios. La variación de los precios en tiempo
de reserva posibilita un gran flexibilidad a la hora de ofertar un producto más atractivo
que el de la competencia.
Con el fin de estudiar esta estrategia comercial de los hoteles, se ha recopilado in-
formación diaria de los sistemas de distribución on-line. En concreto, se han obtenido
los precios referentes todos los hoteles disponibles en España y Francia durante un
año, midiendo la variación de precios para las reservas realizadas con una antelación
de hasta un mes. En total, el conjunto de datos suma 31 registros de precios para cada
día del año y más de 18.000 hoteles.
Para analizar la dinámica de precios y visualizar las diferentes estrategias de ven-
ta, se ha utilizado el lenguaje y entorno de programación R. Mediante el empleo de
la librería data.table, se han podido realizar agregaciones de forma eficiente, calcu-
lando disponibilidades y medias geométricas de precios. Asimismo, se ha trabajado
en la representación de las Dinámicas de Precios y las diferentes estrategias de venta
utilizando la librería ggplot2. Adicionalmente, con el objetivo de identificar eventos
influyentes, se han realizado descomposiciones estacionales de series temporales.
Así, el entorno de programación R ha permitido completar el proceso de generación
de conocimiento, desde los datos originales, hasta las representaciones gráficas que
nos permiten el estudio de diferentes estrategias dentro de esta práctica de Revenue
Management.
12
10 El paquete complex.surv.dat.sim de R:
Simulación de datos de supervivencia
complejos
David Moriña, Albert Navarro
Centre Tecnològic de Nutrició i Salut
Facultat de Medicina, Universitat Autònoma de Barcelona
BioStatNet
Presentamos en este trabajo un paquete de R para la simulación de datos de super-
vivencia complejos, cubriendo diversas situaciones incluyendo eventos recurrentes y
múltiples. La principal función del paquete permite al usuario introducir un número
arbitrario de distribuciones, cada una de las cuales corresponde a un nuevo evento o
episodio, con sus parámetros, disponiendo de las distribuciones Weibull (y exponen-
cial como caso particular), log-logística y log-normal. En comparación con la simula-
ción de otros tipos de datos, el proceso de simulación de los datos de supervivencia
requiere ciertas consideraciones específicas. En primer lugar, para simular las obser-
vaciones censuradas por la derecha, tenemos que simular un vector con la evolución
total del individuo y, de forma independiente, un vector de tiempos de censura. Por
otro lado, existen varias situaciones que hacen que los datos reales de supervivencia
sean mucho más complejos. El fenómeno de interés puede ocurrir más de una vez en
un mismo individuo (eventos recurrentes), o quizás estemos interesados en el análisis
instantáneo de múltiples eventos de diferentes tipos. Por otra parte, se puede trabajar
con cohortes dinámicas en las que se puede incorporar a un individuo después del ini-
cio del estudio, o un individuo puede ser incorporado durante el seguimiento después
de haber estado a riesgo durante algún tiempo. Intervalos discontinuos de riesgo o la
heterogeneidad individual (propensión de un individuo a sufrir un evento debida a
variables ocultas) son otros fenómenos que implican situaciones que hacen la simula-
ción de este tipo de datos aún más compleja. Aunque existe un interés y una necesidad
creciente de aplicar el análisis de supervivencia a conjuntos de datos con múltiples
eventos y recurrencias, hay todavía pocos artículos publicados que hagan uso de la
simulación de datos de supervivencia complejos, posiblemente a causa de la falta de
herramientas disponibles para facilitar tales simulaciones.
13
11 De Excel a html utilizando
knitr+markdown+googleVis . Un
ejemplo
José-Luis Cañadas Reche
Técnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-
CSIC
En colaboración con la Junta de Andalucía,el OPAM (Observatorio Permanente An-
daluz de las Migraciones) presenta tanto trimestral como anualmente información re-
lativa al fenómeno de la inmigración en Andalucía y España.Esta información se ha
venido presentando en formato excel o pdf. Un ejemplo son los datos de extranjeros
con certificado de registro o tarjeta de residencia en vigor. La información se obtiene
del Ministerio de Empleo y Seguridad Social, que trimestralmente cuelga en su página
web un fichero excel con dicha información. Tradicionalmente esta información se tra-
taba en hojas de cálculo para obtener las agrupaciones pertinentes y realizar gráficos
estadísticos. La idea, es crear uno o varios scripts en R, que partiendo de ficheros en csv,
calculen todas las tablas y gráficos que se venían realizando, y mediante la facilidad
del lenguaje markdown junto con el paquete knitr y googleVis obtener un fichero html.
Una vez realizado el script, la tarea se reduce a preparar los ficheros csv originales ,o
en su caso leerlos directamente de la web, reduciendo considerablemente el tiempo
de procesamiento y formateado de la información, así como una disminución drástica
de errores. Se ha utilizado googleVis, por la interactividad que permite al usuario fi-
nal, permitiéndole en algunos casos cambiar el tipo de gráfico mostrado u ordenar las
tablas por alguna de sus columnas.
11.1. Bibliografía
1. R Core Team (2012). R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org/.
2. Yihui Xie (2012). knitr: A general-purpose package for dynamic report generation
in R. R package version 0.8.1. http://yihui.name/knitr/
3. Markus Gesmann and Diego de Castillo. Using the Google Visualisation API with
R. The R Journal, 3(2):40-44, December 2011.
4. JJ Allaire, Jeffrey Horner, Vicent Marti and Natacha Porte (2012). markdown:
Markdown rendering for R. R package version 0.5.2.
14
12 Programación Lineal y Programación
Dinámica con R
Beatriz González Pérez, Victoria López López, Juan Sampedro Ruiz
Facultad de Matemáticas, Universidad Complutense de Madrid
Facultad de Informática, Universidad Complutense de Madrid
Facultad de Matemáticas, Universidad Complutense de Madrid
Aunque R es un lenguaje de programación orientado principalmente al análisis
estadístico y gráfico, al tener código libre, se realizan continuamente multitud de apor-
taciones de diversos campos. La Investigación Operativa es una ciencia de naturale-
za multidisciplinar y dado el interés que hay entre los docentes e investigadores por
desarrollar procedimientos que puedan ser aplicados de manera generalizada por es-
tudiantes, profesionales y científicos, el uso de R es necesario para resolver problemas
relacionados con la optimización del funcionamiento de un sistema. Los algoritmos de
Programación Lineal y Programación Dinámica son una base imprescindible para el
desarrollo de algoritmos que resuelven otros problemas. Tienen una justificación teó-
rica sencilla fundamentada en conceptos básicos de Álgebra y Geometría, por lo que
sirven para motivar a los alumnos de Matemáticas, Informática e Ingeniería que los
estudian por primera vez y necesitan programar sus propias funciones. En este traba-
jo se desarrollan cuatro funciones que resuelven problemas estándar de Programación
Lineal y Programación Dinámica, y que se han utilizado en la enseñanza de la Inves-
tigación Operativa y la Bioinformática en los cursos de Grado y Máster. Además, se
describen algunas de las funciones disponibles en los paquetes de R para resolver este
tipo de problemas.
15
13 Selección de variables y modelizado
predictivo en R
Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, Ma-
nuel Julian Alía-Martínez, Roberto Fernández-Martínez
Grupo EDMANS, Universidad de La Rioja
La presente comunicación presenta un caso completo de aplicación del modelado
predictivo basado principalmente en el lenguaje R[2] con datos extraídos de una línea
de producción de chapa de galvanizado en caliente.[3] Multitud de técnicas han sido
desarrolladas para la minería de datos y el modelado predictivo en procesos industria-
les. Las técnicas tradicionales como los modelos de regresión múltiple suelen encontrar
importantes obstáculos debido a la falta de homogeneidad y normalidad en los datos,
además de una alta correlación entre las variables independientes. Métodos más mo-
dernos como redes neuronales, arboles de regresión o regresión sesgada pueden evitar
conclusiones erróneas. La mayoría han sido implementados en R a traves de un eleva-
do número de librerías; sin embargo, el paso clave para mejorar los resultados reside
en la identificación de cuales son las variables de proceso relevantes (conjunto parsi-
monio) dentro del conjunto de datos inicial.[1] En muchos trabajos la pre-selección no
se realiza o la técnica no es la adecuada, lo que reduce la capacidad de predicción del
modelo. Las librerías empleadas reflejan el éxito y la eficiencia de llevar a cabo el tra-
bajo de planta con R a pesar del elevado tamaño de las series temporales y la cantidad
de ruido.
13.1. Bibliografía
[1] GUYON, ISABELLE y ELISSEEFF, ANDRE: «An introduction to variable and feature
selection». J. Mach. Learn. Res., 2003, 3, pp. 1157–1182.
[2] HORNIK, KURT: «The R FAQ», 2011. ISBN 3-900051-08-9.
http://CRAN.R-project.org/doc/FAQ/R-FAQ.html
[3] MARTÍNEZ-DE-PISÓN, F. J.; ALBA-ELÍAS, F.; CASTEJÓN-LIMAS, M. y GONZÁLEZ-
RODRÍGUEZ, J. A.: «Improvement and optimisation of hot dip galvanising line
using neural networks and genetic algorithms». Ironmaking and Steelmaking, 2006,
33(4), pp. 344–352.
16
14 Evaluación de modelos paramétricos
de predicción de irradiación global
solar mediante variables
meteorológicas típicas
Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, Os-
car Perpiñan-Lamigueiro
Grupo EDMANS, Universidad de La Rioja
Universidad Politécnica de Madrid
El objetivo de este trabajo es el análisis comparativo de veintidós modelos paramé-
tricos clásicos para la predicción de la irradiación global solar a través de otras varia-
bles meteorológicas típicas. El estudio se realiza en veintiún estaciones meteorológicas
en La Rioja con cinco años de valores diarios de temperaturas máximas, mínimas, pre-
cipitaciones y irradiación global solar. Los datos son de libre acceso a través de las
webs del Servicio de Información Agroclimática de La Rioja (SIAR) y de SOS Rioja. El
análisis, llevado a cabo en R, emplea diferentes paquetes: solaR [2] para el cálculo de la
geometría solar y el cálculo de la irradiación extraterrestre; rasterVis [3] para la visuali-
zación de imágenes raster y optimx [1] para la calibración de los modelos. Se comienza
mediante un preprocesado eliminando datos espurios y corrigiendo los errores de co-
rrelación horaria inducidos por los relojes de las estaciones meteorológicas. Los datos
quince minútales de las estaciones se transforman en datos diarios. Posteriormente,
se desarrolla un estudio de estabilidad de los modelos ante pequeñas variaciones en
los datos de calibración mediante bootstrapping y cien iteraciones. Una vez calibrados
y validados los modelos, se evalúa su comportamiento testeándolos con otro periodo
temporal y comprobando su errores.
14.1. Bibliografía
[1] NASH, JOHN C. y VARADHAN, RAVI: optimx: A Replacement and Extension of the
optim() Function, 2012.
http://cran.r-project.org/web/packages/optimx/index.html
[2] PERPIÑÁN, OSCAR: «solaR: Solar Radiation and Photovoltaic Systems with R».
Journal of Statistical Software, 2012, 50(9), pp. 1–32.
http://www.jstatsoft.org/v50/i09/
17
14. EVALUACIÓN DE MODELOS PARAMÉTRICOS DE PREDICCIÓN DE IRRADIACIÓN GLOBAL
SOLAR MEDIANTE VARIABLES METEOROLÓGICAS TÍPICAS
[3] PERPIÑÁN, OSCAR y HIJMANS, ROBERT: rasterVis: Visualization methods for the raster
package, 2012. R package version 0.10-9.
http://CRAN.R-project.org/package=rasterVis
18
15 Uso de métodos de interpolación
espacial para la predicción de
variables en entornos vitivinícolas
Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia,
Andres Sanz Garcia
Grupo EDMANS, Universidad de La Rioja
La presente comunicación presenta la primera parte de un caso de modelado pre-
dictivo de varias variables significativas en la maduración de la uva en viñedos. Va-
riables como el peso, el grado alcohólico probable, la acidez tartárica, el pH,... (Fer-
nandez Martinez, 2011) son realmente importantes para poder conocer como se esta
desarrollando la maduración de las bayas (Coombe, 1995) y para tener una orientación
de cuando es la mejor fecha de vendimia para cada una de las parcela de la bodega.
De manera que conociendo las fechas más idóneas se puedan organizar más efectiva-
mente los recursos disponibles. Los datos utilizados han sido recogidos en viñedos y
estaciones meteorológicas de la zona que comprende la Denominación de Origen Ca-
lificada (DOC) Rioja durante ocho años en diferentes localizaciones. Con estos datos
el objetivo es predecir las variables en estudio con tiempo suficiente para ayudar a los
viticultores en la toma de decisiones ante una cercana vendimia. Ante la imposibilidad
de situar una estación meteorológica es cada una de las parcelas en estudio, se de-
ben utilizar las estaciones existentes en los puntos cercanos y a partir de ellas realizar
una estimación de los valores ambientales necesarios en cada parcela. Esta estimación
puede ser tan simple como asignar a la parcela el valor de la estación más cercana o
pueden mejorarse los resultados utilizando técnicas de predicción espacial (Laslett et
al., 1987) como puede ser kriging (Krige, 1951; Matheron, 1963). El análisis, llevado a
cabo en R (R Development Core Team, 2012), emplea librerías para el uso de métodos
de interpolación geoestadística como gstat (Pebesma, 2004). De esta manera, una vez
interpolados los valores meteorológicos en cada parcela se pueden predecirse los va-
lores en estudio con más precisión que en el caso básico de asignar a cada una de las
parcelas la estación meteorológica más cercana.
19
Sesión de Comunicaciones III
20
16 R como caja de herramientas para SIG
y Teledetección: reflexiones a partir
de experiencias
Agustín Lobo
Institut de Ciències del Terra Jaume Almera. Consejo Superior de Investigaciones
Científicas
Si bien el papel inicial de R en el contexto de los Sistemas de Información Geo-
gráfica y Teledetección consistió en proporcionar el entorno para el análisis de datos
previamente manipulados con otros programas específicos, rápidamente se produjo
un desarrollo de paquetes que están convirtiendo R en una caja con herramientas an-
tes exclusivas del software de GIS y Teledetección, lo que permite introducir en este
ámbito formas y modos de trabajo concordes con los principios de “journaling and
auditing” propios de R. Por un lado, el desarrollo de paquetes para análisis de datos
espaciales y “geoestadística” indujo el desarrollo de otros paquetes capaces de forma-
lizar y manipular como clases de R estructuras de datos vectoriales de SIG (incluyendo
los formalismos geográficos de los Sistemas de Referencia de Coordenadas), y de pa-
quetes capaces de importar y exportar los formatos específicos en el ámbito geográfico.
Por otro lado, el gran volumen de datos propio de las capas raster constituyó durante
años un serio problema para tratar estos datos como objetos en R, pero este problema
está siendo brillantemente solucionado mediante otro paquete específico. Al mismo
tiempo, otros paquetes en R han permitido establecer puentes entre código R y otros
softwares específicos de SIG y Teledetección, mientras que son menos conocidos los
esfuerzos en sentido contrario en los que se abren canales hacia R desde entornos de
proceso y visualización de datos geoespaciales. En esta comunicación pasaré revista,
por medio de ejemplos, a diferentes aplicaciones de R en el ámbito del SIG y la Telede-
tección desde la perspectiva del usuario de estos sistemas, señalando aquellos aspectos
que a mi juicio todavía necesitan mejoras.
21
17 Simulación de perfiles genéticos de
riesgo
Víctor Urrea Gales, María Luz Calle Rosingana
Universidad de Vic
En el ámbito de la epidemiología genética, uno de los objetivos principales es la
detección de variantes genéticas causales y/o el estudio de posibles interacciones entre
ellas. Éste es un campo que presenta grandes retos y que está en constante desarrollo,
existiendo una actividad muy notable en el desarrollo de diferentes metodologías.
Para poder contrastar la eficacia de las distintas metodologías en la detección y
análisis de componentes genéticas es preciso realizar estudios sistemáticos con datos
simulados. En este punto, es vital poder contar con conjuntos de datos que, aunque ar-
tificiales, constituyan una buena imitación de datos reales. En epidemiología genética
hay dos aspectos clave a tener en cuenta para generar datos simulados similares a la
realidad, la simulación de genotipos con sus posibles correlaciones, lo que en genética
se denomina “Linkage disequilibrium” (LD), y la simulación del fenotipo siguiendo
un cierto modelo de relación entre genotipo y riesgo.
Aquí presentamos una estrategia implementada en R para generar conjuntos de
datos de genotipos, ya sean independientes o en LD, con perfiles genéticos de ries-
go asociados a un fenotipo, que puede ser tanto una variable binaria, continua o de
supervivencia.
22
18 Construcción de un Índice Global de
Valoración
Ane Zarragoitia, Arantza Urkaregi, Jesús Morán
UPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miem-
bro de la red BIOSTATNET
Unidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Ba-
rakaldo. Bizkaia.
Disponemos de los datos relativos a un cuestionario de valoración de la formación
recibida en el programa MIR en un hospital de la CAV cada 2 años, entre 2004 y 2010. El
cuestionario consta de una serie de preguntas de valoración de diferentes aspectos de
la formación y otras relativas al Servicio en el que se ha llevado a cabo la formación, el
tiempo de permanencia en el mismo o el año de residencia. Nuestro objetivo es cons-
truir un índice global que resuma la valoración del programa MIR. Para ello, hemos
realizado un Análisis de Correspondencias Múltiples (ACM) de estos datos, tomando
como variables activas las preguntas de valoración de la encuesta. Al representar grá-
ficamente las modalidades de las variables activas en el plano factorial definido por
los dos primeros ejes factoriales observamos que éstas describen una parábola. Es lo
que se llama efecto Guttman, que nos indica que el segundo eje es función del pri-
mero, de forma que el primer eje factorial define una escala lógica y ordenada de la
valoración realizada. En base a esta idea, si asignamos a cada modalidad de las pre-
guntas activas su primera coordenada factorial y obtenemos la media aritmética de las
coordenadas factoriales de las modalidades elegidas en las diferentes preguntas, esta
media nos proporciona una puntuación global de valoración que, mediante una trans-
formación lineal, podremos convertir en un índice de valoración de 0 a 100. R dispone
del paquete ca para la realización del ACM y crea un objeto en el que guarda las coor-
denadas factoriales de cada modalidad. Hemos desarrollado un código R que, asigne
a cada modalidad su primera coordenada factorial y a partir de las respuestas de cada
individuo, le asigne a éste la media tipificada de las coordenadas elegidas. A continua-
ción transformamos esta puntuación asignada a cada individuo en un índice global
cuyos valores van de 0 a 100. Hemos comprobado la efectividad de este índice global
mediante su comparación con la pregunta de valoración global y hemos analizado las
ventajas que presenta en relación al índice habitual de valoración obtenido a partir de
la puntuación de cada una de las modalidades de respuesta (de 0 a 3). Mediante otro
código R hemos estudiado la evolución de este índice global en cada servicio a lo largo
de los años de realización de la encuesta, de forma que ésta se pueda convertir en un
instrumento de mejora del programa MIR.
23
18. CONSTRUCCIÓN DE UN ÍNDICE GLOBAL DE VALORACIÓN
18.1. Bibliografía
Greenacre, M. (2008). La practica del analisis de correspondencias, Fundacion BB-
VA.
Escofier, B., Pages, J. (1992). Analisis factoriales simples y multiples, Servicio Edito-
rial de la Universidad del Pais Vasco.
Grande, I., Abascal, E. (2005). Analisis de encuestas, ESIC EDITORIAL.
Pijoan, J.I., Urkaregi, A., Moran, J.M. (2001). Evaluacion por los medicos internos
residentes de la formacion recibida en los servicios hospitalarios: una herramienta de
monitorizacion, Gac Sanit 2001; 15 (5): 432-440.
24
19 kerdiest:: An R Package for
Distribution Function Estimation and
Applications
Graciela Estévez-Pérez, Alejandro Quintela-del-Río
Departamento de Matemáticas - Universidad de A Coruña
The Distribution Function Estimation is not only an interesting problem by itself,
but also for the fact that it appears naturally in real problems of many scientific fields,
such as seismology, hydrology, environmental sciences, etc. Thus, diverse methodolo-
gies, based on nonparametric ideas, have emerged for attacking statistical problems
in these disciplines. In many cases, scientists are interested in knowing the risk of oc-
currence of an earthquake of great magnitude, the probability of high wind speeds or
hurricane occurrences, or the hazard of high flow levels. We cite, among others, the
papers of Elsner et al. (2006), Gomes et al. (2003), Katz et al. (2002), Kuchenhoff and
Thamerus (1996), Quintela-del Río and Francisco-Fernández (2011) and Scheitlin et al.
(2010) for applications of the distribution function estimation to the different sciences
mentioned in the nature hazard setting.
A nonparametric estimator of the distribution function is the well-known kernel
estimator, investigated, among others, by Nadaraya (1964), Reiss (1981) or Hill (1985).
When working with this estimator two choices must be made: the kernel function (K)
and the smoothing parameter or bandwidth (h). The selection of K is a problem of less
importance, and different functions that produce good results can be used. However,
in practice, the choice of an efficient method for the calculation of h, for an observed
data sample, is a more complex problem because of the effect of the bandwidth on the
shape of the corresponding estimator. In the distribution estimation context only two
kind of methods have been investigated: plug-in and cross-validation methods. The
plug-in bandwidth choice was studied, both theoretically and by simulation studies,
by Altman and Leger (1995) and Polanski and Baker (2000). The least-squares cross-
validation method was analyzed in Sarda (1993), but, as revealed in Altman and Leger
(1995), it basically requires very large sample sizes to ensure good results. Hence, only
the second approach, namely the modified cross-validation proposed in Bowman et al.
(1998), is of interest for implementation in a language programming and for applica-
tion to real data sets.
For the above reasons, we have implemented, in the package kerdiest, developed
in the language R (R Development Core Team 2012), the Kernel Distribution Function
Estimator, the three commented bandwidth selection procedures, and three interest
functions in real applications: the exceedance, the mean return period and the return
level functions. The package also contains two application data sets, that show the
25
19. KERDIEST:: AN R PACKAGE FOR DISTRIBUTION FUNCTION ESTIMATION AND
APPLICATIONS
features and capabilities of the package in practice. The package is available from the
Comprehensive R Archive Network at: http://CRAN.R-project.org/package=kerdiest
(Estévez-Pérez and Quintela-del-Río, 2012).
26
Sesión de Comunicaciones IV
27
20 seq2R: Detección de puntos de
cambio en secuencias genómicas.
Nora M. Villanueva , Marta Sestelo, Javier Roca-Pardiñas
Departamento de Estadística e Investigación Operativa
Universidad de Vigo
Identificar los procesos mutacionales que modelan la composición nucleotídica de
las secuencias de ADN mitocondrial (ADNmt) es fundamental para comprender mejor
como evolucionan los genomas mitocondriales. Durante años, la comunidad científica
ha propuesto numerosas metodologías para analizar la composición de estas secuen-
cias pero la mayoría de ellas carecen de soporte estadístico. En este trabajo se presenta
un método sencillo para detectar cambios en la composición del ADNmt basado en
modelos de regresión no paramétrica y sus derivadas. La metodología desarrollada se
ha implementado en un nuevo paquete de R, seq2R, utilizando Fortran como lenguaje
de programación. La aplicación de dicha metodología se ilustra con una secuencia real.
28
21 Exploring bi-allelic genetic markers
with the HardyWeinberg package
Jan Graffelman
Departament d,Estadística i Investigació Operativa
Universitat Politècnica de Catalunya
Modern genetic association studies often use large numbers of genetic markers ca-
lled single nucleotide polymorphisms (SNPs). Most of these markers are bi-allelic and
give rise to only 3 types of individuals: AA, AB and BB. The Hardy-Weinberg law sta-
tes that, in the absence of disturbing forces, these 3 genotypes will occur with relative
frequencies p², 2pq and q² respectively, where p is the allele frequency of A and q = 1-p.
Hardy-Weinberg equilibrium (HWE) is achieved in one generation of random mating,
and if unless disturbing forces stay absent, then genotype and allele frequencies will
remain unchanged. Statistical tests for HWE play a role in genetic association studies.
They are often used in an initial screening of the markers, with the purpose of detecting
genotyping error (often the confounding of homozygotes with heterozygotes). Signifi-
cant markers that are suspect, especially if the also have a lot of missings, may then be
discarded prior to any further study (e.g. the HapMap project discards markers whose
p-value of a HWE test is below 0.001).
Several statistical test procedures are in use to test markers for HWE. The classical
chi-square test for goodness-of-fit has been the most popular test for many years. Over
the last decade, the exact test for HWE has become more popular. The exact test is
based on the distribution of the number of heterozygotes given the observed allele
counts. A likelihood ratio test is also available, and Bayesian procedures to test for
HWE are becoming more popular as well.
Because large amounts of markers are tested, graphical tools for summarizing test
results are needed. The R-package HardyWeinberg provides such tools, as well as fun-
ctions that carry out the various tests for HWE. Interesting graphical tools in this con-
text are ternary plots, log-ratio plots and Q-Q plots.
The ternary plot, a well-known tool in compositional data analysis, can be used to
represent the genotypic composition of a sample. The Hardy-Weinberg law describes a
parabola inside the ternary diagram. The acceptance region of the different HWE tests
can also be drawn inside the ternary diagram. This makes the ternary diagram par-
ticular informative because genotype frequencies, allele frequencies and equilibrium
status are all depicted in one single graph (Graffelman and Morales, 2008).
Q-Q plots of p-values or chi-square statistics constitute another useful tool that can
help to judge whether a set of markers is compatible with HWE or not. For the chi-
square test, a Q-Q plot of chi-square statistics may be used. Q-Q plots of p-values are
29
21. EXPLORING BI-ALLELIC GENETIC MARKERS WITH THE HARDYWEINBERG PACKAGE
more interesting, because they also allow results of multiple exact tests to be summa-
rized. The distribution for the p-values under the null hypothesis of a HWE test is not
uniform, due to the discrete nature of the data (Rohlfs and Weir, 2008). This distribu-
tion typically has a spike close to the value of 1. However, for a given data set with a
given allele frequency distribution, the reference distribution for the p-values can be
computed, and a Q-Q plot of exact sample p-values against this reference distribution
can be used to gauge the degree of (dis)equilibrium in the database.
The different facilities of the HardyWeinberg package (testing markers, marker si-
mulation, power computations, accounting for missing data, ternary plots, log-ratio
plots and Q-Q plots) will be illustrated with empirical in the talk.
30
22 FWDselect: Selección de variables en
modelos de regresión
Marta Sestelo, Nora M. Villanueva, Javier Roca-Pardiñas
Departamento de Estadística e Investigación Operativa
Universidad de Vigo
En modelos de regresión múltiple, cuando existen un gran número de variables ex-
ploratorias p que pueden ser o no relevantes para la predicción de la respuesta, es útil
ser capaz de reducir el modelo. Para ello, es necesario determinar el mejor subconjunto
o subconjuntos de q (q < p) predictores con los que se establecerá el modelo o modelos
con la mejor capacidad de predicción. FWDselect, se presenta como una nueva apro-
ximación a este problema, un nuevo paquete de R que introduce un método simple
para seleccionar el mejor modelo utilizando diferentes tipos de datos (binarios, gausia-
nos o poisson) y aplicándolo en diferentes contextos (parametrico o no paramétrico).
La metodología desarrollada incluye dos fases: i) seleccionar la mejor combinación de
q variables utilizando un nuevo procedimiento de selección stepwise hacia delante, y
quizás la más importante, ii) determinar el número de covariables que deben incluirse
en el modelo utilizando para ello un contraste basado en técnicas bootstrap. El softwa-
re se ilustra con datos de polución ambiental.
31
23 Reducción unidimensional de 12
items de la Escala de sobrecarga de
Zarit en cuidadores de pacientes con
demencia mediante teoría de
respuesta a los ítems.
Borja Santos, Eduardo González, Javier Ballesteros
Universidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For-
mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212)
Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio.
Universidad del País Vasco (UPV), Departamento de Neurociencias y Cibersam
G-16.
Introducción y objetivos: La escala de sobrecarga de Zarit es un instrumento psi-
cométrico utilizado para medir el nivel de carga experimentado por un cuidador in-
formal. Consta de 22 ítems en los que el sujeto puede responder mediante una escala
Likert de 0-4 (“nunca”-“casi siempre”) que ofrece una puntuación total (0-88). Sin em-
bargo esta escala no es unidimensional, por lo que emplear la puntuación total puede
distorsionar la interpretación de los resultados. Nuestro objetivo es obtener una reduc-
ción unidimensional de la ZBI que permita una correcta interpretación de los resulta-
dos. Para ello emplearemos técnicas de IRT (Teoría de Respuesta a los Ítems) y CFA
(análisis factorial confirmatorio).
Métodos: La base de datos está compuesta de las respuestas de 241 cuidadores que
participan en un ensayo clínico. El proceso de análisis consta de tres partes: i) Mediante
IRT no paramétrico (Mokken analysis) se pretendió conocer las estructura dimensio-
nal de la ZBI; ii) Las características de los ítems de la escala reducida se estudiaron
mediante el modelo de IRT paramétrico de Samejima (GRM); iii) Finalmente se utili-
zó CFA para confirmar la unidimensionalidad de la subescala. Los análisis se hicieron
con R v2.15.0 empleando las librerías: Mokken (Mokken analysis) [1], ltm (GRM) [2] y
lavaan (CFA) [3].
Resultados: El análisis de Mokken reveló una estructura con tres subescalas, la pri-
mera de ellas con 12 ítems cuya escalabilidad es media (H=0.44) con una fiabilidad
muy buena (alpha = 0.89) (Tabla). Las características de los ítems de la ZBI reducida
indican una discriminación y dificultad buenas (Figura). Por último los resultados del
CFA establecen la unidimensionalidad de la subescala (CFI = 0.930; RMSEA = 0.078),
lo que demuestra que evalúa un constructo unidimensional y por tanto es adecuada la
utilización de la puntuación total de la subescala.
32
23.1. Bibliografía
Conclusiones: i) La versión reducida de la ZBI de 12 ítems resultante es unidimen-
sional y mantiene las buenas propiedades psicométricas de la versión original. Su uso
es recomendable. ii) R y las librerías Mokken (Mokken analysis), ltm (GRM) y lavaan
(CFA) resultan óptimas para realizar este tipo de análisis psicométricos.
23.1. Bibliografía
[1] L. Andries van der Ark (2012). New Developments in Mokken Scale Analysis in
R. Journal of Statistical Software, 48(5), 1-27.
[2] Dimitris Rizopoulos (2006). ltm: An R package for Latent Variable Modelling
and Item Response Theory Analyses, Journal of Statistical Software, 17 (5), 1-25.
[3] Yves Rosseel (2012). lavaan: An R Package for Structural Equation Modeling.
Journal of Statistical Software, 48(2), 1-36.
33
24 The optimalAllocation package for
longitudinal studies design with
time-varying exposure
Jose Barrera-Gómez, Xavier Basagaña
Centre for Research in Environmental Epidemiology, Barcelona, Spain.
IMIM (Hospital del Mar Research Institute), Barcelona, Spain.
CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain.
In the context of observational longitudinal studies, we obtained the optimal values
of the number of participants and the number of repeated measurements that maximi-
ze the power to detect the hypothesized effect, given the total cost of the study. We
considered two different models, one that assumes a transient effect of exposure and
one that assumes a cumulative effect. Results were derived for a continuous response
variable, whose covariance structure was assumed to be damped exponential, and a
binary time-varying exposure. We derived closed-form expressions for the solution to
the problem in the particular case in which the covariance structure of the response is
assumed to be compound symmetry. Results showed the importance of the intraclass
correlation of the exposure in determining the optimal combination of the number of
participants and the number of repeated measurements, and therefore the optimized
power. Thus, incorrectly assuming a time-invariant exposure leads to inefficient de-
signs. We also analyzed the sensitivity of results to dropout, mis-specification of the
correlation structure of the response and allowing a time-varying exposure prevalen-
ce. We present here the optimalAllocation package which implements the methology
described above. The package contains an interactive graphical interface that helps to
decide the value of the intraclass correlation of the exposure at the study design stage.
The package also computes the optimal study design depending on the values of some
parameters related to the covariance structure of the response, the mean and covarian-
ce structure of the exposure, the financial conditions of the study and the expected
dropout level. In addition, the plot() function shows the impact of departures from the
optimal allocation in terms of power or cost.
24.1. Bibliografía
Barrera-Gómez J, Basagaña X, Spiegelman D. Optimal combination of number of
participants and number of repeated measurements in longitudinal studies with time-
varying exposure (under peer review), 2012.
34
Parte V
Talleres
35
25 Web scraping con R
Gregorio R. Serrano
Dpto. de Economía Cuantitativa
Fctad. CC. Económicas y Empresariales, UCM
Dada la abundancia de datos disponibles en la red directamente insertados en pá-
ginas web, para muchos trabajos se hace necesario leerlos y procesarlos hasta llegar a
una estructura de datos susceptible de análisis estadístico. En este taller con las ma-
nos en la masa veremos cómo utilizar los paquetes XML y RCurl para la extracción de
datos y diversas formas de proceso posterior con expresiones regulares y los paquetes
zoo (series temporales) y tm (textos).
36
26 Informes dinámicos con LaTeX y R:
utilización de Sweave y knitr.
Francesc Carmona
Departamento de Estadística. Universidad de Barcelona.
En este taller se muestra la utilidad de la interacción entre LaTeX como procesa-
dor de textos científicos y el lenguaje R de programación en estadística, que gracias
a Sweave permite la generación automática de documentos con resultados y gráficos
dinámicos. También se introduce el paquete knitr de reciente creación y que propone
algunas mejoras y muchas otras posibilidades.
37
27 Interfaces Web 2.0 para R con Tiki
Xavier de Pedro Puente
Unidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB-
VHIR). Barcelona. http://ueb.vhir.org
Es fácil encontrarse con personas con nivel intermedio en el uso de R, pero que no
saben como crear una interfaz web dinámica a sus programas en R.
Existen algunas herramientas que permiten crear informes html de forma fácil des-
de R (Pastell 2010 entre otros), pero no permiten al usuario poder modificar parámetros
y volver a generar dichos gráficos, tablas o informes con los nuevos datos o parámetros
escogidos por el usuario a través de la propia página web.
En jornadas de usuarios de R recientes se observó que hay muchos usuarios que
tienen lagunas de conocimiento en lo referente Apache, PHP, Mysql (por ejemplo), y los
programas web que se pueden ejecutar en ellos, usando herramientas libres maduras
y gratuitas.
Así, en este taller (similar al de las ((III Jornadas|III Jornadas de usuarios de R en
castellano)) los asistentes verán a vista de pájaro todo lo necesario para poder crear
interfaces web a sus programas en R. Para ello, al final del taller habrán aprendido:
qué es un servidor web (como Apache), una base de datos (como MySQL), el
lenguaje de programación web (como PHP)
como usar PhpMyAdmin: un gestor de bases de datos MySQL a través de página
web
como instalar una aplicación en PHP-MySQL llamada Tiki en un servidor, que
les permitirá crear y usar páginas web 2.0 dinámicas hechas con software libre y
gratuito.
como instalar el PluginR para comunicar Tiki con R en el servidor.
como aplicar el perfil de configuración de Tiki R HeatMaps, para disponer de
una aplicación real y funcional como ejemplo de interfaz web a un paquete de R
usado en campo de la bioinformática (De Pedro y Sánchez 2011)
como modificar dicho ejemplo para crear un primer borrador de interfaz web
para el programa de interés del asistente al taller.
como exportar la base de datos mysql para poder migrar la web al servidor web
que tenga contratado el asistente al taller o de su institución.
38
28 Edición (y mucho más) potente en R
con ESS (Emacs Speaks Statistics)
Alex Sánchez
Departament d’Estadística. Universitat de Barcelona. Barcelona, Espanya.
Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca.
El desarrollo de programas en R o el uso de sistemas de programación literaria
como Sweave o knitr pueden verse facilitados si se dispone de un editor o un entrono
que permita usar las múltiples herramientas que intervienen en el proceso de forma
integrada, flexible y potente. ESS (Emacs Speaks Statistics) es una extensión del sistema
emacs que facilita el uso combinado de emacs, R (u otros entornos estadísticos) pero
también de latex (o html o markdown) y Sweave o knitr. En este taller se realizará una
introducción al editor emacs y al uso de la extensión ESS para realizar algunas tareas
comunes como la edición y depuración de un programa R o la creación y prueba de
un documento de tipo .Rnw. Seún la dinámica de la sesión se discutiran otros aspectos
como org-ode.
39
29 Machine Learning in R
Alexandros Karatzoglou
Telefonica Investigación y Desarrollo
This is a hands on course on the Machine Learning functionality in R. The course
will focus on popular Machine Learning methods such as: Naive Bayes Support Vector
Machines PCA/Dimensionality Reduction Decision Trees Random Forests Clustering
A short introduction to each method will be provided along with a description and
examples on how to use the related functions in R. The course is a hands-on course so
bring your own laptop with a recent installation of R and the Machine Learning and
Cluster task views.
install.packages(ctv) library(ctv) install.views(MachineLearning) install.views(Clus-
ter)
40
30 Introducción a las Reference Classes
(programación orientada a objetos en
R)
Aleix Ruiz de Villa
TSS - Transport Systems and Simulations
A medida que escribimos más código, éste se vuelve más complejo, más difícil de
leer y comprender, y más sujeto a la introducción de errores. Para evitar los proble-
mas que conlleva, es necesario que esté bien organizado y las funcionalidades de cada
parte estén bien definidas. La manera más generalizada de trabajar ordenadamente es
utilizar objetos.
Las clases de objectos tradicionales en R son las S3 y S4. Recientemente se han intro-
ducido las reference classes. El enfoque de estas últimas es totalmente diferente a sus
antecesoras. Su programación es mucho más familiar al tipo de programación orienta-
da a objectos de lenguajes como C++, python o java.
Una de las ineficiencias de R a nivel de memoria es que las funciones siempre co-
pian los objetos que se les pasan, y por tanto tenemos en memoria el mismo objeto
repetido varias veces. El uso de las reference classes es una de las pocas maneras de
evitar este problema.
41
31 Introducción práctica a la librería
ggplot2 y su integración con ggmap.
Lluís Ramon, Andreu Vall, Roger Borràs
Oficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat de
Catalunya. Miembro del R Users Group Barcelona.
Asistente de investigación en IESE Business School, Departamento de Dirección
de Producción, Tecnología y Operaciones. Miembro del R Users Group Barcelona.
Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya.
Miembro del R Users Group Barcelona.
Se propone un taller introductorio a las librerías ggplot2 y ggmap de R. La librería
ggplot2 está dedicada a la creación de gráficos de alta calidad. Fue creada por Had-
ley Wickham en 2005 como una implementación del libro “The Grammar of Graphics”
de Leland Wilkinson. La librería ggmap permite una fácil visualización de datos es-
paciales usando ggplot2 con una cómoda integración a Google Maps, OpenStreetMap,
Stamen Maps o CloudMade Maps.
42
Autores e Instituciones
43
Índice de autores
Alabert, Aureli, 5
Alonso Garcia, Eduardo, 19
Antoñanzas-Torres, Fernando, 16, 17
Ballesteros, Javier, 32
Barrera-Gómez, Jose, 34
Bartosova, Jitka, 6
Basagaña, Xavier, 34
Borràs, Roger, 42
Cañadas Reche, José-Luis, 14
Carmona, Francesc, 37
de Pedro Puente, Xavier, 38
Eduardo Melo Martínez, Carlos, 2
Esperanza Melo Martínez, Sandra, 2
Estévez-Pérez, Graciela, 25
Fernández-Martínez, Roberto, 16
Fernandez Ceniceros, Julio, 19
Fernandez Martinez, Roberto, 19
Gil Bellosta, Carlos-J., 4
González Pérez, Beatriz, 15
González, Eduardo, 32
Graffelman, Jan, 10, 29
Ibarguren, Igor, 12
Ivina, Olga, 9
Julian Alía-Martínez, Manuel, 16
Karatzoglou, Alexandros, 40
Kepa Gerrikagoitia, Jon, 12
L. Cano, Emilio, 3
López López, Victoria, 15
Lobo, Agustín, 21
Luz Calle Rosingana, María, 22
M. Moguerza, Javier, 3
M. Villanueva, Nora, 28, 31
Martínez-de-Pisón, Javier, 17
Morán, Jesús, 23
Moriña, David, 13
Navarro, Albert, 13
Orlando Melo Martínez, Oscar, 2
Pazmiño Maji, Rubén, 8
Perpiñan-Lamigueiro, Oscar, 17
Quintela-del-Río, Alejandro, 25
R. Serrano, Gregorio, 36
Ramon, Lluís, 42
Roca-Pardiñas, Javier, 28, 31
Roman, Ibai, 12
Ruiz de Villa, Aleix, 41
Sánchez Mayor, Milagros, 10
Sánchez, Alex, 39
Sampedro Ruiz, Juan, 15
Santos, Borja, 32
Sanz Garcia, Andres, 19
Sanz-García, Andrés, 16
Sanz-Garcia, Andres, 17
Sestelo, Marta, 28, 31
Sodupe-Ortega, Enrique, 16
T. Longford, Nicholas, 6
Torres Manzanera, Emilio, 12
Urkaregi, Arantza, 23
Urrea Gales, Víctor, 22
Vall, Andreu, 42
Zarragoitia, Ane, 23
44
Índice de Instituciones
Asistente de investigación en IESE Bu-
siness School, Departamento de
Dirección de Producción, Tecno-
logía y Operaciones. Miembro del
R Users Group Barcelona., 42
Barcelona, Spain, 10
BioStatNet, 13
Centre for Research in Environmental Epi-
demiology, Barcelona, Spain., 34
Centre Tecnològic de Nutrició i Salut, 13
CIBER Epidemiología y Salud Pública
(CIBERESP), Barcelona, Spain., 34
CICtourGUNE, 12
Collaborative statistician at CREAL. Re-
search fellow at the University
of Girona, 9
datanalytics, 4
Departament d’Estadística. Universitat
de Barcelona. Barcelona, Espan-
ya., 39
Departament d,Estadística i Investigació
Operativa, 29
Departament de Cardiología. Hospital
Clínic, Universitat de Barcelona.
Catalunya. Miembro del R Users
Group Barcelona., 42
Departamento de Estadística e Investi-
gación Operativa, 28, 31
Departamento de Estadística. Universi-
dad de Barcelona., 37
Departamento de Matemáticas - Univer-
sidad de A Coruña, 25
Department of Statistics and Operations
Research, 10
Dpto. de Economía Cuantitativa, 36
Dpto. Estadística e Investigación Opera-
tiva, Universidad Rey Juan Car-
los, 3
Escuela Superior Politécnica de Chim-
borazo, 8
Facultad de Informática, Universidad Com-
plutense de Madrid, 15
Facultad de Matemáticas, Universidad
Complutense de Madrid, 15
Facultat de Medicina, Universitat Autò-
noma de Barcelona, 13
Fctad. CC. Económicas y Empresariales,
UCM, 36
Grupo EDMANS, Universidad de La Rio-
ja, 16, 17, 19
IMIM (Hospital del Mar Research Insti-
tute), Barcelona, Spain., 34
Institut de Ciències del Terra "Jaume Al-
mera". Consejo Superior de In-
vestigaciones Científicas, 21
Instituto de Investigaciones Psiquiátri-
cas, Fundación Mª Josefa Recio.,
32
Oficina del Pla Català de Seguretat Vià-
ria, Servei Català de Trànsit, Ge-
neralitat de Catalunya. Miembro
del R Users Group Barcelona., 42
SNTL and UPF, Barcelona, Spain, 6
Técnico de Investigación en el Instituto
de Estudios Sociales Avanzados
IESA-CSIC, 14
45
Índice de Instituciones Índice de Instituciones
Telefonica Investigación y Desarrollo ,
40
TSS - Transport Systems and Simulations,
41
Unidad de Docencia Posgraduada Mé-
dica. Hospital Universitario de
Cruces. Barakaldo. Bizkaia., 23
Unidad de Estadística y Bioinformática.
Vall d’Hebron Research Institu-
te (UEB-VHIR). Barcelona. http://ueb.vhir.org,
38
Unitat d’Estadística i Bioinformàtica. Vall
d’Hebrón Institut de Recerca., 39
Universidad de Barcelona - España., 2
Universidad de Vic, 22
Universidad de Vigo, 28, 31
Universidad del País Vasco (UPV), De-
partamento de Neurociencias y
Beca de Formación de Personal
Investigador del Gobierno Vas-
co. (BFI-2011-212), 32
Universidad del País Vasco (UPV), De-
partamento de Neurociencias y
Cibersam G-16., 32
Universidad Distrital Francisco José de
Caldas, 2
Universidad Nacional de Colombia, 2
Universidad Politécnica de Madrid, 17
Universitat Autònoma de Barcelona, 5
Universitat Politècnica de Catalunya, 10,
29
University of Economics in Prague, Jin-
drichuv Hradec, Czech Republic
, 6
UPV/EHU. Dpto de Matemática Apli-
cada, Estadística e I.O. (UPV/EHU)-
Miembro de la red BIOSTATNET,
23
46

Mais conteúdo relacionado

Destaque

Practica1 bloque 3 paulina espinosa 5b
Practica1 bloque 3 paulina espinosa 5bPractica1 bloque 3 paulina espinosa 5b
Practica1 bloque 3 paulina espinosa 5bPaulinaalumnaCEMSA
 
Webinar: Game Changing Advancement in Fostering Access to Opportunity
Webinar: Game Changing Advancement in Fostering Access to OpportunityWebinar: Game Changing Advancement in Fostering Access to Opportunity
Webinar: Game Changing Advancement in Fostering Access to OpportunityNeighborhood Funders Group
 
Trabajo tecnologia en ingles
Trabajo tecnologia en inglesTrabajo tecnologia en ingles
Trabajo tecnologia en ingleszantipollo
 
30 05 2012_políticas educativas meduca_400_pm
30 05 2012_políticas educativas meduca_400_pm30 05 2012_políticas educativas meduca_400_pm
30 05 2012_políticas educativas meduca_400_pmEmiliano Gaona
 
Los 14 principios deming
Los 14 principios demingLos 14 principios deming
Los 14 principios demingidea2creativos
 
啟動開放,創新價值
啟動開放,創新價值 啟動開放,創新價值
啟動開放,創新價值 Dongpo Deng
 
Reports and DITA Metrics IXIASOFT User Conference 2016
Reports and DITA Metrics IXIASOFT User Conference 2016Reports and DITA Metrics IXIASOFT User Conference 2016
Reports and DITA Metrics IXIASOFT User Conference 2016IXIASOFT
 
Tema 6: ÁLGEBRA
Tema 6: ÁLGEBRATema 6: ÁLGEBRA
Tema 6: ÁLGEBRAmatesmates
 
Modelo digital de elevación de mejora continua con aporte voluntario de datos
Modelo digital de elevación de mejora continua con aporte voluntario de datosModelo digital de elevación de mejora continua con aporte voluntario de datos
Modelo digital de elevación de mejora continua con aporte voluntario de datosCristian Carvajal
 

Destaque (14)

Oso pardo
Oso pardoOso pardo
Oso pardo
 
Elaboracion del pei
Elaboracion del peiElaboracion del pei
Elaboracion del pei
 
Practica1 bloque 3 paulina espinosa 5b
Practica1 bloque 3 paulina espinosa 5bPractica1 bloque 3 paulina espinosa 5b
Practica1 bloque 3 paulina espinosa 5b
 
Webinar: Game Changing Advancement in Fostering Access to Opportunity
Webinar: Game Changing Advancement in Fostering Access to OpportunityWebinar: Game Changing Advancement in Fostering Access to Opportunity
Webinar: Game Changing Advancement in Fostering Access to Opportunity
 
Trabajo tecnologia en ingles
Trabajo tecnologia en inglesTrabajo tecnologia en ingles
Trabajo tecnologia en ingles
 
30 05 2012_políticas educativas meduca_400_pm
30 05 2012_políticas educativas meduca_400_pm30 05 2012_políticas educativas meduca_400_pm
30 05 2012_políticas educativas meduca_400_pm
 
Elaboracion del pei
Elaboracion del peiElaboracion del pei
Elaboracion del pei
 
Tercer asamblea general
Tercer asamblea generalTercer asamblea general
Tercer asamblea general
 
Los 14 principios deming
Los 14 principios demingLos 14 principios deming
Los 14 principios deming
 
HMI/UI Development Services - Bangalore, India
HMI/UI Development Services - Bangalore, IndiaHMI/UI Development Services - Bangalore, India
HMI/UI Development Services - Bangalore, India
 
啟動開放,創新價值
啟動開放,創新價值 啟動開放,創新價值
啟動開放,創新價值
 
Reports and DITA Metrics IXIASOFT User Conference 2016
Reports and DITA Metrics IXIASOFT User Conference 2016Reports and DITA Metrics IXIASOFT User Conference 2016
Reports and DITA Metrics IXIASOFT User Conference 2016
 
Tema 6: ÁLGEBRA
Tema 6: ÁLGEBRATema 6: ÁLGEBRA
Tema 6: ÁLGEBRA
 
Modelo digital de elevación de mejora continua con aporte voluntario de datos
Modelo digital de elevación de mejora continua con aporte voluntario de datosModelo digital de elevación de mejora continua con aporte voluntario de datos
Modelo digital de elevación de mejora continua con aporte voluntario de datos
 

Semelhante a Libro resumenes v121114_1436

Nosotros....¿Qué respiramos?
Nosotros....¿Qué respiramos?Nosotros....¿Qué respiramos?
Nosotros....¿Qué respiramos?darioqnk
 
Tendencias de comunicación en red en asociaciones y colegios profesionales de...
Tendencias de comunicación en red en asociaciones y colegios profesionales de...Tendencias de comunicación en red en asociaciones y colegios profesionales de...
Tendencias de comunicación en red en asociaciones y colegios profesionales de...Universidad de Málaga
 
Programa XII Jornada MEDES_La ciencia compartida en español
Programa XII Jornada MEDES_La ciencia compartida en españolPrograma XII Jornada MEDES_La ciencia compartida en español
Programa XII Jornada MEDES_La ciencia compartida en españolJavier González de Dios
 
Memoria actividades Atlas VPM 2016
Memoria actividades Atlas VPM 2016Memoria actividades Atlas VPM 2016
Memoria actividades Atlas VPM 2016Atlas VPM
 
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...eraser Juan José Calderón
 
U-Ranking 2019 7ª Edición (Indicadores Sintéticos del Sistema Universitario ...
U-Ranking 2019  7ª Edición (Indicadores Sintéticos del Sistema Universitario ...U-Ranking 2019  7ª Edición (Indicadores Sintéticos del Sistema Universitario ...
U-Ranking 2019 7ª Edición (Indicadores Sintéticos del Sistema Universitario ...eraser Juan José Calderón
 
Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Universidad Nacional de Colombia
 
Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Universidad Nacional de Colombia
 
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...eraser Juan José Calderón
 
Jornada El uso de las TIC en los programa universitarios para mayores
Jornada El uso de las TIC en los programa universitarios para mayoresJornada El uso de las TIC en los programa universitarios para mayores
Jornada El uso de las TIC en los programa universitarios para mayoresUniversidad de Sevilla
 
Archivo bueno herramientas virtuales
Archivo bueno herramientas virtualesArchivo bueno herramientas virtuales
Archivo bueno herramientas virtualesGeny Cárdenas
 
Presentacion AppsCiencia Daniel Torres
Presentacion AppsCiencia Daniel TorresPresentacion AppsCiencia Daniel Torres
Presentacion AppsCiencia Daniel TorresEC3metrics Spin-Off
 
10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovilTorres Salinas
 
10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil 10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil Javier Cantón
 
Ranking 250 másters de España y guía completa de MBA - El Mundo
Ranking 250 másters de España y guía completa de MBA - El MundoRanking 250 másters de España y guía completa de MBA - El Mundo
Ranking 250 másters de España y guía completa de MBA - El MundoEAE Business School
 

Semelhante a Libro resumenes v121114_1436 (20)

Nosotros....¿Qué respiramos?
Nosotros....¿Qué respiramos?Nosotros....¿Qué respiramos?
Nosotros....¿Qué respiramos?
 
Impacto de la RSC en la comunicación universitaria
Impacto de la RSC en la comunicación universitariaImpacto de la RSC en la comunicación universitaria
Impacto de la RSC en la comunicación universitaria
 
Open science conferencia
Open science conferenciaOpen science conferencia
Open science conferencia
 
Tendencias de comunicación en red en asociaciones y colegios profesionales de...
Tendencias de comunicación en red en asociaciones y colegios profesionales de...Tendencias de comunicación en red en asociaciones y colegios profesionales de...
Tendencias de comunicación en red en asociaciones y colegios profesionales de...
 
Huella de-carbono-individual
Huella de-carbono-individualHuella de-carbono-individual
Huella de-carbono-individual
 
Libro ro
Libro roLibro ro
Libro ro
 
Programa XII Jornada MEDES_La ciencia compartida en español
Programa XII Jornada MEDES_La ciencia compartida en españolPrograma XII Jornada MEDES_La ciencia compartida en español
Programa XII Jornada MEDES_La ciencia compartida en español
 
Memoria actividades Atlas VPM 2016
Memoria actividades Atlas VPM 2016Memoria actividades Atlas VPM 2016
Memoria actividades Atlas VPM 2016
 
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...
Informe U-ranking 2019. 7ª edición. Indicadores Sintéticos de las Universidad...
 
U-Ranking 2019 7ª Edición (Indicadores Sintéticos del Sistema Universitario ...
U-Ranking 2019  7ª Edición (Indicadores Sintéticos del Sistema Universitario ...U-Ranking 2019  7ª Edición (Indicadores Sintéticos del Sistema Universitario ...
U-Ranking 2019 7ª Edición (Indicadores Sintéticos del Sistema Universitario ...
 
Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...
 
Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...Producción y transformación del espacio residencial de la Población de Bajos ...
Producción y transformación del espacio residencial de la Población de Bajos ...
 
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...
Indicadores Sintéticos de las Universidades Españoles. 8ª Edición Informe U-R...
 
Jornada El uso de las TIC en los programa universitarios para mayores
Jornada El uso de las TIC en los programa universitarios para mayoresJornada El uso de las TIC en los programa universitarios para mayores
Jornada El uso de las TIC en los programa universitarios para mayores
 
Archivo bueno herramientas virtuales
Archivo bueno herramientas virtualesArchivo bueno herramientas virtuales
Archivo bueno herramientas virtuales
 
Presentacion AppsCiencia Daniel Torres
Presentacion AppsCiencia Daniel TorresPresentacion AppsCiencia Daniel Torres
Presentacion AppsCiencia Daniel Torres
 
10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil
 
10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil 10 mejores apps para científicos #investigacionmovil
10 mejores apps para científicos #investigacionmovil
 
Renovación acreditación crc
Renovación acreditación crcRenovación acreditación crc
Renovación acreditación crc
 
Ranking 250 másters de España y guía completa de MBA - El Mundo
Ranking 250 másters de España y guía completa de MBA - El MundoRanking 250 másters de España y guía completa de MBA - El Mundo
Ranking 250 másters de España y guía completa de MBA - El Mundo
 

Último

CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionJosueVallejo10
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaraymaris1914
 
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxTEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxmarinosudarioneyer
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfSesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfMarxx4
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfFranyeskaMagallanes
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptxmgm & asociado
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesalvarojosephyucracol
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxcandevillarruel
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 

Último (20)

CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacion
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
 
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptxTEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
TEORIA DEL DEFICIT DEL AUTOCUIDADO .pptx
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfSesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantes
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docx
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 

Libro resumenes v121114_1436

  • 1. LIBRO DE RESÚMENES IV JORNADAS DE USUARIOS DE R CREAL, BARCELONA 15 Y 16 DE NOVIEMBRE DE 2012 COMITÉS ORGANIZADOR Y CIENTÍFICO http://r-es.org/4j 13 DE NOVIEMBRE DE 2012
  • 2.
  • 3. © 2012 Organización de las IV Jornadas de Usuarios de R Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 España de Creative Commons. Para ver una copia de esta licencia, visite: http://creativecommons.org/licenses/by-nc-sa/3.0/es/legalcode.es. Usted es libre de copiar, distribuir y comunicar públicamente la obra, y hacer obras derivadas bajo las condiciones siguientes: Reconocimiento. Debe reconocer los créditos de la obra de la manera especi- ficada por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo o apoyan el uso que hace de su obra). No comercial. No puede utilizar esta obra para fines comerciales. Compartir bajo la misma licencia. Si altera o transforma esta obra, o gene- ra una obra derivada, sólo puede distribuir la obra generada bajo una licencia idéntica a ésta. Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licencia de esta obra. Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los derechos de autor. Nada en esta licencia menoscaba o restringe los derechos morales del autor. I
  • 4.
  • 5. Índice general Índice general III Información General IX Presentación X Información útil XI Comité organizador XIII Comité científico XIV Patrocinadores XV Programa XVI I Sesión de Comunicaciones I 1 1 Funciones geoestadísticas y funciones de base radial en el programa R: Pa- quete geospt 2 Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra Esperanza Melo Martínez Universidad Distrital Francisco José de Caldas Universidad Nacional de Colombia Universidad de Barcelona - España. 2 Investigación operativa reproducible. Aplicación a la optimización de sis- temas energéticos 3 Emilio L. Cano, Javier M. Moguerza Dpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos 3 MicroDatosEs: un paquete para leer ficheros de microdatos públicos 4 Carlos-J. Gil Bellosta datanalytics III
  • 6. ÍNDICE GENERAL 4 Flujo de trabajo reproducible con R 5 Aureli Alabert Universitat Autònoma de Barcelona 5 A study of poverty and income inequality in the EU countries 6 Jitka Bartosova, Nicholas T. Longford University of Economics in Prague, Jindrichuv Hradec, Czech Republic SNTL and UPF, Barcelona, Spain II Sesión de Comunicaciones II 7 6 Caracterizacion Del Software Estadistico En Las Escuelas De Estadistica Del Ecuador. Enfoque En El Software R 8 Rubén Pazmiño Maji Escuela Superior Politécnica de Chimborazo 7 A cross-country air quality analysis using R 9 Olga Ivina Collaborative statistician at CREAL. Research fellow at the University of Girona 8 Inferencia estadística para el equilibrio de Hardy-Weinberg en estudios de genotipado con Missing Data 10 Milagros Sánchez Mayor, Jan Graffelman Department of Statistics and Operations Research Universitat Politècnica de Catalunya Barcelona, Spain 9 Representación de las Dinámicas de Precios Hoteleros mediante R 12 Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres Manzanera CICtourGUNE 10 El paquete complex.surv.dat.sim de R: Simulación de datos de superviven- cia complejos 13 David Moriña, Albert Navarro Centre Tecnològic de Nutrició i Salut Facultat de Medicina, Universitat Autònoma de Barcelona BioStatNet 11 De Excel a html utilizando knitr+markdown+googleVis . Un ejemplo 14 José-Luis Cañadas Reche Técnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-CSIC 12 Programación Lineal y Programación Dinámica con R 15 Beatriz González Pérez, Victoria López López, Juan Sampedro Ruiz Facultad de Matemáticas, Universidad Complutense de Madrid Facultad de Informática, Universidad Complutense de Madrid Facultad de Matemáticas, Universidad Complutense de Madrid IV
  • 7. Índice general 13 Selección de variables y modelizado predictivo en R 16 Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, Manuel Julian Alía-Martínez, Roberto Fernández-Martínez Grupo EDMANS, Universidad de La Rioja 14 Evaluación de modelos paramétricos de predicción de irradiación global solar mediante variables meteorológicas típicas 17 Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, Oscar Perpiñan-Lamigueiro Grupo EDMANS, Universidad de La Rioja Universidad Politécnica de Madrid 15 Uso de métodos de interpolación espacial para la predicción de variables en entornos vitivinícolas 19 Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia, Andres Sanz Garcia Grupo EDMANS, Universidad de La Rioja IIISesión de Comunicaciones III 20 16 R como caja de herramientas para SIG y Teledetección: reflexiones a partir de experiencias 21 Agustín Lobo Institut de Ciències del Terra Jaume Almera. Consejo Superior de Investigaciones Científicas 17 Simulación de perfiles genéticos de riesgo 22 Víctor Urrea Gales, María Luz Calle Rosingana Universidad de Vic 18 Construcción de un Índice Global de Valoración 23 Ane Zarragoitia, Arantza Urkaregi, Jesús Morán UPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miembro de la red BIOSTATNET Unidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Bara- kaldo. Bizkaia. 19 kerdiest:: An R Package for Distribution Function Estimation and Applica- tions 25 Graciela Estévez-Pérez, Alejandro Quintela-del-Río Departamento de Matemáticas - Universidad de A Coruña IVSesión de Comunicaciones IV 27 20 seq2R: Detección de puntos de cambio en secuencias genómicas. 28 Nora M. Villanueva , Marta Sestelo, Javier Roca-Pardiñas Departamento de Estadística e Investigación Operativa Universidad de Vigo V
  • 8. ÍNDICE GENERAL 21 Exploring bi-allelic genetic markers with the HardyWeinberg package 29 Jan Graffelman Departament d,Estadística i Investigació Operativa Universitat Politècnica de Catalunya 22 FWDselect: Selección de variables en modelos de regresión 31 Marta Sestelo, Nora M. Villanueva, Javier Roca-Pardiñas Departamento de Estadística e Investigación Operativa Universidad de Vigo 23 Reducción unidimensional de 12 items en la escala de sobrecarga de Zarit 32 Borja Santos, Eduardo González, Javier Ballesteros Universidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For- mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212) Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio. Universidad del País Vasco (UPV), Departamento de Neurociencias y Cibersam G- 16. 24 The optimalAllocation package for longitudinal studies design with time- varying exposure 34 Jose Barrera-Gómez, Xavier Basagaña Centre for Research in Environmental Epidemiology, Barcelona, Spain. IMIM (Hospital del Mar Research Institute), Barcelona, Spain. CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain. V Talleres 35 25 Web scraping con R 36 Gregorio R. Serrano Dpto. de Economía Cuantitativa Fctad. CC. Económicas y Empresariales, UCM 26 Informes dinámicos con LaTeX y R: utilización de Sweave y knitr. 37 Francesc Carmona Departamento de Estadística. Universidad de Barcelona. 27 Interfaces Web 2.0 para R con Tiki 38 Xavier de Pedro Puente Unidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB- VHIR). Barcelona. http://ueb.vhir.org 28 Edición (y mucho más) potente en R con ESS (Emacs Speaks Statistics) 39 Alex Sánchez Departament d’Estadística. Universitat de Barcelona. Barcelona, Espanya. Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca. 29 Machine Learning in R 40 Alexandros Karatzoglou Telefonica Investigación y Desarrollo VI
  • 9. Índice general 30 Introducción a las Reference Classes (programación orientada a objetos en R) 41 Aleix Ruiz de Villa TSS - Transport Systems and Simulations 31 Introducción práctica a la librería ggplot2 y su integración con ggmap. 42 Lluís Ramon, Andreu Vall, Roger Borràs Oficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat de Catalunya. Miembro del R Users Group Barcelona. Asistente de investigación en IESE Business School, Departamento de Dirección de Producción, Tecnología y Operaciones. Miembro del R Users Group Barcelona. Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya. Miembro del R Users Group Barcelona. Autores e Instituciones 43 Índice de autores 44 Índice de Instituciones 45 VII
  • 10.
  • 12. Presentación Las IV Jornadas de Usuarios de R tendrán lugar en el Centro de Investigación en Epidemiología Ambiental (CREAL), ubicado en el Parque de Investigación Biomédica de Barcelona (PRBB), los días 15 y 16 de Noviembre de 2012. El parque incluye seis centros de investigación que son un claro ejemplo de la importacia de R tanto en el ámbito biomédico como el académico, ya que todos ellos utilizan este software para llevar a cabo sus estudios o formar a futuros investigadores. Las jornadas, como no podría ser de otra forma, van a incluir trabajos de todos los ámbitos y están abiertas tanto a usuarios como a entusiastas de R independientemente de su área de interés. Los objetivos para estas jornadas serán los mismos que para las anteriores que tan buenos resultados obtuvieron. Estos objetivos incluyen: Proporcionar un punto de encuentro a los usuarios de R Fomentar la colaboración entre ellos en un ambiente multidisciplinar Divulgar el conocimiento del lenguaje y sus posibilidades Promover el uso de R En esta edición, además de las ponencias invitadas, las presentaciones orales y los talleres, se llevarán a cabo presentaciones breves donde el ponente expondrá de forma concisa los resultados y conclusiones de alguna investigación llevada a cabo con R que puedan ser de interés para otros colegas. Desde el comité organizador nos gustaría destacar la excelente labor llevada a cabo por el comité científico, a los ponentes de los talleres y a todos los asistentes que han permitido confeccionar el programa que a continuación detallamos y esperamos que sea de vuestro interés. Esperamos que las jornadas resulten lo más provechosas posibles y que disfrutéis de una confortable estancia en Barcelona. X
  • 13. Información útil Ubicación de las jornadas Las jornadas se celebrara´n en el PRBB. En este enlace se puede ver cómo acceder por transporte público. Las comunicaciones orales y breves se llevarán a cabo en la sala Xipre situada en la primera planta del edificio, justo donde se ubica el CREAL. Su situación estará señali- zada a la entrada del paque. Para acceder al edificio cada participante se deberá identificar en recepción donde disponen de una lista con todos los asistentes. Talleres Los participantes a los talleres deben traer su propio ordenador portátil con las herramientas que indiquen los responsables de talleres. La inscripción de los talleres se realizará tal y como indica la web de las jornadas . Dado el limitado número de plazas, se reservará plaza por orden de inscripción. Los talleres se desarrollarán en la Sala Xipre (donde se lleva a cabo el congreso), y en la Sala Ramón y Cajal (jueves día 15) y Sala Charles Darwin (viernes día 16), ambas situadas en la planta baja del edificio (locales interiores). Certificados Los certificados se enviarán por correo electrónico una vez pasadas las Jornadas. XI
  • 14. INFORMACIÓN ÚTIL Material Todo el material, está disponible a través de la página web de las Jornadas . Adicio- nalmente, se entregará a los inscritos una memoria USB con el material adicional que haga falta para los talleres, así como la última versión disponbile del programa de las jornadas y libro de comunicaciones, a fecha de grabado de las memorias USB. XII
  • 15. Comité organizador Juan R. González, (coordinador) y por orden alfabético, Aleix Ruiz de Villa Alex Sanchez Carlos J. Gil Bellosta Esteban Vegas Llorenç Badiella Lluis Ramon Paco Carmona Roger Borras Xavier de Pedro y el soporte técnico de Iolanda Molina (CREAL) XIII
  • 16. Comité científico Juan José Gibaja (coordinador), y por orden alfabético: Gregorio R. Serrano Joan Vila Jose Barrera Miguel Ángel Rodríguez Muíños Oscar Perpiñán Lamigueiro Otto F. Wagner Ramón Díaz Uriarte Sandra Barragán XIV
  • 18. Programa JUEVES 15 DE NOVIEMBRE • 09:00-09:30 Acreditación y recogida de información • 09:30-09:45 Inauguración oficial de las Jornadas. J.R. González. • 09:45-10:30 Conferencia Inaugural. J. Vila: Enseñando estadística: como me- jorar los conocimientos utilizando R para la creación de prácticas individua- lizadas. • 10:30-12:00 Sesión de Comunicaciones (I) Moderador: G.R Serrano ◦ 10:30-10:45 C. E. Melo Funciones geoestadísticas y funciones de base radial en el programa R: Paquete geospt ◦ 10:45-11:00 E. L. Cano Investigación operativa reproducible. Aplicación a la optimización de sistemas energéticos ◦ 11:00-11:15 C. J. Gil MicroDatosEs: un paquete para leer ficheros de mi- crodatos públicos ◦ 11:15-11:30 A. Alabert Flujo de trabajo reproducible con R ◦ 11:30-11:45 N. Longford A study of poverty and income inequality in the EU countries • 12:00-12:30 Café • 12:30-14:00 Sesión de Comunicaciones (II) Moderador: A. Sánchez ◦ 12:30-12:45 R. Pazmiño Caracterizacion del software estadistico en las escuelas de estadistica del Ecuador. Enfoque en el software R ◦ 12:45-13:00 O. Ivina A cross-country air quality analysis using R ◦ Comunicaciones Breves 13:00-13:07 M. Sánchez Inferencia estadística para el equilibrio de Hardy-Weinberg en estudios de genotipado con Missing Data 13:07-13:15 I. Roman Representación de las Dinámicas de Precios Hoteleros mediante R 13:15-13:22 D. Moriña El paquete complex.surv.dat.sim de R: Simu- lación de datos de supervivencia complejos 13:22-13:30 J-L. Cañadas De Excel a html utilizando knitr + mark- down + googleVis . Un ejemplo 13:30-13:37 B. González Programación Lineal y Programación Diná- mica con R XVI
  • 19. 13:37-13:45 A. Sanz-García Selección de variables y modelizado pre- dictivo en R 13:45-13:52 F. Antoñanzas-Torres Evaluación de modelos paramétri- cos de predicción de irradiación global solar mediante variables me- teorológicas típicas 13:52-14:00 R. Fernández Uso de métodos de interpolación espacial para la predicción de variables en entornos vitivinícolas • 14:00-16:00 Comida • 16:00-17:45 Talleres (I) ◦ G. R. Serrano Web scraping con R ◦ F. Carmona Informes dinámicos con LaTeX y R: utilización de Sweave y knitr. • 17:45-18:15 Café • 18:15-20:00 Talleres (II) ◦ X. de Pedro Interfaces Web 2.0 para R con Tiki ◦ A. Sánchez Edición (y mucho más) potente en R con ESS (.Emacs Speaks Statistics") • 20:00-21:00 Asamblea Asociación “Comunidad R-Hispano” • 21:30 Cena VIERNES 16 DE NOVIEMBRE • 10:00-11:00 Sesión de Comunicaciones (III) Moderador: F. Carmona ◦ 10:00-10:15 A. Lobo R como caja de herramientas para SIG y Teledetec- ción: reflexiones a partir de experiencias ◦ 10:15-10:30 V. Urrea Gales Simulación de perfiles genéticos de riesgo ◦ 10:30-10:45 A. Urkaregi Construcción de un Índice Global de Valoración ◦ 10:45-11:00 G. Estévez-Pérez kerdiest: An R Package for Distribution Function Estimation and Applications • 11:00-12:00 Sesión de Comunicaciones (IV) Moderador: Ll. Ramon ◦ 11:00-11:15 N. M. Villanueva seq2R: Detección de puntos de cambio en secuencias genómicas ◦ 11:15-11:30 J Graffelman Exploring bi-allelic genetic markers with the HardyWeinberg package ◦ 11:30-11:45 M. Sestelo FWDselect: Selección de variables en modelos de regresión ◦ 11:45-12:00 B. Santos Reducción unidimensional de 12 items de la Es- cala de sobrecarga de Zarit en cuidadores de pacientes con demencia mediante teoría de respuesta a los ítems. ◦ 12:00-12:15 J. Barrera The optimal Allocation package for longitudinal studies design with time-varying esposure • 12:15-12:45 Café • 12:45-14:30 Talleres (III) XVII
  • 20. PROGRAMA ◦ A. Karatzoglou Machine learning in R • 14:30-16:15 Comida • 16:15-18:00 Talleres (IV) ◦ A. Ruiz Introducción a las Reference Classes (programación orientada a objetos en R) ◦ Ll. Ramon, R. Borras y A. Vall Introducción práctica a la librería ggplot2 y su integración con ggmap • 18:00-18:30 Café • 18:30-19:00 Clausura Oficial de las IV Jornadas XVIII
  • 22. 1 Funciones geoestadísticas y funciones de base radial en el programa R: Paquete geospt Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra Esperanza Melo Martínez Universidad Distrital Francisco José de Caldas Universidad Nacional de Colombia Universidad de Barcelona - España. Proponemos una serie de funciones que están diseñadas en el programa R. Estas permiten un análisis geoestadístico más completo junto con la ayuda de paquetes pre- viamente diseñados en R, tales como: geoR, gstat y sgeostat, entre otros. De esta ma- nera, estas contribuciones son: una función para la construcción del variograma expe- rimental de la media recortada, una función para la construcción del pocketplot para datos grillados (útil para el análisis de estacionariedad local), y funciones de base radial (multicuadrática, multicuadrática inversa, spline con tensión, completamente regula- rizada spline y spline capa delgada) con tendencia para optimizar, predecir y realizar validación cruzada en el espacio, una función para producir un gráfico que muestra el comportamiento del parámetro de suavizamiento “eta”, asociado con la función de base radial, y una función que genera una tabla con el resumen de las estadísticas de la validación cruzada para evaluar la exactitud de los métodos de interpolación (geoestadísticos y determinísticos) con base en los errores de predicción. Se describen brevemente algunas de las funciones, y luego se ilustra su funcionamiento con varios ejercicios. El paquete esta implementado en el programa (R Development Core Team (2012)) y se encuentra disponible en el Comprehensive R Archive Network (CRAN) en http://cran.r-project.org/web/packages/geospt. 2
  • 23. 2 Investigación operativa reproducible. Aplicación a la optimización de sistemas energéticos Emilio L. Cano, Javier M. Moguerza Dpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos Cuando resolvemos problemas de optimización, antes de la llamada al soluciona- dor (solver) con el algoritmo adecuado, normalmente se deben realizar un conjunto de tareas diversas. Estas tareas incluyen preparación de datos, análisis estadístico, o representaciones gráficas, entre otras. Del mismo modo, una vez obtenida la solución, estos resultados pueden ser tratados y presentados de distintas formas. En este tra- bajo presentamos un método para aplicar las técnicas de investigación reproducible a la toma de decisiones respecto a la optimización de sistemas energéticos a nivel de edificio. Se propone un marco de trabajo integrado utilizando el software estadístico y lenguage de programación R. Esta solución permite la representación de los modelos, la instancia del problema, y los resultados en distintos formatos, tanto para ser inter- pretados por las máquinas como por las personas. Este enfoque, frente al sistema de copiar-y-pegar, proporciona a los investigadores operativos una poderosa herramienta para incrementar su productividad y, por lo tanto, su competitividad. 2.1. Bibliografía EnRiMa. 2012. Energy efficiency and risk management in public buildings. www.enrima- project.eu. Kallrath, Josef. 2012. Algebraic modeling languages: Introduction and overview. Josef Kallrath, ed., Algebraic Modeling Systems, Applied Optimization, vol. 104. Springer Berlin Heidelberg, 3–10. doi:10.1007/ 978-3-642-23592-4 1. Knuth, Donald E. 1984. Literate programming. The Computer Journal 27(2) 97–111. Baggerly, Keith A., Kevin R. Coombes. 2009. Deriving chemosensitivity from cell lines: Forensic bioinformatics and reproducible research in high-throughput biology. The Annals of Applied Statistics 3(4) 1309–1334. Theussl, Stefan. 2012. CRAN Task View: Optimization and Mathematical Program- ming. Internet. URL http://cran.r-project.org/web/views/Optimization.html. [retrie- ved 2012-06-29]. 3
  • 24. 3 MicroDatosEs: un paquete para leer ficheros de microdatos públicos Carlos-J. Gil Bellosta datanalytics El paquete MicroDatosEs automatiza la lectura en R de ficheros de microdatos (pro- cedentes de encuestas, censos, etc.) que diversos organismos públicos españoles (como el INE, el CIS, etc.) ponen a disposición de la ciudadanía y que tienen una gran impor- tancia tanto científica como social. Desafortunadamente, el formato en el que se publi- can, exige un penoso proceso de carga si se quieren importar a R (u otros programas de análisis estadístico). El paquete MicroDatosEs combina los metadatos necesarios para realizar la impor- tación automática de dichos ficheros a R facilitando su análisis y fomentando así, en general, el uso de esa información por parte de los investigadores, medios de comuni- cación, etc. Trata de fomentar además el uso de R por parte de un sector de los usuarios de la estadística que, hasta la fecha, vienen prefiriendo el uso de otros paquetes de aná- lisis estadístico distintos de R. La charla subraya en primer lugar la importancia de ese tipo de información así como la conveniencia de extender el uso de R en ámbitos como el de la estadística pública y el periodismo de datos para pasar luego a una descripción de la estructura modular del paquete y sus mecanismos de expansión para leer nuevos tipos de ficheros de microdatos. 4
  • 25. 4 Flujo de trabajo reproducible con R Aureli Alabert Universitat Autònoma de Barcelona La reproducibilidad es clave tanto para el avance científico como para los análisis estadísticos. És también importante para facilitar el propio desarrollo de los análisis y evitar errores. Recientemente han aparecido diversas herramientas que facilitan la generación au- tomática de informes estadísticos, siguiendo la filosofia literate programming, que au- tomatiza la generación simultánea de un código y de la documentación de ese código. Se mostrará el uso de programas como markdown, pandoc, latex, etc, junto con el package de R knitr, para implementar esta idea en la práctica, produciendo informes reproducibles de calidad en html, pdf o slidy. 5
  • 26. 5 A study of poverty and income inequality in the EU countries Jitka Bartosova, Nicholas T. Longford University of Economics in Prague, Jindrichuv Hradec, Czech Republic SNTL and UPF, Barcelona, Spain The European Union Statistics and Income and Living Conditions is a collection of annual surveys in the country of EU. It has a cross-sectional and a longitudinal part. The presentation will describe a comprehensive agenda for the analysis of these surveys, with a focus on the Lorenz curve and Gini coefficients in the countries, and for some countries also in their regions. An integral part of the analysis are graphical displays. The analyses are implemented in user-defined (custom-written) functions in R with a link to the database which comprises Stata and Excel files. The functions are organi- sed in three sets. One set is for simple tasks, such as data input and reduction, gene- rating basic data summaries, and evaluation of the Lorenz curve for a country and year. Another set combines several of these tasks; their main arguments are country and year and they return a matrix or list of results. A third set of functions operates on these results to generate diagrams and to condense the results to objects that are easy to inspect and comprehend. Together with a set of auxiliary functions they will be organised in an R package. The contribution was partially supported by project IG F6/3/2012 "Quantitative Study of the Social Situation of Juniors and Seniors.of the Internal Grant Agency of University of Economics in Prague, Czech Republic. 6
  • 28. 6 Caracterizacion Del Software Estadistico En Las Escuelas De Estadistica Del Ecuador. Enfoque En El Software R Rubén Pazmiño Maji Escuela Superior Politécnica de Chimborazo El día jueves 10 de Abril del 2008 se emitió el decreto 1014 por parte de la presi- dencia del Ec. Rafael Correa Delgado que promueve el uso de software libre en las instituciones públicas del Ecuador. Se han hecho algunos esfuerzos para impulsar su utilización. En las instituciones educativas de nivel bajo y medio se ha impulsado la utilización de software libre donando computadores con el sistema operativo Ubuntu, se ha apostado también a la capacitación de los docentes en la utilización de Libreof- fice y sus aplicaciones educativas. En el ámbito universitario cada institución define sus estrategias, pero no todas son claras ni explicitas en sus reglamentos y actividades. Con éste trabajo se desea caracterizar la utilización de Software Estadístico en el ca- so de todas las escuelas de Estadística del Ecuador. Haciéndose especial énfasis en la utilización del Software estadístico R. Además se comparte las primeras apreciaciones por parte de estudiantes universitarios en la utilización de R, como primer software estadístico de estudio. 8
  • 29. 7 A cross-country air quality analysis using R Olga Ivina Collaborative statistician at CREAL. Research fellow at the University of Girona a macrolevel, quality of air at a given country depends on various factors. Among them are: country’s economic determinants, such as GDP per capita and its industrial profile, as well as population determinants, such as quality of life and people’s edu- cation, infrastructure, climate and policies. This research makes use of the data from the World Bank and the IMD World Competitiveness Yearbook. Annual PM10 concen- trations across more than 50 countries have been taken up as a measure of air quality, since it is a common factor for all the countries that has been tracked by the WHO and the World Bank. A decision tree model based of the CART algorithm has been fitted for 2009 data with the use of the rpart package. Descriptive statistics analysis has been performed with the use of stats package functions. 7.1. Bibliografía 1. Sergey Aivazian, On the Key Factors of Socio-Economic Policy and Institutio- nal Development that Determine the Improvement of the Quality of Life. – Austrian Journal of Statistics, 2008, vol. 37 (1). 2. The IMD World Competitiveness Yearbook, 2009. 3. Philip L. H. Yu, Wai Ming Wan and Paul H. Lee, Decision Tree Modeling for Ranking Data, 2011, Preference Learning, Part 1, pages 83-106 4. Terry M Therneau and Beth Atkinson, Package ‘rpart’, version 3.1-54, 2012. 9
  • 30. 8 Inferencia estadística para el equilibrio de Hardy-Weinberg en estudios de genotipado con Missing Data Milagros Sánchez Mayor, Jan Graffelman Department of Statistics and Operations Research Universitat Politècnica de Catalunya Barcelona, Spain El modelo de Hardy-Weinberg siendo una proposición teórica es muy valioso para evaluar los factores evolutivos que están operando en las poblaciones. Si una pobla- ción no presenta estructura genética según este equilibrio, es porque están actuando algunos de los factores evolutivos. Según la relación entre homocigotos o heterocigo- tos, esperados y observados, se pueden deducir varias desviaciones. En términos de marcadores, entre ellos los SNPs, podemos remarcar 2 aplicaciones importantes en el Equilibrio de Hardy-Weinberg: (I) Con él detectar errores de genotipado. (II) Si un mar- cador está asociado a una enfermedad, se espera desequilibrio de Hardy-Weinberg, es decir, el equilibrio de Hardy-Weinberg para un determinado marcador puede indicar que este marcador esté en un gen involucrado con la enfermedad. Cuando tenemos presente Missing Data la inferencia estadística sobre el equilibrio de Hardy-Weinberg en presencia de datos genotípicos puede estar sesgada, por lo que nos planteamos eva- luar la sensibilidad del coeficiente de endogamia (f) a través de distintos procedimien- tos de sustitución de datos omitidos, es decir, inferencia sobre f para HWE teniendo en cuenta los datos faltantes. Varios modelos de imputación han sido desarrollados en diferentes contextos. En general la estrategia para construir modelos de imputación caen en 2 categorías: (i) Modelación Conjunta, dentro de ésta encontramos los Mode- los de Localización General. (ii) Imputación Múltiple de Regresión Secuencial, SRMI: también referido como Imputación Múltiple a través de Chained Equations. Para el estudio usamos diferentes paquetes implementados en el software R. Estos son MICE, CAT y MIX. A través del curso del estudio, hicimos comparaciones de las diferentes metodologías que usan cada paquete de estos. Llegamos a que la modelación usan- do MICE (imputación multivariada) y CAT (imputación univariada) incluyendo sólo SNPs tuvieron la misma tendencia, imputar sobre aquella categoría de mayor conteo. Los modelos implementados incluyendo las intensidades solamente a través de MICE y MIX, siguieron el mismo patrón de imputación, aumentar la categoría de los heteroci- gotos y los modelos donde incluimos tanto las intensidades como los SNPs observados y no observados, sus categorías se equilibraban. De las varias alternativas, vimos cuál 10
  • 31. de éstas completaba los datos faltantes y justificara mejor los fundamentos teóricos de los procedimientos aplicados, llegamos a que el Modelo de Localización General era la metodología más eficiente implementado en el programa MIX. 11
  • 32. 9 Representación de las Dinámicas de Precios Hoteleros mediante R Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres Manzanera CICtourGUNE Al igual que en otras industrias, las técnicas de Revenue Managemet se están im- plantando en el sector hotelero. Estas técnicas permiten regular la oferta y la demanda maximizando el beneficio. Las habitaciones de los hoteles, como los asientos de un avión, son productos perecederos con altos costes fijos y bajos costes variables. Dichas características junto con la reserva anticipada propician prácticas de Revenue Manage- ment relacionadas con las Dinámicas de Precios. La variación de los precios en tiempo de reserva posibilita un gran flexibilidad a la hora de ofertar un producto más atractivo que el de la competencia. Con el fin de estudiar esta estrategia comercial de los hoteles, se ha recopilado in- formación diaria de los sistemas de distribución on-line. En concreto, se han obtenido los precios referentes todos los hoteles disponibles en España y Francia durante un año, midiendo la variación de precios para las reservas realizadas con una antelación de hasta un mes. En total, el conjunto de datos suma 31 registros de precios para cada día del año y más de 18.000 hoteles. Para analizar la dinámica de precios y visualizar las diferentes estrategias de ven- ta, se ha utilizado el lenguaje y entorno de programación R. Mediante el empleo de la librería data.table, se han podido realizar agregaciones de forma eficiente, calcu- lando disponibilidades y medias geométricas de precios. Asimismo, se ha trabajado en la representación de las Dinámicas de Precios y las diferentes estrategias de venta utilizando la librería ggplot2. Adicionalmente, con el objetivo de identificar eventos influyentes, se han realizado descomposiciones estacionales de series temporales. Así, el entorno de programación R ha permitido completar el proceso de generación de conocimiento, desde los datos originales, hasta las representaciones gráficas que nos permiten el estudio de diferentes estrategias dentro de esta práctica de Revenue Management. 12
  • 33. 10 El paquete complex.surv.dat.sim de R: Simulación de datos de supervivencia complejos David Moriña, Albert Navarro Centre Tecnològic de Nutrició i Salut Facultat de Medicina, Universitat Autònoma de Barcelona BioStatNet Presentamos en este trabajo un paquete de R para la simulación de datos de super- vivencia complejos, cubriendo diversas situaciones incluyendo eventos recurrentes y múltiples. La principal función del paquete permite al usuario introducir un número arbitrario de distribuciones, cada una de las cuales corresponde a un nuevo evento o episodio, con sus parámetros, disponiendo de las distribuciones Weibull (y exponen- cial como caso particular), log-logística y log-normal. En comparación con la simula- ción de otros tipos de datos, el proceso de simulación de los datos de supervivencia requiere ciertas consideraciones específicas. En primer lugar, para simular las obser- vaciones censuradas por la derecha, tenemos que simular un vector con la evolución total del individuo y, de forma independiente, un vector de tiempos de censura. Por otro lado, existen varias situaciones que hacen que los datos reales de supervivencia sean mucho más complejos. El fenómeno de interés puede ocurrir más de una vez en un mismo individuo (eventos recurrentes), o quizás estemos interesados en el análisis instantáneo de múltiples eventos de diferentes tipos. Por otra parte, se puede trabajar con cohortes dinámicas en las que se puede incorporar a un individuo después del ini- cio del estudio, o un individuo puede ser incorporado durante el seguimiento después de haber estado a riesgo durante algún tiempo. Intervalos discontinuos de riesgo o la heterogeneidad individual (propensión de un individuo a sufrir un evento debida a variables ocultas) son otros fenómenos que implican situaciones que hacen la simula- ción de este tipo de datos aún más compleja. Aunque existe un interés y una necesidad creciente de aplicar el análisis de supervivencia a conjuntos de datos con múltiples eventos y recurrencias, hay todavía pocos artículos publicados que hagan uso de la simulación de datos de supervivencia complejos, posiblemente a causa de la falta de herramientas disponibles para facilitar tales simulaciones. 13
  • 34. 11 De Excel a html utilizando knitr+markdown+googleVis . Un ejemplo José-Luis Cañadas Reche Técnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA- CSIC En colaboración con la Junta de Andalucía,el OPAM (Observatorio Permanente An- daluz de las Migraciones) presenta tanto trimestral como anualmente información re- lativa al fenómeno de la inmigración en Andalucía y España.Esta información se ha venido presentando en formato excel o pdf. Un ejemplo son los datos de extranjeros con certificado de registro o tarjeta de residencia en vigor. La información se obtiene del Ministerio de Empleo y Seguridad Social, que trimestralmente cuelga en su página web un fichero excel con dicha información. Tradicionalmente esta información se tra- taba en hojas de cálculo para obtener las agrupaciones pertinentes y realizar gráficos estadísticos. La idea, es crear uno o varios scripts en R, que partiendo de ficheros en csv, calculen todas las tablas y gráficos que se venían realizando, y mediante la facilidad del lenguaje markdown junto con el paquete knitr y googleVis obtener un fichero html. Una vez realizado el script, la tarea se reduce a preparar los ficheros csv originales ,o en su caso leerlos directamente de la web, reduciendo considerablemente el tiempo de procesamiento y formateado de la información, así como una disminución drástica de errores. Se ha utilizado googleVis, por la interactividad que permite al usuario fi- nal, permitiéndole en algunos casos cambiar el tipo de gráfico mostrado u ordenar las tablas por alguna de sus columnas. 11.1. Bibliografía 1. R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. 2. Yihui Xie (2012). knitr: A general-purpose package for dynamic report generation in R. R package version 0.8.1. http://yihui.name/knitr/ 3. Markus Gesmann and Diego de Castillo. Using the Google Visualisation API with R. The R Journal, 3(2):40-44, December 2011. 4. JJ Allaire, Jeffrey Horner, Vicent Marti and Natacha Porte (2012). markdown: Markdown rendering for R. R package version 0.5.2. 14
  • 35. 12 Programación Lineal y Programación Dinámica con R Beatriz González Pérez, Victoria López López, Juan Sampedro Ruiz Facultad de Matemáticas, Universidad Complutense de Madrid Facultad de Informática, Universidad Complutense de Madrid Facultad de Matemáticas, Universidad Complutense de Madrid Aunque R es un lenguaje de programación orientado principalmente al análisis estadístico y gráfico, al tener código libre, se realizan continuamente multitud de apor- taciones de diversos campos. La Investigación Operativa es una ciencia de naturale- za multidisciplinar y dado el interés que hay entre los docentes e investigadores por desarrollar procedimientos que puedan ser aplicados de manera generalizada por es- tudiantes, profesionales y científicos, el uso de R es necesario para resolver problemas relacionados con la optimización del funcionamiento de un sistema. Los algoritmos de Programación Lineal y Programación Dinámica son una base imprescindible para el desarrollo de algoritmos que resuelven otros problemas. Tienen una justificación teó- rica sencilla fundamentada en conceptos básicos de Álgebra y Geometría, por lo que sirven para motivar a los alumnos de Matemáticas, Informática e Ingeniería que los estudian por primera vez y necesitan programar sus propias funciones. En este traba- jo se desarrollan cuatro funciones que resuelven problemas estándar de Programación Lineal y Programación Dinámica, y que se han utilizado en la enseñanza de la Inves- tigación Operativa y la Bioinformática en los cursos de Grado y Máster. Además, se describen algunas de las funciones disponibles en los paquetes de R para resolver este tipo de problemas. 15
  • 36. 13 Selección de variables y modelizado predictivo en R Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, Ma- nuel Julian Alía-Martínez, Roberto Fernández-Martínez Grupo EDMANS, Universidad de La Rioja La presente comunicación presenta un caso completo de aplicación del modelado predictivo basado principalmente en el lenguaje R[2] con datos extraídos de una línea de producción de chapa de galvanizado en caliente.[3] Multitud de técnicas han sido desarrolladas para la minería de datos y el modelado predictivo en procesos industria- les. Las técnicas tradicionales como los modelos de regresión múltiple suelen encontrar importantes obstáculos debido a la falta de homogeneidad y normalidad en los datos, además de una alta correlación entre las variables independientes. Métodos más mo- dernos como redes neuronales, arboles de regresión o regresión sesgada pueden evitar conclusiones erróneas. La mayoría han sido implementados en R a traves de un eleva- do número de librerías; sin embargo, el paso clave para mejorar los resultados reside en la identificación de cuales son las variables de proceso relevantes (conjunto parsi- monio) dentro del conjunto de datos inicial.[1] En muchos trabajos la pre-selección no se realiza o la técnica no es la adecuada, lo que reduce la capacidad de predicción del modelo. Las librerías empleadas reflejan el éxito y la eficiencia de llevar a cabo el tra- bajo de planta con R a pesar del elevado tamaño de las series temporales y la cantidad de ruido. 13.1. Bibliografía [1] GUYON, ISABELLE y ELISSEEFF, ANDRE: «An introduction to variable and feature selection». J. Mach. Learn. Res., 2003, 3, pp. 1157–1182. [2] HORNIK, KURT: «The R FAQ», 2011. ISBN 3-900051-08-9. http://CRAN.R-project.org/doc/FAQ/R-FAQ.html [3] MARTÍNEZ-DE-PISÓN, F. J.; ALBA-ELÍAS, F.; CASTEJÓN-LIMAS, M. y GONZÁLEZ- RODRÍGUEZ, J. A.: «Improvement and optimisation of hot dip galvanising line using neural networks and genetic algorithms». Ironmaking and Steelmaking, 2006, 33(4), pp. 344–352. 16
  • 37. 14 Evaluación de modelos paramétricos de predicción de irradiación global solar mediante variables meteorológicas típicas Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, Os- car Perpiñan-Lamigueiro Grupo EDMANS, Universidad de La Rioja Universidad Politécnica de Madrid El objetivo de este trabajo es el análisis comparativo de veintidós modelos paramé- tricos clásicos para la predicción de la irradiación global solar a través de otras varia- bles meteorológicas típicas. El estudio se realiza en veintiún estaciones meteorológicas en La Rioja con cinco años de valores diarios de temperaturas máximas, mínimas, pre- cipitaciones y irradiación global solar. Los datos son de libre acceso a través de las webs del Servicio de Información Agroclimática de La Rioja (SIAR) y de SOS Rioja. El análisis, llevado a cabo en R, emplea diferentes paquetes: solaR [2] para el cálculo de la geometría solar y el cálculo de la irradiación extraterrestre; rasterVis [3] para la visuali- zación de imágenes raster y optimx [1] para la calibración de los modelos. Se comienza mediante un preprocesado eliminando datos espurios y corrigiendo los errores de co- rrelación horaria inducidos por los relojes de las estaciones meteorológicas. Los datos quince minútales de las estaciones se transforman en datos diarios. Posteriormente, se desarrolla un estudio de estabilidad de los modelos ante pequeñas variaciones en los datos de calibración mediante bootstrapping y cien iteraciones. Una vez calibrados y validados los modelos, se evalúa su comportamiento testeándolos con otro periodo temporal y comprobando su errores. 14.1. Bibliografía [1] NASH, JOHN C. y VARADHAN, RAVI: optimx: A Replacement and Extension of the optim() Function, 2012. http://cran.r-project.org/web/packages/optimx/index.html [2] PERPIÑÁN, OSCAR: «solaR: Solar Radiation and Photovoltaic Systems with R». Journal of Statistical Software, 2012, 50(9), pp. 1–32. http://www.jstatsoft.org/v50/i09/ 17
  • 38. 14. EVALUACIÓN DE MODELOS PARAMÉTRICOS DE PREDICCIÓN DE IRRADIACIÓN GLOBAL SOLAR MEDIANTE VARIABLES METEOROLÓGICAS TÍPICAS [3] PERPIÑÁN, OSCAR y HIJMANS, ROBERT: rasterVis: Visualization methods for the raster package, 2012. R package version 0.10-9. http://CRAN.R-project.org/package=rasterVis 18
  • 39. 15 Uso de métodos de interpolación espacial para la predicción de variables en entornos vitivinícolas Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia, Andres Sanz Garcia Grupo EDMANS, Universidad de La Rioja La presente comunicación presenta la primera parte de un caso de modelado pre- dictivo de varias variables significativas en la maduración de la uva en viñedos. Va- riables como el peso, el grado alcohólico probable, la acidez tartárica, el pH,... (Fer- nandez Martinez, 2011) son realmente importantes para poder conocer como se esta desarrollando la maduración de las bayas (Coombe, 1995) y para tener una orientación de cuando es la mejor fecha de vendimia para cada una de las parcela de la bodega. De manera que conociendo las fechas más idóneas se puedan organizar más efectiva- mente los recursos disponibles. Los datos utilizados han sido recogidos en viñedos y estaciones meteorológicas de la zona que comprende la Denominación de Origen Ca- lificada (DOC) Rioja durante ocho años en diferentes localizaciones. Con estos datos el objetivo es predecir las variables en estudio con tiempo suficiente para ayudar a los viticultores en la toma de decisiones ante una cercana vendimia. Ante la imposibilidad de situar una estación meteorológica es cada una de las parcelas en estudio, se de- ben utilizar las estaciones existentes en los puntos cercanos y a partir de ellas realizar una estimación de los valores ambientales necesarios en cada parcela. Esta estimación puede ser tan simple como asignar a la parcela el valor de la estación más cercana o pueden mejorarse los resultados utilizando técnicas de predicción espacial (Laslett et al., 1987) como puede ser kriging (Krige, 1951; Matheron, 1963). El análisis, llevado a cabo en R (R Development Core Team, 2012), emplea librerías para el uso de métodos de interpolación geoestadística como gstat (Pebesma, 2004). De esta manera, una vez interpolados los valores meteorológicos en cada parcela se pueden predecirse los va- lores en estudio con más precisión que en el caso básico de asignar a cada una de las parcelas la estación meteorológica más cercana. 19
  • 41. 16 R como caja de herramientas para SIG y Teledetección: reflexiones a partir de experiencias Agustín Lobo Institut de Ciències del Terra Jaume Almera. Consejo Superior de Investigaciones Científicas Si bien el papel inicial de R en el contexto de los Sistemas de Información Geo- gráfica y Teledetección consistió en proporcionar el entorno para el análisis de datos previamente manipulados con otros programas específicos, rápidamente se produjo un desarrollo de paquetes que están convirtiendo R en una caja con herramientas an- tes exclusivas del software de GIS y Teledetección, lo que permite introducir en este ámbito formas y modos de trabajo concordes con los principios de “journaling and auditing” propios de R. Por un lado, el desarrollo de paquetes para análisis de datos espaciales y “geoestadística” indujo el desarrollo de otros paquetes capaces de forma- lizar y manipular como clases de R estructuras de datos vectoriales de SIG (incluyendo los formalismos geográficos de los Sistemas de Referencia de Coordenadas), y de pa- quetes capaces de importar y exportar los formatos específicos en el ámbito geográfico. Por otro lado, el gran volumen de datos propio de las capas raster constituyó durante años un serio problema para tratar estos datos como objetos en R, pero este problema está siendo brillantemente solucionado mediante otro paquete específico. Al mismo tiempo, otros paquetes en R han permitido establecer puentes entre código R y otros softwares específicos de SIG y Teledetección, mientras que son menos conocidos los esfuerzos en sentido contrario en los que se abren canales hacia R desde entornos de proceso y visualización de datos geoespaciales. En esta comunicación pasaré revista, por medio de ejemplos, a diferentes aplicaciones de R en el ámbito del SIG y la Telede- tección desde la perspectiva del usuario de estos sistemas, señalando aquellos aspectos que a mi juicio todavía necesitan mejoras. 21
  • 42. 17 Simulación de perfiles genéticos de riesgo Víctor Urrea Gales, María Luz Calle Rosingana Universidad de Vic En el ámbito de la epidemiología genética, uno de los objetivos principales es la detección de variantes genéticas causales y/o el estudio de posibles interacciones entre ellas. Éste es un campo que presenta grandes retos y que está en constante desarrollo, existiendo una actividad muy notable en el desarrollo de diferentes metodologías. Para poder contrastar la eficacia de las distintas metodologías en la detección y análisis de componentes genéticas es preciso realizar estudios sistemáticos con datos simulados. En este punto, es vital poder contar con conjuntos de datos que, aunque ar- tificiales, constituyan una buena imitación de datos reales. En epidemiología genética hay dos aspectos clave a tener en cuenta para generar datos simulados similares a la realidad, la simulación de genotipos con sus posibles correlaciones, lo que en genética se denomina “Linkage disequilibrium” (LD), y la simulación del fenotipo siguiendo un cierto modelo de relación entre genotipo y riesgo. Aquí presentamos una estrategia implementada en R para generar conjuntos de datos de genotipos, ya sean independientes o en LD, con perfiles genéticos de ries- go asociados a un fenotipo, que puede ser tanto una variable binaria, continua o de supervivencia. 22
  • 43. 18 Construcción de un Índice Global de Valoración Ane Zarragoitia, Arantza Urkaregi, Jesús Morán UPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miem- bro de la red BIOSTATNET Unidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Ba- rakaldo. Bizkaia. Disponemos de los datos relativos a un cuestionario de valoración de la formación recibida en el programa MIR en un hospital de la CAV cada 2 años, entre 2004 y 2010. El cuestionario consta de una serie de preguntas de valoración de diferentes aspectos de la formación y otras relativas al Servicio en el que se ha llevado a cabo la formación, el tiempo de permanencia en el mismo o el año de residencia. Nuestro objetivo es cons- truir un índice global que resuma la valoración del programa MIR. Para ello, hemos realizado un Análisis de Correspondencias Múltiples (ACM) de estos datos, tomando como variables activas las preguntas de valoración de la encuesta. Al representar grá- ficamente las modalidades de las variables activas en el plano factorial definido por los dos primeros ejes factoriales observamos que éstas describen una parábola. Es lo que se llama efecto Guttman, que nos indica que el segundo eje es función del pri- mero, de forma que el primer eje factorial define una escala lógica y ordenada de la valoración realizada. En base a esta idea, si asignamos a cada modalidad de las pre- guntas activas su primera coordenada factorial y obtenemos la media aritmética de las coordenadas factoriales de las modalidades elegidas en las diferentes preguntas, esta media nos proporciona una puntuación global de valoración que, mediante una trans- formación lineal, podremos convertir en un índice de valoración de 0 a 100. R dispone del paquete ca para la realización del ACM y crea un objeto en el que guarda las coor- denadas factoriales de cada modalidad. Hemos desarrollado un código R que, asigne a cada modalidad su primera coordenada factorial y a partir de las respuestas de cada individuo, le asigne a éste la media tipificada de las coordenadas elegidas. A continua- ción transformamos esta puntuación asignada a cada individuo en un índice global cuyos valores van de 0 a 100. Hemos comprobado la efectividad de este índice global mediante su comparación con la pregunta de valoración global y hemos analizado las ventajas que presenta en relación al índice habitual de valoración obtenido a partir de la puntuación de cada una de las modalidades de respuesta (de 0 a 3). Mediante otro código R hemos estudiado la evolución de este índice global en cada servicio a lo largo de los años de realización de la encuesta, de forma que ésta se pueda convertir en un instrumento de mejora del programa MIR. 23
  • 44. 18. CONSTRUCCIÓN DE UN ÍNDICE GLOBAL DE VALORACIÓN 18.1. Bibliografía Greenacre, M. (2008). La practica del analisis de correspondencias, Fundacion BB- VA. Escofier, B., Pages, J. (1992). Analisis factoriales simples y multiples, Servicio Edito- rial de la Universidad del Pais Vasco. Grande, I., Abascal, E. (2005). Analisis de encuestas, ESIC EDITORIAL. Pijoan, J.I., Urkaregi, A., Moran, J.M. (2001). Evaluacion por los medicos internos residentes de la formacion recibida en los servicios hospitalarios: una herramienta de monitorizacion, Gac Sanit 2001; 15 (5): 432-440. 24
  • 45. 19 kerdiest:: An R Package for Distribution Function Estimation and Applications Graciela Estévez-Pérez, Alejandro Quintela-del-Río Departamento de Matemáticas - Universidad de A Coruña The Distribution Function Estimation is not only an interesting problem by itself, but also for the fact that it appears naturally in real problems of many scientific fields, such as seismology, hydrology, environmental sciences, etc. Thus, diverse methodolo- gies, based on nonparametric ideas, have emerged for attacking statistical problems in these disciplines. In many cases, scientists are interested in knowing the risk of oc- currence of an earthquake of great magnitude, the probability of high wind speeds or hurricane occurrences, or the hazard of high flow levels. We cite, among others, the papers of Elsner et al. (2006), Gomes et al. (2003), Katz et al. (2002), Kuchenhoff and Thamerus (1996), Quintela-del Río and Francisco-Fernández (2011) and Scheitlin et al. (2010) for applications of the distribution function estimation to the different sciences mentioned in the nature hazard setting. A nonparametric estimator of the distribution function is the well-known kernel estimator, investigated, among others, by Nadaraya (1964), Reiss (1981) or Hill (1985). When working with this estimator two choices must be made: the kernel function (K) and the smoothing parameter or bandwidth (h). The selection of K is a problem of less importance, and different functions that produce good results can be used. However, in practice, the choice of an efficient method for the calculation of h, for an observed data sample, is a more complex problem because of the effect of the bandwidth on the shape of the corresponding estimator. In the distribution estimation context only two kind of methods have been investigated: plug-in and cross-validation methods. The plug-in bandwidth choice was studied, both theoretically and by simulation studies, by Altman and Leger (1995) and Polanski and Baker (2000). The least-squares cross- validation method was analyzed in Sarda (1993), but, as revealed in Altman and Leger (1995), it basically requires very large sample sizes to ensure good results. Hence, only the second approach, namely the modified cross-validation proposed in Bowman et al. (1998), is of interest for implementation in a language programming and for applica- tion to real data sets. For the above reasons, we have implemented, in the package kerdiest, developed in the language R (R Development Core Team 2012), the Kernel Distribution Function Estimator, the three commented bandwidth selection procedures, and three interest functions in real applications: the exceedance, the mean return period and the return level functions. The package also contains two application data sets, that show the 25
  • 46. 19. KERDIEST:: AN R PACKAGE FOR DISTRIBUTION FUNCTION ESTIMATION AND APPLICATIONS features and capabilities of the package in practice. The package is available from the Comprehensive R Archive Network at: http://CRAN.R-project.org/package=kerdiest (Estévez-Pérez and Quintela-del-Río, 2012). 26
  • 48. 20 seq2R: Detección de puntos de cambio en secuencias genómicas. Nora M. Villanueva , Marta Sestelo, Javier Roca-Pardiñas Departamento de Estadística e Investigación Operativa Universidad de Vigo Identificar los procesos mutacionales que modelan la composición nucleotídica de las secuencias de ADN mitocondrial (ADNmt) es fundamental para comprender mejor como evolucionan los genomas mitocondriales. Durante años, la comunidad científica ha propuesto numerosas metodologías para analizar la composición de estas secuen- cias pero la mayoría de ellas carecen de soporte estadístico. En este trabajo se presenta un método sencillo para detectar cambios en la composición del ADNmt basado en modelos de regresión no paramétrica y sus derivadas. La metodología desarrollada se ha implementado en un nuevo paquete de R, seq2R, utilizando Fortran como lenguaje de programación. La aplicación de dicha metodología se ilustra con una secuencia real. 28
  • 49. 21 Exploring bi-allelic genetic markers with the HardyWeinberg package Jan Graffelman Departament d,Estadística i Investigació Operativa Universitat Politècnica de Catalunya Modern genetic association studies often use large numbers of genetic markers ca- lled single nucleotide polymorphisms (SNPs). Most of these markers are bi-allelic and give rise to only 3 types of individuals: AA, AB and BB. The Hardy-Weinberg law sta- tes that, in the absence of disturbing forces, these 3 genotypes will occur with relative frequencies p², 2pq and q² respectively, where p is the allele frequency of A and q = 1-p. Hardy-Weinberg equilibrium (HWE) is achieved in one generation of random mating, and if unless disturbing forces stay absent, then genotype and allele frequencies will remain unchanged. Statistical tests for HWE play a role in genetic association studies. They are often used in an initial screening of the markers, with the purpose of detecting genotyping error (often the confounding of homozygotes with heterozygotes). Signifi- cant markers that are suspect, especially if the also have a lot of missings, may then be discarded prior to any further study (e.g. the HapMap project discards markers whose p-value of a HWE test is below 0.001). Several statistical test procedures are in use to test markers for HWE. The classical chi-square test for goodness-of-fit has been the most popular test for many years. Over the last decade, the exact test for HWE has become more popular. The exact test is based on the distribution of the number of heterozygotes given the observed allele counts. A likelihood ratio test is also available, and Bayesian procedures to test for HWE are becoming more popular as well. Because large amounts of markers are tested, graphical tools for summarizing test results are needed. The R-package HardyWeinberg provides such tools, as well as fun- ctions that carry out the various tests for HWE. Interesting graphical tools in this con- text are ternary plots, log-ratio plots and Q-Q plots. The ternary plot, a well-known tool in compositional data analysis, can be used to represent the genotypic composition of a sample. The Hardy-Weinberg law describes a parabola inside the ternary diagram. The acceptance region of the different HWE tests can also be drawn inside the ternary diagram. This makes the ternary diagram par- ticular informative because genotype frequencies, allele frequencies and equilibrium status are all depicted in one single graph (Graffelman and Morales, 2008). Q-Q plots of p-values or chi-square statistics constitute another useful tool that can help to judge whether a set of markers is compatible with HWE or not. For the chi- square test, a Q-Q plot of chi-square statistics may be used. Q-Q plots of p-values are 29
  • 50. 21. EXPLORING BI-ALLELIC GENETIC MARKERS WITH THE HARDYWEINBERG PACKAGE more interesting, because they also allow results of multiple exact tests to be summa- rized. The distribution for the p-values under the null hypothesis of a HWE test is not uniform, due to the discrete nature of the data (Rohlfs and Weir, 2008). This distribu- tion typically has a spike close to the value of 1. However, for a given data set with a given allele frequency distribution, the reference distribution for the p-values can be computed, and a Q-Q plot of exact sample p-values against this reference distribution can be used to gauge the degree of (dis)equilibrium in the database. The different facilities of the HardyWeinberg package (testing markers, marker si- mulation, power computations, accounting for missing data, ternary plots, log-ratio plots and Q-Q plots) will be illustrated with empirical in the talk. 30
  • 51. 22 FWDselect: Selección de variables en modelos de regresión Marta Sestelo, Nora M. Villanueva, Javier Roca-Pardiñas Departamento de Estadística e Investigación Operativa Universidad de Vigo En modelos de regresión múltiple, cuando existen un gran número de variables ex- ploratorias p que pueden ser o no relevantes para la predicción de la respuesta, es útil ser capaz de reducir el modelo. Para ello, es necesario determinar el mejor subconjunto o subconjuntos de q (q < p) predictores con los que se establecerá el modelo o modelos con la mejor capacidad de predicción. FWDselect, se presenta como una nueva apro- ximación a este problema, un nuevo paquete de R que introduce un método simple para seleccionar el mejor modelo utilizando diferentes tipos de datos (binarios, gausia- nos o poisson) y aplicándolo en diferentes contextos (parametrico o no paramétrico). La metodología desarrollada incluye dos fases: i) seleccionar la mejor combinación de q variables utilizando un nuevo procedimiento de selección stepwise hacia delante, y quizás la más importante, ii) determinar el número de covariables que deben incluirse en el modelo utilizando para ello un contraste basado en técnicas bootstrap. El softwa- re se ilustra con datos de polución ambiental. 31
  • 52. 23 Reducción unidimensional de 12 items de la Escala de sobrecarga de Zarit en cuidadores de pacientes con demencia mediante teoría de respuesta a los ítems. Borja Santos, Eduardo González, Javier Ballesteros Universidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For- mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212) Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio. Universidad del País Vasco (UPV), Departamento de Neurociencias y Cibersam G-16. Introducción y objetivos: La escala de sobrecarga de Zarit es un instrumento psi- cométrico utilizado para medir el nivel de carga experimentado por un cuidador in- formal. Consta de 22 ítems en los que el sujeto puede responder mediante una escala Likert de 0-4 (“nunca”-“casi siempre”) que ofrece una puntuación total (0-88). Sin em- bargo esta escala no es unidimensional, por lo que emplear la puntuación total puede distorsionar la interpretación de los resultados. Nuestro objetivo es obtener una reduc- ción unidimensional de la ZBI que permita una correcta interpretación de los resulta- dos. Para ello emplearemos técnicas de IRT (Teoría de Respuesta a los Ítems) y CFA (análisis factorial confirmatorio). Métodos: La base de datos está compuesta de las respuestas de 241 cuidadores que participan en un ensayo clínico. El proceso de análisis consta de tres partes: i) Mediante IRT no paramétrico (Mokken analysis) se pretendió conocer las estructura dimensio- nal de la ZBI; ii) Las características de los ítems de la escala reducida se estudiaron mediante el modelo de IRT paramétrico de Samejima (GRM); iii) Finalmente se utili- zó CFA para confirmar la unidimensionalidad de la subescala. Los análisis se hicieron con R v2.15.0 empleando las librerías: Mokken (Mokken analysis) [1], ltm (GRM) [2] y lavaan (CFA) [3]. Resultados: El análisis de Mokken reveló una estructura con tres subescalas, la pri- mera de ellas con 12 ítems cuya escalabilidad es media (H=0.44) con una fiabilidad muy buena (alpha = 0.89) (Tabla). Las características de los ítems de la ZBI reducida indican una discriminación y dificultad buenas (Figura). Por último los resultados del CFA establecen la unidimensionalidad de la subescala (CFI = 0.930; RMSEA = 0.078), lo que demuestra que evalúa un constructo unidimensional y por tanto es adecuada la utilización de la puntuación total de la subescala. 32
  • 53. 23.1. Bibliografía Conclusiones: i) La versión reducida de la ZBI de 12 ítems resultante es unidimen- sional y mantiene las buenas propiedades psicométricas de la versión original. Su uso es recomendable. ii) R y las librerías Mokken (Mokken analysis), ltm (GRM) y lavaan (CFA) resultan óptimas para realizar este tipo de análisis psicométricos. 23.1. Bibliografía [1] L. Andries van der Ark (2012). New Developments in Mokken Scale Analysis in R. Journal of Statistical Software, 48(5), 1-27. [2] Dimitris Rizopoulos (2006). ltm: An R package for Latent Variable Modelling and Item Response Theory Analyses, Journal of Statistical Software, 17 (5), 1-25. [3] Yves Rosseel (2012). lavaan: An R Package for Structural Equation Modeling. Journal of Statistical Software, 48(2), 1-36. 33
  • 54. 24 The optimalAllocation package for longitudinal studies design with time-varying exposure Jose Barrera-Gómez, Xavier Basagaña Centre for Research in Environmental Epidemiology, Barcelona, Spain. IMIM (Hospital del Mar Research Institute), Barcelona, Spain. CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain. In the context of observational longitudinal studies, we obtained the optimal values of the number of participants and the number of repeated measurements that maximi- ze the power to detect the hypothesized effect, given the total cost of the study. We considered two different models, one that assumes a transient effect of exposure and one that assumes a cumulative effect. Results were derived for a continuous response variable, whose covariance structure was assumed to be damped exponential, and a binary time-varying exposure. We derived closed-form expressions for the solution to the problem in the particular case in which the covariance structure of the response is assumed to be compound symmetry. Results showed the importance of the intraclass correlation of the exposure in determining the optimal combination of the number of participants and the number of repeated measurements, and therefore the optimized power. Thus, incorrectly assuming a time-invariant exposure leads to inefficient de- signs. We also analyzed the sensitivity of results to dropout, mis-specification of the correlation structure of the response and allowing a time-varying exposure prevalen- ce. We present here the optimalAllocation package which implements the methology described above. The package contains an interactive graphical interface that helps to decide the value of the intraclass correlation of the exposure at the study design stage. The package also computes the optimal study design depending on the values of some parameters related to the covariance structure of the response, the mean and covarian- ce structure of the exposure, the financial conditions of the study and the expected dropout level. In addition, the plot() function shows the impact of departures from the optimal allocation in terms of power or cost. 24.1. Bibliografía Barrera-Gómez J, Basagaña X, Spiegelman D. Optimal combination of number of participants and number of repeated measurements in longitudinal studies with time- varying exposure (under peer review), 2012. 34
  • 56. 25 Web scraping con R Gregorio R. Serrano Dpto. de Economía Cuantitativa Fctad. CC. Económicas y Empresariales, UCM Dada la abundancia de datos disponibles en la red directamente insertados en pá- ginas web, para muchos trabajos se hace necesario leerlos y procesarlos hasta llegar a una estructura de datos susceptible de análisis estadístico. En este taller con las ma- nos en la masa veremos cómo utilizar los paquetes XML y RCurl para la extracción de datos y diversas formas de proceso posterior con expresiones regulares y los paquetes zoo (series temporales) y tm (textos). 36
  • 57. 26 Informes dinámicos con LaTeX y R: utilización de Sweave y knitr. Francesc Carmona Departamento de Estadística. Universidad de Barcelona. En este taller se muestra la utilidad de la interacción entre LaTeX como procesa- dor de textos científicos y el lenguaje R de programación en estadística, que gracias a Sweave permite la generación automática de documentos con resultados y gráficos dinámicos. También se introduce el paquete knitr de reciente creación y que propone algunas mejoras y muchas otras posibilidades. 37
  • 58. 27 Interfaces Web 2.0 para R con Tiki Xavier de Pedro Puente Unidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB- VHIR). Barcelona. http://ueb.vhir.org Es fácil encontrarse con personas con nivel intermedio en el uso de R, pero que no saben como crear una interfaz web dinámica a sus programas en R. Existen algunas herramientas que permiten crear informes html de forma fácil des- de R (Pastell 2010 entre otros), pero no permiten al usuario poder modificar parámetros y volver a generar dichos gráficos, tablas o informes con los nuevos datos o parámetros escogidos por el usuario a través de la propia página web. En jornadas de usuarios de R recientes se observó que hay muchos usuarios que tienen lagunas de conocimiento en lo referente Apache, PHP, Mysql (por ejemplo), y los programas web que se pueden ejecutar en ellos, usando herramientas libres maduras y gratuitas. Así, en este taller (similar al de las ((III Jornadas|III Jornadas de usuarios de R en castellano)) los asistentes verán a vista de pájaro todo lo necesario para poder crear interfaces web a sus programas en R. Para ello, al final del taller habrán aprendido: qué es un servidor web (como Apache), una base de datos (como MySQL), el lenguaje de programación web (como PHP) como usar PhpMyAdmin: un gestor de bases de datos MySQL a través de página web como instalar una aplicación en PHP-MySQL llamada Tiki en un servidor, que les permitirá crear y usar páginas web 2.0 dinámicas hechas con software libre y gratuito. como instalar el PluginR para comunicar Tiki con R en el servidor. como aplicar el perfil de configuración de Tiki R HeatMaps, para disponer de una aplicación real y funcional como ejemplo de interfaz web a un paquete de R usado en campo de la bioinformática (De Pedro y Sánchez 2011) como modificar dicho ejemplo para crear un primer borrador de interfaz web para el programa de interés del asistente al taller. como exportar la base de datos mysql para poder migrar la web al servidor web que tenga contratado el asistente al taller o de su institución. 38
  • 59. 28 Edición (y mucho más) potente en R con ESS (Emacs Speaks Statistics) Alex Sánchez Departament d’Estadística. Universitat de Barcelona. Barcelona, Espanya. Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca. El desarrollo de programas en R o el uso de sistemas de programación literaria como Sweave o knitr pueden verse facilitados si se dispone de un editor o un entrono que permita usar las múltiples herramientas que intervienen en el proceso de forma integrada, flexible y potente. ESS (Emacs Speaks Statistics) es una extensión del sistema emacs que facilita el uso combinado de emacs, R (u otros entornos estadísticos) pero también de latex (o html o markdown) y Sweave o knitr. En este taller se realizará una introducción al editor emacs y al uso de la extensión ESS para realizar algunas tareas comunes como la edición y depuración de un programa R o la creación y prueba de un documento de tipo .Rnw. Seún la dinámica de la sesión se discutiran otros aspectos como org-ode. 39
  • 60. 29 Machine Learning in R Alexandros Karatzoglou Telefonica Investigación y Desarrollo This is a hands on course on the Machine Learning functionality in R. The course will focus on popular Machine Learning methods such as: Naive Bayes Support Vector Machines PCA/Dimensionality Reduction Decision Trees Random Forests Clustering A short introduction to each method will be provided along with a description and examples on how to use the related functions in R. The course is a hands-on course so bring your own laptop with a recent installation of R and the Machine Learning and Cluster task views. install.packages(ctv) library(ctv) install.views(MachineLearning) install.views(Clus- ter) 40
  • 61. 30 Introducción a las Reference Classes (programación orientada a objetos en R) Aleix Ruiz de Villa TSS - Transport Systems and Simulations A medida que escribimos más código, éste se vuelve más complejo, más difícil de leer y comprender, y más sujeto a la introducción de errores. Para evitar los proble- mas que conlleva, es necesario que esté bien organizado y las funcionalidades de cada parte estén bien definidas. La manera más generalizada de trabajar ordenadamente es utilizar objetos. Las clases de objectos tradicionales en R son las S3 y S4. Recientemente se han intro- ducido las reference classes. El enfoque de estas últimas es totalmente diferente a sus antecesoras. Su programación es mucho más familiar al tipo de programación orienta- da a objectos de lenguajes como C++, python o java. Una de las ineficiencias de R a nivel de memoria es que las funciones siempre co- pian los objetos que se les pasan, y por tanto tenemos en memoria el mismo objeto repetido varias veces. El uso de las reference classes es una de las pocas maneras de evitar este problema. 41
  • 62. 31 Introducción práctica a la librería ggplot2 y su integración con ggmap. Lluís Ramon, Andreu Vall, Roger Borràs Oficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat de Catalunya. Miembro del R Users Group Barcelona. Asistente de investigación en IESE Business School, Departamento de Dirección de Producción, Tecnología y Operaciones. Miembro del R Users Group Barcelona. Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya. Miembro del R Users Group Barcelona. Se propone un taller introductorio a las librerías ggplot2 y ggmap de R. La librería ggplot2 está dedicada a la creación de gráficos de alta calidad. Fue creada por Had- ley Wickham en 2005 como una implementación del libro “The Grammar of Graphics” de Leland Wilkinson. La librería ggmap permite una fácil visualización de datos es- paciales usando ggplot2 con una cómoda integración a Google Maps, OpenStreetMap, Stamen Maps o CloudMade Maps. 42
  • 64. Índice de autores Alabert, Aureli, 5 Alonso Garcia, Eduardo, 19 Antoñanzas-Torres, Fernando, 16, 17 Ballesteros, Javier, 32 Barrera-Gómez, Jose, 34 Bartosova, Jitka, 6 Basagaña, Xavier, 34 Borràs, Roger, 42 Cañadas Reche, José-Luis, 14 Carmona, Francesc, 37 de Pedro Puente, Xavier, 38 Eduardo Melo Martínez, Carlos, 2 Esperanza Melo Martínez, Sandra, 2 Estévez-Pérez, Graciela, 25 Fernández-Martínez, Roberto, 16 Fernandez Ceniceros, Julio, 19 Fernandez Martinez, Roberto, 19 Gil Bellosta, Carlos-J., 4 González Pérez, Beatriz, 15 González, Eduardo, 32 Graffelman, Jan, 10, 29 Ibarguren, Igor, 12 Ivina, Olga, 9 Julian Alía-Martínez, Manuel, 16 Karatzoglou, Alexandros, 40 Kepa Gerrikagoitia, Jon, 12 L. Cano, Emilio, 3 López López, Victoria, 15 Lobo, Agustín, 21 Luz Calle Rosingana, María, 22 M. Moguerza, Javier, 3 M. Villanueva, Nora, 28, 31 Martínez-de-Pisón, Javier, 17 Morán, Jesús, 23 Moriña, David, 13 Navarro, Albert, 13 Orlando Melo Martínez, Oscar, 2 Pazmiño Maji, Rubén, 8 Perpiñan-Lamigueiro, Oscar, 17 Quintela-del-Río, Alejandro, 25 R. Serrano, Gregorio, 36 Ramon, Lluís, 42 Roca-Pardiñas, Javier, 28, 31 Roman, Ibai, 12 Ruiz de Villa, Aleix, 41 Sánchez Mayor, Milagros, 10 Sánchez, Alex, 39 Sampedro Ruiz, Juan, 15 Santos, Borja, 32 Sanz Garcia, Andres, 19 Sanz-García, Andrés, 16 Sanz-Garcia, Andres, 17 Sestelo, Marta, 28, 31 Sodupe-Ortega, Enrique, 16 T. Longford, Nicholas, 6 Torres Manzanera, Emilio, 12 Urkaregi, Arantza, 23 Urrea Gales, Víctor, 22 Vall, Andreu, 42 Zarragoitia, Ane, 23 44
  • 65. Índice de Instituciones Asistente de investigación en IESE Bu- siness School, Departamento de Dirección de Producción, Tecno- logía y Operaciones. Miembro del R Users Group Barcelona., 42 Barcelona, Spain, 10 BioStatNet, 13 Centre for Research in Environmental Epi- demiology, Barcelona, Spain., 34 Centre Tecnològic de Nutrició i Salut, 13 CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain., 34 CICtourGUNE, 12 Collaborative statistician at CREAL. Re- search fellow at the University of Girona, 9 datanalytics, 4 Departament d’Estadística. Universitat de Barcelona. Barcelona, Espan- ya., 39 Departament d,Estadística i Investigació Operativa, 29 Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya. Miembro del R Users Group Barcelona., 42 Departamento de Estadística e Investi- gación Operativa, 28, 31 Departamento de Estadística. Universi- dad de Barcelona., 37 Departamento de Matemáticas - Univer- sidad de A Coruña, 25 Department of Statistics and Operations Research, 10 Dpto. de Economía Cuantitativa, 36 Dpto. Estadística e Investigación Opera- tiva, Universidad Rey Juan Car- los, 3 Escuela Superior Politécnica de Chim- borazo, 8 Facultad de Informática, Universidad Com- plutense de Madrid, 15 Facultad de Matemáticas, Universidad Complutense de Madrid, 15 Facultat de Medicina, Universitat Autò- noma de Barcelona, 13 Fctad. CC. Económicas y Empresariales, UCM, 36 Grupo EDMANS, Universidad de La Rio- ja, 16, 17, 19 IMIM (Hospital del Mar Research Insti- tute), Barcelona, Spain., 34 Institut de Ciències del Terra "Jaume Al- mera". Consejo Superior de In- vestigaciones Científicas, 21 Instituto de Investigaciones Psiquiátri- cas, Fundación Mª Josefa Recio., 32 Oficina del Pla Català de Seguretat Vià- ria, Servei Català de Trànsit, Ge- neralitat de Catalunya. Miembro del R Users Group Barcelona., 42 SNTL and UPF, Barcelona, Spain, 6 Técnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-CSIC, 14 45
  • 66. Índice de Instituciones Índice de Instituciones Telefonica Investigación y Desarrollo , 40 TSS - Transport Systems and Simulations, 41 Unidad de Docencia Posgraduada Mé- dica. Hospital Universitario de Cruces. Barakaldo. Bizkaia., 23 Unidad de Estadística y Bioinformática. Vall d’Hebron Research Institu- te (UEB-VHIR). Barcelona. http://ueb.vhir.org, 38 Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca., 39 Universidad de Barcelona - España., 2 Universidad de Vic, 22 Universidad de Vigo, 28, 31 Universidad del País Vasco (UPV), De- partamento de Neurociencias y Beca de Formación de Personal Investigador del Gobierno Vas- co. (BFI-2011-212), 32 Universidad del País Vasco (UPV), De- partamento de Neurociencias y Cibersam G-16., 32 Universidad Distrital Francisco José de Caldas, 2 Universidad Nacional de Colombia, 2 Universidad Politécnica de Madrid, 17 Universitat Autònoma de Barcelona, 5 Universitat Politècnica de Catalunya, 10, 29 University of Economics in Prague, Jin- drichuv Hradec, Czech Republic , 6 UPV/EHU. Dpto de Matemática Apli- cada, Estadística e I.O. (UPV/EHU)- Miembro de la red BIOSTATNET, 23 46