IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
PKP datos abiertos Gómez - Bueno-De-La-Fuente
1. Cerrando el círculo: requisitos de los datos
abiertos como recursos para la
investigación abierta
PKP Scholarly Publishing Conference 2013
Universidad Nacional Autónoma de México
20 Agosto 2013
Nancy Diana Gómez
Gema Bueno de La Fuente
Universidad Carlos III de Madrid
2. Contenido
Preguntas de investigación
Objetivos
Contexto
Propuesta de metodología
Datos de los repositorios de Ciencias Sociales
Observaciones preliminares.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
3. Preguntas de investigación
Métricas de datos abiertos:
¿Cuáles son las condiciones técnico/legales que se
deben cumplir para saber si un dato es abierto?
¿Es posible establecer métricas para medir el nivel de
apertura de los datos?
Set de datos en repositorios de Ciencias Sociales:
¿Qué datos se están publicando en los repositorios de
Ciencias Sociales como open data?
¿Qué nivel de apertura legal y técnico tienen los datos
de los repositorios de Ciencias Sociales?
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
4. Objetivos
Diseño de la metodología para evaluar el
grado de apertura de datos en repositorios de
Ciencias Sociales de acuerdo a sus
condiciones legales y técnicas.
Comprobación de la validez de la
metodología con un conjunto seleccionado de
datos abiertos del área de Ciencias Sociales.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
6. ¿Porqué Ciencia Abierta?
(Stodden, 2011)
Facilita
Reproductibilidad
Innovación académica e industria
Acceso al conocimiento
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
7. Razones para compartir datos
(Borgman, 2012)
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
8. Ciclo del dato (ICPSR, 2012)
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
9. Incentivos que influencian la
publicación y difusión de los datos
(Stodden, 2011)
Fondos de investigación (NSF, NIH, etc.)
Editoriales de revistas (PLOSone)
Promociones institucionales
(premios, promociones, etc.)
Integridad científica
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
10. Motivos que disuaden a los científicos
en la publicación de datos abiertos
(Stodden, 2010)
Tiempo en documentar y limpiar datos para publicar (54%)
Lidiar con preguntas de los usuarios de los datos (34%)
No recibir atribución o citación como autores de los datos
(42%)
Barreras legales –copyright (41%)
Perdida potencial de futuras publicaciones (35%)
Ventaja que pueden obtener los competidores en el campo
(33%)
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
11. Las revistas y los datos
(Stodden, 2013)
Estudio realizado sobre 170 revistas de
computación ISI.
62% no menciona política de datos
79% no menciona política sobre el código/programa
66% tiene política para material suplementario
Las revistas que incrementan demandas a sus
autores, como datos son aquellas que tienen alto
factor de impacto.
La proporción de revistas de AA con política de datos
abiertos es levemente superior a las de suscripción
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
12. Formas de simplificar la reutilización
de los datos (White et al., 2013)
Proveer metadatos
Usar formatos de datos estándar
Proveer el dato de forma no procesada o
cruda
Uso de un repositorio establecido
Uso de una licencia abierta y establecida (usar
la licencia más abierta posible) como CC0
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
13. Recomendaciones
(White et al. 2013)
Datos bien documentados son más fáciles de
comprender para reutilizar
Datos con formatos apropiados son más fáciles
de usar en una variedad de software.
Datos que han sido depositado en repositorios
establecidos, más durables y citables.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
14. Datos abiertos y procesamiento
Estándares y buenas prácticas de citación para los
datos (Datacite.org).
Uso de identificadores únicos de conjuntos de datos
(DOI) y productores (ORCID).
Metadatos de calidad para la descripción de datasets
en catálogos de datos (DCAT).
Integración de catálogos Open Data con otras
herramientas (metabúsqueda).
Dataverse Network – 2006 - IQCSS (Guía para gestión
de los datos-2012 5th edición) Permite a los autores subir
código y datos con sus propios términos de uso.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
16. Combinación de métodos
1. Medición del nivel de apertura de datos a
nivel legal y técnico:
Diseño de matriz de priorización
Convalidación de los pesos de la matriz:
crowdsourcing.
2. Recogida y tratamiento de datos abiertos.
3. Caracterización de los datos de repositorios
en CCSS.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
17. Matriz de evaluación (BETA)
Matriz de priorización
Variables consideradas:
1. Instrumento legal (copyright, licencias, aviso
legal).
Korn y Oppenheim (2011).
2. Formatos de ficheros de datos:
Norma ISO 2145/2010.
Clasificación de cinco estrellas LOD de T. Berners
Lee.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
18. Asignación de pesos a las variables
¿80%?
4th Int. PKP Conference, México
¿20%?
N. D. Gómez, G. Bueno (2013)
19. Variable 1: Instrumento legal
(Korn & Oppenheim, 2011)
Quién y bajo que términos se puede utilizar el dato
Cualquiera
10
Restricción para usos comerciales
5
Posibilidad de modificación del dato
Sin restricciones de ningún tipo
10
Sin restricciones pero con atribución
7
Compartir igual
3
No se modifican
0
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
20. Variable 2: Formatos
Escala LOD 5 estrellas (Berners Lee, 2010)
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
21. Formula
Valor licencia
Valor formato
Grado
apertura
(U x 0,3 + M x 0,5) + (pF x 0,2) = 0-1
Términos de uso: U
Posibilidad de modificación del dato: M
Valor promedio de formato: pF
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
22. Selección de la muestra
Conjuntos de datos en
CCSS.
Criterios de selección:
Data Citation
Index:http://wokinfo.com//products
_tools/multidisciplinary/dci/
Categoría CCSS.
>100 datasets
Repositorio
Organismo
Archaeological Data Service
University of York
National Archives
U.S. National Archives and
Records Administration
IQSS
The Dataweb
Eurostat
Australian Data Archive
UK Data Archive
Finnish Social Science Data
Archive
Inter University Consortium for
Political and Social Research
Harvard University
US Census Bureau
European Union
Australian National
University
University of Essex
University of Tampere
University of Michigan
Odum Insitute, University of
North Carolina
Office for National Statistics
UK Statistics Authority
Roper Center
Volumen muestra: 13
repositorios
Odum Institute
Roper Center, University of
Connecticut
National Research
N. D. Gómez, G. Bueno (2013)
Foundation
South African Data Archive
4th Int. PKP Conference, México
23. Datos en Ciencias Sociales
Investigación en CCSS: diseño-recolección-análisis. Los
datos son la materia prima.
Métodos de obtención de datos: observación, encuestas,
documentación, experimentación.
Tipos de métodos tipos de datos formatos
Cuantitativos: paquetes estadísticos, hojas de cálculo y texto tabulado
Datos estructurados.
Cualitativos: amplio rango de contenidos y formatos (texto, imagen,
video, audio y otra documentación).
Retos para su publicación como datos abiertos:
Normalización, integración, redundancia…
Aspectos éticos y legales.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
24. Características de la muestra
Repositorios de organismos de la administración pública
principalmente.
Datos estadísticos, censales y otros estudios.
Dataverse Network.
Registros metadatos datasets: DDI XML
Opciones descarga datos: API, FTP y descarga en
lotes, exportar en XLS y otros formatos.
Niveles de acceso a los datos: abierto, especial y
restringido. Licencias de descarga, solicitudes
formales.
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
26. Variable 1: Instrumento legal
Escasez de licencias explícitas asociadas a los datasets
Términos/condiciones generales de acceso y uso.
Repositorios admin. pública: los más abiertos, dominio
público (Eurostat, US. Census Bureau, US NARA, US NASA…)
Repositorios de investigación (auto-depósito): condiciones
establecidas por autores/propietarios
datasets, financiadores (Australian Data Archive, UK Data
Archive, ICPSR, IQSS, )
Licencias en relación con el nivel de acceso a los datasets.
Limitaciones de uso y reutilización (no comercial, sólo
investigación y académicos), restricciones
(confidencialidad, intimidad), condiciones (citación).
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
27. Variable 2: Formatos
Formatos más comunes de los datos
cuantitativos en CCSS :
★★ SPSS, SAS, Stata…
Sistemas propietarios, posibilidad de exportar en
otros formatos.
★★ .xls (MS Excel)
★★★ R (open source)
★★★ .csv, .tsv, xml
★★★★ .sdmx-ml
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)
28. Próximos pasos…
Reformulación de la matriz teniendo en cuenta otras
variables, como nivel de accesibilidad,
interoperabilidad, documentación adicional o material
explicativo.
Convalidación de la nueva matriz a través de
crowdsourcing con infomediarios
Obtención de un grupo de datos en Ciencias Sociales
para aplicar la nueva matriz.
Dimensiones de los datos: Grado de apertura. Grado de
interoperabilidad. Grado de reutilización.
29. Bibliografía
Berners-Lee, T. (2009). Putting government data online. Retrieved agosto/5, 2012, from
http://www.w3.org/DesignIssues/GovData.html
Borgman, C. L. (2012). The conundrum of sharing research data. Journal of the
American Society for Information Science and Technology, 63(6), 1059; 1059-1078; 1078.
Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to
social science data preparation and archiving: Best practice throughout the data life
cycle (5th ed.). Ann Arbor, M:
Korn, N., & Oppenheim, C. (2011). Licensing open data: A practical guide. Jisc, v. 2.0
Retrieved from
http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf
Stodden, V. C. (2011). Transparency in scientific discovery: Innovation and knowledge
dissemination. Retrieved from http://hdl.handle.net/10022/AC:P:13496
Stodden, V., Guo, P., & Ma, Z. (2013). Toward reproducible computational research: An
empirical analysis of data and code policy adoption by journals. PloS One, 8(6), e67111.
White, E. P., Baldridge, E., Brym, Z. T., Locey, K. J., McGlinn, D. J., & Supp, S. R. (2013). Nine
simple ways to make it easier to (re) use your data. Peerj Preprints, 1, e7. Retrieved from
https://peerj.com/preprints/7/
4th Int. PKP Conference, México
N. D. Gómez, G. Bueno (2013)