SlideShare uma empresa Scribd logo
1 de 10
Limpieza de datos



http://es.wikipedia.org/wiki/Informatica


 JOSÉ CUARTAS   INFORMÁTICA
Limpieza datos
¿Podemos interpretar los datos?¿Qué significan los campos?

¿Cuál es la clave? Las medidas?

Como manejar los datos censurados?

¿Los datos se refieren a los mismos períodos de tiempo?


No olvide hay fallos como: Errores tipográficos,
múltiples formatos, los valores perdidos, no se
entiende la especificación, entre otros.
      JOSÉ CUARTAS       INFORMÁTICA                      2
Limpieza datos

En general, se tiene un problema si los
 datos no significa lo que usted cree.


 Problemas de calidad de datos son
    costosas en tiempo y dinero.


   JOSÉ CUARTAS       INFORMÁTICA     3
Los malos datos y datos malos.

El mal diseño de información .Si compras una medicina que no
requiere de receta médica, y no indica cuanto y cuando hay que consumirla,
(Busco una solución, voy donde el medico, chaman o alguien que resuelva).
     "La cultura de la duda“

     “La peor decisión es la indecisión” Benjamin Frankiln

La mala información. Se tienes la certeza de estar consumiendo la
medicina de manera correcta, aunque no sea cierto.

Nunca olvide
“las decisiones de hoy son las consecuencias de mañana”

        JOSÉ CUARTAS           INFORMÁTICA                            4
Datos




        http://es.wikipedia.org/wiki/Dato
Cuando los DATOS son VALIDOS hay MAYOR confianza
para la TOMA DE DECISIONES.
    JOSÉ CUARTAS     INFORMÁTICA                   5
Preprocesar y Preparar Datos
• Son todas aquellas técnicas de análisis de datos que
  permite mejorar la calidad de un conjunto de datos.

   – Esto permite que las técnicas de extracción de conocimiento
     puedan obtener mayor y mejor información.
      •   mejor porcentaje de clasificación, reglas con más completitud, entre otras.




     JOSÉ CUARTAS                 INFORMÁTICA                                           6
Ventajas en la Limpieza de datos
• Unas ventajas:
  – Permite     aplicar    modelos     de
    Aprendizaje/Minería de Datos de forma
    más rápida y sencilla.

  – Patrones de más calidad, precisión e
    interoperabilidad.



   JOSÉ CUARTAS   INFORMÁTICA              7
Inconvenientoes en la Limpieza
            datos
• Unos inconvenientes:
  – No es un área totalmente estructurada con
    una metodología concreta para todos los
    problemas.

  – Cada problema puede requerir una manera
    diferente de solución.



   JOSÉ CUARTAS     INFORMÁTICA                 8
Limpieza datos
• Recolección de datos e integración: Se Obtienen los
  datos de diferentes fuentes de información, en este paso
  se resuelven los problemas de representación y
  codificación, integrando los datos desde diferentes
  fuentes con el fin de crear información homogénea, ...

• Transformación de datos: Los datos son transformados
  o consolidados para luego poder extraer información
  realizar operaciones de resúmenes de datos y
  operaciones de agregación, entre otras.



     JOSÉ CUARTAS       INFORMÁTICA                      9
No olvide
Es un procedimiento donde se recurre a métodos
de muchas disciplinas como estadísticas, análisis
exploratorio de datos minería (EDM), bases de
datos, gestión, y los metadatos.

Busque siempre la calidad en los datos, esto
mejora    notablemente   la  obtención   de
conocimiento.



    JOSÉ CUARTAS     INFORMÁTICA               10

Mais conteúdo relacionado

Semelhante a Calidad de datos

Semelhante a Calidad de datos (20)

Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Minería de Datos. Introducción
Minería de Datos. IntroducciónMinería de Datos. Introducción
Minería de Datos. Introducción
 
Data set module 3 - spanish
Data set   module 3 - spanishData set   module 3 - spanish
Data set module 3 - spanish
 
informatica medica
informatica medicainformatica medica
informatica medica
 
base de datos Farmacologia
base de datos Farmacologiabase de datos Farmacologia
base de datos Farmacologia
 
Base De Datos Farmacológica
Base De Datos FarmacológicaBase De Datos Farmacológica
Base De Datos Farmacológica
 
Unidad 2
Unidad 2 Unidad 2
Unidad 2
 
Unidad II SIM
Unidad II SIMUnidad II SIM
Unidad II SIM
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Proyecto nro 2 caso de estudio enfermedades cardiovasculares
Proyecto nro 2   caso de estudio enfermedades cardiovascularesProyecto nro 2   caso de estudio enfermedades cardiovasculares
Proyecto nro 2 caso de estudio enfermedades cardiovasculares
 
Minería de Datos Proyecto
Minería de Datos ProyectoMinería de Datos Proyecto
Minería de Datos Proyecto
 
Mineria de datos detencion de enfermedades
Mineria de datos detencion de enfermedadesMineria de datos detencion de enfermedades
Mineria de datos detencion de enfermedades
 
Caso de Estudio 2 - Grupo 4
Caso de Estudio 2 - Grupo 4Caso de Estudio 2 - Grupo 4
Caso de Estudio 2 - Grupo 4
 
Sistemas de Información
Sistemas de Información Sistemas de Información
Sistemas de Información
 
Matemática y Data Science
Matemática y Data ScienceMatemática y Data Science
Matemática y Data Science
 
Data mining
Data miningData mining
Data mining
 
SISTEMAS DE LA INFORMACION
SISTEMAS DE LA INFORMACIONSISTEMAS DE LA INFORMACION
SISTEMAS DE LA INFORMACION
 
MDM_Sesion_1_PPT.pptx
MDM_Sesion_1_PPT.pptxMDM_Sesion_1_PPT.pptx
MDM_Sesion_1_PPT.pptx
 

Mais de josecuartas

Anti patrones SQL, Modelo conceptual
Anti patrones SQL, Modelo conceptualAnti patrones SQL, Modelo conceptual
Anti patrones SQL, Modelo conceptual
josecuartas
 
Visualizacion de datos
Visualizacion de datosVisualizacion de datos
Visualizacion de datos
josecuartas
 
De los datos a la información
De los datos a la informaciónDe los datos a la información
De los datos a la información
josecuartas
 
Sql DML Lenguaje de manipulación de datos
Sql DML Lenguaje de manipulación de datos Sql DML Lenguaje de manipulación de datos
Sql DML Lenguaje de manipulación de datos
josecuartas
 
Transformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logicoTransformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logico
josecuartas
 
índices en bases de datos
índices en bases de datosíndices en bases de datos
índices en bases de datos
josecuartas
 
Sql DDL Lenguaje de definición de datos
Sql DDL Lenguaje de definición de datosSql DDL Lenguaje de definición de datos
Sql DDL Lenguaje de definición de datos
josecuartas
 
Seguridad en bases de datos
Seguridad en bases de datosSeguridad en bases de datos
Seguridad en bases de datos
josecuartas
 
Los datos en el disco duro
Los datos en el disco duroLos datos en el disco duro
Los datos en el disco duro
josecuartas
 
Digramas de venn aplicado en las bases datos
Digramas de venn aplicado en las bases datosDigramas de venn aplicado en las bases datos
Digramas de venn aplicado en las bases datos
josecuartas
 
Disco duro bases datos
Disco duro bases datosDisco duro bases datos
Disco duro bases datos
josecuartas
 
Patrones de arquitectura Software(Capa de Datos)
Patrones de arquitectura Software(Capa de Datos)Patrones de arquitectura Software(Capa de Datos)
Patrones de arquitectura Software(Capa de Datos)
josecuartas
 
Sql dinamico14042011
Sql dinamico14042011Sql dinamico14042011
Sql dinamico14042011
josecuartas
 

Mais de josecuartas (20)

Seguridad en el almacenamiento de las bases de datos
Seguridad en el almacenamiento de las bases de datosSeguridad en el almacenamiento de las bases de datos
Seguridad en el almacenamiento de las bases de datos
 
Anti patrones SQL, Modelo conceptual
Anti patrones SQL, Modelo conceptualAnti patrones SQL, Modelo conceptual
Anti patrones SQL, Modelo conceptual
 
Tableros de control o Dashboard
Tableros de control o DashboardTableros de control o Dashboard
Tableros de control o Dashboard
 
Visualizacion de datos
Visualizacion de datosVisualizacion de datos
Visualizacion de datos
 
De los datos a la información
De los datos a la informaciónDe los datos a la información
De los datos a la información
 
Datos semiestructurados Xml
Datos semiestructurados XmlDatos semiestructurados Xml
Datos semiestructurados Xml
 
Sql DML Lenguaje de manipulación de datos
Sql DML Lenguaje de manipulación de datos Sql DML Lenguaje de manipulación de datos
Sql DML Lenguaje de manipulación de datos
 
Bases de datos temporales
Bases de datos temporalesBases de datos temporales
Bases de datos temporales
 
Transformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logicoTransformar modelo entidad relacion a modelo logico
Transformar modelo entidad relacion a modelo logico
 
índices en bases de datos
índices en bases de datosíndices en bases de datos
índices en bases de datos
 
Sql DDL Lenguaje de definición de datos
Sql DDL Lenguaje de definición de datosSql DDL Lenguaje de definición de datos
Sql DDL Lenguaje de definición de datos
 
Seguridad en bases de datos
Seguridad en bases de datosSeguridad en bases de datos
Seguridad en bases de datos
 
Los datos en el disco duro
Los datos en el disco duroLos datos en el disco duro
Los datos en el disco duro
 
Digramas de venn aplicado en las bases datos
Digramas de venn aplicado en las bases datosDigramas de venn aplicado en las bases datos
Digramas de venn aplicado en las bases datos
 
Bases de datos avanzado NOSQL
Bases de datos avanzado NOSQLBases de datos avanzado NOSQL
Bases de datos avanzado NOSQL
 
Disco duro bases datos
Disco duro bases datosDisco duro bases datos
Disco duro bases datos
 
Fuga de información
Fuga de informaciónFuga de información
Fuga de información
 
Patrones de arquitectura Software(Capa de Datos)
Patrones de arquitectura Software(Capa de Datos)Patrones de arquitectura Software(Capa de Datos)
Patrones de arquitectura Software(Capa de Datos)
 
SQL avanzado
SQL avanzadoSQL avanzado
SQL avanzado
 
Sql dinamico14042011
Sql dinamico14042011Sql dinamico14042011
Sql dinamico14042011
 

Último

TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
jlorentemartos
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
Wilian24
 

Último (20)

AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...Louis Jean François Lagrenée.  Erotismo y sensualidad. El erotismo en la Hist...
Louis Jean François Lagrenée. Erotismo y sensualidad. El erotismo en la Hist...
 
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdf
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptxAEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
 
LA JUNGLA DE COLORES.pptx Cuento de animales
LA JUNGLA DE COLORES.pptx  Cuento de animalesLA JUNGLA DE COLORES.pptx  Cuento de animales
LA JUNGLA DE COLORES.pptx Cuento de animales
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
Posición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptxPosición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptx
 

Calidad de datos

  • 2. Limpieza datos ¿Podemos interpretar los datos?¿Qué significan los campos? ¿Cuál es la clave? Las medidas? Como manejar los datos censurados? ¿Los datos se refieren a los mismos períodos de tiempo? No olvide hay fallos como: Errores tipográficos, múltiples formatos, los valores perdidos, no se entiende la especificación, entre otros. JOSÉ CUARTAS INFORMÁTICA 2
  • 3. Limpieza datos En general, se tiene un problema si los datos no significa lo que usted cree. Problemas de calidad de datos son costosas en tiempo y dinero. JOSÉ CUARTAS INFORMÁTICA 3
  • 4. Los malos datos y datos malos. El mal diseño de información .Si compras una medicina que no requiere de receta médica, y no indica cuanto y cuando hay que consumirla, (Busco una solución, voy donde el medico, chaman o alguien que resuelva). "La cultura de la duda“ “La peor decisión es la indecisión” Benjamin Frankiln La mala información. Se tienes la certeza de estar consumiendo la medicina de manera correcta, aunque no sea cierto. Nunca olvide “las decisiones de hoy son las consecuencias de mañana” JOSÉ CUARTAS INFORMÁTICA 4
  • 5. Datos http://es.wikipedia.org/wiki/Dato Cuando los DATOS son VALIDOS hay MAYOR confianza para la TOMA DE DECISIONES. JOSÉ CUARTAS INFORMÁTICA 5
  • 6. Preprocesar y Preparar Datos • Son todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos. – Esto permite que las técnicas de extracción de conocimiento puedan obtener mayor y mejor información. • mejor porcentaje de clasificación, reglas con más completitud, entre otras. JOSÉ CUARTAS INFORMÁTICA 6
  • 7. Ventajas en la Limpieza de datos • Unas ventajas: – Permite aplicar modelos de Aprendizaje/Minería de Datos de forma más rápida y sencilla. – Patrones de más calidad, precisión e interoperabilidad. JOSÉ CUARTAS INFORMÁTICA 7
  • 8. Inconvenientoes en la Limpieza datos • Unos inconvenientes: – No es un área totalmente estructurada con una metodología concreta para todos los problemas. – Cada problema puede requerir una manera diferente de solución. JOSÉ CUARTAS INFORMÁTICA 8
  • 9. Limpieza datos • Recolección de datos e integración: Se Obtienen los datos de diferentes fuentes de información, en este paso se resuelven los problemas de representación y codificación, integrando los datos desde diferentes fuentes con el fin de crear información homogénea, ... • Transformación de datos: Los datos son transformados o consolidados para luego poder extraer información realizar operaciones de resúmenes de datos y operaciones de agregación, entre otras. JOSÉ CUARTAS INFORMÁTICA 9
  • 10. No olvide Es un procedimiento donde se recurre a métodos de muchas disciplinas como estadísticas, análisis exploratorio de datos minería (EDM), bases de datos, gestión, y los metadatos. Busque siempre la calidad en los datos, esto mejora notablemente la obtención de conocimiento. JOSÉ CUARTAS INFORMÁTICA 10