SlideShare una empresa de Scribd logo
1 de 32
¿Qué es?
Se denomina Big Data a la manipulación, análisis y
estructuración a enormes cantidades de datos que
sobrepasan de los limites.
Generando un cambios radical al manejo
convencional de la información.
¿Dónde surge la
Big Data?
los seres humanos constantemente creamos y/o almacenamos grandes cantidades
de información, generando alrededor de
2.5 quintillones de bytes por día, esta información nace de los:
•Smartphones.
•Sensores de automóviles.
•Satélites.
•Cámaras.
•Movimiento de la bolsa.
•Registros aéreos.
•De cada clic que realizamos la Red.
•Entre mucho otros.
¿Qué tan grande es?
“El 90% de los datos disponibles hoy en día en el
mundo fueron creados en los últimos 2 años.”
- IBM, 2015
¿Como podemos
utilizarla?
Es un proceso para detectar la información
procesable. Utilizando el análisis matemático para
deducir los patrones y tendencias que existen en los
datos.
Estos patrones y tendencias se pueden recopilar y
definir como un modelo de minería de datos.
¿Qué está buscando?
¿Qué tipos de relaciones intenta buscar?
¿Desea realizar predicciones a partir del modelo de minería de datos o
solamente buscar asociaciones y patrones interesantes?
¿Qué resultado o atributo desea predecir?
¿Qué tipo de datos tiene y qué tipo de información hay en cada
columna?
Definir el problema
En caso de que haya varias tablas, ¿cómo se relacionan?
¿Necesita limpiar, agregar o procesar los datos antes de
poder usarlos?
¿Cómo se distribuyen los datos?
¿Los datos son estacionales?
•Los datos pueden estar dispersos y almacenados en formatos
distintos; también pueden contener incoherencias como entradas que
faltan o incorrectas.
•La limpieza de los datos no solamente implica quitar datos no válidos
o interpolar valores que faltan, sino también buscar las correlaciones
ocultas en los datos, identificar los orígenes de datos que son más
precisos y determinar qué columnas son las más adecuadas para el
análisis.
Preparar los datos
Debe conocer los datos para tomar las decisiones adecuadas al
crear los modelos de minería de datos. Entre las técnicas de
exploración se incluyen calcular los valores mínimos y máximos,
calcular la media y las desviaciones estándar, y examinar la
distribución de los datos.
Explorar los datos
Las desviaciones estándar y otros valores de distribución pueden
proporcionar información útil sobre la estabilidad y exactitud de
los resultados.
Una desviación estándar grande puede indicar que agregar más
datos podría ayudarle a mejorar el modelo.
Los datos que se desvían mucho de una distribución estándar se
podrían sesgar o podrían representar una imagen precisa de un
problema de la vida real, pero dificultar el ajustar un modelo a los
datos.
Se debe definir qué columnas de datos se van a usar; para ello,
Se crea una estructura de minería de datos.
La estructura se vincula al origen de los datos, pero en realidad
no contiene ningún dato hasta que se procesa.
Generar modelos
•Un modelo de minería de datos simplemente es un contenedor que
especifica las columnas que se usan para la entrada, el atributo que
está prediciendo y parámetros que indican al algoritmo cómo procesar
los datos.
•El procesamiento de un modelo a menudo se
denomina entrenamiento. El entrenamiento hace referencia al proceso
de aplicar un algoritmo matemático concreto a los datos de la
estructura para extraer patrones.
•Los patrones que encuentre en el proceso de
entrenamiento dependerán de la selección de los
datos de entrenamiento, el algoritmo que elija y cómo
se haya configurado el algoritmo.
Antes de implementar un modelo en un entorno de producción,
es aconsejable probar si funciona correctamente. Además, al
generar un modelo, normalmente se crean varios con
configuraciones diferentes y se prueban todos para ver cuál
ofrece los resultados mejores para su problema y sus datos.
Explorar y validar los
modelos
•Use los modelos para crear predicciones que luego podrá usar para
tomar decisiones.
•Crear consultas de contenido para recuperar estadísticas, reglas o
fórmulas del modelo.
•Crear un informe que permita a los usuarios realizar consultas
directamente en un modelo de minería de datos existente.
Implementar y actualizar
los modelos
Aplicaciones de
uso
Incluye contenido web e información que es
obtenida de las redes sociales como
Facebook, Twitter, LinkedIn, etc, blogs.
Web y Social Media
Machine-to-Machine
(M2M)
Se refiere a las tecnologías que permiten conectarse a otros
dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algún evento en particular (velocidad,
temperatura, presión, variables meteorológicas, variables
químicas como la salinidad, etc.)
Big Transaction Data
Incluye registros de facturación, en
telecomunicaciones registros detallados de las
llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos
tanto semi-estructurados como no
estructurados.
Biometrics
Información biométrica en la que se incluye
huellas digitales, escaneo de la retina,
reconocimiento facial, genética, etc. En el área
de seguridad e inteligencia, los datos
biométricos han sido información importante
para las agencias de investigación.
Human Generated
Las personas generamos diversas cantidades de
datos como la información que guarda un Call
Center al establecer una llamada telefónica,
notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, etc.
Las “Vs” de la Big
Data
Volumen
La Big Data requiere procesar altos volúmenes de datos
Hadoop no estructurados y de baja densidad, datos de
valor desconocido, como fuentes de datos de:
Redes Sociales,
Trafico en la Red,
Apps móviles,
Equipos con sensores que capturan datos a la velocidad
de la luz y mucho más.
Velocidad
Una de las cualidades de la Big Data son la
información en tiempo real, que proviene
principalmente de Apps móviles junto con Apps
del internet de las cosas
Variedad
Nuevos tipos de datos no estructurados o semi-
estructurados, como textos, audio y videos, requieren
un proceso adicional para extraer su significado.
Una vez comprendidos estos datos, tiene muchos de
los mismos requisitos que los datos estructurados,
como resumen, linaje, auditabilidad y privacidad.
Valor
Los datos tiene un valor intrínseco,
pero debe ser descubierto.
Big data & data mining

Más contenido relacionado

La actualidad más candente

Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I
ufrj
 
Data Mining
Data MiningData Mining
Data Mining
brobelo
 

La actualidad más candente (19)

Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Algoritmos de minería de datos
Algoritmos de minería de datos Algoritmos de minería de datos
Algoritmos de minería de datos
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data Mining
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Data Mining
Data MiningData Mining
Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Similar a Big data & data mining

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Data mining
Data miningData mining
Data mining
rubzabet
 
Data mining
Data miningData mining
Data mining
rubza
 

Similar a Big data & data mining (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datos
 
Data mining
Data miningData mining
Data mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data
DataData
Data
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Data mining
Data miningData mining
Data mining
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Último

UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
refrielectriccarlyz
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
DavidRojas870673
 
Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
andersonsubero28
 

Último (20)

DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
 
Mecatronica Automotriz .pdf
Mecatronica Automotriz              .pdfMecatronica Automotriz              .pdf
Mecatronica Automotriz .pdf
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalación
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
TAIICHI OHNO, historia, obras, reconocimientos
TAIICHI OHNO, historia, obras, reconocimientosTAIICHI OHNO, historia, obras, reconocimientos
TAIICHI OHNO, historia, obras, reconocimientos
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
 
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdfSESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdf
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfFUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
 
422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
 
Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 

Big data & data mining

  • 1.
  • 2. ¿Qué es? Se denomina Big Data a la manipulación, análisis y estructuración a enormes cantidades de datos que sobrepasan de los limites. Generando un cambios radical al manejo convencional de la información.
  • 3. ¿Dónde surge la Big Data? los seres humanos constantemente creamos y/o almacenamos grandes cantidades de información, generando alrededor de 2.5 quintillones de bytes por día, esta información nace de los: •Smartphones. •Sensores de automóviles. •Satélites. •Cámaras. •Movimiento de la bolsa. •Registros aéreos. •De cada clic que realizamos la Red. •Entre mucho otros.
  • 4.
  • 5. ¿Qué tan grande es? “El 90% de los datos disponibles hoy en día en el mundo fueron creados en los últimos 2 años.” - IBM, 2015
  • 7.
  • 8. Es un proceso para detectar la información procesable. Utilizando el análisis matemático para deducir los patrones y tendencias que existen en los datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos.
  • 9.
  • 10. ¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar? ¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar asociaciones y patrones interesantes? ¿Qué resultado o atributo desea predecir? ¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? Definir el problema
  • 11. En caso de que haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o procesar los datos antes de poder usarlos? ¿Cómo se distribuyen los datos? ¿Los datos son estacionales?
  • 12. •Los datos pueden estar dispersos y almacenados en formatos distintos; también pueden contener incoherencias como entradas que faltan o incorrectas. •La limpieza de los datos no solamente implica quitar datos no válidos o interpolar valores que faltan, sino también buscar las correlaciones ocultas en los datos, identificar los orígenes de datos que son más precisos y determinar qué columnas son las más adecuadas para el análisis. Preparar los datos
  • 13. Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minería de datos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estándar, y examinar la distribución de los datos. Explorar los datos
  • 14. Las desviaciones estándar y otros valores de distribución pueden proporcionar información útil sobre la estabilidad y exactitud de los resultados. Una desviación estándar grande puede indicar que agregar más datos podría ayudarle a mejorar el modelo. Los datos que se desvían mucho de una distribución estándar se podrían sesgar o podrían representar una imagen precisa de un problema de la vida real, pero dificultar el ajustar un modelo a los datos.
  • 15. Se debe definir qué columnas de datos se van a usar; para ello, Se crea una estructura de minería de datos. La estructura se vincula al origen de los datos, pero en realidad no contiene ningún dato hasta que se procesa. Generar modelos
  • 16. •Un modelo de minería de datos simplemente es un contenedor que especifica las columnas que se usan para la entrada, el atributo que está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. •El procesamiento de un modelo a menudo se denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la estructura para extraer patrones.
  • 17. •Los patrones que encuentre en el proceso de entrenamiento dependerán de la selección de los datos de entrenamiento, el algoritmo que elija y cómo se haya configurado el algoritmo.
  • 18. Antes de implementar un modelo en un entorno de producción, es aconsejable probar si funciona correctamente. Además, al generar un modelo, normalmente se crean varios con configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores para su problema y sus datos. Explorar y validar los modelos
  • 19. •Use los modelos para crear predicciones que luego podrá usar para tomar decisiones. •Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas del modelo. •Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente. Implementar y actualizar los modelos
  • 20.
  • 22. Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs. Web y Social Media
  • 23. Machine-to-Machine (M2M) Se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.)
  • 24. Big Transaction Data Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semi-estructurados como no estructurados.
  • 25. Biometrics Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
  • 26. Human Generated Las personas generamos diversas cantidades de datos como la información que guarda un Call Center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.
  • 27. Las “Vs” de la Big Data
  • 28. Volumen La Big Data requiere procesar altos volúmenes de datos Hadoop no estructurados y de baja densidad, datos de valor desconocido, como fuentes de datos de: Redes Sociales, Trafico en la Red, Apps móviles, Equipos con sensores que capturan datos a la velocidad de la luz y mucho más.
  • 29. Velocidad Una de las cualidades de la Big Data son la información en tiempo real, que proviene principalmente de Apps móviles junto con Apps del internet de las cosas
  • 30. Variedad Nuevos tipos de datos no estructurados o semi- estructurados, como textos, audio y videos, requieren un proceso adicional para extraer su significado. Una vez comprendidos estos datos, tiene muchos de los mismos requisitos que los datos estructurados, como resumen, linaje, auditabilidad y privacidad.
  • 31. Valor Los datos tiene un valor intrínseco, pero debe ser descubierto.