SlideShare uma empresa Scribd logo
1 de 13
Qué es Big Data
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
¿Qué es Big Data y porqué se ha vuelto
tan importante? pues bien, en términos
generales podríamos referirnos como a la
tendencia en el avance de la tecnología
que ha abierto las puertas hacia un nuevo
enfoque de entendimiento y toma de
decisiones, la cual es utilizada para
describir enormes cantidades de datos
(estructurados, no estructurados y semi
estructurados) que tomaría demasiado
tiempo y sería muy costoso cargarlos a un
base de datos relacional para su análisis.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Entonces ¿Cuánto es demasiada información
de manera que sea elegible para ser procesada y
analizada utilizando Big Data? Analicemos
primeramente en términos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
¿De dónde proviene toda esa
información?
Los seres humanos estamos creando y
almacenando información constantemente
y cada vez más en cantidades
astronómicas. Se podría decir que si todos
los bits y bytes de datos del último año
fueran guardados en CD's, se generaría
una gran torre desde la Tierra hasta la Luna
y de regreso.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Esta contribución a la acumulación masiva
de datos la podemos encontrar en diversas
industrias, las compañías mantienen
grandes cantidades de datos
transaccionales, reuniendo información
acerca de sus clientes, proveedores,
operaciones, etc., de la misma manera
sucede con el sector público.
(en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook
almacena alrededor de 100 Petabytes de
fotos y videos)
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
¿Qué tipos de datos debo
explorar?
Muchas organizaciones se enfrentan a la pregunta
sobre ¿qué información es la que se debe analizar?,
sin embargo, el cuestionamiento debería estar
enfocado hacia ¿qué problema es el que se está
tratando de resolver?
Si bien sabemos que existe una amplia variedad de
tipos de datos a analizar, una buena clasificación nos
ayudaría a entender mejor su representación, aunque
es muy probable que estas categorías puedan
extenderse con el avance tecnológico.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
1.- Web and Social Media: Incluye contenido web e información que es obtenida
de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten
conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algún evento en particular (velocidad, temperatura,
presión, variables meteorológicas, variables químicas como la salinidad, etc.) los
cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras
aplicaciones que traducen estos eventos en información significativa.
3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están
disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Información biométrica en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad
e inteligencia, los datos biométricos han sido información importante para las
agencias de investigación.
5.- Human Generated: Las personas generamos diversas cantidades de datos
como la información que guarda un call center al establecer una llamada
telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios
médicos, etc.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Componentes de una
plataforma Big Data
Hadoop Distributed File System(HDFS):Los datos en el clúster de Hadoop
son divididos en pequeñas piezas llamadas bloques y distribuidas a través del
clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas
en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes.
Hadoop MapReduce:MapReduce es el núcleo de Hadoop. El término
MapReduce en realidad se refiere a dos procesos separados que Hadoop
ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo
convierte en otro conjunto, donde los elementos individuales son separados
en tuplas (pares de llave/valor).
Hadoop Common:Hadoop Common Components son un conjunto de
librerías que soportan varios subproyectos de Hadoop.
Avro:Es un proyecto de Apache que provee servicios de serialización.
Cuando se guardan datos en un archivo, el esquema que define ese archivo
es guardado dentro del mismo; de este modo es más sencillo para cualquier
aplicación leerlo posteriormente puesto que el esquema esta definido dentro
del archivo.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Cassandra:Cassandra es una base de datos no relacional distribuida y basada en
un modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite
grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas
que utiliza Cassandra dentro de su plataforma.
Chukwa:Diseñado para la colección y análisis a gran escala de "logs". Incluye un
toolkit para desplegar los resultados del análisis y monitoreo.
Flume:u tarea principal es dirigir los datos de una fuente hacia alguna otra
localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades
principales: sources, decorators y sinks. Un source es básicamente cualquier
fuente de datos, sink es el destino de una operación en específico y
un decorator es una operación dentro del flujo de datos que transforma esa
información de alguna manera, como por ejemplo comprimir o descomprimir los
datos o alguna otra operación en particular sobre los mismos.
Hbase:Es una base de datos columnar (column-oriented database) que se ejecuta
en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos
relacional. Cada tabla contiene filas y columnas como una base de datos
relacional. HBase permite que muchos atributos sean agrupados
llamándolos familias de columnas, de tal manera que los elementos de una familia
de columnas son almacenados en un solo conjunto.
Hive:Es una infraestructura de data warehouse que facilita administrar grandes
conjuntos de datos que se encuentran almacenados en un ambiente distribuido.
Hive tiene definido un lenguaje similar a SQL llamado Hive Query Language(HQL),
estas sentencias HQL son separadas por un servicio de Hive y son enviadas a
procesos MapReduce ejecutados en el cluster de Hadoop.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Big Data y el campo de
investigación
Los científicos e investigadores han analizado datos desde ya hace mucho
tiempo, lo que ahora representa el gran reto es la escala en la que estos son
generados.
Esta explosión de "grandes datos" está transformando la manera en que se
conduce una investigación adquiriendo habilidades en el uso de Big Data para
resolver problemas complejos relacionados con el descubrimiento científico,
investigación ambiental y biomédica, educación, salud, seguridad nacional, entre
otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el
uso de una solución de Big Data se encuentran:
El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la
Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el
estudio de la comunicación verbal y no verbal tanto con métodos computacionales
como cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y
HBase para analizar datos producidos por los investigadores de The Cancer
Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el
cáncer.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
El PSG College of Technology, India, analiza múltiples secuencias de proteínas
para determinar los enlaces evolutivos y predecir estructuras moleculares. La
naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la
velocidad y exactitud de estas secuencias.
La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su
proyecto de investigación relacionado con el sistema de inteligencia territorial de la
ciudad de Bogotá.
La Universidad de Maryland es una de las seis universidades que colaboran en la
iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones
incluyen proyectos en la lingüistica computacional (machine translation), modelado
del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de
imágenes.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Conclusiones
La naturaleza de la información hoy es diferente a la información en el pasado.
Debido a la abundacia de sensores, micrófonos, cámaras, escáneres médicos,
imágenes, etc. en nuestras vidas, los datos generados a partir de estos elementos
serán dentro de poco el segmento más grande de toda la información disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les
podrían haber tomado años en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del análisis, es posible que el analista de
datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está
tratando de llegar.
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/
Referencias
La información de la presentación tiene como fuente un articulo de IBM
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
tomado:
https://www.ibm.com/developerwork
s/ssa/local/im/que-es-big-data/

Mais conteúdo relacionado

Mais procurados

Mapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataMapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataJosé Rosales
 
Exposicion base datos
Exposicion  base datosExposicion  base datos
Exposicion base datosUNEFA
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocioslobi7o
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?Carla Buj
 
Tipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relacionesTipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relacionesbasilioj
 
Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusionAngel kbn
 
Importancia de los sistemas de informacion
Importancia de los sistemas de informacionImportancia de los sistemas de informacion
Importancia de los sistemas de informacionC-Reinoso45
 
Historia de la programacion (linea del tiempo)
Historia de la programacion (linea del tiempo)Historia de la programacion (linea del tiempo)
Historia de la programacion (linea del tiempo)kevin antonio
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosFranklin Parrales Bravo
 
Análisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónAnálisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónLourdes Castillo
 
Informatica aplicada
Informatica aplicadaInformatica aplicada
Informatica aplicadaKattyNasimba
 
Diccionario de datos
Diccionario de datosDiccionario de datos
Diccionario de datosJorge Garcia
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjeffersonjsk
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 

Mais procurados (20)

Mapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataMapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigData
 
Exposicion base datos
Exposicion  base datosExposicion  base datos
Exposicion base datos
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?
 
Tipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relacionesTipos de atributos y tipos de relaciones
Tipos de atributos y tipos de relaciones
 
Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusion
 
Importancia de los sistemas de informacion
Importancia de los sistemas de informacionImportancia de los sistemas de informacion
Importancia de los sistemas de informacion
 
Historia de la programacion (linea del tiempo)
Historia de la programacion (linea del tiempo)Historia de la programacion (linea del tiempo)
Historia de la programacion (linea del tiempo)
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
 
TPS
TPSTPS
TPS
 
Base de datos tienda de abarrotes
Base de datos tienda de abarrotesBase de datos tienda de abarrotes
Base de datos tienda de abarrotes
 
Análisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónAnálisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organización
 
Informatica aplicada
Informatica aplicadaInformatica aplicada
Informatica aplicada
 
Diccionario de datos
Diccionario de datosDiccionario de datos
Diccionario de datos
 
100 términos usados en informática
100 términos usados en informática100 términos usados en informática
100 términos usados en informática
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 

Semelhante a Introduccion big data

Semelhante a Introduccion big data (20)

Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
BigData
BigDataBigData
BigData
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Laboratorio 3 big data
Laboratorio 3 big dataLaboratorio 3 big data
Laboratorio 3 big data
 
Big Data
Big DataBig Data
Big Data
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
big data
big  databig  data
big data
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Tics 1
Tics 1Tics 1
Tics 1
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
Tarbajo base de datos
Tarbajo  base de datosTarbajo  base de datos
Tarbajo base de datos
 
Qué es big data
Qué es big dataQué es big data
Qué es big data
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 

Último

Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 

Último (20)

Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 

Introduccion big data

  • 1. Qué es Big Data tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 2. ¿Qué es Big Data y porqué se ha vuelto tan importante? pues bien, en términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 3. Entonces ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos primeramente en términos de bytes: Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte = 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000 tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 4. ¿De dónde proviene toda esa información? Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 5. Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos) tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 6. ¿Qué tipos de datos debo explorar? Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se está tratando de resolver? Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 7. 1.- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs. 2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa. 3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. 4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. 5.- Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 8. Componentes de una plataforma Big Data Hadoop Distributed File System(HDFS):Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes. Hadoop MapReduce:MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor). Hadoop Common:Hadoop Common Components son un conjunto de librerías que soportan varios subproyectos de Hadoop. Avro:Es un proyecto de Apache que provee servicios de serialización. Cuando se guardan datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 9. Cassandra:Cassandra es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma. Chukwa:Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo. Flume:u tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources, decorators y sinks. Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y un decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos. Hbase:Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados llamándolos familias de columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto. Hive:Es una infraestructura de data warehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query Language(HQL), estas sentencias HQL son separadas por un servicio de Hive y son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 10. Big Data y el campo de investigación Los científicos e investigadores han analizado datos desde ya hace mucho tiempo, lo que ahora representa el gran reto es la escala en la que estos son generados. Esta explosión de "grandes datos" está transformando la manera en que se conduce una investigación adquiriendo habilidades en el uso de Big Data para resolver problemas complejos relacionados con el descubrimiento científico, investigación ambiental y biomédica, educación, salud, seguridad nacional, entre otros. De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de una solución de Big Data se encuentran: El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos. Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 11. El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de estas secuencias. La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá. La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüistica computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 12. Conclusiones La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundacia de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información disponible. El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar. tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/
  • 13. Referencias La información de la presentación tiene como fuente un articulo de IBM https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ tomado: https://www.ibm.com/developerwork s/ssa/local/im/que-es-big-data/