SlideShare uma empresa Scribd logo
1 de 159
Baixar para ler offline
11
Prof. Luis Joyanes Aguilar
U
UNIVERSIDAD PONTIFICIA DE
SALAMANCA
BIG DATA
La revolución de los datos
Salamanca, abril 2014
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –2–
33
ESTADO DEL ARTE DE
CLOUD COMPUTING
Prof. Luis Joyanes Aguilar
COMPUTACIÓN
EN LA NUBE
La nueva era de la
computación
4
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIG DATA Y MINERÍA DE DATOS
Página –5–
6
77
ANALÍTICA DE DATOS (Analytics)
Prof. Luis Joyanes Aguilar
BIG DATA
El universo digital de
datos
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA ERA DEL PETABYTE (1.000 TB),
Wired , julio 2008 (www.wired.com)
Sensores en todas partes, almacenamiento infinito
y Nubes (clouds) de procesadores
 Nuestra capacidad para capturar, almacenar y comprender
cantidades masivas de datos está cambiando la ciencia,
medicina, negocios y tecnología. A medida que aumenta
nuestra colección de hechos y figuras, crece la oportunidad
de encontrar respuestas a preguntas fundamentales.
Because in the era of big data,
more isn´t just more. More is
different
Página –8–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)
 1TB (250.000 canciones)
20 TB (fotos ―uploaded‖ a Facebook
cada mes)
 120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)
1 PB (datos procesados por los
servidores de Google cada 75 minutos)
Página –9–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): ―data, data everywhere‖
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –10–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
UN EJEMPLO DE ALMACENAMIENTO DE 1 TB
Página –11–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
El Universo Digital – EMC / IDC
Página –12–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
El Universo Digital – EMC / IDC
Página –13–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
El universo digital de datos, IDC 2012
Pina –14–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL UNIVERSO DIGITAL DE DATOS, 2013
 EMC Corporation PUBLICÓ en diciembre de 2012, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: ―Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East‖. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que
solo 0,5% de los datos mundiales se
analizan.
Página –15–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL UNIVERSO DIGITAL DE DATOS, 2013
El último estudio sobre el Universo Digital de IDC
―Big Data, Bigger Digital Shadows,
and Biggest Growth in the Far East‖
(Grandes volúmenes de datos, sombras digitales
más Grandes y el mayor crecimiento en el Lejano
Oriente). (Diciembre 2012)
Página –16–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL UNIVERSO DIGITAL DE DATOS, 2013
Página –17–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL UNIVERSO DIGITAL DE DATOS, 2013
Página –18–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
El universo digital de datos, 2012
Página –19–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA ERA DEL EXABYTE/ZETTABYTE CISCO
LA ERA DEL EXABYTE, CISCO . Estudio
―Cisco Visual Networking Index (VNI)
2007-2012. Tráfico mundial de datos.
LA ERA DEL ZETTABYTE:Cisco VNI:
Forecast and Methodology 2012:
22017. Tráfico mundial de datos
(publicado en 2013)

Página –20–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Informe VNI CISCO 2012-2107
Durante 2012, empresas, gobiernos, industria y
usuarios finales generan cada mes del año, una
tasa de tráfico mensual de 44 EB (aprox. 44
millones de discos duros de 1TB apilados u
11.000 millones de DVDs).
México produjo en 2012 un tráfico de 0,6
ExaBytes/mes. Se estima que en 2017 producirá
unos 1,3 EB.
Para ese momento el 56% de la población
contará con acceso a Internet de acuerdo con el
INEGI de México
Página –21–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Informe VNI CISCO 2012-2107
Los dispositivos que más ayudan a generar
los 44 EB por mes, según CISCO:
0,6 EB, smartphones
2,7 tabletas
5,8 televisores
7,6 consolas de videojuegos
18,6 computadoras personales
…
En 2017 se espera una tasa global de tráfico
mensual de 121 EB aprox. 1 ZB
Página –22–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA AVALANCHA / DILUVIO DE DATOS
Twitter: (redes sociales)
 90 millones de tuits (tweets) por día que representan 12
Terabytes (datos de 2011)
Boeing: (industria)
 Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio)
 1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
Google procesa al día 20 PB de información
Página –23–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA AVALANCHA / DILUVIO DE DATOS
El 90% de los datos acumulados en todo el
mundo se han creado en los dos últimos
años. Cada día se escriben 400 millones de
tuits, cada minuto se crean 600 nuevos
blogs y cada segundo se registran 10.000
transacciones de pagos con tarjetas.
Objetos cotidianos como los carros, los
relojes o las gafas están comenzando a
conectarse a Internet para alimentar
nuevos servicios que requieren un
constante intercambio de información.
Página –24–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA AVALANCHA / DILUVIO DE DATOS
Los Ayuntamientos siembran las calles con sensores
de recogida de datos para facilitar la vida de los
ciudadanos. Cada día se recogen 2,5 trillones de
bytes de datos, y los directivos de las empresas
apenas pueden manejar la mitad de los generados
en su entorno porque el 80% de ellos están
―desestructurados·.
 El número de dispositivos en red duplicará a
la población mundial en 2015 y los datos que
generen se convertirán en información utilizada por las
empresas para anticipar las necesidades de los
consumidores.
Página –25–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA AVALANCHA / DILUVIO DE DATOS
La respuesta para ordenar este caos es big
data, la nueva herramienta para
sistematizar los datos procedentes de
cualquier soporte —incluyendo imagen
sonido, fotos, textos…— y convertirlos de
forma automática en información.
Big data ayudó a ganar las elecciones a
Barak Obama y ha reducido de días a
minutos la detección de uso de información
privilegiada en Wall Street
Página –26–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LA AVALANCHA / DILUVIO DE DATOS
En torno a ella se está creando un
mercado evaluado por la firma de
análisis Gartner en 132.000 millones de
dólares para 2015. Ese año se crearán
4,4 millones de puestos de trabajo para
abastecerlo. Los expertos comparan la
herramienta con una revolución
industrial en el mundo de los datos y
afirman que con ella cambiará nuestra
forma de vida.
Página –27–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL NEXO DE LAS FUERZAS-
GARTNER (2012)
Página –28–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
El nexo de las fuerzas-
Gartner (2012)
 In the Nexus of Forces, information (Big Data) is
the context for delivering enhanced social and mobile
experiences. Mobile devices are a platform for
effective social networking and new ways of work.
Social links people to their work and each other in new
and unexpected ways. Cloud enables delivery of
information and functionality to users and systems. The
forces of the Nexus are intertwined to create a user-
driven ecosystem of modern computing.
 At the Core: Social, Mobile, Cloud and
Information. Converge and Reinforce
Página –29–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TENDENCIAS TECNOLÓGICAS DE
LA DÉCADA
 LAS CONSULTORAS IDC, GARTNER, FORRESTER,
MCKINSEY y otras, están de acuerdo:
Cloud Computing
Social Media (Medios sociales)
Movilidad: Localización, realidad aumentada,
realidad virtual…
Internet de las cosas (objetos)
 NFC, Bluetooth, RFID, QR, ZigBee, Sensores…
Big Data: Herramientas y Analítica
Página –30–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
RESUMEN: LAS CINCO GRANDES
TENDENCIAS
Cloud Computing
 Modelos, despliegues, seguridad…
Social Media/Social Business
 Medios sociales … empresa social
Movilidad (Localización….)
 Plataformas, dispositivos y Web Apps
Big Data: Herramientas y analítica
Internet de las cosas (M2M)
Página –31–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TENDENCIAS tecnológicas de 2014
―Lo móvil‖ (movilidad): Teléfonos
inteligentes (smartphones), tabletas (tablets),
videoconsolas,.. (geolocalización, realidad
aumentada, NFC, RFID, QR…)
Gamificación
Consumerización, BYOD (Bring
your own device)
Smart TV
BIG DATA (grandes volúmenes)
Página –32–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TECNOLOGÍAS PONIBLES (Wearables)
Gafas inteligentes
Relojes inteligentes
Pulseras inteligentes
Anillos inteligentes
Ropa inteligente
….
Página –33–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TECNOLOGÍAS MÓVILES ACTUALES
 Tecnologías NFC (NFC ,Near Field
Communication). Comunicaciones en cortas
distancias (10 cm -20 cm)… HERRAMIENTA actual
y FUTURA DE TELEPAGO
 Aplicaciones:
 Teléfono como medio de pago (experiencias de Telefónica en
Barcelona)
 Pago en aparcamientos, centros comerciales,…
 Gestión de recetas, control de pacientes, citas médicas,…
 Pago de transportes públicos (Málaga)
 Fidelización y servicios en bibliotecas
 En móviles (SI, Galaxy S IV de Samsung; NO, iPhone 5)
Página –34–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TECNOLOGÍAS MÓVILES ACTUALES
Tecnologías NFC
Chips RFID (Identificación por
radiofrecuencia)
Códigos QR
Sensores…
Redes Bluetooth (1.0, 2.0, 3.0, 4.0…)
Geolocalización
Realidad Aumentada
Página –35–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EL TELÉFONO MÓVIL (CELULAR)
con NFC como medio de pago
Página –36–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TELÉFONO MÓVIL COMO MEDIO DE PAGO
Página –37–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Código QR (periodicos, documentos,..)
http://www.ticbeat.com/economia/auge-
codigosqr-espana-infografia/
Página –38–
http://wwhttp://
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
MACHINE TO MACHINE (M2M)
 Intercambio de información en formato de datos entre
dos puntos remotos, bien a través de red fija o móvil sin
interacción humana con características específicas en
cuanto a tráfico y tarjetas SIM e integradas en la
fabricación de dispositivos
 Automatización de los procesos de comunicación entre
máquinas, entre dispositivos móviles (celulares) y
máquinas (Mobile to Machine) y entre hombres y
máquinas (Man to Machine)
 En 2011 había más de 1.500 millones de dispositivos
alrededor del mundo conectados entre sí; 15.000 millones
en 2013. Previsiones de Cisco, 25.000 millones para 2015
Página –39–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
INTERNET DE LAS COSAS (OBJETOS)
Página –40–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
INTERNET DE LAS COSAS (OBJETOS)
Cada día aumenta el número de
dispositivos de todo tipo que proporcionan
acceso a Internet. Las ―cosas‖ que
permiten y van a permitir estos accesos irá
aumentando con el tiempo. Ahora ya
tenemos videoconsolas, automóviles,
trenes, aviones, sensores, aparatos de
televisión, … y pronto el acceso se
realizará desde los electrodomésticos
Página –41–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
World Wide Web, Internet móvil, cloud
computing, INTERNET DE LAS COSAS
 Un mundo en el que miles de millones de objetos
informarán de su posición, identidad e historia a
través de conexiones inalámbricas … mediante
tecnologías RFID, bluetooth, sensores inalámbricos,
NFC, …
 La realización del ―Internet de las cosas‖ , probablemente
requerirá cambios dramáticos en sistemas, arquitecturas y
comunicaciones,… Invisible es la descripción de las nuevas
tecnologías empotradas ―Computación ubicua‖… A
medida que avance su penetración:
 Producirá un CAMBIO SOCIAL, posiblemente,
de tanto impacto y tan poco previsible, como
las actuales tecnologías Web
Página –42–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE IMPACTO DEL IoT*
 Plataforma Satelise de Ferrovial (empresa multinacional
constructora de infraestructuras, líder en España)… Está
instalando en los peajes de autopistas una aplicación
basada en tecnología satelital (GPS) para el pago de
peajes sin barreras y la comunicación entre el conductor y
la concesionaria mediante teléfonos inteligentes….
Ofrecerá otros servicios de valor añadido: trayectos de
peaje y alternativos, información sobre el estado del
tráfico, meteorología o cualquier tipo de incidente…
pretende incorporar ―comandos de voz‖ para evitar
distracciones del conductor al volante.
 *Actualidad económica, octubre 2013
Página –43–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE IMPACTO DEL IoT*
SHODAN, buscador en la Internet de las
cosas*
A Google for Hackers. Shodan es una nueva
herramienta utilizada por ―los chicos buenos y
malos‖ para encontrar todos los dispositivos
conectados ―ahora‖ a la Internet: luces de
tráficos, plantas de energía e incluso el monitor
de su bebé‖
* Forbes, sección Technology. 23 de septiembre,
2013 (nº de esta semana en España)
Página –44–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BUSCADOR SHODAN DE LA IoT
Página –45–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
VENTAJAS Y RIESGOS DE IoT
VENTAJAS Y OPORTUNIDADES
 CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca
de 50 mil millones de dispositivos conectados a Internet, capaces
de comunicarse entre sí, desde automóviles, aparatos de
consumo en el hogar, teléfonos inteligentes, marcapasos,
televisores, carros (coches), ropa inteligente, electrodomésticos,
puertas - ventanas de hogares y edificios, PCs, tabletas…
Infinitas ventajas
RIESGOS*…
Hackers ―maliciosos‖, ciberespionaje …
* Cibereespionajes, piratas y mafias, El País, febrero 2013
http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html
Página –46–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
MAPA DE ETIQUETAS DE BIG DATA
Página –47–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
MAPA DE ETIQUETAS DE BIG DATA
Página –48–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Harvard Business Review, octubre 2012
Página –49–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Foreign Affairs, mayo 2013
Página –50–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Revista BBVA, innovation edge, junio 2013
Página –51–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
ORIGEN DEL TÉRMINO
 Grandes volúmenes de datos
Datos masivos
Macrodatos (Fundación Fundeú BBVA)
―La era de los datos masivos se refiere a cosas
que se pueden hacer a gran escala, y pone en
cuestión la forma en que vivimos e
interactuamos con el mundo‖ (Mayer-Schömberg,
Cukier, The Economist)
Correlación: ya no importa el porqué sino sólo
el qué
Página –52–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
 Los Gigantes de Internet como Google, Amazon o Facebook
basan su éxito en el valor de los ―big data‖ sin ellos tendrían
serias dudas de supervivencia.
Big data es el nuevo petróleo, oro o maná de
la década. IBM, SAP ,Oracle, Cisco… los han
sistematizado para adaptarlas a todo tipo de
empresas.
 Google comenzó a gestionar Big Data desde su
nacimiento en 1998, para indexar sus búsquedas‖
 Big data ha saltado de Internet al mundo real, y las
empresas investigan sus aplicaciones para mejorar la gestión,
ahorrar consumos o lanzar nuevos servicios.
Página –53–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
 Big data empieza a dar los primeros pasos en Europa.
La británica Tesco, cuarta cadena minorista
mundial, lo acaba de implantar para controlar
la energía en 120 tiendas irlandesas y quiere
extenderlo a las 3.000 tiendas que tiene entre
Irlanda y Reino Unido para lograr un ahorro de
20 millones de euros en consumos energéticos.
 ING Direct ha lanzado en Holanda un servicio para
vigilar la interacción de los clientes con la web que
genera llamadas telefónicas automáticas para ayudar a
quienes no logran terminar su operación ―una forma de
fidelizar clientes‖
Página –54–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
La central de reservas Amadeus (líneas aéreas)
insta a las empresas a que incorporen la
herramienta junto con el uso ya creciente de
MINERÍA DE DATOS.
 Investigación realizada por el profesor Thomas Davenport, de
la escuela de negocios de Harvard, sobre la experiencia de Air
France-KLM, Lufthansa, British Airways, Cathay, Eurostar,
Hoteles Marriott, aeropuerto de Múnich.
 El informe indica que ―las aerolíneas, los aeropuertos, los
hoteles, las empresas ferroviarias y los distribuidores
de productos turísticos deben plantearse una estrategia
big data para situarse a la vanguardia‖.
Página –55–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
La industria aérea comercial podría ahorrar 30
millones de dólares en 15 años con la
recogida de datos realizada por los
sensores que GE coloca en los motores
de los aviones.
 Trece de las 25 mayores cadenas hoteleras de todo el
mundo efectúan ya sus inversiones y sus ofertas
comerciales, incluso el color de las paredes de los
restaurantes o las habitaciones, cada vez más en
función de sofisticados sistemas de análisis de
datos de clientes (MINERÍA DE DATOS)
Página –56–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
 En España, un sistema privado de seguridad, Sanitas
ha puesto en marcha un sistema para prevenir
enfermedades entre sus 2,3 millones de
clientes.
 ―En un año hemos realizado 800.000
contactos a 100.000 clientes para darles
consejos o indicarles la conveniencia de hacer
pruebas de detección precoz cuando
detectamos que por su perfil puede ser
conveniente y ofrecer mejores servicios‖
[Portavoz de Sanitas al periódico El País]
Página –57–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
Las farmacéuticas y las aseguradoras de
todo el mundo han sumado la fuerza de sus
datos para acelerar la investigación contra
el cáncer, el alzhéimer y otras lacras de la
sociedad.
―hacer predicciones de comportamientos
futuros de pacientes‖ son grandes
ventajas de big data, que puede
―mejorarnos la vida hasta límites
insospechados‖.
Página –58–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
APLICACIONES DE BIG DATA
Una línea de negocio importante de
big data estará en las empresas de
servicios.
Mezclarán la información procedente de
distintas fuentes y harán campañas de
marketing (mercadotecnia) personalizado
asociado a la geolocalización con datos de
su perfil de riesgo, sus gustos y sus hábitos
…
Página –59–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –60–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIG DATA Y LA INVESTIGACIÓN DEL
CÁNCER
 Aplicar la analítica avanzada de datos a los
tratamientos basados en medicina genómica para
enfermos con tumores cerebrales. Éste es el gran
objetivo del proyecto que acometerá el Centro del
Genoma de Nueva York con ayuda de IBM y, en
concreto, del Grupo Watson, centrado en la llamada
computación cognitiva, un área por la que el Gigante Azul
ha apostado de lleno en los últimos años y para la que ha
destinado mil millones de dólares, como anunciaba la
compañía el pasado mes de enero*.
 *www.ticbeat.com
 *http://bigdata.ticbeat.com/watson-arma-contra-el-cancer/
Página –61–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA
―Otro ámbito será la salud, donde toda la
información sobre nuestra historia médica y la de
millones de personas será accesible, tanto para el
paciente como para la investigación médica (de
forma anónima), a fin de entender el impacto de
las epidemias, enfermedades, y tratamientos‖,
Página –62–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
¿Qué es Big Data?
No hay una definición estándar
Big data es una colección de datos grande, complejos, muy
difícil de procesar a través de herramientas de gestión y
procesamiento de datos tradicionales
“Big Data” son datos cuyo volumen, diversidad y
complejidad requieren nueva
arquitectura, técnicas, algoritmos y análisis para
gestionar y extraer valor y conocimiento oculto en ellos
...
Página –63–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
What is big data?*
Every day, we create 2.5 quintillion bytes of data — so
much that 90% of the data in the world today has
been created in the last two years alone. This data
comes from everywhere: sensors used to gather
climate information, posts to social media sites, digital
pictures and videos, purchase transaction records, and
cell phone GPS signals to name a few. This data is big
data.
 * www-01.ibm.com/software/data/bigdata/
Página –64–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
 Esta infinidad de datos, tan variados y con una gran
velocidad de crecimiento esconden tras de sí un gran
conocimiento que puede ayudar al mundo a mejorar sus
procesos e ineficiencias‖.
 Sin embargo, ―no sirven de nada si no se pueden
almacenar, discriminar, procesar y analizar para sacar a la
luz ese conocimiento. Además, su utilidad depende
también de que este proceso se realice en fracciones de
segundo y de manera eficiente‖.
 ―La tecnología ya está preparada y las herramientas de
procesamiento y análisis de datos pueden almacenar,
gestionar y analizar grandes cantidades de información y
traducirlos en inteligencia de negocio rápidamente‖,
Página –65–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: Gartner
Gartner* define ―Big data‖ como un
conjunto de datos de gran volumen,
de gran velocidad y procedente de
gran variedad de fuentes de
información que demandan formas
innovadoras y efectivas de procesar la
información
 www.gartner.com/id=2100215
Página –66–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: Gartner
Además, según el último informe de
Gartner, en 2015 el Big Data creará 4.4
millones de puestos de trabajo TIC
(tecnologías de la información y la
comunicación) en todo el mundo, pero si no
reciben la formación adecuada solo habrá
suficientes profesionales para cubrir un
tercio de ellos
Página –67–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: Gartner
 ―Big Data es la capacidad de analizar grandes
volúmenes de datos de diferentes tipos y a gran
velocidad, para mejorar los procesos de negocio
actuales o crear nuevas áreas de oportunidad‖,
Página –68–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA
 Desde el punto de vista tecnológico seguirán apareciendo
herramientas que permitirán que el término ―big‖
(grande) de Big Data sea cada vez mayor, y con menor
coste, sobre todo gracias a su implementación en los
entornos ―cloud‖".
 La complementación del Big Data con los entornos
―cloud‖, permitirá a casi cualquier empresa que tenga las
ideas claras acceder a estas capacidades, que no serán un
coto restringido a los que tienen grandes capacidades
inversoras‖.
Página –69–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
OTRAS DEFINICIONES DE BIG DATA
O’Reilly Radar
 ―Se considera Big Data cuando el volumen de los datos se
convierte en sí mismo parte del problema a solventar‖ ().
EMC/IDC
 ―Las tecnologías de Big Data describen un nuevo conjunto
de tecnologías y arquitecturas, diseñadas para extraer
valor y beneficio de grandes volúmenes de datos con una
amplia variedad en su naturaleza, mediante procesos que
permitan capturar, descubrir y analizar información a alta
velocidad y con un coste reducido‖
Página –70–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
OTRAS DEFINICIONES DE BIG DATA
McKinsey Global Institute (MGI) en Junio de
2011,
 ―conjuntos de datos cuyo tamaño va más allá de la
capacidad de captura, almacenado, gestión y análisis de
las herramientas de base de datos‖.
The IBM Big Data Platform
 Big Data represents a new era of computing – an
inflection point of opportunity where data in any format
may be explored and utilized for breakthrough insights -
whether that data is in-place, in-motion, or at-rest. IBM is
uniquely positioned to help clients navigate this
transformation.
Página –71–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
OTRAS DEFINICIONES DE BIG DATA
 IBM, considera que hay ―Big Data‖, si el conjunto de
información supera el terabyte de información, es sensible
al tiempo, y mezcla información estructurada con no
estructurada. Así, su enfoque trata de buscar la forma
mejor de aprovechar estos datos, su gestión, su
combinación (datos estructurados con los que no lo son),
la aplicación de algoritmos predictivos de
comportamiento, y con todo ello, permitir la toma de
decisiones que añadan valor al negocio.
Página –72–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
Página –73–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –74–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
 VOLUMEN de datos procesados por las
empresas ha crecido significativa y
exponencialmente.
Google procesa 20 petabytes al día
En 2020 se esperan 42.000 millones
de pagos electrónicos.
La Bolsa de Nueva York genera UN
terabyte de datos al día
Twitter genera 8 TB
Página –75–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento,
proceso y captura de datos, dentro y fuera
de la empresa ha aumentado
considerablemente.
Flujo de datos a alta velocidad.
eBay se enfrenta al fraude a través
de PayPal analizando cinco millones
de transacciones en tiempo real al día.
Página –76–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
VARIEDAD: Big data es cualquier tipo de
dato – estructurado y no estructurado - tales
como texto, datos de sensores, datos entre
máquinas (M2M), archivos ―logs‖, audio,
vídeo, flujos de clicks, XML, datos en
streaming, cotizaciones bursátiles, medios
sociales,
Una creciente variedad de datos
necesitan ser procesados y convertidos a
información
Página –77–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM (5V-6V)
Página –78–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
 Encierra esta idea el tratamiento de información que hace
evolucionar los métodos y recursos habituales para
hacerse cargo de grandes volúmenes de datos (de
terabytes pasamos a zettabytes). Estos se generan a gran
velocidad (pasamos de datos en lotes/archivos a datos
en ―streaming‖) y además se añade una posible
componente de complejidad y variabilidad en el formato
de esos datos (pasamos de datos estructurados a datos
semi-estructurados o no estructurados). Todo ello
requiere de técnicas y tecnologías específicas para su
captura, almacenamiento, distribución, gestión y análisis
de la información.
Página –79–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
 Según IBM Research (www.research.ibm.com), ―el 90 por
ciento de toda la información que existe -datos digitales-
en la actualidad se ha creado en los últimos dos años y el
80 por ciento es información no estructurada, procedente
de vídeos, imágenes digitales, correos electrónicos,
comentarios en las redes sociales y otros textos‖.
 ―Este prolífico universo de información que crece a ritmos
exponenciales ha creado lo que se ha denominado Big
Data o datos masivos. Sus características son: su
variedad, velocidad, volumen y veracidad‖,
explican los expertos de IBM.
Página –80–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
 También recientemente se añade una nueva ―v‖ de valor:
los datos por sí mismos, aun siendo muchos, no
proporcionan valor a una empresa u organización. Es su
tratamiento, a través de un proceso de planteamiento de
hipótesis, creación de modelos estadísticos y semánticos,
y definición de algoritmos de corta o larga duración, lo
que permite descubrir el significado oculto en esos
grandes volúmenes de datos.
Página –81–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DEFINICIÓN DE BIG DATA: IBM
Según otras definiciones de Big Data
de fabricantes, consultoras, NIST, etc.
existen otras propiedades de los big
data:
Veracidad de los datos
Valor de los datos
6V: +Viabilidad de la
infraestructuras y las herramientas de
almacenamiento
Página –82–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
INTERNET EN 2020
Página –84–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –85–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
TRATAMIENTO DE LOS BIG DATA
Página –86–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –87–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
¿Qué sucede en 1´ en INTERNET (2012)
Página –88–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Informe de GP Bullhound, el banco de
inversión líder en Europa (2012 vs 2013)
Página –89–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Informe de GP Bullhound, el banco de
inversión líder en Europa (2012 vs 2013)
Página –90–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013
Página –91–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Actividad de Internet en 1´. Qmee
 Se producen 2 millones de búsquedas en Google
 Se suben 72 horas de video de Youtube
 En Facebook, se producen 2.460.000 post, 1.8 Me Gustan y 350GB de Datos
 Se registran 70 nuevos dominios
 Se descargan 15.000 temas desde iTunes
 Se miran 20 millones de fotos en flickr
 Se producen 278.000 Tweets por minuto
 Se comparten por Snapchat 104.000 fotos
 Amazon vende u$s 83.000
 Se hacen 11.000 búsquedas de LinkedIn
 Hay 11.000 usuarios activos en Pinterest
 216.000 fotos nuevas en Instagram
 204 millones de mails enviados; 20.000 nuevas fotos en Tumblr
 571 nuevos sitios creados
Página –92–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Fuentes de Big Data
 Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
 Fuentes de Big Data (Soares 2012):
 Web y Social media
 Machine-to-Machine (M2M, Internet de
las cosas)
 Biometria
 Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
 Datos generados por las personas
(humanos)
Página –93–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Sunil Soares (2003). Big Data Governance Emerging
Página –94–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 1. Web y Social Media: Incluye contenido web e información
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon…
agregadores de contenidos como Dig, Meneame… En esta
categoría los datos se capturan, almacenan o distribuyen
teniendo presente las características siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
web diversos.
Página –95–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 2. Machine-to-Machine (M2M)/ Internet de las
cosas: M2M se refiere a las tecnologías que permiten conectarse a
otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(humedad, velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a
través de cableadas, inalámbricas y móviles a otras aplicaciones que
traducen estos eventos en información significativa. La comunicación
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categoría podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presión…). sensores,
dispositivos GPS… y ocasionan la generación de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, señales GPS, señales de GIS, etc.
Página –96–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procederán de registros de llamada de centros de llamada,
departamentos de facturación, reclamaciones de las personas,
presentación de documentos…
Página –97–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 4. Biometría: La biometría o reconocimiento biométrico.
La información biométrica se refiere a la identificación
automática de una persona basada en sus características
anatómicas o trazos personales. Los datos anatómicos se
crean a partir de las características físicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen análisis de pulsaciones y
escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos
disponibles
Página –98–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 . En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las
agencias de investigación. En el área de negocios y de
comercio electrónico los datos biométricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biométricos. Los datos generados por la biometría
se pueden agrupar en dos grandes categorías: Genética y
Reconocimiento facial.
 ―An Overview of Biometric Recpgnition‖.
http://biometrics.cse.nsu.edu/info.html
Página –99–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 5. Datos generados por las personas: Las personas
generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas
(call center) al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos,
estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes, etc. El problema que
acompaña a los documentos generados por las personas es que
pueden contener información sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unión Europea o Mercosur)
relativas a protección de datos y privacidad.
Página –100–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Estructura de Big Data: tipos de datos
Estructurados
No estructurados
 No estructurados (texto, vídeo, sonido, imágenes)
 Semiestructurados ( a veces se conocen como
―multiestructurados‖. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
 Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
 Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
Página –101–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Oportunidades en Big Data
Oportunidad profesional: En 2015, Gartner predice que
4,4 millones de empleos serán creados en torno a big
data. (Gartner, 2013)
Fuente: http://www.gartner.com/technology/topics/big-data.jsp
Página –102–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Oportunidades en Big Data
 http://elpais.com/elpais/2013/12/02/vinetas/13
86011115_645213.html
El Roto
Viñeta de El Roto
3 de diciembre de 2013
Página –103–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Oportunidades en Big Data
Página –104–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
RETOS Y OPORTUNIDADES
 IDC entiende Big data como un nuevo valor
económico basado en la toma de decisiones a
partir del análisis de grandes volúmenes de datos
procedentes de una amplia variedad de fuentes,
desde las aplicaciones empresariales convencionales a los
datos móviles, los medios sociales y el Internet de las
Cosas, un campo aún incipiente donde en 2020 convivirán
212.000 millones de dispositivos conectados.
 Big data también ofrece riesgos. Fundamentalmente
en privacidad y seguridad de los datos. Normas legales de
la Unión Europea, sus países miembros, América…
Página –105–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
RETOS Y OPORTUNIDADES
 Sus ventajas para el negocio en áreas como la
gestión de las relaciones con el cliente, el
desarrollo de nuevos productos, la detección del
fraude o la predicción del comportamiento de los
consumidores permiten a las compañías obtener
resultados financieros un 20% por encima de sus
competidores, según estimaciones de Gartner.
 Se entiende así que, una vez superada la fase de
evaluación y prueba en la que todavía nos encontramos,
la adopción creciente de Big data dispare un mercado
que, de acuerdo con la firma de investigación, cerrará
2013 con un volumen de negocio asociado de 34.000
millones de dólares, 6.000 millones más que en
2012.
Página –106–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
RETOS Y OPORTUNIDADES
 Las promesas de Big data alcanzan a
prácticamente todos los sectores de actividad,
como demuestran las primeras experiencias de
éxito emprendidas por organizaciones de finanzas,
sanidad, turismo, retail o telecomunicaciones. Y su
adopción se irá extendiendo a medida que los
responsables TI vayan asumiendo el valor que aportan
nuevos frameworks de software como Hadoop y los
nuevos sistemas avanzados de almacenamiento, bases de
datos, analítica y lenguajes de programación
especialmente orientados a los grandes datos.
Página –107–
108108
UNIVERSIDAD PONTIFICIA DE
SALAMANCA
Prof. Luis Joyanes Aguilar
BIG DATA Y
ANALÍTICA
DE DATOS.
Nuevas bases de datos
NoSQL, ―In-Memory‖…
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesamiento:
se requieren nuevos modelos de programación
4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento ―accionable‖
Página –109–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
1. Almacenamiento
Hacen falta nuevas tecnologías de
almacenamiento
 RAM vs HHD
 Memorias hardware. HHD 100 más barato que RAM
pero 1000 veces más lento
 Solución actual:
Solid- state drive (SSD) además no volátil
 Tecnologías ―in-memory‖ (SAP HANA…)
 Investigación:
 Storage Class Memory (SCM)
Página –110–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
2. Base de datos
Las BD relacionales no pueden con
todo
 volumen de la información
GBs
PBs
Exabytes …. Cada día más populares
 Limitadas para almacenamiento de ―big data‖
 (ACID, SQL, …)
 ACID: Atomicity, Consistency, Isolation & Durability
Página –111–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
3. Procesamiento … HADOOP
 Se requieren nuevos modelos de programación
para manejarse con estos datos
 Solución: Para conseguir procesar grandes conjuntos de
datos: MapReduce de Google
 Pero fue el desarrollo de Hadoop (Yahoo -
Apache) por parte de Yahoo, el que ha propiciado un
ecosistema de herramientas open source.
Página –112–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
4. Obtención de valor
 Los datos no se pueden comer ·crudos‖ (en bruto)
la información no es conocimiento accionable
 Para ello tenemos técnicas de Data Mining
 • Asociación
 • Clasificación
 • Clustering
 • Predicción
 • ...
La mayoría de algoritmos se ejecutan bien
en miles de registros, pero son hoy por hoy
impracticables en miles de millones.
Página –113–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Bases de datos
In-Memory (en-memoria)
 SAP Hana
 Oracle Times Ten In-Memory Database
 IBM solidDB
Relacionales
 Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
 Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
NoSQL (Cassandra, Hive, mongoDB,
CouchDB, Hbase…)
Página –114–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BASES DE DATOS RELACIONALES (Revisión)
 La mayoría de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency,
isolation, durability). Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los
argumentos para su utilización.
Página –115–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BASES DE DATOS ANALÍTICAS
 Analíticas: para permitir a múltiples usuarios contestar
rápidamente preguntas de negocio que requieran de grandes
volúmenes de información.
Bases de datos de procesamiento
paralelo masivo (MPP)
Bases de datos ―en memoria‖
Almacenamiento en columnas
 Históricamente estas bases de datos tan especializadas
tenían un costo muy elevado, pero hoy el mercado nos
ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
Página –116–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Bases de datos analíticas
 Bases de datos diseñadas específicamente para ser
utilizadas como motores de Data Warehouse.
 Estas bases de datos logran procesar grandes volúmenes de
información a velocidades asombrosas, gracias a la aplicación de
diferentes conceptos y tecnologías:
 Almacenamiento en columnas en lugar de filas
(registros)
 Massively parallel processing (MPP)
 In-Memory Analytics
Página –117–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
In-Memory Computing (IBM)
In-memory computing is a technology that allows
the processing of massive quantities of data in main
memory to provide immediate results from analysis and
transaction. The data to be processed is ideally real-time
data (that is, data that is available for processing or
analysis immediately after it is created).
 To achieve the desired performance, in-memory
computing follows these basic concepts:
Página –118–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Row-based and column-based storage models: IBM
Página –119–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Almacenamiento por filas vs columnas
Página –120–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Almacenamiento en columnas, no filas:
FUENTE: datalytics.com
Página –121–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Computación en memoria ―In-Memory‖
La computación en memoria es una
tecnología que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que están disponibles para su
procesamiento o análisis inmediatamente después
que se han creado).
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares… (Oracle, IBM,…)
Página –122–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –123–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BASES DE DATOS NoSQL
 Las bases de datos no-relacionales son comúnmente
llamadas bases de datos NoSQL ya que la gran mayoría
de ellas comparte el hecho de no utilizar el lenguaje SQL
para realizar las consultas
 Es una definición controvertida, aunque la definición más
aceptada es ―Not only SQL‖.
 Una de las características de las bases de datos no
relacionales es que la mayoría de ellas no utilizan
esquemas de datos rígidos como las bases de datos
relacionales. Esto hace que estas bases de datos también
se les llame ―Schema-less‖ o ―Schema-free
(―almacenamiento des-estructurado‖).
Página –124–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BASES DE DATOS NoSQL
 Distintos tipos de bases de datos para distintos tipos de aplicaciones:
documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL:
para capturar de manera segura y escalable, grandes volúmenes de
información continua generados por eventos.
Características
  SQL: Sin (o muy poco) soporte para SQL.
Datos accedidos a través de programas Java, no consultas
  ACID: Sin integridad referencial, poco soporte transaccional
 Definición de estructuras de datos flexibles (sobre la marcha)
Página –125–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BASES DE DATOS NoSQL
 Beneficios
 Facilidad de escalamiento horizontal (clusters baratos)
 Almacenamiento de grandes volúmenes (no generan
cuellos de botella)
 Excelentes para lecturas masivas de registros tipo
clave/valor.
 Desafíos…
 Son de distintos vendedores y no están integradas
 Estos tipos de DBs se utilizan por lo general en
conjunto
 Se utilizan y administran de distinta manera; utilizan
distintos lenguajes: no SQL!
 Dependencia de sistemas: vuelta a las raíces?
Página –126–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Taxonomía de Bases de datos NoSQL
 Los principales tipos de BBDD de acuerdo con su
implementación son los siguientes:
 – Almacenes de Clave-Valor
 – Almacenes de Familia de Columnas (columnares)
 – Almacenes de documentos (orientadas a
documentos)
 – Almacenes de Grafos (orientadas a grafos)
 - Cachés de memoria
Página –127–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
SOLUCIONES DE BASES DE DATOS NoSQL
Página –128–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
MongoDB
MongoDB es un sistema de base de
datos NoSQL orientado a documentos,
desarrollado bajo el concepto de
código abierto.
MongoDB forma parte de los sistemas de
base de datos NoSQL, almacena los datos
no en tablas, sino en documentos tipo
JSON con un esquema dinámico (formato
BSON), haciendo que la integración de los
datos sea más fácil y rápida.
Página –129–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Neo4j
Neo4j es una base de datos de
gráficos, de código abierto
soportada por Neo Technology.
Neo4j almacena los datos en nodos
conectados por relaciones dirigidas y
tipificadas, con las propiedades de
ambos, también conocidas como
Gráfico de Propiedad (Property
Graph).
Página –130–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Apache CouchDB
Base de datos de código abierto,
NoSQL que emplea JSON para
documentos, JavaScript como
lenguaje de consulta para MapReduce
y HTTP como API.
 Se distribuye bajo una licencia Apache 2.0 y es utilizada
por múltiples organizaciones, como la BBC que usa
CouchDB para su plataforma dinámica de contenidos,
mientras que Credit Suisse's lo utiliza para almacenar
los detalles de configuración de su framework Python de
mercado de datos49.
Página –131–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
HyPertable
Sistema Gestor de Bases de Datos de código
abierto desarrollado en C++ por la
compañía Zvents, basado en el modelo Big
Table de Google.
 Es un sistema de almacenamiento de datos distribuido,
escalable, no relacional, no soporta transacciones y de
alto desempeño, ideal para aplicaciones que necesitan
manejar datos que evolucionan rápidamente y diseñado
para soportar una gran demanda de datos en tiempo real.
Entre sus clientes51 se encuentran empresas como
Ebay, Tiscali o Reddiff.com
Página –132–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Hive
Sistema data warehouse para Hadoop que
facilita resúmenes de datos, consultas ad-
hoc, y el análisis de grandes conjuntos de
datos almacenados en los sistemas de
archivos compatibles con Hadoop.
Hive proporciona un mecanismo para
proyectar la estructura sobre estos datos y
consultar los datos utilizando un lenguaje
SQL, llamado HiveQL.
Página –133–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Redis
Redis es un motor de base de datos en
memoria, basado en el
almacenamiento en tablas de hashes
clave, valor) pero que opcionalmente
puede ser usada como una base de
datos durable o persistente.
 Está escrito en ANSI C patrocinado
por VMware.1 2 y esta liberado bajo
licencia BSD.
Página –134–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
¿Quién usa Apache Cassandra?
Algunos usuarios importantes de Cassandra
son:
 Digg
 Facebook
 Twitter
 Rackspace
 SimpleGEO
…
Página –135–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Lenguaje R
R es el lenguaje de programación líder
en el mundo para el análisis
estadístico y la realización de gráficos.
R, es un lenguaje para la minería de datos
y un entorno de programación. Se trata de
un proyecto GNU, que es similar al lenguaje
y al entorno de programación S
desarrollado en Bell Laboratories (antes
AT&T, ahora Lucent Technologies).
Página –136–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Lenguaje R
R ofrece una gran variedad de técnicas
estadísticas (modelos lineales y no
lineales, tests estadísticos, análisis de
series temporales, clasificación, clustering,
...) y técnicas gráficas, y es altamente
extensible.
R está disponible como software libre bajo
licencia de GNU Free Software Foundation. Se
compila y ejecuta en una variedad de plataformas UNIX y
sistemas similares (incluyendo FreeBSD y Linux), Windows y
MacOS.
Página –137–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Integración con Big Data. FUENTE: datalytics.com
Página –138–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Integración con Big Data. FUENTE: datalytics.com
Página –139–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Arquitectura de referencia de Big Data de
Sunil Soares
Página –140–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
ANALÌTICA PREDICTIVA. La
explotación de los Big Data
 Eric SIEGEL (2013). Analítica predictiva. Predecir el
futuro utilizando Big Data. Madrid: Anaya
 ―La predicción es poder. Las grandes empresas se
garantizan una posición altamente competitiva
prediciendo el destino futuro y el valor de activos
concretos.‖
 ―ANALÍTICA PREDICTIVA. Tecnología que aprende
de la experiencia (los datos) para predecir el futuro
comportamiento de los individuos para poder
tomar mejores decisiones‖.
Página –141–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
ALGUNOS CASOS DE AP VS BIG DATA
 Los estudios de Hollywood predicen el éxito que tendría
un guión en caso de llevarse a la gran pantalla.
Netflix –el gigante del video, cine y TV de EEUU- premió
con 1 millón de dólares al equipo de científicos que más
mejoró la capacidad del sistema de recomendaciones para
predecir las películas que nos podrán gustar.
La compañía eléctrica australiana Energex predice
la demanda de electricidad para poder decidir dónde
implantar su red eléctrica.
 La predicción determina los cupones descuento que
nos dan en las tiendas.
 EN ESPAÑA, LAS NUEVAS TARIFAS ELÉCTRICAS….
Página –142–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
CIENCIA DE DATOS (DATA SCIENCE)
Página –143–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
CIENCIA DE DATOS
Ciencia de datos es la extracción de información
útil de grandes volúmenes de datos. La ciencia de
datos necesita acceder a los datos, a la ingeniería
de datos y a las tecnologías de procesamiento de
datos.
 La Ciencia de Datos es una especialización
creciente que toca muchos de los siguientes temas:
Computación en nube, big data, matemáticas,
estadística, métodos de optimización, teoría de
negocios y teoría de ciencias de la computación.
Página –144–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
CIENTÍFICO DE DATOS
 EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Informática,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
 Lenguajes que deberá conocer: Python, R, SQL,
NoSQL…
Página –145–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
DISCIPLINAS CLAVE DE DATA SCIENCE
Página –146–
147147
OPORTUNIDADES Y NUEVAS
PROFESIONES TECNOLÓGICAS
Y DE COMUNICACIÓN
DEMANDADAS POR LAS
EMPRESAS
Prof. Luis Joyanes Aguilar
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG
DATA
 El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…
 UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop‖, ―InMemory‖…)
 Se necesitan certificaciones profesionales en CLOUD
COMPUTING Y BIG DATA… ―TECNOLÓGICAS Y DE
NEGOCIOS‖
Página –148–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…
Community Manager, Social Media
Manager y Analista Web y SEO
Ingeniero de Cloud Computing (En España hay
una universidad privada que lo lanza el próximo curso)
Ingeniero de negocios digitales (Digital
Business Intelligence)
Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías ―in-memory‖…)
Analítica de datos (Analytics) y Analítica de
Big Data
Página –149–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
NUEVAS CARRERAS Y PROFESIONES
Community Manager , Social Media Manager,
SEO, Analistas Web … cada día son más demandadas y.
Sin embargo la profesión del futuro será:
EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
HBR (Harvard Business Review lo declaró la
profesión ―MÁS SEXY del siglo XXI‖…)
Página –150–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
LAS TITULACIONES-PROFESIONES MÁS
DEMANDADAS en TIC EN PRÓXIMOS AÑOS
(HBR, Harvard Business Review) número de
octubre de 2012 (Los datos el nuevo petróleo/oro
del siglo XXI):
Ciencia de los datos: Data Science
(Maestría/Doctorado) … En Estados Unidos,
México y Europa… ya existen iniciativas. (EN
MÉXICO, el ITAM… en España algunas
universidades y escuelas de negocio)
LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL
CIENTÍFICO DE DATOS (Data Scientist)
Página –151–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –152–
MUCHAS GRACIAS … ¿Preguntas?
Twitter:@luisjoyanes
www.facebook.com/joyanesluis
www.slideshare.net/joyanes
CORREO-e: luis.joyanes@upsam.es
153
Prof. Luis Joyanes Aguilar
BIBLIOGRAFÍA
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIBLIOGRAFÍA BÁSICA
JOYANES, Luis (2012). Computación en la
nube. Estrategias de cloud computing
para las empresas. México DF: Alfaomega;
Barcelona: Marcombo
JOYANES, Luis (2013). BIG DATA. El análisis
de los grandes volúmenes de datos. México
DF: Alfaomega; Barcelona: Marcombo
 Colección de libros NTiCS (Negocios, Tecnología,
Innovación, Conocimiento y Sociedad) dirigida por el profesor
Luis Joyanes y publicada en la editorial Alfaomega de México DF y
Marcombo en España
Página –154–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIBLIOGRAFÍA BÁSICA
Tema 6.Big Data. Inteligencia de negocios.
http://www.slideshare.net/joyanes/ioi-bi-tema6-
bigdata
Conferencia ―Big Data y Minería de datos‖,
Congreso Qbit, Instituto Tecnológico de
Monterrey, Querétaro (México), noviembre
2013
 http://www.slideshare.net/luismackoy/ig-data-y-
minera-de-datos-tec-de-monterrey-quertaro
Página –155–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIBLIOGRAFÍA
 Innovation Edge , revista BBVA, junio 2013
https://www.centrodeinnovacionbbva.com/innova
tion-edge/21-big-data
 SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
 DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big
Companies. SAS. International Institute for Analytics.
 Datalytics. 18D – Pentaho Big Data Architecture,
www.datalytics.com (Pentaho)
 Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-
memory Computing with SAP HANA on IBM eX5
Systems. ibm.com/redbooks. Draft Document for
Review December 7, 2012 1:59 pm SG24-8086-00
Página –156–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
BIBLIOGRAFÍA
 ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
 ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM.
Página –157–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
Página –158–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and
productivity. June 2011
James G. Kobielus. The Forrester Wave™:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
 Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniería,
Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
Página –159–
© Luis Joyanes Aguilar
Big Data . La revolución de los datos
Salamanca, 3 de abril 2014
REFERENCIAS
 Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
Página –160–

Mais conteúdo relacionado

Mais procurados

Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinalLuis Joyanes
 
Computación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República DominicanaComputación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República DominicanaLuis Joyanes
 
Inteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negociosInteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negociosLuis Joyanes
 
Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Luis Joyanes
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Luis Joyanes
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Luis Joyanes
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosLuis Joyanes
 
Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Luis Joyanes
 
Curso de big data
Curso de big data Curso de big data
Curso de big data Luis Joyanes
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacionalLuis Joyanes
 
Presentación bigdata
Presentación bigdataPresentación bigdata
Presentación bigdataLuis Joyanes
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos Luis Joyanes
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nubejony luna
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosEnrique Onieva
 
Big data en la era de la nube
Big data en la era de la nubeBig data en la era de la nube
Big data en la era de la nubeLuis Joyanes
 
Presentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectivaPresentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectivaKeidyYeseniaCoelloGa
 
Ebook: Internet de las cosas
Ebook: Internet de las cosasEbook: Internet de las cosas
Ebook: Internet de las cosasi cloud seven
 

Mais procurados (20)

Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinal
 
Computación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República DominicanaComputación en La Nube - Funglode - Santo Domingo, República Dominicana
Computación en La Nube - Funglode - Santo Domingo, República Dominicana
 
Inteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negociosInteligencia denegocios versus analítica de negocios
Inteligencia denegocios versus analítica de negocios
 
Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datos
 
Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacional
 
Presentación bigdata
Presentación bigdataPresentación bigdata
Presentación bigdata
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Computacion en NUBE
Computacion en NUBEComputacion en NUBE
Computacion en NUBE
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Cuarta revolución industrial
Cuarta revolución industrialCuarta revolución industrial
Cuarta revolución industrial
 
1048
10481048
1048
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datos
 
Big data en la era de la nube
Big data en la era de la nubeBig data en la era de la nube
Big data en la era de la nube
 
Presentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectivaPresentacion capitulo 1 perspectiva
Presentacion capitulo 1 perspectiva
 
Ebook: Internet de las cosas
Ebook: Internet de las cosasEbook: Internet de las cosas
Ebook: Internet de las cosas
 

Semelhante a Upsa abril2014

Abelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaAbelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaArena Media España
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garciaDennis García
 
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...AlvaroDeLunaMarquezE
 
Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial Datos.gob.es
 
Informe sobre Big Data - Cotec
Informe sobre Big Data - CotecInforme sobre Big Data - Cotec
Informe sobre Big Data - CotecEduardo Reig
 
TIMELINE CAPITULO 14 BIG DATA Y OPEN DATA
TIMELINE  CAPITULO 14 BIG DATA Y OPEN DATATIMELINE  CAPITULO 14 BIG DATA Y OPEN DATA
TIMELINE CAPITULO 14 BIG DATA Y OPEN DATADulce Pineda
 
Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Carlos Cuesta
 

Semelhante a Upsa abril2014 (20)

San luis bigdata
San luis bigdataSan luis bigdata
San luis bigdata
 
Linea de Tiempo Big Data
Linea de Tiempo Big DataLinea de Tiempo Big Data
Linea de Tiempo Big Data
 
Abelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaAbelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional Weborama
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garcia
 
Perspectivas cap 14
Perspectivas cap 14Perspectivas cap 14
Perspectivas cap 14
 
Informe unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datosInforme unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datos
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 
Articulo de Big Data
Articulo de Big DataArticulo de Big Data
Articulo de Big Data
 
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
presentacion_tecnologias_emergentes_y_datos_abiertos_-_inteligencia_artificia...
 
Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial Tecnologías emergentes y datos abiertos: Inteligencia Artificial
Tecnologías emergentes y datos abiertos: Inteligencia Artificial
 
Informe sobre Big Data - Cotec
Informe sobre Big Data - CotecInforme sobre Big Data - Cotec
Informe sobre Big Data - Cotec
 
La linea del tiempo.
La linea del tiempo.La linea del tiempo.
La linea del tiempo.
 
Tema1
Tema1Tema1
Tema1
 
Big data
Big dataBig data
Big data
 
TIMELINE CAPITULO 14 BIG DATA Y OPEN DATA
TIMELINE  CAPITULO 14 BIG DATA Y OPEN DATATIMELINE  CAPITULO 14 BIG DATA Y OPEN DATA
TIMELINE CAPITULO 14 BIG DATA Y OPEN DATA
 
Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)
 
Presentacion big data
Presentacion big dataPresentacion big data
Presentacion big data
 
Presentacion big data
Presentacion big dataPresentacion big data
Presentacion big data
 

Mais de Luis Joyanes

Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesCiberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesLuis Joyanes
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RLuis Joyanes
 
Master UPSA - Social Media II
Master UPSA - Social Media IIMaster UPSA - Social Media II
Master UPSA - Social Media IILuis Joyanes
 
Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -ILuis Joyanes
 
Conferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingConferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingLuis Joyanes
 
Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Luis Joyanes
 
Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Luis Joyanes
 

Mais de Luis Joyanes (7)

Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesCiberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
 
Master UPSA - Social Media II
Master UPSA - Social Media IIMaster UPSA - Social Media II
Master UPSA - Social Media II
 
Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -I
 
Conferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingConferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud Computing
 
Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012
 
Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"
 

Último

Signos de IFÁ en la cosmogonia_de_ifa.doc
Signos de IFÁ en la cosmogonia_de_ifa.docSignos de IFÁ en la cosmogonia_de_ifa.doc
Signos de IFÁ en la cosmogonia_de_ifa.dochqyvv56rtq
 
Billonarios por países líderes como porcentaje global (1450-2024).pdf
Billonarios por países líderes como porcentaje global  (1450-2024).pdfBillonarios por países líderes como porcentaje global  (1450-2024).pdf
Billonarios por países líderes como porcentaje global (1450-2024).pdfJC Díaz Herrera
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfIrapuatoCmovamos
 
Plazas financieras más importantes (1588-2024).pdf
Plazas financieras más importantes (1588-2024).pdfPlazas financieras más importantes (1588-2024).pdf
Plazas financieras más importantes (1588-2024).pdfJC Díaz Herrera
 
Coeficiente intelectual por etnias (2024).pdf
Coeficiente intelectual por etnias (2024).pdfCoeficiente intelectual por etnias (2024).pdf
Coeficiente intelectual por etnias (2024).pdfJC Díaz Herrera
 
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...JC Díaz Herrera
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024DiegoAlejandroFajard1
 
La cruel guerra en Ucrania y su costo (2024).pdf
La cruel guerra en Ucrania y su costo (2024).pdfLa cruel guerra en Ucrania y su costo (2024).pdf
La cruel guerra en Ucrania y su costo (2024).pdfJC Díaz Herrera
 
Países por registro de patentes (1776-2024).pdf
Países por registro de patentes (1776-2024).pdfPaíses por registro de patentes (1776-2024).pdf
Países por registro de patentes (1776-2024).pdfJC Díaz Herrera
 
Riqueza Financiera PPA per cápita de occidente respecto a la periferia (2024...
Riqueza Financiera PPA  per cápita de occidente respecto a la periferia (2024...Riqueza Financiera PPA  per cápita de occidente respecto a la periferia (2024...
Riqueza Financiera PPA per cápita de occidente respecto a la periferia (2024...JC Díaz Herrera
 
Stock PPA de occidente per cápita respecto a la periferia (2024).pdf
Stock PPA de occidente per cápita  respecto a la periferia  (2024).pdfStock PPA de occidente per cápita  respecto a la periferia  (2024).pdf
Stock PPA de occidente per cápita respecto a la periferia (2024).pdfJC Díaz Herrera
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdfJC Díaz Herrera
 

Último (12)

Signos de IFÁ en la cosmogonia_de_ifa.doc
Signos de IFÁ en la cosmogonia_de_ifa.docSignos de IFÁ en la cosmogonia_de_ifa.doc
Signos de IFÁ en la cosmogonia_de_ifa.doc
 
Billonarios por países líderes como porcentaje global (1450-2024).pdf
Billonarios por países líderes como porcentaje global  (1450-2024).pdfBillonarios por países líderes como porcentaje global  (1450-2024).pdf
Billonarios por países líderes como porcentaje global (1450-2024).pdf
 
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdfBOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
BOLETÍN HEMEROGRÁFICO-FEBRERO 2024, ICV-.pdf
 
Plazas financieras más importantes (1588-2024).pdf
Plazas financieras más importantes (1588-2024).pdfPlazas financieras más importantes (1588-2024).pdf
Plazas financieras más importantes (1588-2024).pdf
 
Coeficiente intelectual por etnias (2024).pdf
Coeficiente intelectual por etnias (2024).pdfCoeficiente intelectual por etnias (2024).pdf
Coeficiente intelectual por etnias (2024).pdf
 
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...
Riqueza Financiera PPA de occidente per cápita respecto a la periferia (1923)...
 
BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024BASE DE DATOS - INSTALACION LARAGON 2024
BASE DE DATOS - INSTALACION LARAGON 2024
 
La cruel guerra en Ucrania y su costo (2024).pdf
La cruel guerra en Ucrania y su costo (2024).pdfLa cruel guerra en Ucrania y su costo (2024).pdf
La cruel guerra en Ucrania y su costo (2024).pdf
 
Países por registro de patentes (1776-2024).pdf
Países por registro de patentes (1776-2024).pdfPaíses por registro de patentes (1776-2024).pdf
Países por registro de patentes (1776-2024).pdf
 
Riqueza Financiera PPA per cápita de occidente respecto a la periferia (2024...
Riqueza Financiera PPA  per cápita de occidente respecto a la periferia (2024...Riqueza Financiera PPA  per cápita de occidente respecto a la periferia (2024...
Riqueza Financiera PPA per cápita de occidente respecto a la periferia (2024...
 
Stock PPA de occidente per cápita respecto a la periferia (2024).pdf
Stock PPA de occidente per cápita  respecto a la periferia  (2024).pdfStock PPA de occidente per cápita  respecto a la periferia  (2024).pdf
Stock PPA de occidente per cápita respecto a la periferia (2024).pdf
 
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock  per cápita en América Latina (1819-2024).pdfPaíses el alto ingreso y stock  per cápita en América Latina (1819-2024).pdf
Países el alto ingreso y stock per cápita en América Latina (1819-2024).pdf
 

Upsa abril2014

  • 1. 11 Prof. Luis Joyanes Aguilar U UNIVERSIDAD PONTIFICIA DE SALAMANCA BIG DATA La revolución de los datos Salamanca, abril 2014
  • 2. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –2–
  • 3. 33 ESTADO DEL ARTE DE CLOUD COMPUTING Prof. Luis Joyanes Aguilar COMPUTACIÓN EN LA NUBE La nueva era de la computación
  • 4. 4
  • 5. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIG DATA Y MINERÍA DE DATOS Página –5–
  • 6. 6
  • 7. 77 ANALÍTICA DE DATOS (Analytics) Prof. Luis Joyanes Aguilar BIG DATA El universo digital de datos
  • 8. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores  Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales. Because in the era of big data, more isn´t just more. More is different Página –8–
  • 9. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)  1TB (250.000 canciones) 20 TB (fotos ―uploaded‖ a Facebook cada mes)  120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000) 1 PB (datos procesados por los servidores de Google cada 75 minutos) Página –9–
  • 10. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Tabla de unidades de almacenamiento (The Economist, febrero 2010): ―data, data everywhere‖ www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Página –10–
  • 11. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 UN EJEMPLO DE ALMACENAMIENTO DE 1 TB Página –11–
  • 12. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 El Universo Digital – EMC / IDC Página –12–
  • 13. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 El Universo Digital – EMC / IDC Página –13–
  • 14. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 El universo digital de datos, IDC 2012 Pina –14–
  • 15. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013  EMC Corporation PUBLICÓ en diciembre de 2012, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: ―Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East‖. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. Página –15–
  • 16. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 El último estudio sobre el Universo Digital de IDC ―Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East‖ (Grandes volúmenes de datos, sombras digitales más Grandes y el mayor crecimiento en el Lejano Oriente). (Diciembre 2012) Página –16–
  • 17. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 Página –17–
  • 18. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 Página –18–
  • 19. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 El universo digital de datos, 2012 Página –19–
  • 20. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA ERA DEL EXABYTE/ZETTABYTE CISCO LA ERA DEL EXABYTE, CISCO . Estudio ―Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Tráfico mundial de datos (publicado en 2013)  Página –20–
  • 21. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Informe VNI CISCO 2012-2107 Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del año, una tasa de tráfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs). México produjo en 2012 un tráfico de 0,6 ExaBytes/mes. Se estima que en 2017 producirá unos 1,3 EB. Para ese momento el 56% de la población contará con acceso a Internet de acuerdo con el INEGI de México Página –21–
  • 22. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Informe VNI CISCO 2012-2107 Los dispositivos que más ayudan a generar los 44 EB por mes, según CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales … En 2017 se espera una tasa global de tráfico mensual de 121 EB aprox. 1 ZB Página –22–
  • 23. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS Twitter: (redes sociales)  90 millones de tuits (tweets) por día que representan 12 Terabytes (datos de 2011) Boeing: (industria)  Vuelo transoceánico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio)  1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes. Google procesa al día 20 PB de información Página –23–
  • 24. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS El 90% de los datos acumulados en todo el mundo se han creado en los dos últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información. Página –24–
  • 25. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están ―desestructurados·.  El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores. Página –25–
  • 26. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS La respuesta para ordenar este caos es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información. Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street Página –26–
  • 27. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS En torno a ella se está creando un mercado evaluado por la firma de análisis Gartner en 132.000 millones de dólares para 2015. Ese año se crearán 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolución industrial en el mundo de los datos y afirman que con ella cambiará nuestra forma de vida. Página –27–
  • 28. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL NEXO DE LAS FUERZAS- GARTNER (2012) Página –28–
  • 29. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 El nexo de las fuerzas- Gartner (2012)  In the Nexus of Forces, information (Big Data) is the context for delivering enhanced social and mobile experiences. Mobile devices are a platform for effective social networking and new ways of work. Social links people to their work and each other in new and unexpected ways. Cloud enables delivery of information and functionality to users and systems. The forces of the Nexus are intertwined to create a user- driven ecosystem of modern computing.  At the Core: Social, Mobile, Cloud and Information. Converge and Reinforce Página –29–
  • 30. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TENDENCIAS TECNOLÓGICAS DE LA DÉCADA  LAS CONSULTORAS IDC, GARTNER, FORRESTER, MCKINSEY y otras, están de acuerdo: Cloud Computing Social Media (Medios sociales) Movilidad: Localización, realidad aumentada, realidad virtual… Internet de las cosas (objetos)  NFC, Bluetooth, RFID, QR, ZigBee, Sensores… Big Data: Herramientas y Analítica Página –30–
  • 31. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 RESUMEN: LAS CINCO GRANDES TENDENCIAS Cloud Computing  Modelos, despliegues, seguridad… Social Media/Social Business  Medios sociales … empresa social Movilidad (Localización….)  Plataformas, dispositivos y Web Apps Big Data: Herramientas y analítica Internet de las cosas (M2M) Página –31–
  • 32. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TENDENCIAS tecnológicas de 2014 ―Lo móvil‖ (movilidad): Teléfonos inteligentes (smartphones), tabletas (tablets), videoconsolas,.. (geolocalización, realidad aumentada, NFC, RFID, QR…) Gamificación Consumerización, BYOD (Bring your own device) Smart TV BIG DATA (grandes volúmenes) Página –32–
  • 33. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TECNOLOGÍAS PONIBLES (Wearables) Gafas inteligentes Relojes inteligentes Pulseras inteligentes Anillos inteligentes Ropa inteligente …. Página –33–
  • 34. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TECNOLOGÍAS MÓVILES ACTUALES  Tecnologías NFC (NFC ,Near Field Communication). Comunicaciones en cortas distancias (10 cm -20 cm)… HERRAMIENTA actual y FUTURA DE TELEPAGO  Aplicaciones:  Teléfono como medio de pago (experiencias de Telefónica en Barcelona)  Pago en aparcamientos, centros comerciales,…  Gestión de recetas, control de pacientes, citas médicas,…  Pago de transportes públicos (Málaga)  Fidelización y servicios en bibliotecas  En móviles (SI, Galaxy S IV de Samsung; NO, iPhone 5) Página –34–
  • 35. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TECNOLOGÍAS MÓVILES ACTUALES Tecnologías NFC Chips RFID (Identificación por radiofrecuencia) Códigos QR Sensores… Redes Bluetooth (1.0, 2.0, 3.0, 4.0…) Geolocalización Realidad Aumentada Página –35–
  • 36. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EL TELÉFONO MÓVIL (CELULAR) con NFC como medio de pago Página –36–
  • 37. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TELÉFONO MÓVIL COMO MEDIO DE PAGO Página –37–
  • 38. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Código QR (periodicos, documentos,..) http://www.ticbeat.com/economia/auge- codigosqr-espana-infografia/ Página –38– http://wwhttp://
  • 39. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 MACHINE TO MACHINE (M2M)  Intercambio de información en formato de datos entre dos puntos remotos, bien a través de red fija o móvil sin interacción humana con características específicas en cuanto a tráfico y tarjetas SIM e integradas en la fabricación de dispositivos  Automatización de los procesos de comunicación entre máquinas, entre dispositivos móviles (celulares) y máquinas (Mobile to Machine) y entre hombres y máquinas (Man to Machine)  En 2011 había más de 1.500 millones de dispositivos alrededor del mundo conectados entre sí; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015 Página –39–
  • 40. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 INTERNET DE LAS COSAS (OBJETOS) Página –40–
  • 41. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 INTERNET DE LAS COSAS (OBJETOS) Cada día aumenta el número de dispositivos de todo tipo que proporcionan acceso a Internet. Las ―cosas‖ que permiten y van a permitir estos accesos irá aumentando con el tiempo. Ahora ya tenemos videoconsolas, automóviles, trenes, aviones, sensores, aparatos de televisión, … y pronto el acceso se realizará desde los electrodomésticos Página –41–
  • 42. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 World Wide Web, Internet móvil, cloud computing, INTERNET DE LAS COSAS  Un mundo en el que miles de millones de objetos informarán de su posición, identidad e historia a través de conexiones inalámbricas … mediante tecnologías RFID, bluetooth, sensores inalámbricos, NFC, …  La realización del ―Internet de las cosas‖ , probablemente requerirá cambios dramáticos en sistemas, arquitecturas y comunicaciones,… Invisible es la descripción de las nuevas tecnologías empotradas ―Computación ubicua‖… A medida que avance su penetración:  Producirá un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologías Web Página –42–
  • 43. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE IMPACTO DEL IoT*  Plataforma Satelise de Ferrovial (empresa multinacional constructora de infraestructuras, líder en España)… Está instalando en los peajes de autopistas una aplicación basada en tecnología satelital (GPS) para el pago de peajes sin barreras y la comunicación entre el conductor y la concesionaria mediante teléfonos inteligentes…. Ofrecerá otros servicios de valor añadido: trayectos de peaje y alternativos, información sobre el estado del tráfico, meteorología o cualquier tipo de incidente… pretende incorporar ―comandos de voz‖ para evitar distracciones del conductor al volante.  *Actualidad económica, octubre 2013 Página –43–
  • 44. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE IMPACTO DEL IoT* SHODAN, buscador en la Internet de las cosas* A Google for Hackers. Shodan es una nueva herramienta utilizada por ―los chicos buenos y malos‖ para encontrar todos los dispositivos conectados ―ahora‖ a la Internet: luces de tráficos, plantas de energía e incluso el monitor de su bebé‖ * Forbes, sección Technology. 23 de septiembre, 2013 (nº de esta semana en España) Página –44–
  • 45. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BUSCADOR SHODAN DE LA IoT Página –45–
  • 46. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 VENTAJAS Y RIESGOS DE IoT VENTAJAS Y OPORTUNIDADES  CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre sí, desde automóviles, aparatos de consumo en el hogar, teléfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomésticos, puertas - ventanas de hogares y edificios, PCs, tabletas… Infinitas ventajas RIESGOS*… Hackers ―maliciosos‖, ciberespionaje … * Cibereespionajes, piratas y mafias, El País, febrero 2013 http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html Página –46–
  • 47. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 MAPA DE ETIQUETAS DE BIG DATA Página –47–
  • 48. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 MAPA DE ETIQUETAS DE BIG DATA Página –48–
  • 49. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Harvard Business Review, octubre 2012 Página –49–
  • 50. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Foreign Affairs, mayo 2013 Página –50–
  • 51. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Revista BBVA, innovation edge, junio 2013 Página –51–
  • 52. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ORIGEN DEL TÉRMINO  Grandes volúmenes de datos Datos masivos Macrodatos (Fundación Fundeú BBVA) ―La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestión la forma en que vivimos e interactuamos con el mundo‖ (Mayer-Schömberg, Cukier, The Economist) Correlación: ya no importa el porqué sino sólo el qué Página –52–
  • 53. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA  Los Gigantes de Internet como Google, Amazon o Facebook basan su éxito en el valor de los ―big data‖ sin ellos tendrían serias dudas de supervivencia. Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.  Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas‖  Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios. Página –53–
  • 54. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA  Big data empieza a dar los primeros pasos en Europa. La británica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energía en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energéticos.  ING Direct ha lanzado en Holanda un servicio para vigilar la interacción de los clientes con la web que genera llamadas telefónicas automáticas para ayudar a quienes no logran terminar su operación ―una forma de fidelizar clientes‖ Página –54–
  • 55. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA La central de reservas Amadeus (líneas aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.  Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.  El informe indica que ―las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia‖. Página –55–
  • 56. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA La industria aérea comercial podría ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.  Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados sistemas de análisis de datos de clientes (MINERÍA DE DATOS) Página –56–
  • 57. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA  En España, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.  ―En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios‖ [Portavoz de Sanitas al periódico El País] Página –57–
  • 58. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Las farmacéuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad. ―hacer predicciones de comportamientos futuros de pacientes‖ son grandes ventajas de big data, que puede ―mejorarnos la vida hasta límites insospechados‖. Página –58–
  • 59. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Una línea de negocio importante de big data estará en las empresas de servicios. Mezclarán la información procedente de distintas fuentes y harán campañas de marketing (mercadotecnia) personalizado asociado a la geolocalización con datos de su perfil de riesgo, sus gustos y sus hábitos … Página –59–
  • 60. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. Página –60–
  • 61. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIG DATA Y LA INVESTIGACIÓN DEL CÁNCER  Aplicar la analítica avanzada de datos a los tratamientos basados en medicina genómica para enfermos con tumores cerebrales. Éste es el gran objetivo del proyecto que acometerá el Centro del Genoma de Nueva York con ayuda de IBM y, en concreto, del Grupo Watson, centrado en la llamada computación cognitiva, un área por la que el Gigante Azul ha apostado de lleno en los últimos años y para la que ha destinado mil millones de dólares, como anunciaba la compañía el pasado mes de enero*.  *www.ticbeat.com  *http://bigdata.ticbeat.com/watson-arma-contra-el-cancer/ Página –61–
  • 62. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA ―Otro ámbito será la salud, donde toda la información sobre nuestra historia médica y la de millones de personas será accesible, tanto para el paciente como para la investigación médica (de forma anónima), a fin de entender el impacto de las epidemias, enfermedades, y tratamientos‖, Página –62–
  • 63. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ¿Qué es Big Data? No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales “Big Data” son datos cuyo volumen, diversidad y complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento oculto en ellos ... Página –63–
  • 64. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM What is big data?* Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.  * www-01.ibm.com/software/data/bigdata/ Página –64–
  • 65. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM  Esta infinidad de datos, tan variados y con una gran velocidad de crecimiento esconden tras de sí un gran conocimiento que puede ayudar al mundo a mejorar sus procesos e ineficiencias‖.  Sin embargo, ―no sirven de nada si no se pueden almacenar, discriminar, procesar y analizar para sacar a la luz ese conocimiento. Además, su utilidad depende también de que este proceso se realice en fracciones de segundo y de manera eficiente‖.  ―La tecnología ya está preparada y las herramientas de procesamiento y análisis de datos pueden almacenar, gestionar y analizar grandes cantidades de información y traducirlos en inteligencia de negocio rápidamente‖, Página –65–
  • 66. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: Gartner Gartner* define ―Big data‖ como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información  www.gartner.com/id=2100215 Página –66–
  • 67. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: Gartner Además, según el último informe de Gartner, en 2015 el Big Data creará 4.4 millones de puestos de trabajo TIC (tecnologías de la información y la comunicación) en todo el mundo, pero si no reciben la formación adecuada solo habrá suficientes profesionales para cubrir un tercio de ellos Página –67–
  • 68. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: Gartner  ―Big Data es la capacidad de analizar grandes volúmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas áreas de oportunidad‖, Página –68–
  • 69. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA  Desde el punto de vista tecnológico seguirán apareciendo herramientas que permitirán que el término ―big‖ (grande) de Big Data sea cada vez mayor, y con menor coste, sobre todo gracias a su implementación en los entornos ―cloud‖".  La complementación del Big Data con los entornos ―cloud‖, permitirá a casi cualquier empresa que tenga las ideas claras acceder a estas capacidades, que no serán un coto restringido a los que tienen grandes capacidades inversoras‖. Página –69–
  • 70. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA O’Reilly Radar  ―Se considera Big Data cuando el volumen de los datos se convierte en sí mismo parte del problema a solventar‖ (). EMC/IDC  ―Las tecnologías de Big Data describen un nuevo conjunto de tecnologías y arquitecturas, diseñadas para extraer valor y beneficio de grandes volúmenes de datos con una amplia variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar información a alta velocidad y con un coste reducido‖ Página –70–
  • 71. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA McKinsey Global Institute (MGI) en Junio de 2011,  ―conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos‖. The IBM Big Data Platform  Big Data represents a new era of computing – an inflection point of opportunity where data in any format may be explored and utilized for breakthrough insights - whether that data is in-place, in-motion, or at-rest. IBM is uniquely positioned to help clients navigate this transformation. Página –71–
  • 72. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA  IBM, considera que hay ―Big Data‖, si el conjunto de información supera el terabyte de información, es sensible al tiempo, y mezcla información estructurada con no estructurada. Así, su enfoque trata de buscar la forma mejor de aprovechar estos datos, su gestión, su combinación (datos estructurados con los que no lo son), la aplicación de algoritmos predictivos de comportamiento, y con todo ello, permitir la toma de decisiones que añadan valor al negocio. Página –72–
  • 73. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM Página –73–
  • 74. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –74–
  • 75. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM  VOLUMEN de datos procesados por las empresas ha crecido significativa y exponencialmente. Google procesa 20 petabytes al día En 2020 se esperan 42.000 millones de pagos electrónicos. La Bolsa de Nueva York genera UN terabyte de datos al día Twitter genera 8 TB Página –75–
  • 76. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad. eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día. Página –76–
  • 77. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estructurado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos ―logs‖, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales, Una creciente variedad de datos necesitan ser procesados y convertidos a información Página –77–
  • 78. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM (5V-6V) Página –78–
  • 79. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM  Encierra esta idea el tratamiento de información que hace evolucionar los métodos y recursos habituales para hacerse cargo de grandes volúmenes de datos (de terabytes pasamos a zettabytes). Estos se generan a gran velocidad (pasamos de datos en lotes/archivos a datos en ―streaming‖) y además se añade una posible componente de complejidad y variabilidad en el formato de esos datos (pasamos de datos estructurados a datos semi-estructurados o no estructurados). Todo ello requiere de técnicas y tecnologías específicas para su captura, almacenamiento, distribución, gestión y análisis de la información. Página –79–
  • 80. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM  Según IBM Research (www.research.ibm.com), ―el 90 por ciento de toda la información que existe -datos digitales- en la actualidad se ha creado en los últimos dos años y el 80 por ciento es información no estructurada, procedente de vídeos, imágenes digitales, correos electrónicos, comentarios en las redes sociales y otros textos‖.  ―Este prolífico universo de información que crece a ritmos exponenciales ha creado lo que se ha denominado Big Data o datos masivos. Sus características son: su variedad, velocidad, volumen y veracidad‖, explican los expertos de IBM. Página –80–
  • 81. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM  También recientemente se añade una nueva ―v‖ de valor: los datos por sí mismos, aun siendo muchos, no proporcionan valor a una empresa u organización. Es su tratamiento, a través de un proceso de planteamiento de hipótesis, creación de modelos estadísticos y semánticos, y definición de algoritmos de corta o larga duración, lo que permite descubrir el significado oculto en esos grandes volúmenes de datos. Página –81–
  • 82. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DEFINICIÓN DE BIG DATA: IBM Según otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos 6V: +Viabilidad de la infraestructuras y las herramientas de almacenamiento Página –82–
  • 83. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 INTERNET EN 2020 Página –84–
  • 84. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –85–
  • 85. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 TRATAMIENTO DE LOS BIG DATA Página –86–
  • 86. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –87–
  • 87. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ¿Qué sucede en 1´ en INTERNET (2012) Página –88–
  • 88. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013) Página –89–
  • 89. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013) Página –90–
  • 90. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013 Página –91–
  • 91. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Actividad de Internet en 1´. Qmee  Se producen 2 millones de búsquedas en Google  Se suben 72 horas de video de Youtube  En Facebook, se producen 2.460.000 post, 1.8 Me Gustan y 350GB de Datos  Se registran 70 nuevos dominios  Se descargan 15.000 temas desde iTunes  Se miran 20 millones de fotos en flickr  Se producen 278.000 Tweets por minuto  Se comparten por Snapchat 104.000 fotos  Amazon vende u$s 83.000  Se hacen 11.000 búsquedas de LinkedIn  Hay 11.000 usuarios activos en Pinterest  216.000 fotos nuevas en Instagram  204 millones de mails enviados; 20.000 nuevas fotos en Tumblr  571 nuevos sitios creados Página –92–
  • 92. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Fuentes de Big Data  Herramientas para análisis de datos en grandes volúmenes de datos. Infraestructuras de Big Data  Fuentes de Big Data (Soares 2012):  Web y Social media  Machine-to-Machine (M2M, Internet de las cosas)  Biometria  Datos de transacciones de grandes datos (salud, telecomunicaciones…)  Datos generados por las personas (humanos) Página –93–
  • 93. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Sunil Soares (2003). Big Data Governance Emerging Página –94–
  • 94. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  1. Web y Social Media: Incluye contenido web e información que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos. Página –95–
  • 95. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc. Página –96–
  • 96. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos… Página –97–
  • 97. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles Página –98–
  • 98. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  . En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.  ―An Overview of Biometric Recpgnition‖. http://biometrics.cse.nsu.edu/info.html Página –99–
  • 99. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad. Página –100–
  • 100. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Estructura de Big Data: tipos de datos Estructurados No estructurados  No estructurados (texto, vídeo, sonido, imágenes)  Semiestructurados ( a veces se conocen como ―multiestructurados‖. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)  Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data  Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados Página –101–
  • 101. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013) Fuente: http://www.gartner.com/technology/topics/big-data.jsp Página –102–
  • 102. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data  http://elpais.com/elpais/2013/12/02/vinetas/13 86011115_645213.html El Roto Viñeta de El Roto 3 de diciembre de 2013 Página –103–
  • 103. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data Página –104–
  • 104. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES  IDC entiende Big data como un nuevo valor económico basado en la toma de decisiones a partir del análisis de grandes volúmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos móviles, los medios sociales y el Internet de las Cosas, un campo aún incipiente donde en 2020 convivirán 212.000 millones de dispositivos conectados.  Big data también ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unión Europea, sus países miembros, América… Página –105–
  • 105. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES  Sus ventajas para el negocio en áreas como la gestión de las relaciones con el cliente, el desarrollo de nuevos productos, la detección del fraude o la predicción del comportamiento de los consumidores permiten a las compañías obtener resultados financieros un 20% por encima de sus competidores, según estimaciones de Gartner.  Se entiende así que, una vez superada la fase de evaluación y prueba en la que todavía nos encontramos, la adopción creciente de Big data dispare un mercado que, de acuerdo con la firma de investigación, cerrará 2013 con un volumen de negocio asociado de 34.000 millones de dólares, 6.000 millones más que en 2012. Página –106–
  • 106. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES  Las promesas de Big data alcanzan a prácticamente todos los sectores de actividad, como demuestran las primeras experiencias de éxito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopción se irá extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analítica y lenguajes de programación especialmente orientados a los grandes datos. Página –107–
  • 107. 108108 UNIVERSIDAD PONTIFICIA DE SALAMANCA Prof. Luis Joyanes Aguilar BIG DATA Y ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, ―In-Memory‖…
  • 108. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ESTADO ACTUAL DE BIG DATA 1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programación 4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento ―accionable‖ Página –109–
  • 109. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 1. Almacenamiento Hacen falta nuevas tecnologías de almacenamiento  RAM vs HHD  Memorias hardware. HHD 100 más barato que RAM pero 1000 veces más lento  Solución actual: Solid- state drive (SSD) además no volátil  Tecnologías ―in-memory‖ (SAP HANA…)  Investigación:  Storage Class Memory (SCM) Página –110–
  • 110. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 2. Base de datos Las BD relacionales no pueden con todo  volumen de la información GBs PBs Exabytes …. Cada día más populares  Limitadas para almacenamiento de ―big data‖  (ACID, SQL, …)  ACID: Atomicity, Consistency, Isolation & Durability Página –111–
  • 111. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 3. Procesamiento … HADOOP  Se requieren nuevos modelos de programación para manejarse con estos datos  Solución: Para conseguir procesar grandes conjuntos de datos: MapReduce de Google  Pero fue el desarrollo de Hadoop (Yahoo - Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. Página –112–
  • 112. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 4. Obtención de valor  Los datos no se pueden comer ·crudos‖ (en bruto) la información no es conocimiento accionable  Para ello tenemos técnicas de Data Mining  • Asociación  • Clasificación  • Clustering  • Predicción  • ... La mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Página –113–
  • 113. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Bases de datos In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In-Memory Database  IBM solidDB Relacionales  Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…  Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (jerárquicas, en red… primeras relacionales…) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…) Página –114–
  • 114. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BASES DE DATOS RELACIONALES (Revisión)  La mayoría de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización. Página –115–
  • 115. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BASES DE DATOS ANALÍTICAS  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos ―en memoria‖ Almacenamiento en columnas  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización. Página –116–
  • 116. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Bases de datos analíticas  Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics Página –117–
  • 117. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 In-Memory Computing (IBM) In-memory computing is a technology that allows the processing of massive quantities of data in main memory to provide immediate results from analysis and transaction. The data to be processed is ideally real-time data (that is, data that is available for processing or analysis immediately after it is created).  To achieve the desired performance, in-memory computing follows these basic concepts: Página –118–
  • 118. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Row-based and column-based storage models: IBM Página –119–
  • 119. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Almacenamiento por filas vs columnas Página –120–
  • 120. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Almacenamiento en columnas, no filas: FUENTE: datalytics.com Página –121–
  • 121. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Computación en memoria ―In-Memory‖ La computación en memoria es una tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado). Existen un amplio conjunto de tecnologías que emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares… (Oracle, IBM,…) Página –122–
  • 122. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –123–
  • 123. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL  Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas  Es una definición controvertida, aunque la definición más aceptada es ―Not only SQL‖.  Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame ―Schema-less‖ o ―Schema-free (―almacenamiento des-estructurado‖). Página –124–
  • 124. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL  Distintos tipos de bases de datos para distintos tipos de aplicaciones: documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos. Características   SQL: Sin (o muy poco) soporte para SQL. Datos accedidos a través de programas Java, no consultas   ACID: Sin integridad referencial, poco soporte transaccional  Definición de estructuras de datos flexibles (sobre la marcha) Página –125–
  • 125. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL  Beneficios  Facilidad de escalamiento horizontal (clusters baratos)  Almacenamiento de grandes volúmenes (no generan cuellos de botella)  Excelentes para lecturas masivas de registros tipo clave/valor.  Desafíos…  Son de distintos vendedores y no están integradas  Estos tipos de DBs se utilizan por lo general en conjunto  Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL!  Dependencia de sistemas: vuelta a las raíces? Página –126–
  • 126. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Taxonomía de Bases de datos NoSQL  Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:  – Almacenes de Clave-Valor  – Almacenes de Familia de Columnas (columnares)  – Almacenes de documentos (orientadas a documentos)  – Almacenes de Grafos (orientadas a grafos)  - Cachés de memoria Página –127–
  • 127. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 SOLUCIONES DE BASES DE DATOS NoSQL Página –128–
  • 128. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 MongoDB MongoDB es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto. MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinámico (formato BSON), haciendo que la integración de los datos sea más fácil y rápida. Página –129–
  • 129. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Neo4j Neo4j es una base de datos de gráficos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph). Página –130–
  • 130. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Apache CouchDB Base de datos de código abierto, NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API.  Se distribuye bajo una licencia Apache 2.0 y es utilizada por múltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinámica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuración de su framework Python de mercado de datos49. Página –131–
  • 131. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 HyPertable Sistema Gestor de Bases de Datos de código abierto desarrollado en C++ por la compañía Zvents, basado en el modelo Big Table de Google.  Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeño, ideal para aplicaciones que necesitan manejar datos que evolucionan rápidamente y diseñado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas como Ebay, Tiscali o Reddiff.com Página –132–
  • 132. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Hive Sistema data warehouse para Hadoop que facilita resúmenes de datos, consultas ad- hoc, y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop. Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL. Página –133–
  • 133. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Redis Redis es un motor de base de datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente.  Está escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD. Página –134–
  • 134. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ¿Quién usa Apache Cassandra? Algunos usuarios importantes de Cassandra son:  Digg  Facebook  Twitter  Rackspace  SimpleGEO … Página –135–
  • 135. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Lenguaje R R es el lenguaje de programación líder en el mundo para el análisis estadístico y la realización de gráficos. R, es un lenguaje para la minería de datos y un entorno de programación. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programación S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). Página –136–
  • 136. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Lenguaje R R ofrece una gran variedad de técnicas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, clasificación, clustering, ...) y técnicas gráficas, y es altamente extensible. R está disponible como software libre bajo licencia de GNU Free Software Foundation. Se compila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. Página –137–
  • 137. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Integración con Big Data. FUENTE: datalytics.com Página –138–
  • 138. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Integración con Big Data. FUENTE: datalytics.com Página –139–
  • 139. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Arquitectura de referencia de Big Data de Sunil Soares Página –140–
  • 140. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ANALÌTICA PREDICTIVA. La explotación de los Big Data  Eric SIEGEL (2013). Analítica predictiva. Predecir el futuro utilizando Big Data. Madrid: Anaya  ―La predicción es poder. Las grandes empresas se garantizan una posición altamente competitiva prediciendo el destino futuro y el valor de activos concretos.‖  ―ANALÍTICA PREDICTIVA. Tecnología que aprende de la experiencia (los datos) para predecir el futuro comportamiento de los individuos para poder tomar mejores decisiones‖. Página –141–
  • 141. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 ALGUNOS CASOS DE AP VS BIG DATA  Los estudios de Hollywood predicen el éxito que tendría un guión en caso de llevarse a la gran pantalla. Netflix –el gigante del video, cine y TV de EEUU- premió con 1 millón de dólares al equipo de científicos que más mejoró la capacidad del sistema de recomendaciones para predecir las películas que nos podrán gustar. La compañía eléctrica australiana Energex predice la demanda de electricidad para poder decidir dónde implantar su red eléctrica.  La predicción determina los cupones descuento que nos dan en las tiendas.  EN ESPAÑA, LAS NUEVAS TARIFAS ELÉCTRICAS…. Página –142–
  • 142. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 CIENCIA DE DATOS (DATA SCIENCE) Página –143–
  • 143. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 CIENCIA DE DATOS Ciencia de datos es la extracción de información útil de grandes volúmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniería de datos y a las tecnologías de procesamiento de datos.  La Ciencia de Datos es una especialización creciente que toca muchos de los siguientes temas: Computación en nube, big data, matemáticas, estadística, métodos de optimización, teoría de negocios y teoría de ciencias de la computación. Página –144–
  • 144. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 CIENTÍFICO DE DATOS  EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Informática, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.  Lenguajes que deberá conocer: Python, R, SQL, NoSQL… Página –145–
  • 145. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 DISCIPLINAS CLAVE DE DATA SCIENCE Página –146–
  • 146. 147147 OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS Prof. Luis Joyanes Aguilar
  • 147. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA  El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…  UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop‖, ―InMemory‖…)  Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… ―TECNOLÓGICAS Y DE NEGOCIOS‖ Página –148–
  • 148. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados… Community Manager, Social Media Manager y Analista Web y SEO Ingeniero de Cloud Computing (En España hay una universidad privada que lo lanza el próximo curso) Ingeniero de negocios digitales (Digital Business Intelligence) Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías ―in-memory‖…) Analítica de datos (Analytics) y Analítica de Big Data Página –149–
  • 149. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager, SEO, Analistas Web … cada día son más demandadas y. Sin embargo la profesión del futuro será: EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. HBR (Harvard Business Review lo declaró la profesión ―MÁS SEXY del siglo XXI‖…) Página –150–
  • 150. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 LAS TITULACIONES-PROFESIONES MÁS DEMANDADAS en TIC EN PRÓXIMOS AÑOS (HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI): Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas. (EN MÉXICO, el ITAM… en España algunas universidades y escuelas de negocio) LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist) Página –151–
  • 151. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –152– MUCHAS GRACIAS … ¿Preguntas? Twitter:@luisjoyanes www.facebook.com/joyanesluis www.slideshare.net/joyanes CORREO-e: luis.joyanes@upsam.es
  • 152. 153 Prof. Luis Joyanes Aguilar BIBLIOGRAFÍA
  • 153. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona: Marcombo  Colección de libros NTiCS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de México DF y Marcombo en España Página –154–
  • 154. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFÍA BÁSICA Tema 6.Big Data. Inteligencia de negocios. http://www.slideshare.net/joyanes/ioi-bi-tema6- bigdata Conferencia ―Big Data y Minería de datos‖, Congreso Qbit, Instituto Tecnológico de Monterrey, Querétaro (México), noviembre 2013  http://www.slideshare.net/luismackoy/ig-data-y- minera-de-datos-tec-de-monterrey-quertaro Página –155–
  • 155. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFÍA  Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innova tion-edge/21-big-data  SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.  DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.  Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)  Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In- memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Página –156–
  • 156. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFÍA  ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill. www-01.ibm.com/software/data/bigdata/  ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM. Página –157–
  • 157. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 Página –158–
  • 158. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 REFERENCIAS McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011 James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/  Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Página –159–
  • 159. © Luis Joyanes Aguilar Big Data . La revolución de los datos Salamanca, 3 de abril 2014 REFERENCIAS  Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org IBM. http://www-01.ibm.com/software/data/bigdata/ Página –160–