SlideShare uma empresa Scribd logo
1 de 47
Integración semántica de
    información de distintos
repositorios de medidas de red
       Jorge E. López de Vergara
     jorge.lopez_vergara@uam.es
Motivación

“Que un investigador pueda obtener datos de
       medidas de red y combinarlos,
  independientemente de cómo se hubieran
     tomado y cómo estén almacenados”

Conceptos de interés:
• Integrar información
• Repositorios de medidas de red
• Ontologías
      Integración semántica de información de distintos repositorios de medidas de red   2
Contenido
• Contexto
  – OpenLab
  – Medidas de red
  – Repositorios de medidas de red
• Integración de información
  – Alternativas
  – Ontologías
• Solución
  – Definición de la ontología
  – Reglas de correspondencia
  – Distribución de las consultas
• Conclusiones y lecciones aprendidas

       Integración semántica de información de distintos repositorios de medidas de red   3
Contexto

• El objetivo surge dentro del proyecto integrado
  OpenLab del FP7, dentro del ámbito de FIRE
  – La idea principal del proyecto es federar distintos
    testbeds de experimentación en redes de datos
     • Planet-lab, NITOS, w-iLab.t, Etomic…
  – La federación puede entenderse desde distintos
    puntos de vista
     •   Reserva
     •   Configuración del experimento
     •   Control del experimento
     •   Medidas del experimento
     •   Repositorios de medidas

         Integración semántica de información de distintos repositorios de medidas de red   4
Testbeds en Openlab
• Planet-lab
   – Red superpuesta, más de 1000 nodos en más de 500 sitios




         Integración semántica de información de distintos repositorios de medidas de red   5
Testbeds en Openlab
• NITOS
  – Nodos inalámbricos




          Integración semántica de información de distintos repositorios de medidas de red   6
Testbeds en Openlab
• w-iLab.t
   – Nodos móviles y sensores




         Integración semántica de información de distintos repositorios de medidas de red   7
Testbeds en Openlab
• Etomic
   – Medidas precisas, sincronizadas por GPS




           Integración semántica de información de distintos repositorios de medidas de red   8
Medidas de red

• ¿Qué tipo de medidas de red puede haber?
• ¿Cómo se pueden obtener estas medidas?
• ¿Qué granularidad tienen las medidas?




      Integración semántica de información de distintos repositorios de medidas de red   9
Medidas de red

• ¿Qué tipo de medidas de red puede haber?
  – Las medidas se centran habitualmente en
    parámetros de calidad la red
    • Throughput, pérdidas, latencia, jitter…
  – Pero también se pueden medir otros parámetros
    •   Ruta entre dos nodos
    •   Nivel de señal de una red inalámbrica/móvil
    •   MOS de un flujo multimedia
    •   …




        Integración semántica de información de distintos repositorios de medidas de red   10
Medidas de red

• ¿Cómo se pueden obtener estas medidas?
  – Fundamentalmente dos posibilidades:
    • Medidas activas: la medida se obtiene a partir de
      tráfico inyectado a la red en estudio.
    • Medidas pasivas: la medida se obtiene a partir del
      tráfico que ya fluye por la red en estudio.
• Ejemplos de medida de calidad
  – ¿Cómo se puede medir la latencia?
  – ¿Cómo se puede medir el throughput?



      Integración semántica de información de distintos repositorios de medidas de red   11
Medidas de red

• ¿Qué granularidad tienen las medidas?
  – De más fina a más gruesa:
    • Captura de todos los paquetes que componen el
      tráfico.
    • Registro de los flujos (Netflow/IPFIX)
    • Número de bytes/paquetes por enlace (SNMP IF-MIB,
      MRTG)




      Integración semántica de información de distintos repositorios de medidas de red   12
Repositorios de
                  medidas de red
• Habitualmente se almacenan las medidas
  – Disponer de series temporales
  – Estudiar su variación en el tiempo
• Existen distintas formas de almacenar las
  medidas
  – Depende del repositorio
  – Depende de la medida concreta
  – Depende del ingeniero que ideó las tablas de la
    base de datos
     • ”Great minds think alike”?

       Integración semántica de información de distintos repositorios de medidas de red   13
Repositorios de
                    medidas de red
• Repositorios en OpenLab
  – Etomic
  – nmVO
  – TopHat
• Otros
  – Zabbix: entorno con distintos agentes para medir
  – OML: biblioteca para realizar y almacenar medidas
• ¿Qué medidas almacenan?
  –   Latencia: ping y OWD
  –   Rutas: distintos tipos de traceroute
  –   Throughput: Iperf, trenes de paquetes
  –   Medidas realizadas periódicamente sobre alguno de
      los testbeds

         Integración semántica de información de distintos repositorios de medidas de red   14
Repositorios de
                 medidas de red
• Etomic
  – Múltiples
    tablas SQL
  – Algunas
    medidas
    requieren
    varias
    tablas




      Integración semántica de información de distintos repositorios de medidas de red   15
Integración de información

• ¿Para qué puede ser interesante llevar a
  cabo la integración de distintos
  repositorios?
  – Seleccionar nodos de varios testbeds que
    cumplan ciertos criterios
  – Tomografía de red
     • Combinar rutas, con retardos y throughput
  – Medidas en distintos testbeds combinados
     • Algunos usan Etomic, otros TopHat, otros Zabbix…



       Integración semántica de información de distintos repositorios de medidas de red   16
Integración de información
• Caso de uso: red de distribución de vídeo a nodos
  móviles (Planet-lab + NITOS)
  – ¿Calidad extremo a extremo?
  – ¿Qué afecta más a la calidad?




       Integración semántica de información de distintos repositorios de medidas de red   17
Integración de información:
       Alternativas
• SQL
  – Es necesario definir una vista común para las distintas
    bases de datos
  – Problemas para distribuir una consulta en los distintos
    “sabores” de SQL
     • SQLite, PostgreSQL, MySQL, SQLServer…
• XML
  – Se queda en el aspecto sintáctico
  – XMLSchema permite restringir tipos de datos, pero aquí
    se trata más bien de especializar.
• Ontologías
  – Trabaja el aspecto semántico
     • ¿Qué significa cada concepto y cómo se relaciona con los
       demás?
  – Optamos por esta alternativa

        Integración semántica de información de distintos repositorios de medidas de red   18
Ontologías

• Especificación explícita y formal de una
  conceptualización compartida
  – Explícita: compuesta de conceptos, propiedades,
    relaciones, funciones, axiomas y restricciones
  – Formal: puede ser interpretada por máquinas
  – Conceptualización: modelo abstracto del dominio a
    representar
  – Compartida: acordada por grupos de expertos
• Aplicaciones
  – Inicialmente en inteligencia artificial y sistemas expertos
  – Posteriormente en agentes inteligentes y web semántica
  – Actualmente en cualquier aplicación que requiera
    establecer un modelo de información
        Integración semántica de información de distintos repositorios de medidas de red   19
Ontologías
• Ventajas
  – La información se procesa a un nivel semántico:
     • Es más fácil alinear y fusionar la información
     • Definir reglas de correspondencia
  – Se puede aprovechar definiciones ya realizadas de
    conceptos generales
     • W3C Time, Units, FOAF, etc.
  – Se pueden aprovechar desarrollos realizados en el
    ámbito de la web semántica.
     • Edición de ontologías
     • Bibliotecas de manipulación
     • Servidores de consulta
  – Existe un lenguaje de consulta: SPARQL

       Integración semántica de información de distintos repositorios de medidas de red   20
Solución: Integración
    semántica de repositorios
• Tres pasos
  1. Acordar una ontología común de medidas de red
  2. Definir reglas de correspondencia entre el esquema
     de cada repositorio y la ontología.
  3. Definir mecanismos para distribuir una consulta
     semántica, basada en la ontología común, entre
     todos los repositorios.
• Metodología ya previamente aplicada en
  ámbitos relacionados




       Integración semántica de información de distintos repositorios de medidas de red   21
Paso 1: Ontología de medidas
             de red
• Estructurar la información en varias
  ontologías:                                                             Conceptos
   – Conceptos generales                                                  generales
      • Protocolos, localizaciones, marcas de tiempo
   – Unidades
      • Permiten indicar la unidad de la medida
                                                                                      Unidades
   – Metadatos
      • Contiene información acerca de qué, cuándo,
        dónde y cómo se ha medido
   – Datos
      • Contiene las medidas en sí mismas.
                                                              Metadatos                 Datos
• Estructura para facilitar la
  correspondencia con los repositorios
• Estas ontologías están en proceso de
  estandarización en ETSI


         Integración semántica de información de distintos repositorios de medidas de red   22
Ontología de unidades
• Partiendo de la ontología de unidades de la
  NASA, pero particularizándola para medidas de
  red
  – Añadidas unidades tales como bit, byte y unidades
    derivadas como bit/s
  – Prefijos del sistema métrico y también binario (Mega
    y Mebi)
  – También unidades relativas a direcciones (IPv4,
    IPv6, MAC…)
  – Funciones de transformación entre valores
    numéricos y no numéricos
     • IPv4 como entero de 32 bits o en formato “dotted”




       Integración semántica de información de distintos repositorios de medidas de red   23
Ontología de metadatos
• Se ha basado en la estructura que se definió
  en DatCat (CAIDA)
• Una clase (DataMetadata) relaciona los
  metadatos con las medidas




       Integración semántica de información de distintos repositorios de medidas de red   24
Ontología de datos

• Se partió inicialmente de estructuras XML
  definidas para intercambiar información
  – Perfsonar, estandarizado luego en el grupo
    OGF-NMWG
  – Añadiendo la información presente en los
    repositorios de medidas




       Integración semántica de información de distintos repositorios de medidas de red   25
Ontología de datos

• Estructura principal




       Integración semántica de información de distintos repositorios de medidas de red   26
Ontología de datos
• La estructura permite reglas de correspondencia más
  flexibles
   – Habitualmente una tabla contendrá medidas (Measurement)
   – Una columna contendrá datos de una medida (MeasurementData)
   – Para unir conceptos de alto nivel con medidas concretas se utiliza
     Metric (por ejemplo, un ping permite medir RTT)
• Medidas bien conocidas como el traceroute se describen
  como subclases de Measurement
   – No se añaden más propiedades, sino que se indica qué tipo de
     MeasurementData puede tener un traceroute




          Integración semántica de información de distintos repositorios de medidas de red   27
Estandarización
• Las ontologías utilizadas en Openlab están
  siendo estandarizadas en ETSI
  – ETSI dispone de grupos de especificación industrial
    (ISG), que permiten llevar a cabo un trabajo previo
  – En nuestro caso, estamos trabajando en el ISG MOI:
    Measurement Ontology for IP traffic
• ¿Por qué estandarizar?
  – No existía hasta la fecha un estándar para compartir
    medidas de red entre distintas entidades.
     • No obstante, sí que hay algunos estándares para obtener
       medidas (RMON) y establecer formatos (IPFIX).
  – Las ontologías deben ser compartidas para ser
    realmente útiles y reutilizables


       Integración semántica de información de distintos repositorios de medidas de red   28
Paso 2: Definir reglas de
         correspondencia
• Entre los conceptos de la ontología y los
  repositorios de medidas
• Aproximación simplista:
  – Cada tabla (o subconjunto) es una Measurement
  – Cada columna es una MeasurementData
  – Hay que establecer qué métricas tiene cada medida
• ¡Ojalá fuera tan fácil!
  – Es necesario estudiar el esquema completo de la
    base de datos y resolver manualmente la
    correspondencia
  – Algunas reglas requieren expresiones SQL (joins,
    subselects, etc.)


        Integración semántica de información de distintos repositorios de medidas de red   29
Correspondencia con la
          ontología de datos
• Measurement

• MeasurementData                                                       Measurement

  – Es un contenedor de los valores de las medidas, no
    los valores directamente

• Facetas de MeasurementData                                              MeasurementData

  –   Tipo de datos
  –   Unidad por defecto                                                  Faceta de
                                                                          MeasurementData
  –   Índice
  –   …


         Integración semántica de información de distintos repositorios de medidas de red   30
Correspondencia con la
  ontología de datos




Integración semántica de información de distintos repositorios de medidas de red   31
Correspondencia con la
  ontología de datos




                                           MD:Measurement




Integración semántica de información de distintos repositorios de medidas de red   32
Correspondencia con la
  ontología de datos



                                        MGC:Protocol



                                        MD:Time

                                        MD:AverageIncomingTransferRateMeasurement

                                        MD:AverageOutgoingTransferRateMeasurement




Integración semántica de información de distintos repositorios de medidas de red   33
Correspondencia con la
  ontología de datos




                                                         MD:hasMeasurementData




Integración semántica de información de distintos repositorios de medidas de red   34
Correspondencia con la
  ontología de datos

                                                             MD:defaultUnit
                                                             MD:dataType
                                                             MD:isMeasuredIn




Integración semántica de información de distintos repositorios de medidas de red   35
Correspondencia con la
          ontología de datos
• Cada entrada en el repositorio se corresponde con
  un ejemplar de la clase Measurement
• Para cada valor de la medida habrá que:
  –   Crear un ejemplar de MeasurementData
  –   Añadir la medida a la propiedad “valor”
  –   Completar información de la medida con facetas
  –   Enlazar este ejemplar con Measurement
      (hasMeasurementData)




         Integración semántica de información de distintos repositorios de medidas de red   36
Bases de datos y ontologías
• Hay desarrollos que permiten ver una base de
  datos como una ontología
• En nuestro caso hemos aprovechado
  D2RServer
  – Recibe consultas en SPARQL y las traduce a SQL
  – Genera reglas de correspondencia por defecto a
    partir del esquema de una base de datos
  – Hay que modificar estas reglas para cada
    repositorio, de forma que se emplee el vocabulario
    de la ontología
  – Con este mecanismo “sólo” hay que definir
    correspondencia con la ontología (y no n2)

       Integración semántica de información de distintos repositorios de medidas de red   37
Paso 3: Distribución de la
consulta
                                     SPARQL                              Ontología
                                                                           MOI
                                           Int.
                                          sem.
                                       SPARQL                                        Correspon-
                                                                                     dencia


D2RServer               D2RServer                     D2RServer                    D2RServer
                                         SQL

 ETOMIC                   TopHat                         nmVO                       Iperf-OML
  UPNA                     UPMC                           ELTE



          Integración semántica de información de distintos repositorios de medidas de red   38
Distribución de la consulta

• SPARQL es el lenguaje de consultas de la
  web semántica para RDF y OWL
  – Se consultan triplas RDF (sujeto, predicado,
    objeto)
• Para distribuir la consulta
  – Cada repositorio debe proporcionar una interfaz
    SPARQL, utilizando por ejemplo D2RServer
  – El esquema de cada base de datos debe tener
    preestablecidas las reglas de correspondencia
    con la ontología

       Integración semántica de información de distintos repositorios de medidas de red   39
Consultas de repositorios
         independientes
• Una consulta SPARQL se basa en el operador AND,
  por lo que hay que satisfacer todas las triplas
• En Openlab, la información está distribuida en los
  repositorios
  – No es factible fusionarlos, dada la magnitud de su tamaño
• Es necesario consultar cada fuente de datos
  únicamente respecto de la información que maneja
  – La interfaz se encarga de ver, a partir de las reglas de
    correspondencia, qué información puede consultar a cada
    repositorio
  – Posteriormente, a partir de las respuestas, la interfaz
    agrupa esa información y realiza la consulta completa


       Integración semántica de información de distintos repositorios de medidas de red   40
Ejemplo de consulta SPARQL
                                                    Se definen los
PREFIX MD: <http://www.etsi.org/moi/Data.owl#> espacios de
                                                      nombres
SELECT * {    Se toman todas las variables
   ?a MD:SourceIPValue ?value_for_a         Se buscan triplas que
   FILTER(?value_for_a = "1.2.3.4"^^xsd:string ) esta condición:
                                           cumplan
                                            Medidas con una IP de
} LIMIT 25                                         origen

                                         Se filtran sólo las
     Se limitan las                   respuestas que tengan
    respuestas a 25                         cierto valor




         Integración semántica de información de distintos repositorios de medidas de red   41
Interfaz




Integración semántica de información de distintos repositorios de medidas de red   42
Conclusiones
• El sistema desarrollado permite alcanzar el
  objetivo planteado
• El uso de ontologías permite integrar de
  manera flexible distintos modelos de datos
• Se han aprovechado resultados de
  investigaciones previas
• Costes
  – Es necesario establecer las reglas de
    correspondencia
  – Las consultas deben realizarse en SPARQL y no en
    SQL


       Integración semántica de información de distintos repositorios de medidas de red   43
Lecciones aprendidas
• Investigación
  – Las ontologías han probado ser una herramienta útil
    (una vez más) para el manejo de información
  – No obstante, dentro de un ámbito similar, siempre
    surgen problemas nuevos
  – En los proyectos de la UE existen múltiples
    intereses, y es complicado aunarlos
  – En el Openlab he llevado la parte administrativa en
    la UAM, lo cual permite ver otros aspectos
    relacionados con la gestión
  – Tras más de 10 años en este ámbito, surgen nuevos
    retos en otros temas
     • Spin-off Naudit: dedicada al análisis de redes

       Integración semántica de información de distintos repositorios de medidas de red   44
Lecciones aprendidas

• Estandarización
  – Es complicado llegar a definir un estándar
    •   Distintos intereses
    •   Falta de financiación
    •   Explotar los resultados del estándar
    •   Mismos intereses, pero distintos ámbitos (UE, EEUU…)
  – No obstante, es importante intentarlo
    • Tratar de fijar resultados
    • Permitir reutilizar el conocimiento
    • Valoración positiva en los proyectos



        Integración semántica de información de distintos repositorios de medidas de red   45
Referencias

• Openlab
  – http://www.ict-openlab.eu/
• ETSI MOI ISG
  – http://portal.etsi.org/portal/server.pt/community/MOI
• HPCN-UAM
  – http://www.hpcn.es/
  – http://www.eps.uam.es/~jlopezv/




       Integración semántica de información de distintos repositorios de medidas de red   46
Integración semántica de
    información de distintos
repositorios de medidas de red
       Jorge E. López de Vergara
     jorge.lopez_vergara@uam.es

Mais conteúdo relacionado

Semelhante a Integración semántica de información de distintos repositorios de medidas de red

Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Ricard de la Vega
 
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaMeetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaatSistemas
 
Monitoreo de infraestructura facilitado, desde la ingesta hasta la información
Monitoreo de infraestructura facilitado, desde la ingesta hasta la informaciónMonitoreo de infraestructura facilitado, desde la ingesta hasta la información
Monitoreo de infraestructura facilitado, desde la ingesta hasta la informaciónElasticsearch
 
Introducción a redes inalámbricas en la industria
Introducción a redes inalámbricas en la industriaIntroducción a redes inalámbricas en la industria
Introducción a redes inalámbricas en la industriaJesusCastro260868
 
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...Intelligent water resources management with OGC SOS. Gestión Inteligente de R...
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...Juan Luis Cardoso
 
1 process
1 process1 process
1 processsalilor
 

Semelhante a Integración semántica de información de distintos repositorios de medidas de red (20)

Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...
 
Sistemas_Operativos_Distribuidos
Sistemas_Operativos_DistribuidosSistemas_Operativos_Distribuidos
Sistemas_Operativos_Distribuidos
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Maria esteva
Maria estevaMaria esteva
Maria esteva
 
1 intro
1 intro1 intro
1 intro
 
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache KafkaMeetup En mi local funciona - Mi primer diseño con Apache Kafka
Meetup En mi local funciona - Mi primer diseño con Apache Kafka
 
Big data
Big dataBig data
Big data
 
Monitoreo de infraestructura facilitado, desde la ingesta hasta la información
Monitoreo de infraestructura facilitado, desde la ingesta hasta la informaciónMonitoreo de infraestructura facilitado, desde la ingesta hasta la información
Monitoreo de infraestructura facilitado, desde la ingesta hasta la información
 
introduccion bases de datos
introduccion bases de datosintroduccion bases de datos
introduccion bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Data ware house
Data ware houseData ware house
Data ware house
 
Sistemas distribuidosz
Sistemas distribuidoszSistemas distribuidosz
Sistemas distribuidosz
 
Clase 2
Clase 2Clase 2
Clase 2
 
Introducción a redes inalámbricas en la industria
Introducción a redes inalámbricas en la industriaIntroducción a redes inalámbricas en la industria
Introducción a redes inalámbricas en la industria
 
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...Intelligent water resources management with OGC SOS. Gestión Inteligente de R...
Intelligent water resources management with OGC SOS. Gestión Inteligente de R...
 
Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Plan anual ral
Plan anual ralPlan anual ral
Plan anual ral
 
Implementação de serviços nacionais e estratégias institucionais para a Gestã...
Implementação de serviços nacionais e estratégias institucionais para a Gestã...Implementação de serviços nacionais e estratégias institucionais para a Gestã...
Implementação de serviços nacionais e estratégias institucionais para a Gestã...
 
1 process
1 process1 process
1 process
 

Mais de Jorge E. López de Vergara Méndez

On the feasibility of 40 Gbps network data capture and retention with general...
On the feasibility of 40 Gbps network data capture and retention with general...On the feasibility of 40 Gbps network data capture and retention with general...
On the feasibility of 40 Gbps network data capture and retention with general...Jorge E. López de Vergara Méndez
 
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...Jorge E. López de Vergara Méndez
 
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...Jorge E. López de Vergara Méndez
 
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...Jorge E. López de Vergara Méndez
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPJorge E. López de Vergara Méndez
 
Multimedia flow classification at 10 Gbps using acceleration techniques on co...
Multimedia flow classification at 10 Gbps using acceleration techniques on co...Multimedia flow classification at 10 Gbps using acceleration techniques on co...
Multimedia flow classification at 10 Gbps using acceleration techniques on co...Jorge E. López de Vergara Méndez
 
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss Rate
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss RateEvaluating Quality of Experience in IPTV Services Using MPEG Frame Loss Rate
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss RateJorge E. López de Vergara Méndez
 

Mais de Jorge E. López de Vergara Méndez (9)

On the feasibility of 40 Gbps network data capture and retention with general...
On the feasibility of 40 Gbps network data capture and retention with general...On the feasibility of 40 Gbps network data capture and retention with general...
On the feasibility of 40 Gbps network data capture and retention with general...
 
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...
Evaluación de equipamiento de bajo coste para realizar medidas de red en ento...
 
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...
Dictyogram: a Statistical Approach for the Definition and Visualization of Ne...
 
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...
Análisis de Datos Funcionales para Gestión de Red: Téecnicas, Retos y Oportun...
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
 
Merging heterogeneous network measurement data
Merging heterogeneous network measurement dataMerging heterogeneous network measurement data
Merging heterogeneous network measurement data
 
Multimedia flow classification at 10 Gbps using acceleration techniques on co...
Multimedia flow classification at 10 Gbps using acceleration techniques on co...Multimedia flow classification at 10 Gbps using acceleration techniques on co...
Multimedia flow classification at 10 Gbps using acceleration techniques on co...
 
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss Rate
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss RateEvaluating Quality of Experience in IPTV Services Using MPEG Frame Loss Rate
Evaluating Quality of Experience in IPTV Services Using MPEG Frame Loss Rate
 
Defining ontologies for IP traffic measurements at MOI ISG
Defining ontologies for IP traffic measurements at MOI ISGDefining ontologies for IP traffic measurements at MOI ISG
Defining ontologies for IP traffic measurements at MOI ISG
 

Integración semántica de información de distintos repositorios de medidas de red

  • 1. Integración semántica de información de distintos repositorios de medidas de red Jorge E. López de Vergara jorge.lopez_vergara@uam.es
  • 2. Motivación “Que un investigador pueda obtener datos de medidas de red y combinarlos, independientemente de cómo se hubieran tomado y cómo estén almacenados” Conceptos de interés: • Integrar información • Repositorios de medidas de red • Ontologías Integración semántica de información de distintos repositorios de medidas de red 2
  • 3. Contenido • Contexto – OpenLab – Medidas de red – Repositorios de medidas de red • Integración de información – Alternativas – Ontologías • Solución – Definición de la ontología – Reglas de correspondencia – Distribución de las consultas • Conclusiones y lecciones aprendidas Integración semántica de información de distintos repositorios de medidas de red 3
  • 4. Contexto • El objetivo surge dentro del proyecto integrado OpenLab del FP7, dentro del ámbito de FIRE – La idea principal del proyecto es federar distintos testbeds de experimentación en redes de datos • Planet-lab, NITOS, w-iLab.t, Etomic… – La federación puede entenderse desde distintos puntos de vista • Reserva • Configuración del experimento • Control del experimento • Medidas del experimento • Repositorios de medidas Integración semántica de información de distintos repositorios de medidas de red 4
  • 5. Testbeds en Openlab • Planet-lab – Red superpuesta, más de 1000 nodos en más de 500 sitios Integración semántica de información de distintos repositorios de medidas de red 5
  • 6. Testbeds en Openlab • NITOS – Nodos inalámbricos Integración semántica de información de distintos repositorios de medidas de red 6
  • 7. Testbeds en Openlab • w-iLab.t – Nodos móviles y sensores Integración semántica de información de distintos repositorios de medidas de red 7
  • 8. Testbeds en Openlab • Etomic – Medidas precisas, sincronizadas por GPS Integración semántica de información de distintos repositorios de medidas de red 8
  • 9. Medidas de red • ¿Qué tipo de medidas de red puede haber? • ¿Cómo se pueden obtener estas medidas? • ¿Qué granularidad tienen las medidas? Integración semántica de información de distintos repositorios de medidas de red 9
  • 10. Medidas de red • ¿Qué tipo de medidas de red puede haber? – Las medidas se centran habitualmente en parámetros de calidad la red • Throughput, pérdidas, latencia, jitter… – Pero también se pueden medir otros parámetros • Ruta entre dos nodos • Nivel de señal de una red inalámbrica/móvil • MOS de un flujo multimedia • … Integración semántica de información de distintos repositorios de medidas de red 10
  • 11. Medidas de red • ¿Cómo se pueden obtener estas medidas? – Fundamentalmente dos posibilidades: • Medidas activas: la medida se obtiene a partir de tráfico inyectado a la red en estudio. • Medidas pasivas: la medida se obtiene a partir del tráfico que ya fluye por la red en estudio. • Ejemplos de medida de calidad – ¿Cómo se puede medir la latencia? – ¿Cómo se puede medir el throughput? Integración semántica de información de distintos repositorios de medidas de red 11
  • 12. Medidas de red • ¿Qué granularidad tienen las medidas? – De más fina a más gruesa: • Captura de todos los paquetes que componen el tráfico. • Registro de los flujos (Netflow/IPFIX) • Número de bytes/paquetes por enlace (SNMP IF-MIB, MRTG) Integración semántica de información de distintos repositorios de medidas de red 12
  • 13. Repositorios de medidas de red • Habitualmente se almacenan las medidas – Disponer de series temporales – Estudiar su variación en el tiempo • Existen distintas formas de almacenar las medidas – Depende del repositorio – Depende de la medida concreta – Depende del ingeniero que ideó las tablas de la base de datos • ”Great minds think alike”? Integración semántica de información de distintos repositorios de medidas de red 13
  • 14. Repositorios de medidas de red • Repositorios en OpenLab – Etomic – nmVO – TopHat • Otros – Zabbix: entorno con distintos agentes para medir – OML: biblioteca para realizar y almacenar medidas • ¿Qué medidas almacenan? – Latencia: ping y OWD – Rutas: distintos tipos de traceroute – Throughput: Iperf, trenes de paquetes – Medidas realizadas periódicamente sobre alguno de los testbeds Integración semántica de información de distintos repositorios de medidas de red 14
  • 15. Repositorios de medidas de red • Etomic – Múltiples tablas SQL – Algunas medidas requieren varias tablas Integración semántica de información de distintos repositorios de medidas de red 15
  • 16. Integración de información • ¿Para qué puede ser interesante llevar a cabo la integración de distintos repositorios? – Seleccionar nodos de varios testbeds que cumplan ciertos criterios – Tomografía de red • Combinar rutas, con retardos y throughput – Medidas en distintos testbeds combinados • Algunos usan Etomic, otros TopHat, otros Zabbix… Integración semántica de información de distintos repositorios de medidas de red 16
  • 17. Integración de información • Caso de uso: red de distribución de vídeo a nodos móviles (Planet-lab + NITOS) – ¿Calidad extremo a extremo? – ¿Qué afecta más a la calidad? Integración semántica de información de distintos repositorios de medidas de red 17
  • 18. Integración de información: Alternativas • SQL – Es necesario definir una vista común para las distintas bases de datos – Problemas para distribuir una consulta en los distintos “sabores” de SQL • SQLite, PostgreSQL, MySQL, SQLServer… • XML – Se queda en el aspecto sintáctico – XMLSchema permite restringir tipos de datos, pero aquí se trata más bien de especializar. • Ontologías – Trabaja el aspecto semántico • ¿Qué significa cada concepto y cómo se relaciona con los demás? – Optamos por esta alternativa Integración semántica de información de distintos repositorios de medidas de red 18
  • 19. Ontologías • Especificación explícita y formal de una conceptualización compartida – Explícita: compuesta de conceptos, propiedades, relaciones, funciones, axiomas y restricciones – Formal: puede ser interpretada por máquinas – Conceptualización: modelo abstracto del dominio a representar – Compartida: acordada por grupos de expertos • Aplicaciones – Inicialmente en inteligencia artificial y sistemas expertos – Posteriormente en agentes inteligentes y web semántica – Actualmente en cualquier aplicación que requiera establecer un modelo de información Integración semántica de información de distintos repositorios de medidas de red 19
  • 20. Ontologías • Ventajas – La información se procesa a un nivel semántico: • Es más fácil alinear y fusionar la información • Definir reglas de correspondencia – Se puede aprovechar definiciones ya realizadas de conceptos generales • W3C Time, Units, FOAF, etc. – Se pueden aprovechar desarrollos realizados en el ámbito de la web semántica. • Edición de ontologías • Bibliotecas de manipulación • Servidores de consulta – Existe un lenguaje de consulta: SPARQL Integración semántica de información de distintos repositorios de medidas de red 20
  • 21. Solución: Integración semántica de repositorios • Tres pasos 1. Acordar una ontología común de medidas de red 2. Definir reglas de correspondencia entre el esquema de cada repositorio y la ontología. 3. Definir mecanismos para distribuir una consulta semántica, basada en la ontología común, entre todos los repositorios. • Metodología ya previamente aplicada en ámbitos relacionados Integración semántica de información de distintos repositorios de medidas de red 21
  • 22. Paso 1: Ontología de medidas de red • Estructurar la información en varias ontologías: Conceptos – Conceptos generales generales • Protocolos, localizaciones, marcas de tiempo – Unidades • Permiten indicar la unidad de la medida Unidades – Metadatos • Contiene información acerca de qué, cuándo, dónde y cómo se ha medido – Datos • Contiene las medidas en sí mismas. Metadatos Datos • Estructura para facilitar la correspondencia con los repositorios • Estas ontologías están en proceso de estandarización en ETSI Integración semántica de información de distintos repositorios de medidas de red 22
  • 23. Ontología de unidades • Partiendo de la ontología de unidades de la NASA, pero particularizándola para medidas de red – Añadidas unidades tales como bit, byte y unidades derivadas como bit/s – Prefijos del sistema métrico y también binario (Mega y Mebi) – También unidades relativas a direcciones (IPv4, IPv6, MAC…) – Funciones de transformación entre valores numéricos y no numéricos • IPv4 como entero de 32 bits o en formato “dotted” Integración semántica de información de distintos repositorios de medidas de red 23
  • 24. Ontología de metadatos • Se ha basado en la estructura que se definió en DatCat (CAIDA) • Una clase (DataMetadata) relaciona los metadatos con las medidas Integración semántica de información de distintos repositorios de medidas de red 24
  • 25. Ontología de datos • Se partió inicialmente de estructuras XML definidas para intercambiar información – Perfsonar, estandarizado luego en el grupo OGF-NMWG – Añadiendo la información presente en los repositorios de medidas Integración semántica de información de distintos repositorios de medidas de red 25
  • 26. Ontología de datos • Estructura principal Integración semántica de información de distintos repositorios de medidas de red 26
  • 27. Ontología de datos • La estructura permite reglas de correspondencia más flexibles – Habitualmente una tabla contendrá medidas (Measurement) – Una columna contendrá datos de una medida (MeasurementData) – Para unir conceptos de alto nivel con medidas concretas se utiliza Metric (por ejemplo, un ping permite medir RTT) • Medidas bien conocidas como el traceroute se describen como subclases de Measurement – No se añaden más propiedades, sino que se indica qué tipo de MeasurementData puede tener un traceroute Integración semántica de información de distintos repositorios de medidas de red 27
  • 28. Estandarización • Las ontologías utilizadas en Openlab están siendo estandarizadas en ETSI – ETSI dispone de grupos de especificación industrial (ISG), que permiten llevar a cabo un trabajo previo – En nuestro caso, estamos trabajando en el ISG MOI: Measurement Ontology for IP traffic • ¿Por qué estandarizar? – No existía hasta la fecha un estándar para compartir medidas de red entre distintas entidades. • No obstante, sí que hay algunos estándares para obtener medidas (RMON) y establecer formatos (IPFIX). – Las ontologías deben ser compartidas para ser realmente útiles y reutilizables Integración semántica de información de distintos repositorios de medidas de red 28
  • 29. Paso 2: Definir reglas de correspondencia • Entre los conceptos de la ontología y los repositorios de medidas • Aproximación simplista: – Cada tabla (o subconjunto) es una Measurement – Cada columna es una MeasurementData – Hay que establecer qué métricas tiene cada medida • ¡Ojalá fuera tan fácil! – Es necesario estudiar el esquema completo de la base de datos y resolver manualmente la correspondencia – Algunas reglas requieren expresiones SQL (joins, subselects, etc.) Integración semántica de información de distintos repositorios de medidas de red 29
  • 30. Correspondencia con la ontología de datos • Measurement • MeasurementData Measurement – Es un contenedor de los valores de las medidas, no los valores directamente • Facetas de MeasurementData MeasurementData – Tipo de datos – Unidad por defecto Faceta de MeasurementData – Índice – … Integración semántica de información de distintos repositorios de medidas de red 30
  • 31. Correspondencia con la ontología de datos Integración semántica de información de distintos repositorios de medidas de red 31
  • 32. Correspondencia con la ontología de datos MD:Measurement Integración semántica de información de distintos repositorios de medidas de red 32
  • 33. Correspondencia con la ontología de datos MGC:Protocol MD:Time MD:AverageIncomingTransferRateMeasurement MD:AverageOutgoingTransferRateMeasurement Integración semántica de información de distintos repositorios de medidas de red 33
  • 34. Correspondencia con la ontología de datos MD:hasMeasurementData Integración semántica de información de distintos repositorios de medidas de red 34
  • 35. Correspondencia con la ontología de datos MD:defaultUnit MD:dataType MD:isMeasuredIn Integración semántica de información de distintos repositorios de medidas de red 35
  • 36. Correspondencia con la ontología de datos • Cada entrada en el repositorio se corresponde con un ejemplar de la clase Measurement • Para cada valor de la medida habrá que: – Crear un ejemplar de MeasurementData – Añadir la medida a la propiedad “valor” – Completar información de la medida con facetas – Enlazar este ejemplar con Measurement (hasMeasurementData) Integración semántica de información de distintos repositorios de medidas de red 36
  • 37. Bases de datos y ontologías • Hay desarrollos que permiten ver una base de datos como una ontología • En nuestro caso hemos aprovechado D2RServer – Recibe consultas en SPARQL y las traduce a SQL – Genera reglas de correspondencia por defecto a partir del esquema de una base de datos – Hay que modificar estas reglas para cada repositorio, de forma que se emplee el vocabulario de la ontología – Con este mecanismo “sólo” hay que definir correspondencia con la ontología (y no n2) Integración semántica de información de distintos repositorios de medidas de red 37
  • 38. Paso 3: Distribución de la consulta SPARQL Ontología MOI Int. sem. SPARQL Correspon- dencia D2RServer D2RServer D2RServer D2RServer SQL ETOMIC TopHat nmVO Iperf-OML UPNA UPMC ELTE Integración semántica de información de distintos repositorios de medidas de red 38
  • 39. Distribución de la consulta • SPARQL es el lenguaje de consultas de la web semántica para RDF y OWL – Se consultan triplas RDF (sujeto, predicado, objeto) • Para distribuir la consulta – Cada repositorio debe proporcionar una interfaz SPARQL, utilizando por ejemplo D2RServer – El esquema de cada base de datos debe tener preestablecidas las reglas de correspondencia con la ontología Integración semántica de información de distintos repositorios de medidas de red 39
  • 40. Consultas de repositorios independientes • Una consulta SPARQL se basa en el operador AND, por lo que hay que satisfacer todas las triplas • En Openlab, la información está distribuida en los repositorios – No es factible fusionarlos, dada la magnitud de su tamaño • Es necesario consultar cada fuente de datos únicamente respecto de la información que maneja – La interfaz se encarga de ver, a partir de las reglas de correspondencia, qué información puede consultar a cada repositorio – Posteriormente, a partir de las respuestas, la interfaz agrupa esa información y realiza la consulta completa Integración semántica de información de distintos repositorios de medidas de red 40
  • 41. Ejemplo de consulta SPARQL Se definen los PREFIX MD: <http://www.etsi.org/moi/Data.owl#> espacios de nombres SELECT * { Se toman todas las variables ?a MD:SourceIPValue ?value_for_a Se buscan triplas que FILTER(?value_for_a = "1.2.3.4"^^xsd:string ) esta condición: cumplan Medidas con una IP de } LIMIT 25 origen Se filtran sólo las Se limitan las respuestas que tengan respuestas a 25 cierto valor Integración semántica de información de distintos repositorios de medidas de red 41
  • 42. Interfaz Integración semántica de información de distintos repositorios de medidas de red 42
  • 43. Conclusiones • El sistema desarrollado permite alcanzar el objetivo planteado • El uso de ontologías permite integrar de manera flexible distintos modelos de datos • Se han aprovechado resultados de investigaciones previas • Costes – Es necesario establecer las reglas de correspondencia – Las consultas deben realizarse en SPARQL y no en SQL Integración semántica de información de distintos repositorios de medidas de red 43
  • 44. Lecciones aprendidas • Investigación – Las ontologías han probado ser una herramienta útil (una vez más) para el manejo de información – No obstante, dentro de un ámbito similar, siempre surgen problemas nuevos – En los proyectos de la UE existen múltiples intereses, y es complicado aunarlos – En el Openlab he llevado la parte administrativa en la UAM, lo cual permite ver otros aspectos relacionados con la gestión – Tras más de 10 años en este ámbito, surgen nuevos retos en otros temas • Spin-off Naudit: dedicada al análisis de redes Integración semántica de información de distintos repositorios de medidas de red 44
  • 45. Lecciones aprendidas • Estandarización – Es complicado llegar a definir un estándar • Distintos intereses • Falta de financiación • Explotar los resultados del estándar • Mismos intereses, pero distintos ámbitos (UE, EEUU…) – No obstante, es importante intentarlo • Tratar de fijar resultados • Permitir reutilizar el conocimiento • Valoración positiva en los proyectos Integración semántica de información de distintos repositorios de medidas de red 45
  • 46. Referencias • Openlab – http://www.ict-openlab.eu/ • ETSI MOI ISG – http://portal.etsi.org/portal/server.pt/community/MOI • HPCN-UAM – http://www.hpcn.es/ – http://www.eps.uam.es/~jlopezv/ Integración semántica de información de distintos repositorios de medidas de red 46
  • 47. Integración semántica de información de distintos repositorios de medidas de red Jorge E. López de Vergara jorge.lopez_vergara@uam.es