La charla está enfocada a contar un tema de investigación a los estudiantes del Máster Universitario de Investigación en TIC de la Universidad de Valladolid
Defining ontologies for IP traffic measurements at MOI ISG
Integración semántica de información de distintos repositorios de medidas de red
1. Integración semántica de
información de distintos
repositorios de medidas de red
Jorge E. López de Vergara
jorge.lopez_vergara@uam.es
2. Motivación
“Que un investigador pueda obtener datos de
medidas de red y combinarlos,
independientemente de cómo se hubieran
tomado y cómo estén almacenados”
Conceptos de interés:
• Integrar información
• Repositorios de medidas de red
• Ontologías
Integración semántica de información de distintos repositorios de medidas de red 2
3. Contenido
• Contexto
– OpenLab
– Medidas de red
– Repositorios de medidas de red
• Integración de información
– Alternativas
– Ontologías
• Solución
– Definición de la ontología
– Reglas de correspondencia
– Distribución de las consultas
• Conclusiones y lecciones aprendidas
Integración semántica de información de distintos repositorios de medidas de red 3
4. Contexto
• El objetivo surge dentro del proyecto integrado
OpenLab del FP7, dentro del ámbito de FIRE
– La idea principal del proyecto es federar distintos
testbeds de experimentación en redes de datos
• Planet-lab, NITOS, w-iLab.t, Etomic…
– La federación puede entenderse desde distintos
puntos de vista
• Reserva
• Configuración del experimento
• Control del experimento
• Medidas del experimento
• Repositorios de medidas
Integración semántica de información de distintos repositorios de medidas de red 4
5. Testbeds en Openlab
• Planet-lab
– Red superpuesta, más de 1000 nodos en más de 500 sitios
Integración semántica de información de distintos repositorios de medidas de red 5
6. Testbeds en Openlab
• NITOS
– Nodos inalámbricos
Integración semántica de información de distintos repositorios de medidas de red 6
7. Testbeds en Openlab
• w-iLab.t
– Nodos móviles y sensores
Integración semántica de información de distintos repositorios de medidas de red 7
8. Testbeds en Openlab
• Etomic
– Medidas precisas, sincronizadas por GPS
Integración semántica de información de distintos repositorios de medidas de red 8
9. Medidas de red
• ¿Qué tipo de medidas de red puede haber?
• ¿Cómo se pueden obtener estas medidas?
• ¿Qué granularidad tienen las medidas?
Integración semántica de información de distintos repositorios de medidas de red 9
10. Medidas de red
• ¿Qué tipo de medidas de red puede haber?
– Las medidas se centran habitualmente en
parámetros de calidad la red
• Throughput, pérdidas, latencia, jitter…
– Pero también se pueden medir otros parámetros
• Ruta entre dos nodos
• Nivel de señal de una red inalámbrica/móvil
• MOS de un flujo multimedia
• …
Integración semántica de información de distintos repositorios de medidas de red 10
11. Medidas de red
• ¿Cómo se pueden obtener estas medidas?
– Fundamentalmente dos posibilidades:
• Medidas activas: la medida se obtiene a partir de
tráfico inyectado a la red en estudio.
• Medidas pasivas: la medida se obtiene a partir del
tráfico que ya fluye por la red en estudio.
• Ejemplos de medida de calidad
– ¿Cómo se puede medir la latencia?
– ¿Cómo se puede medir el throughput?
Integración semántica de información de distintos repositorios de medidas de red 11
12. Medidas de red
• ¿Qué granularidad tienen las medidas?
– De más fina a más gruesa:
• Captura de todos los paquetes que componen el
tráfico.
• Registro de los flujos (Netflow/IPFIX)
• Número de bytes/paquetes por enlace (SNMP IF-MIB,
MRTG)
Integración semántica de información de distintos repositorios de medidas de red 12
13. Repositorios de
medidas de red
• Habitualmente se almacenan las medidas
– Disponer de series temporales
– Estudiar su variación en el tiempo
• Existen distintas formas de almacenar las
medidas
– Depende del repositorio
– Depende de la medida concreta
– Depende del ingeniero que ideó las tablas de la
base de datos
• ”Great minds think alike”?
Integración semántica de información de distintos repositorios de medidas de red 13
14. Repositorios de
medidas de red
• Repositorios en OpenLab
– Etomic
– nmVO
– TopHat
• Otros
– Zabbix: entorno con distintos agentes para medir
– OML: biblioteca para realizar y almacenar medidas
• ¿Qué medidas almacenan?
– Latencia: ping y OWD
– Rutas: distintos tipos de traceroute
– Throughput: Iperf, trenes de paquetes
– Medidas realizadas periódicamente sobre alguno de
los testbeds
Integración semántica de información de distintos repositorios de medidas de red 14
15. Repositorios de
medidas de red
• Etomic
– Múltiples
tablas SQL
– Algunas
medidas
requieren
varias
tablas
Integración semántica de información de distintos repositorios de medidas de red 15
16. Integración de información
• ¿Para qué puede ser interesante llevar a
cabo la integración de distintos
repositorios?
– Seleccionar nodos de varios testbeds que
cumplan ciertos criterios
– Tomografía de red
• Combinar rutas, con retardos y throughput
– Medidas en distintos testbeds combinados
• Algunos usan Etomic, otros TopHat, otros Zabbix…
Integración semántica de información de distintos repositorios de medidas de red 16
17. Integración de información
• Caso de uso: red de distribución de vídeo a nodos
móviles (Planet-lab + NITOS)
– ¿Calidad extremo a extremo?
– ¿Qué afecta más a la calidad?
Integración semántica de información de distintos repositorios de medidas de red 17
18. Integración de información:
Alternativas
• SQL
– Es necesario definir una vista común para las distintas
bases de datos
– Problemas para distribuir una consulta en los distintos
“sabores” de SQL
• SQLite, PostgreSQL, MySQL, SQLServer…
• XML
– Se queda en el aspecto sintáctico
– XMLSchema permite restringir tipos de datos, pero aquí
se trata más bien de especializar.
• Ontologías
– Trabaja el aspecto semántico
• ¿Qué significa cada concepto y cómo se relaciona con los
demás?
– Optamos por esta alternativa
Integración semántica de información de distintos repositorios de medidas de red 18
19. Ontologías
• Especificación explícita y formal de una
conceptualización compartida
– Explícita: compuesta de conceptos, propiedades,
relaciones, funciones, axiomas y restricciones
– Formal: puede ser interpretada por máquinas
– Conceptualización: modelo abstracto del dominio a
representar
– Compartida: acordada por grupos de expertos
• Aplicaciones
– Inicialmente en inteligencia artificial y sistemas expertos
– Posteriormente en agentes inteligentes y web semántica
– Actualmente en cualquier aplicación que requiera
establecer un modelo de información
Integración semántica de información de distintos repositorios de medidas de red 19
20. Ontologías
• Ventajas
– La información se procesa a un nivel semántico:
• Es más fácil alinear y fusionar la información
• Definir reglas de correspondencia
– Se puede aprovechar definiciones ya realizadas de
conceptos generales
• W3C Time, Units, FOAF, etc.
– Se pueden aprovechar desarrollos realizados en el
ámbito de la web semántica.
• Edición de ontologías
• Bibliotecas de manipulación
• Servidores de consulta
– Existe un lenguaje de consulta: SPARQL
Integración semántica de información de distintos repositorios de medidas de red 20
21. Solución: Integración
semántica de repositorios
• Tres pasos
1. Acordar una ontología común de medidas de red
2. Definir reglas de correspondencia entre el esquema
de cada repositorio y la ontología.
3. Definir mecanismos para distribuir una consulta
semántica, basada en la ontología común, entre
todos los repositorios.
• Metodología ya previamente aplicada en
ámbitos relacionados
Integración semántica de información de distintos repositorios de medidas de red 21
22. Paso 1: Ontología de medidas
de red
• Estructurar la información en varias
ontologías: Conceptos
– Conceptos generales generales
• Protocolos, localizaciones, marcas de tiempo
– Unidades
• Permiten indicar la unidad de la medida
Unidades
– Metadatos
• Contiene información acerca de qué, cuándo,
dónde y cómo se ha medido
– Datos
• Contiene las medidas en sí mismas.
Metadatos Datos
• Estructura para facilitar la
correspondencia con los repositorios
• Estas ontologías están en proceso de
estandarización en ETSI
Integración semántica de información de distintos repositorios de medidas de red 22
23. Ontología de unidades
• Partiendo de la ontología de unidades de la
NASA, pero particularizándola para medidas de
red
– Añadidas unidades tales como bit, byte y unidades
derivadas como bit/s
– Prefijos del sistema métrico y también binario (Mega
y Mebi)
– También unidades relativas a direcciones (IPv4,
IPv6, MAC…)
– Funciones de transformación entre valores
numéricos y no numéricos
• IPv4 como entero de 32 bits o en formato “dotted”
Integración semántica de información de distintos repositorios de medidas de red 23
24. Ontología de metadatos
• Se ha basado en la estructura que se definió
en DatCat (CAIDA)
• Una clase (DataMetadata) relaciona los
metadatos con las medidas
Integración semántica de información de distintos repositorios de medidas de red 24
25. Ontología de datos
• Se partió inicialmente de estructuras XML
definidas para intercambiar información
– Perfsonar, estandarizado luego en el grupo
OGF-NMWG
– Añadiendo la información presente en los
repositorios de medidas
Integración semántica de información de distintos repositorios de medidas de red 25
26. Ontología de datos
• Estructura principal
Integración semántica de información de distintos repositorios de medidas de red 26
27. Ontología de datos
• La estructura permite reglas de correspondencia más
flexibles
– Habitualmente una tabla contendrá medidas (Measurement)
– Una columna contendrá datos de una medida (MeasurementData)
– Para unir conceptos de alto nivel con medidas concretas se utiliza
Metric (por ejemplo, un ping permite medir RTT)
• Medidas bien conocidas como el traceroute se describen
como subclases de Measurement
– No se añaden más propiedades, sino que se indica qué tipo de
MeasurementData puede tener un traceroute
Integración semántica de información de distintos repositorios de medidas de red 27
28. Estandarización
• Las ontologías utilizadas en Openlab están
siendo estandarizadas en ETSI
– ETSI dispone de grupos de especificación industrial
(ISG), que permiten llevar a cabo un trabajo previo
– En nuestro caso, estamos trabajando en el ISG MOI:
Measurement Ontology for IP traffic
• ¿Por qué estandarizar?
– No existía hasta la fecha un estándar para compartir
medidas de red entre distintas entidades.
• No obstante, sí que hay algunos estándares para obtener
medidas (RMON) y establecer formatos (IPFIX).
– Las ontologías deben ser compartidas para ser
realmente útiles y reutilizables
Integración semántica de información de distintos repositorios de medidas de red 28
29. Paso 2: Definir reglas de
correspondencia
• Entre los conceptos de la ontología y los
repositorios de medidas
• Aproximación simplista:
– Cada tabla (o subconjunto) es una Measurement
– Cada columna es una MeasurementData
– Hay que establecer qué métricas tiene cada medida
• ¡Ojalá fuera tan fácil!
– Es necesario estudiar el esquema completo de la
base de datos y resolver manualmente la
correspondencia
– Algunas reglas requieren expresiones SQL (joins,
subselects, etc.)
Integración semántica de información de distintos repositorios de medidas de red 29
30. Correspondencia con la
ontología de datos
• Measurement
• MeasurementData Measurement
– Es un contenedor de los valores de las medidas, no
los valores directamente
• Facetas de MeasurementData MeasurementData
– Tipo de datos
– Unidad por defecto Faceta de
MeasurementData
– Índice
– …
Integración semántica de información de distintos repositorios de medidas de red 30
31. Correspondencia con la
ontología de datos
Integración semántica de información de distintos repositorios de medidas de red 31
32. Correspondencia con la
ontología de datos
MD:Measurement
Integración semántica de información de distintos repositorios de medidas de red 32
33. Correspondencia con la
ontología de datos
MGC:Protocol
MD:Time
MD:AverageIncomingTransferRateMeasurement
MD:AverageOutgoingTransferRateMeasurement
Integración semántica de información de distintos repositorios de medidas de red 33
34. Correspondencia con la
ontología de datos
MD:hasMeasurementData
Integración semántica de información de distintos repositorios de medidas de red 34
35. Correspondencia con la
ontología de datos
MD:defaultUnit
MD:dataType
MD:isMeasuredIn
Integración semántica de información de distintos repositorios de medidas de red 35
36. Correspondencia con la
ontología de datos
• Cada entrada en el repositorio se corresponde con
un ejemplar de la clase Measurement
• Para cada valor de la medida habrá que:
– Crear un ejemplar de MeasurementData
– Añadir la medida a la propiedad “valor”
– Completar información de la medida con facetas
– Enlazar este ejemplar con Measurement
(hasMeasurementData)
Integración semántica de información de distintos repositorios de medidas de red 36
37. Bases de datos y ontologías
• Hay desarrollos que permiten ver una base de
datos como una ontología
• En nuestro caso hemos aprovechado
D2RServer
– Recibe consultas en SPARQL y las traduce a SQL
– Genera reglas de correspondencia por defecto a
partir del esquema de una base de datos
– Hay que modificar estas reglas para cada
repositorio, de forma que se emplee el vocabulario
de la ontología
– Con este mecanismo “sólo” hay que definir
correspondencia con la ontología (y no n2)
Integración semántica de información de distintos repositorios de medidas de red 37
38. Paso 3: Distribución de la
consulta
SPARQL Ontología
MOI
Int.
sem.
SPARQL Correspon-
dencia
D2RServer D2RServer D2RServer D2RServer
SQL
ETOMIC TopHat nmVO Iperf-OML
UPNA UPMC ELTE
Integración semántica de información de distintos repositorios de medidas de red 38
39. Distribución de la consulta
• SPARQL es el lenguaje de consultas de la
web semántica para RDF y OWL
– Se consultan triplas RDF (sujeto, predicado,
objeto)
• Para distribuir la consulta
– Cada repositorio debe proporcionar una interfaz
SPARQL, utilizando por ejemplo D2RServer
– El esquema de cada base de datos debe tener
preestablecidas las reglas de correspondencia
con la ontología
Integración semántica de información de distintos repositorios de medidas de red 39
40. Consultas de repositorios
independientes
• Una consulta SPARQL se basa en el operador AND,
por lo que hay que satisfacer todas las triplas
• En Openlab, la información está distribuida en los
repositorios
– No es factible fusionarlos, dada la magnitud de su tamaño
• Es necesario consultar cada fuente de datos
únicamente respecto de la información que maneja
– La interfaz se encarga de ver, a partir de las reglas de
correspondencia, qué información puede consultar a cada
repositorio
– Posteriormente, a partir de las respuestas, la interfaz
agrupa esa información y realiza la consulta completa
Integración semántica de información de distintos repositorios de medidas de red 40
41. Ejemplo de consulta SPARQL
Se definen los
PREFIX MD: <http://www.etsi.org/moi/Data.owl#> espacios de
nombres
SELECT * { Se toman todas las variables
?a MD:SourceIPValue ?value_for_a Se buscan triplas que
FILTER(?value_for_a = "1.2.3.4"^^xsd:string ) esta condición:
cumplan
Medidas con una IP de
} LIMIT 25 origen
Se filtran sólo las
Se limitan las respuestas que tengan
respuestas a 25 cierto valor
Integración semántica de información de distintos repositorios de medidas de red 41
43. Conclusiones
• El sistema desarrollado permite alcanzar el
objetivo planteado
• El uso de ontologías permite integrar de
manera flexible distintos modelos de datos
• Se han aprovechado resultados de
investigaciones previas
• Costes
– Es necesario establecer las reglas de
correspondencia
– Las consultas deben realizarse en SPARQL y no en
SQL
Integración semántica de información de distintos repositorios de medidas de red 43
44. Lecciones aprendidas
• Investigación
– Las ontologías han probado ser una herramienta útil
(una vez más) para el manejo de información
– No obstante, dentro de un ámbito similar, siempre
surgen problemas nuevos
– En los proyectos de la UE existen múltiples
intereses, y es complicado aunarlos
– En el Openlab he llevado la parte administrativa en
la UAM, lo cual permite ver otros aspectos
relacionados con la gestión
– Tras más de 10 años en este ámbito, surgen nuevos
retos en otros temas
• Spin-off Naudit: dedicada al análisis de redes
Integración semántica de información de distintos repositorios de medidas de red 44
45. Lecciones aprendidas
• Estandarización
– Es complicado llegar a definir un estándar
• Distintos intereses
• Falta de financiación
• Explotar los resultados del estándar
• Mismos intereses, pero distintos ámbitos (UE, EEUU…)
– No obstante, es importante intentarlo
• Tratar de fijar resultados
• Permitir reutilizar el conocimiento
• Valoración positiva en los proyectos
Integración semántica de información de distintos repositorios de medidas de red 45
46. Referencias
• Openlab
– http://www.ict-openlab.eu/
• ETSI MOI ISG
– http://portal.etsi.org/portal/server.pt/community/MOI
• HPCN-UAM
– http://www.hpcn.es/
– http://www.eps.uam.es/~jlopezv/
Integración semántica de información de distintos repositorios de medidas de red 46
47. Integración semántica de
información de distintos
repositorios de medidas de red
Jorge E. López de Vergara
jorge.lopez_vergara@uam.es