SlideShare uma empresa Scribd logo
1 de 6
Baixar para ler offline
Modelado de amenazas en el contexto de la 
indexación de páginas y propuesta de inclusión en 
el ENS 
Chema Alonso Cebrián 
ESCET 
Universidad Rey Juan Carlos 
Email: chema@informatica64.com 
Antonio Guzmán Sacristán 
DATCCCIA 
Universidad Rey Juan Carlos 
Email: antonio.guzman@urjc.es 
Gonzalo Álvarez Marañón 
Instituto de Física Aplicada 
Consejo Superior de Investigaciones Científicas 
Email: gonzalo@iec.csic.es 
Enrique Rando González 
Departamento de Informática 
Delegación de empleo de la Junta de Andalucía 
Email: enrique.rando@juntadeandalucia.es 
Resumen—Este trabajo analiza las amenazas derivadas de las 
malas prácticas en la gestión de técnicas SEO para indexación 
de páginas web, así como las vulnerabilidades y ataques que se 
pueden derivar de ellas. A partir de este análisis se ha propuesto 
un conjunto de cinco normas que deben resultar básicas para 
el desarrollo seguro de la gestión de indexación. Además, se ha 
propuesto la adaptación de estas normas al Esquema Nacional 
de Seguridad. 
I. INTRODUCCIÓN 
La correcta indexación de un sitio web por los motores de 
búsqueda reviste una importancia capital para contar con una 
presencia sólida en Internet. Con el fin de mejorar el posi-cionamiento 
de un sitio web en la página de resultados de un 
buscador se utilizan las denominadas técnicas de optimización 
para motores de búsqueda (Search Engine Optimization, SEO). 
Entre la gran variedad de técnicas SEO, se incluyen la correcta 
configuración de los archivos robots.txt [1] y sitemap.xml [2] 
para indicar a los buscadores qué indexar y qué no dentro 
de un sitio web. La incorrecta configuración de estos archivos 
puede acarrear consecuencias negativas desde el punto de vista 
de la seguridad y del rendimiento de un sitio web. 
El viernes 29 de enero de 2010 se publicó en el BOE el 
Real Decreto 3/2010, de 8 de enero, por el que se regula el 
Esquema Nacional de Seguridad (ESN) en el ámbito de la 
Administración Electrónica [3]. El ESN nace con el objetivo 
de crear las condiciones necesarias de confianza en el uso de 
los medios electrónicos en las relaciones de los ciudadanos 
con las Administraciones públicas. Se limita a establecer los 
principios básicos y requisitos mínimos que permiten una 
protección adecuada de la información y los servicios, en 
respuesta al Art. 42.2 de la Ley 11/2007, de 22 de junio, de 
acceso electrónico de los ciudadanos a los servicios públicos 
[4]. Con ello, se logra un común denominador normativo, 
constituido por los principios básicos y requisitos mínimos 
para una protección adecuada de la información [5]. 
En el extenso Anexo II, el ENS proporciona medidas de 
seguridad concretas estructuradas en tres grandes grupos (or-ganizativas, 
operacionales, de protección), los cuales pueden 
estar a su vez divididos en más subgrupos. Aunque existe una 
categoría destinada a la protección de servicios y aplicaciones 
web, no se tratan específicamente los posibles problemas de 
seguridad derivados de una deficiente configuración de los 
archivos robots.txt y sitemaps. 
El objetivo de este trabajo es exponer estos problemas y pro-poner 
unas guías de buenas prácticas de cara a combatirlos, las 
cuales podrían añadirse o complementar las recomendaciones 
del ENS. 
El trabajo está estructurado de la siguiente forma: en la 
Sec. II se realiza un modelado de amenazas sobre los riesgos 
derivados de la incorrecta indexación de páginas web; en 
la Sec. III se ofrecen una serie de recomendaciones para 
protegerse frente a los riesgos identificados; en la Sec. IV se 
adaptan estas recomendaciones al formato del ENS; la Sec. V 
concluye el trabajo. 
II. MODELADO DE AMENAZAS EN EL CONTEXTO DE LA 
INDEXACIÓN DE PÁGINAS 
El modelado de amenazas ayuda a identificar amenazas, 
ataques, vulnerabilidades y contramedidas con el fin de mejo-rar 
la gestión de la seguridad de los sistemas de información. 
En las siguientes secciones se explican cuáles son las ame-nazas, 
vulnerabilidades y ataques a los que está expuesto un 
sitio web con una incorrecta configuración de los archivos 
robots.txt y sitemap.xml. 
II-A. Amenazas derivadas de malas prácticas en la gestión 
de indexación 
Se entiende por amenaza el potencial de que un incidente, 
deliberado o no, comprometa los objetivos de seguridad de 
la organización [6]. Entre los objetivos de toda organización 
suelen figurar el salvaguardar la privacidad de la información 
sensible, así como asegurar un servicio rápido y de calidad.
En las siguientes secciones se describe cómo estos objetivos 
pueden verse amenazados. 
II-A1. Revelación de información sensible sobre la organi-zación: 
Toda organización posee información sensible: datos 
de personas físicas y jurídicas, ya sean empleados, clientes 
o proveedores; datos de sistemas y servicios, como archivos 
de configuración, registros de actividad y código fuente; etc. 
Esta información sensible puede revelarse de varias maneras 
indeseadas y a veces insospechadas. 
II-A1a. Metadatos en documentos públicos: La mayoría 
de software utilizado cotidianamente para generar documentos 
digitales de todo tipo realiza la adición automática de datos 
sobre los datos creados (metadatos), los cuales se adjuntan 
de forma más o menos visible a los propios documentos. 
Estos metadatos pueden revelar información como nombres 
de personas, organizaciones, fechas de creación, histórico de 
alteraciones en el documento, rutas de acceso de archivos, 
dispositivos utilizados en su creación, coordenadas GPS, y un 
sinfín de datos adicionales. 
II-A1b. Errores de sistemas: Todo software está sujeto 
a errores o condiciones excepcionales que pueden provocar 
el funcionamiento anormal de una aplicación. Cuando estas 
excepciones no se gestionan adecuadamente, pueden revelar 
información sobre el sistema: código fuente, rutas de acceso 
de archivos, tipo de servidores, versión de software instalado, 
nombres de usuario, cadenas de conexión a bases de datos, 
consultas SQL que revelan a su vez estructuras internas de 
tablas, etc. 
II-A1c. Rutas de acceso: Aunque los archivos robots.txt 
y sitemap.xml están destinados a los robots de búsqueda, son 
públicos y cualquiera puede descargarlos. Pueden contener 
información sobre rutas de acceso, las cuales a su vez rev-elan 
qué tipo de software existe instalado y qué contenidos 
sensibles se desean ocultar. 
II-A1d. Contenido de ficheros de configuración: El 
funcionamiento de algunos servidores se configura mediante 
archivos de texto, los cuales pueden contener información 
sensible como nombres de usuario y contraseñas, cadenas de 
conexión a bases de datos, rutas de acceso de archivos, etc. 
II-A1e. Contenido de ficheros de registro de actividad: 
Registrar en archivos de texto la actividad de un servidor 
permite estudiar de qué manera es usado y también reconstruir 
incidencias. Estos registros o logs pueden contener informa-ción 
sensible de los visitantes, como por ejemplo los datos 
introducidos en formularios. 
II-A2. Deterioro del rendimiento: Un objetivo fundamen-tal 
de todo servicio web es asegurar un buen rendimiento, 
percibido por los usuarios como la cantidad de tiempo nece-saria 
para cargar la página solicitada. Los motores de búsqueda 
legítimos por lo general obedecen el protocolo de exclusión 
de robots que indica qué porciones del sitio web deben 
agregarse a los resultados de búsqueda. Archivos robots.txt y 
sitemap.xml mal configurados pueden originar una sobrecarga 
de peticiones por parte de estos robots, causando una pérdida 
de rendimiento. 
II-A3. Deterioro de la calidad de servicio: A medida que 
se incrementa la complejidad de un sitio web y crece su 
número de páginas, resulta más difícil navegar por ellas y 
encontrar la información deseada. Un sitio web que carezca 
de una buena gestión de SEO perderá visibilidad, ya que 
no aparecerá entre los 10 primeros puestos en las páginas 
de resultados de los buscadores, y también calidad, porque 
aunque aparezca listado, no aparecerán en primer lugar las 
páginas más relevantes dentro del propio sitio. 
II-A4. Secuestro de resultados de búsqueda: Para asegurar 
la visibilidad en Internet, es muy importante que la búsqueda 
de palabras relevantes para el servicio prestado por una orga-nización 
conduzca al sitio web de esta organización. Existen 
técnicas conocidas como Black Hat SEO [7] que pueden 
alterar artificialmente estos resultados. 
II-B. Vulnerabilidades en la gestión de indexación: Mala 
configuración de robots.txt y sitemap.xml 
Se entiende por vulnerabilidad toda debilidad en un sistema 
que podría permitir o facilitar la materialización de una 
amenaza contra un activo [6]. La forma de disminuir el riesgo 
a que se ven expuestos los activos de la organización pasa 
por mitigar o eliminar las vulnerabilidades. En las siguientes 
secciones se describen cuáles son las vulnerabilidades más 
importantes en la gestión de una política de SEO asociadas a 
los archivos robots.txt y sitemap.xml. 
II-B1. Inexistencia de archivos: Los robots de búsqueda 
indexarán absolutamente todo el contenido al que se tenga 
acceso públicamente navegando desde la página principal. 
II-B2. Archivos excesivamente explícitos: Algunos sitios 
web se sirven del archivo robots.txt para especificar los 
directorios o archivos con información sensible para evitar 
que sean indexados por los robots de búsqueda. Este archivo 
puede por tanto llegar a contener información sobre directorios 
y archivos confidenciales. 
II-B3. Archivos con errores: Un archivo robots.txt mal 
configurado puede suponer una sobrecarga para el servidor 
al obligar a los motores de búsqueda a realizar peticiones 
innecesarias y entrar en bucles. 
II-B4. Archivos robots.txt y sitemap.xml mal configurados: 
Como parte de una estrategia de SEO global, deben configu-rarse 
adecuadamente estos archivos para garantizar una buena 
visibilidad en la página de resultados y una buena calidad en 
los enlaces mostrados en primer lugar. 
II-B5. Archivos muy permisivos: Permiten que Google in-dexe 
todo tipo de páginas de configuración, manuales, ayudas 
y mensajes de error, los cuales son expuestos a través de 
búsquedas conocidas como “google dorks” [8]. 
II-C. Ataques 
Se entiende por ataque todo intento, exitoso o no, de atentar 
contra el buen funcionamiento del sistema con el consiguiente 
incumplimiento de los objetivos de la organización [6]. En las 
siguientes secciones se describen sin ánimo de exhaustividad 
algunos de los ataques más populares dirigidos contra sitios 
web con una pobre gestión de SEO, capaces de materializar 
las amenazas descritas en la Sec. II-A.
User-agent: * 
Disallow: /administrator/ 
Disallow: /cache/ 
Disallow: /components/ 
Disallow: /editor/ 
Disallow: /includes/ 
Disallow: /mambots/ 
Disallow: /modules/ 
Disallow: /templates/ 
Disallow: /installation/ 
Figura 1. Ejemplo de archivo robots.txt con exceso de información. 
User-Agent: * 
Disallow: /etc 
Disallow: /bin 
Disallow: /tmp 
Disallow: /log 
Allow: / 
Figura 2. Ejemplo de archivo robots.txt con exceso de información. 
II-C1. Rutas de acceso: El archivo robots.txt de la Fig. 1 
contiene un exceso de información al revelar la zona de 
administración y el tipo de software usado, ya que la carpeta 
mambots, sumada al resto de carpetas, ofrece el panorama 
típico de Mambo [9]. Permitió descubrir el software y la ruta 
de administración para el ataque posterior. 
En la Fig. 2 se ofrece otro ejemplo de archivo robots.txt 
que revela directorios del servidor. 
II-C2. Metadatos: Debido a la mala manipulación de los 
archivos y a la indexación de Google es posible encontrar 
usuarios con sencillas búsquedas como la siguiente: 
http://www.google.com/#hl=es&q= 
intitle:"Documents and Settings"site:es 
ministerio &lr=&aq=f&oq= 
intitle:"Documents and Settings"site:es 
ministerio 
Posteriormente, utilizando herramientas como FOCA [10], 
puede extraerse información adicional sobre los usuarios y la 
organización a partir de los documentos encontrados. 
II-C3. Ficheros de configuración: El archivo robots.txt 
de la Fig. 3 contiene numerosas líneas como la mostrada, 
en la que se revelan los nombres y rutas de archivos de 
configuración. En este caso, los archivos ocultados a los 
buscadores contienen las respuestas al juego propuesto por 
el sitio web. 
II-C4. Revelación interna de datos: En teoría, un buscador 
sólo indexa documentos accesibles mediante un hiperenlace 
a partir del nombre de dominio en el DNS. Si existe un 
fichero sitemap.xml, sigue también todos los hiperenlaces en 
él dados de alta. Si el documento A no está enlazada desde 
Disallow: /educational_games/medicine/ 
dna_double_helix/xmldata.xml 
Figura 3. Fragmento de archivo robots.txt. 
ningún otro del sitio web, no será indexado por los buscadores. 
No obstante, si no existe un fichero robots.txt que prohíba 
la indexación de la ubicación del documento A, un atacante 
interno podría desvelar este fichero realizando una petición 
expresa de indexación al buscador con la ubicación exacta del 
documento A. 
III. BUENAS PRÁCTICAS EN LA GESTIÓN DE INDEXACIÓN 
El siguiente apartado recoge algunas de las buenas prácticas 
que deben ser aplicadas a la hora de exponer un sitio web a 
las arañas de los buscadores de Internet, con el fin de que la 
información que los buscadores obtengan de la organización 
sea única y exclusivamente aquella que la organización desea, 
y que su obtención sea efectiva. 
III-A. Por omisión: disallow:* para todos los robots 
La presencia o no de un sitio web en los buscadores de 
Internet debe ser una decisión de la organización a tomar en 
consideración con madurez. ¿Tiene sentido que estén indexa-dos 
los datos de una aplicación que utilizan sólo los empleados 
internos de una organización? ¿Tiene sentido que se indexen 
ficheros y datos privados de aplicaciones en la Intranet? En 
el caso que desee la organización tener presencia en los 
buscadores, ¿cómo quiere aparecer en ellos? Éstas y muchas 
preguntas deben ser contestadas con anterioridad a poner un 
sitio a disposición de las arañas de los buscadores. Si el sitio 
ha sido puesto en producción sin haber realizado la reflexión 
necesaria para conocer la presencia que se desea tener en 
ellos, debe configurarse un fichero robots.txt que bloquee la 
indexación de todos los contenidos de la organización. 
Debido al gran número de arañas de buscadores, es nece-sario 
realizar este bloque para todos los agentes: 
User-agent: * 
Disallow: / 
Este fichero indica a las arañas que no se desea ser in-dexado 
y no volverán a intentar indexar el sitio hasta que, 
manualmente, se pida su indexación. Si no se realiza esta 
configuración antes de poner el sitio en producción, los datos 
de la organización pueden estar copiados durante una cantidad 
incierta de tiempo en una gran cantidad de buscadores y será 
necesario realizar un borrado manual en todos ellos. 
III-B. Auto-catalogación Sí/No 
El siguiente paso consiste en realizar la clasificación que 
clarifique qué contenido debe o no ser indexado por los bus-cadores. 
Hay que tener en cuenta que debe ser indexado aquel 
contenido que sea estrictamente de índole público. En adelante 
se entiende por ruta pública la ubicación con contenidos que se 
desean indexar y por ruta privada la ubicación con contenidos 
que no se desea que sean copiados a los buscadores. 
Para realizar esta catalogación de una forma correcta se 
recomiendan las siguientes pautas: 
Evitar rutas con contenido mixto (público/privado), ya 
que provocaría o fugas de información o mala presencia 
en Internet a la hora de decidir si una ruta es pública o 
privada.
User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /images/ 
Disallow: /aplicaciones/ 
Figura 4. Ejemplo de un robots.txt para un sitio web. 
Evitar contenido no enlazado en rutas públicas, pues 
alguien que lo descubra o conozca podrá solicitar su 
indexación manualmente. 
Evitar rutas privadas conocidas, ya que ubicaciones 
privadas del tipo /etc o /home pueden identificar la 
existencia de archivos conocidos, sensibles a la seguridad 
de la información. 
Evitar rutas privadas explícitas: Una catalogación como 
privada de una ruta como /administrator o /admin puede 
ayudar a un atacante a descubrir la existencia de un 
fichero login.hml o login.jsp dentro de esas ubicaciones, 
debido a lo común de estas arquitecturas en aplicaciones 
web. 
Evitar configuraciones privadas automáticas: ciertas apli-caciones 
web, como gestores documentales o gestores de 
contenido, utilizan ficheros robots.txt estándar que son 
fácilmente reconocidos. 
Evitar el uso de rutas privadas a fichero: El pedir la no 
indexación de un fichero mediante el fichero robots.txt 
es hacer pública su ubicación, lo que es igual o más 
peligroso. Para restringir la indexación de una página 
única en rutas mixtas existen soluciones tecnológicas 
creadas para ello como es la meta etiqueta robots: 
<meta name=“robots” content=“noindex”> 
Aplicar la misma configuración para todas las arañas de 
todos los buscadores de Internet. 
Proteger las rutas privadas con listas de control de acceso 
si es posible para evitar cualquier indexación por parte 
de los buscadores. 
III-C. Optimización rendimiento y SEO con sitemap.xml 
Para optimizar tanto el consumo de recursos que realizan 
los robots dentro del sitio como la forma en la que un sitio 
aparece en ellos se recomienda hacer un correcto uso del 
archivo sitemap.xml. 
Este fichero, aunque es una modificación al estándar original 
del formato de robots.txt, es de aplicación extendida e indica 
a los robots de los buscadores tanto la importancia de los 
ficheros públicos, como su frecuencia de actualización. En 
sitios en los que se está indexando información estática con 
pocos cambios se puede configurar un largo periodo de actu-alización 
haciendo que el robot no intente indexar nuevamente 
los elementos. Además, en sitemap.xml se marca también la 
fecha de la última actualización y si ésta es anterior a la fecha 
de indexación que tiene el buscador, no se volverán a realizar 
todas las peticiones de documentos. 
Usar un sitemap.xml correctamente ayuda a: 
1. Mejorar el rendimiento aligerando la carga de los bots 
en el servidor web. 
2. Mejorar la presencia del sitio en Internet eligiendo cómo 
los usuarios deben encontrar y entrar en el sitio. 
3. Evitar los ataques de hijacking-SEO [7]. 
III-D. Auditoría 
Una vez terminado de catalogarse correctamente el con-tenido 
entre público y privado, y tras optimizarse con 
sitemap.xml la carga de los robots y la relevancia del con-tenido, 
se podría plantearse añadir el sitio a los buscadores 
mediante la sustitución del archivo robots.txt inicial, que 
bloqueaba la indexación, por el nuevo archivo generado. Sin 
embargo, este proceso no debe realizarse hasta que el sitio web 
haya recibido una auditoría de seguridad, con el fin de que 
no se indexen posibles páginas de error como consecuencia 
de vulnerabilidades de Inyección de SQL o de Cross-Site 
Scripting (XSS). 
Además de la auditoría de seguridad, es altamente re-comendable 
realizar un análisis tanto del fichero robots.txt 
como de sitemap.xml para comprobar que su funcionamiento 
va a ser el esperado. 
Una vez que se haya validado tanto la seguridad del sitio 
como el formato y la estructura de robots.txt y sitemap.xml, 
podrá ponerse en producción. 
III-E. Auditoría constante 
Debido a la estructura viva de muchos sitios web de Internet, 
es necesario incluir dentro de los procedimientos de auditoría 
la revisión de la presencia del sitio en Internet, mediante la 
reevaluación de robots.txt y sitemap.xml, como mediante la 
presencia de posibles fugas de datos en buscadores de Internet 
para, en caso de haberse producido, solicitar el borrado de la 
URL de los índices de los buscadores. 
IV. RECOMENDACIONES PARA ENS 
Es preciso determinar la forma en que un sistema establece 
un equilibrio entre la importancia de la información que 
maneja, los servicios que presta y el esfuerzo de seguridad 
requerido. Esto supone categorizar el sistema basándose en 
la valoración del impacto que tendría sobre la organización 
un incidente que afectara a la seguridad de la información 
o de los sistemas con repercusión en las funciones de dicha 
organización. 
Para poder mesurar el impacto de un incidente en la 
ENS se proponen dimensiones de seguridad sobre las que 
posteriormente se podrán definir métricas de seguridad. Las 
dimensiones propuestas son: 
a) Disponibilidad (D) 
b) Autenticidad (A) 
c) Integridad (I) 
d) Confidencialidad (C) 
e) Trazabilidad (T) 
Cada uno de estos aspectos podrá evaluarse con tres posibles 
valores: BAJO, MEDIO y ALTO, según las definiciones del 
ENS [3]. 
Cuando un sistema maneja diferentes informaciones y presta 
diferentes servicios, el nivel del sistema en cada dimensión
será el mayor de los establecidos. De esta forma es posible 
categorizar un sistema de información en tres categorías: 
BASICA, MEDIA y ALTA en función de que alguna de 
sus dimensiones esté evaluada en BAJO, MEDIO y ALTO, 
respectivamente. 
Una vez que se han definido las dimensiones de seguridad 
relevantes y la categoría del sistema a proteger, es posible 
elegir qué medidas de seguridad deben implementarse. La se-lección 
de las medidas de seguridad implicará la identificación 
de los tipos de activos presentes y la determinación de las 
dimensiones relevantes así como de su nivel correspondiente. 
Estas medidas pueden clasificarse en tres marcos diferencia-dos: 
el marco organizativo, el marco operacional y el marco de 
protección. Este último se centra en la protección de activos 
concretos, según su naturaleza y la calidad de servicio exigida. 
En el Esquema Nacional de Seguridad, a través del anexo II, 
se propone un sistema tabulado para incluir todos los aspectos 
que pueden ser estimados como medidas de seguridad. Según 
se ha visto en las secciones anteriores, surge la necesidad 
de ampliar la propuesta de medidas de seguridad dentro del 
marco de protección con un bloque centrado en la protección 
de las técnicas SEO, en línea con el artículo 42 del ENS, en 
el que se indica que el esquema se debe mantener actualizado 
de manera permanente. Se desarrollará y perfeccionará a lo 
largo del tiempo, en paralelo al progreso de los servicios 
de Administración electrónica, de la evolución tecnológica y 
nuevos estándares internacionales de seguridad y auditoría. 
En la tabla IV se utilizan las siguientes convenciones: 
a) Para indicar que una determinada medida de seguridad 
se debe aplicar a una o varias dimensiones de seguridad 
en algún nivel determinado se utiliza “aplica”. 
b) « n.a. » significa “no aplica”. 
c) Para indicar que las exigencias de un nivel son iguales 
a las de un nivel anterior se utiliza el signo « = ». 
d) Para indicar el incremento de exigencias graduado en 
función del nivel de la dimensión de seguridad, se 
utilizan los signos « + » y « ++ ». 
e) Para indicar que una medida protege específicamente 
una cierta dimensión de seguridad, ésta se explicita 
mediante su inicial. 
IV-A. Valor por omisión de disallow para todos los robots 
Debido al gran número de arañas de buscadores, es nece-sario 
realizar este bloque para todos los agentes: 
User-agent: * 
Disallow: / 
Este fichero indica a las arañas que no se desea ser in-dexado 
y no volverán a intentar indexar el sitio hasta que, 
manualmente, se pida su indexación. Si no se realiza esta 
configuración antes de poner el sitio en producción, los datos 
de la organización pueden estar copiados durante una cantidad 
incierta de tiempo en una gran cantidad de buscadores y será 
necesario realizar un borrado manual en todos ellos. 
IV-B. Autocatalogación: SI/NO 
Los sistemas deben decidir qué contenidos son privados y 
cuales son públicos. A partir de esta clasificación es preciso 
determinar si las diferentes ubicaciones del servidor correspon-den 
a una ruta pública o a una ruta privada. 
IV-C. Optimización rendimiento y SEO con sitemap.xml 
Para asegurar un rendimiento óptimo del consumo de re-cursos 
por parte de los robots en un sitio se recomienda 
una configuración adecuada del archivo sitemap.xml. Como 
resultado se consigue mejorar el rendimiento del sistema, 
mejorar la calidad de servicio y evitar los ataques de hijacking 
SEO. 
IV-D. Auditoría 
Además de las auditorías a las que deberían estar sujetas 
las aplicaciones informáticas ofertadas por el sitio es preciso 
realizar un análisis exhaustivo del fichero robots.txt así como 
de los ficheros sitemap.xml para validar el comportamiento 
del sistema y la estructura de estos archivos. 
Categoría Básica 
Antes de pasar a producción se comprobará el correcto 
funcionamiento del sistema. 
a) Se comprobará que se cumplen los criterios de seguridad 
b) Se harán pruebas en un entorno aislado 
c) Las pruebas no se harán con datos reales. 
d) Se diseñará un sistema de auditoría constante que con-temple 
la naturaleza viva de muchos sitios web de 
Internet y que se traduzca en una reevaluación de las 
configuraciones de robots y sitemap.xml. Para ello se 
deben revisar: 
a) Posibles fugas de datos en buscadores de Internet. 
b) Solicitar el borrado de la URL de los índices de 
los buscadores en caso de fugas. 
Categoría Media 
Se realizarán las siguientes inspecciones previas a la entrada 
en producción: 
a) Análisis de vulnerabilidades. 
b) Pruebas de intrusión derivadas del uso del sistema de 
indexación. 
Categoría Alta 
Se debe contemplar la siguiente línea de actuaciones: 
a) Análisis de cumplimiento con la calidad de servicio. 
b) Análisis de rendimiento del sistema. 
V. CONCLUSIONES 
A partir del modelado de las amenazas asociadas a una 
incorrecta configuración de las técnicas de optimización para 
el indexado de páginas web se ha propuesto una línea de 
actuación orientada a proporcionar una gestión eficaz de dichas 
técnicas SEO. Para ello se ha propuesto un conjunto de buenas 
prácticas y se ha adecuado su redacción al Esquema Nacional 
de Seguridad. En esta redacción se ha optado por un enfoque 
más conciso de lo que es habitual en la propuesta inicial del 
ENS buscando una mejor aplicabilidad del mismo.
Dimensiones Medidas de seguridad 
Afectadas BAJO MEDIO ALTO mp Medidas de protección 
mp.seo Protección de sitios web 
C aplica = = mp.seo.1 Valor por omisión:Disallow para todos los robots 
C,D aplica = = mp.seo.2 Auto-catalogación si/no 
D n.a aplica = mp.seo.3 Optimización del rendimiento y SEO con sitemap.xml 
Categoría aplica + ++ mp.seo.4 Auditoría 
Cuadro I 
CORRESPONDENCIA ENTRE LOS NIVELES DE SEGURIDAD EXIGIDOS EN CADA DIMENSIÓN Y LAS MEDIDAS DE SEGURIDAD 
REFERENCIAS 
[1] M. Carl Drott, “Indexing aids at corporate websites: the use of robots.txt 
and META tags”, Information Processing & Management 38(2), 209– 
219, 2002. 
[2] http://www.sitemaps.org/es/ 
[3] Ministerio de la Presidencia, “Real Decreto 3/2010, de 8 de enero, por 
el que se regula el Esquema Nacional de Seguridad en el ámbito de la 
Administración Electrónica”, BOE 25(I), 8089–8138, 2010. 
[4] Jefatura del Estado, “Ley 11/2007, de 22 de junio, de acceso electrónico 
de los ciudadanos a los Servicios Públicos”, BOE 150, 27150–27166, 
2007. 
[5] Antonio Martínez, “Esquema Nacional de Seguridad: Seguridad Obliga-toria 
en las AAPP”, red seguridad 44, 74–76, 2010. 
[6] Urs E. Gattiker, The information security dictionary, Kluwer Academic 
Publishers, Boston 2004. 
[7] Ross A. Malaga, “Search Engine Optimization–Black and White Hat 
Approaches”, In: Marvin V. Zelkowitz, Editor(s), Advances in Computers: 
Improving the Web, 78, 1–39, Elsevier, 2010. 
[8] Johnny Long, Google Hacking, Syngress, 2007. 
[9] http://www.mamboserver.com 
[10] http://www.informatica64.com/foca/

Mais conteúdo relacionado

Mais procurados

Cyber security maturity model- IT/ITES
Cyber security maturity model- IT/ITES Cyber security maturity model- IT/ITES
Cyber security maturity model- IT/ITES Priyanka Aash
 
Security operations center-SOC Presentation-مرکز عملیات امنیت
Security operations center-SOC Presentation-مرکز عملیات امنیتSecurity operations center-SOC Presentation-مرکز عملیات امنیت
Security operations center-SOC Presentation-مرکز عملیات امنیتReZa AdineH
 
ISO 27004- Information Security Metrics Implementation
ISO 27004- Information Security Metrics ImplementationISO 27004- Information Security Metrics Implementation
ISO 27004- Information Security Metrics ImplementationNetwork Intelligence India
 
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021Florian Roth
 
Lessons learned from the SingHealth Data Breach COI Report
Lessons learned from the SingHealth Data Breach COI ReportLessons learned from the SingHealth Data Breach COI Report
Lessons learned from the SingHealth Data Breach COI ReportBenjamin Ang
 
The 7 Layers of Privileged Access Management
The 7 Layers of Privileged Access ManagementThe 7 Layers of Privileged Access Management
The 7 Layers of Privileged Access Managementbanerjeea
 
Threat Hunting Report
Threat Hunting Report Threat Hunting Report
Threat Hunting Report Morane Decriem
 
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0Valdez Ladd MBA, CISSP, CISA,
 
Shadow IT - What is it, why it happens and how to resolve
Shadow IT - What is it, why it happens and how to resolveShadow IT - What is it, why it happens and how to resolve
Shadow IT - What is it, why it happens and how to resolveFreshservice
 
Shadow IT Risk and Reward
Shadow IT Risk and RewardShadow IT Risk and Reward
Shadow IT Risk and RewardChris Haddad
 
SOC Architecture - Building the NextGen SOC
SOC Architecture - Building the NextGen SOCSOC Architecture - Building the NextGen SOC
SOC Architecture - Building the NextGen SOCPriyanka Aash
 
Setting up a secure development life cycle with OWASP - seba deleersnyder
Setting up a secure development life cycle with OWASP - seba deleersnyderSetting up a secure development life cycle with OWASP - seba deleersnyder
Setting up a secure development life cycle with OWASP - seba deleersnyderSebastien Deleersnyder
 
Risk Management and Security in Strategic Planning
Risk Management and Security in Strategic PlanningRisk Management and Security in Strategic Planning
Risk Management and Security in Strategic PlanningKeyaan Williams
 
Cyber Threat Intelligence.pptx
Cyber Threat Intelligence.pptxCyber Threat Intelligence.pptx
Cyber Threat Intelligence.pptxAbimbolaFisher1
 
Security operations center 5 security controls
 Security operations center 5 security controls Security operations center 5 security controls
Security operations center 5 security controlsAlienVault
 
SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...
 SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera... SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...
SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...AlienVault
 
Explain the Value of your Splunk Deployment Breakout Session
Explain the Value of your Splunk Deployment Breakout SessionExplain the Value of your Splunk Deployment Breakout Session
Explain the Value of your Splunk Deployment Breakout SessionSplunk
 
Red team vs Penetration Testing
Red team vs Penetration TestingRed team vs Penetration Testing
Red team vs Penetration Testingavioren1979
 
Modern SOC Trends 2020
Modern SOC Trends 2020Modern SOC Trends 2020
Modern SOC Trends 2020Anton Chuvakin
 

Mais procurados (20)

Cyber security maturity model- IT/ITES
Cyber security maturity model- IT/ITES Cyber security maturity model- IT/ITES
Cyber security maturity model- IT/ITES
 
Security operations center-SOC Presentation-مرکز عملیات امنیت
Security operations center-SOC Presentation-مرکز عملیات امنیتSecurity operations center-SOC Presentation-مرکز عملیات امنیت
Security operations center-SOC Presentation-مرکز عملیات امنیت
 
ISO 27004- Information Security Metrics Implementation
ISO 27004- Information Security Metrics ImplementationISO 27004- Information Security Metrics Implementation
ISO 27004- Information Security Metrics Implementation
 
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021
Sigma Hall of Fame - EU ATT&CK User Workshop, October 2021
 
Lessons learned from the SingHealth Data Breach COI Report
Lessons learned from the SingHealth Data Breach COI ReportLessons learned from the SingHealth Data Breach COI Report
Lessons learned from the SingHealth Data Breach COI Report
 
The 7 Layers of Privileged Access Management
The 7 Layers of Privileged Access ManagementThe 7 Layers of Privileged Access Management
The 7 Layers of Privileged Access Management
 
Threat Hunting Report
Threat Hunting Report Threat Hunting Report
Threat Hunting Report
 
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0
FedRAMP - Federal Agencies & Cloud Service Providers meet FISMA 2.0
 
Shadow IT - What is it, why it happens and how to resolve
Shadow IT - What is it, why it happens and how to resolveShadow IT - What is it, why it happens and how to resolve
Shadow IT - What is it, why it happens and how to resolve
 
Shadow IT Risk and Reward
Shadow IT Risk and RewardShadow IT Risk and Reward
Shadow IT Risk and Reward
 
Helping Utilities with Cybersecurity Preparedness: The C2M2
Helping Utilities with Cybersecurity Preparedness: The C2M2Helping Utilities with Cybersecurity Preparedness: The C2M2
Helping Utilities with Cybersecurity Preparedness: The C2M2
 
SOC Architecture - Building the NextGen SOC
SOC Architecture - Building the NextGen SOCSOC Architecture - Building the NextGen SOC
SOC Architecture - Building the NextGen SOC
 
Setting up a secure development life cycle with OWASP - seba deleersnyder
Setting up a secure development life cycle with OWASP - seba deleersnyderSetting up a secure development life cycle with OWASP - seba deleersnyder
Setting up a secure development life cycle with OWASP - seba deleersnyder
 
Risk Management and Security in Strategic Planning
Risk Management and Security in Strategic PlanningRisk Management and Security in Strategic Planning
Risk Management and Security in Strategic Planning
 
Cyber Threat Intelligence.pptx
Cyber Threat Intelligence.pptxCyber Threat Intelligence.pptx
Cyber Threat Intelligence.pptx
 
Security operations center 5 security controls
 Security operations center 5 security controls Security operations center 5 security controls
Security operations center 5 security controls
 
SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...
 SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera... SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...
SANS Ask the Expert: An Incident Response Playbook: From Monitoring to Opera...
 
Explain the Value of your Splunk Deployment Breakout Session
Explain the Value of your Splunk Deployment Breakout SessionExplain the Value of your Splunk Deployment Breakout Session
Explain the Value of your Splunk Deployment Breakout Session
 
Red team vs Penetration Testing
Red team vs Penetration TestingRed team vs Penetration Testing
Red team vs Penetration Testing
 
Modern SOC Trends 2020
Modern SOC Trends 2020Modern SOC Trends 2020
Modern SOC Trends 2020
 

Destaque

Guía de uso de Latch en la UNIR
Guía de uso de Latch en la UNIRGuía de uso de Latch en la UNIR
Guía de uso de Latch en la UNIRChema Alonso
 
El Hardware en Apple ¿Es tan bueno?
El Hardware en Apple ¿Es tan bueno?El Hardware en Apple ¿Es tan bueno?
El Hardware en Apple ¿Es tan bueno?Chema Alonso
 
Curso Online de Especialización en Seguridad Informática para la Ciberdefensa
Curso Online de Especialización en Seguridad Informática para la CiberdefensaCurso Online de Especialización en Seguridad Informática para la Ciberdefensa
Curso Online de Especialización en Seguridad Informática para la CiberdefensaChema Alonso
 
Auditoría de TrueCrypt: Informe final fase II
Auditoría de TrueCrypt: Informe final fase IIAuditoría de TrueCrypt: Informe final fase II
Auditoría de TrueCrypt: Informe final fase IIChema Alonso
 
Latch en Linux (Ubuntu): El cerrojo digital
Latch en Linux (Ubuntu): El cerrojo digitalLatch en Linux (Ubuntu): El cerrojo digital
Latch en Linux (Ubuntu): El cerrojo digitalChema Alonso
 
El juego es el mismo
El juego es el mismoEl juego es el mismo
El juego es el mismoChema Alonso
 
It's a Kind of Magic
It's a Kind of MagicIt's a Kind of Magic
It's a Kind of MagicChema Alonso
 
Hacking con Python
Hacking con PythonHacking con Python
Hacking con PythonChema Alonso
 
Ingenieros y hackers
Ingenieros y hackersIngenieros y hackers
Ingenieros y hackersChema Alonso
 
Pentesting con PowerShell: Libro de 0xWord
Pentesting con PowerShell: Libro de 0xWordPentesting con PowerShell: Libro de 0xWord
Pentesting con PowerShell: Libro de 0xWordChema Alonso
 
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...Chema Alonso
 
Configurar y utilizar Latch en Magento
Configurar y utilizar Latch en MagentoConfigurar y utilizar Latch en Magento
Configurar y utilizar Latch en MagentoChema Alonso
 
Dorking & Pentesting with Tacyt
Dorking & Pentesting with TacytDorking & Pentesting with Tacyt
Dorking & Pentesting with TacytChema Alonso
 
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...New Paradigms of Digital Identity: Authentication & Authorization as a Servic...
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...Chema Alonso
 
Índice Pentesting con Kali 2.0
Índice Pentesting con Kali 2.0Índice Pentesting con Kali 2.0
Índice Pentesting con Kali 2.0Chema Alonso
 
Cazando Cibercriminales con: OSINT + Cloud Computing + Big Data
Cazando Cibercriminales con: OSINT + Cloud Computing + Big DataCazando Cibercriminales con: OSINT + Cloud Computing + Big Data
Cazando Cibercriminales con: OSINT + Cloud Computing + Big DataChema Alonso
 
CyberCamp 2015: Low Hanging Fruit
CyberCamp 2015: Low Hanging FruitCyberCamp 2015: Low Hanging Fruit
CyberCamp 2015: Low Hanging FruitChema Alonso
 
Recuperar dispositivos de sonido en Windows Vista y Windows 7
Recuperar dispositivos de sonido en Windows Vista y Windows 7Recuperar dispositivos de sonido en Windows Vista y Windows 7
Recuperar dispositivos de sonido en Windows Vista y Windows 7Chema Alonso
 
CritoReto 4: Buscando una aguja en un pajar
CritoReto 4: Buscando una aguja en un pajarCritoReto 4: Buscando una aguja en un pajar
CritoReto 4: Buscando una aguja en un pajarChema Alonso
 

Destaque (20)

Guía de uso de Latch en la UNIR
Guía de uso de Latch en la UNIRGuía de uso de Latch en la UNIR
Guía de uso de Latch en la UNIR
 
El Hardware en Apple ¿Es tan bueno?
El Hardware en Apple ¿Es tan bueno?El Hardware en Apple ¿Es tan bueno?
El Hardware en Apple ¿Es tan bueno?
 
Curso Online de Especialización en Seguridad Informática para la Ciberdefensa
Curso Online de Especialización en Seguridad Informática para la CiberdefensaCurso Online de Especialización en Seguridad Informática para la Ciberdefensa
Curso Online de Especialización en Seguridad Informática para la Ciberdefensa
 
Auditoría de TrueCrypt: Informe final fase II
Auditoría de TrueCrypt: Informe final fase IIAuditoría de TrueCrypt: Informe final fase II
Auditoría de TrueCrypt: Informe final fase II
 
Latch en Linux (Ubuntu): El cerrojo digital
Latch en Linux (Ubuntu): El cerrojo digitalLatch en Linux (Ubuntu): El cerrojo digital
Latch en Linux (Ubuntu): El cerrojo digital
 
El juego es el mismo
El juego es el mismoEl juego es el mismo
El juego es el mismo
 
It's a Kind of Magic
It's a Kind of MagicIt's a Kind of Magic
It's a Kind of Magic
 
Hacking con Python
Hacking con PythonHacking con Python
Hacking con Python
 
Ingenieros y hackers
Ingenieros y hackersIngenieros y hackers
Ingenieros y hackers
 
Pentesting con PowerShell: Libro de 0xWord
Pentesting con PowerShell: Libro de 0xWordPentesting con PowerShell: Libro de 0xWord
Pentesting con PowerShell: Libro de 0xWord
 
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...
Cuarta Edición del Curso Online de Especialización en Seguridad Informática p...
 
Configurar y utilizar Latch en Magento
Configurar y utilizar Latch en MagentoConfigurar y utilizar Latch en Magento
Configurar y utilizar Latch en Magento
 
Dorking & Pentesting with Tacyt
Dorking & Pentesting with TacytDorking & Pentesting with Tacyt
Dorking & Pentesting with Tacyt
 
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...New Paradigms of Digital Identity: Authentication & Authorization as a Servic...
New Paradigms of Digital Identity: Authentication & Authorization as a Servic...
 
Índice Pentesting con Kali 2.0
Índice Pentesting con Kali 2.0Índice Pentesting con Kali 2.0
Índice Pentesting con Kali 2.0
 
Cazando Cibercriminales con: OSINT + Cloud Computing + Big Data
Cazando Cibercriminales con: OSINT + Cloud Computing + Big DataCazando Cibercriminales con: OSINT + Cloud Computing + Big Data
Cazando Cibercriminales con: OSINT + Cloud Computing + Big Data
 
Shuabang Botnet
Shuabang BotnetShuabang Botnet
Shuabang Botnet
 
CyberCamp 2015: Low Hanging Fruit
CyberCamp 2015: Low Hanging FruitCyberCamp 2015: Low Hanging Fruit
CyberCamp 2015: Low Hanging Fruit
 
Recuperar dispositivos de sonido en Windows Vista y Windows 7
Recuperar dispositivos de sonido en Windows Vista y Windows 7Recuperar dispositivos de sonido en Windows Vista y Windows 7
Recuperar dispositivos de sonido en Windows Vista y Windows 7
 
CritoReto 4: Buscando una aguja en un pajar
CritoReto 4: Buscando una aguja en un pajarCritoReto 4: Buscando una aguja en un pajar
CritoReto 4: Buscando una aguja en un pajar
 

Semelhante a Modelado de amenazas en el contexto de la indexación de páginas y propuesta de inclusión en el ENS

Intro cybersecurity additional resources and activities
Intro cybersecurity   additional resources and activitiesIntro cybersecurity   additional resources and activities
Intro cybersecurity additional resources and activitiesGuido Romo
 
Cuestionario 1.1 Base de Datos
Cuestionario 1.1 Base de DatosCuestionario 1.1 Base de Datos
Cuestionario 1.1 Base de DatosÑaka Laka Raka
 
Seguridad en la web no confíes en el usuario
Seguridad en la web   no confíes en el usuarioSeguridad en la web   no confíes en el usuario
Seguridad en la web no confíes en el usuarioCarlos Soriano
 
Trabajo de java con base de datos(yanina y yenny)
Trabajo de java con base de datos(yanina y yenny)Trabajo de java con base de datos(yanina y yenny)
Trabajo de java con base de datos(yanina y yenny)yenny isabel cuello moron
 
Fase6_100414_66_Colaborativo
Fase6_100414_66_ColaborativoFase6_100414_66_Colaborativo
Fase6_100414_66_ColaborativoWilliamBeltran007
 
“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”Yenith Eufemia Campaña Imbaquin
 
Clase+1+principios+de+la+seguridad
Clase+1+principios+de+la+seguridadClase+1+principios+de+la+seguridad
Clase+1+principios+de+la+seguridadRosaly Mendoza
 
Seguridad informática de las empresas
Seguridad informática de las empresasSeguridad informática de las empresas
Seguridad informática de las empresasJulio Manzano
 

Semelhante a Modelado de amenazas en el contexto de la indexación de páginas y propuesta de inclusión en el ENS (20)

Intro cybersecurity additional resources and activities
Intro cybersecurity   additional resources and activitiesIntro cybersecurity   additional resources and activities
Intro cybersecurity additional resources and activities
 
Cuestionario 1.1 Base de Datos
Cuestionario 1.1 Base de DatosCuestionario 1.1 Base de Datos
Cuestionario 1.1 Base de Datos
 
Seguridad en la web no confíes en el usuario
Seguridad en la web   no confíes en el usuarioSeguridad en la web   no confíes en el usuario
Seguridad en la web no confíes en el usuario
 
Trabajo de auditoria
Trabajo de auditoriaTrabajo de auditoria
Trabajo de auditoria
 
Aplicaciones Web Seguras (Anti-SQLi)
Aplicaciones Web Seguras (Anti-SQLi)Aplicaciones Web Seguras (Anti-SQLi)
Aplicaciones Web Seguras (Anti-SQLi)
 
Trabajo de java con base de datos(yanina y yenny)
Trabajo de java con base de datos(yanina y yenny)Trabajo de java con base de datos(yanina y yenny)
Trabajo de java con base de datos(yanina y yenny)
 
taller aula digital
taller aula digital taller aula digital
taller aula digital
 
Cuestionario
CuestionarioCuestionario
Cuestionario
 
Fase6_100414_66_Colaborativo
Fase6_100414_66_ColaborativoFase6_100414_66_Colaborativo
Fase6_100414_66_Colaborativo
 
Evidencias 3
Evidencias 3Evidencias 3
Evidencias 3
 
Actividad 2 crs
Actividad 2 crsActividad 2 crs
Actividad 2 crs
 
“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”
 
Evidencia 2 sandra jaramillo
Evidencia 2 sandra jaramilloEvidencia 2 sandra jaramillo
Evidencia 2 sandra jaramillo
 
Guia01com218 2012
Guia01com218 2012Guia01com218 2012
Guia01com218 2012
 
EXPOSICION DE LA METODOLOGIA
EXPOSICION DE LA METODOLOGIAEXPOSICION DE LA METODOLOGIA
EXPOSICION DE LA METODOLOGIA
 
Clase+1+principios+de+la+seguridad
Clase+1+principios+de+la+seguridadClase+1+principios+de+la+seguridad
Clase+1+principios+de+la+seguridad
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Seguridad informática de las empresas
Seguridad informática de las empresasSeguridad informática de las empresas
Seguridad informática de las empresas
 
Hacking Ético Web
Hacking Ético WebHacking Ético Web
Hacking Ético Web
 

Mais de Chema Alonso

Tu iPhone es tan (in)seguro como tu Windows
Tu iPhone es tan (in)seguro como tu WindowsTu iPhone es tan (in)seguro como tu Windows
Tu iPhone es tan (in)seguro como tu WindowsChema Alonso
 
Codemotion ES 2014: Love Always Takes Care & Humility
Codemotion ES 2014: Love Always Takes Care & HumilityCodemotion ES 2014: Love Always Takes Care & Humility
Codemotion ES 2014: Love Always Takes Care & HumilityChema Alonso
 
Analizando la efectividad de ataques de correlación pasivos en la red de ano...
Analizando la efectividad de ataques de correlación pasivos en la red de ano...Analizando la efectividad de ataques de correlación pasivos en la red de ano...
Analizando la efectividad de ataques de correlación pasivos en la red de ano...Chema Alonso
 
No me indexes que me cacheo
No me indexes que me cacheoNo me indexes que me cacheo
No me indexes que me cacheoChema Alonso
 
XSS Google Persistentes
XSS Google PersistentesXSS Google Persistentes
XSS Google PersistentesChema Alonso
 
X Fórum AUSAPE 2014: Un Decálogo de Seguridad Máligna
X Fórum AUSAPE 2014: Un Decálogo de Seguridad MálignaX Fórum AUSAPE 2014: Un Decálogo de Seguridad Máligna
X Fórum AUSAPE 2014: Un Decálogo de Seguridad MálignaChema Alonso
 
LDAP Injection Techniques
LDAP Injection TechniquesLDAP Injection Techniques
LDAP Injection TechniquesChema Alonso
 
X Forum AUSAPE 2014
X Forum AUSAPE 2014X Forum AUSAPE 2014
X Forum AUSAPE 2014Chema Alonso
 
Código para Latch físico: Touch_calibrate.py
Código para Latch físico: Touch_calibrate.pyCódigo para Latch físico: Touch_calibrate.py
Código para Latch físico: Touch_calibrate.pyChema Alonso
 

Mais de Chema Alonso (10)

Foca API v0.1
Foca API v0.1Foca API v0.1
Foca API v0.1
 
Tu iPhone es tan (in)seguro como tu Windows
Tu iPhone es tan (in)seguro como tu WindowsTu iPhone es tan (in)seguro como tu Windows
Tu iPhone es tan (in)seguro como tu Windows
 
Codemotion ES 2014: Love Always Takes Care & Humility
Codemotion ES 2014: Love Always Takes Care & HumilityCodemotion ES 2014: Love Always Takes Care & Humility
Codemotion ES 2014: Love Always Takes Care & Humility
 
Analizando la efectividad de ataques de correlación pasivos en la red de ano...
Analizando la efectividad de ataques de correlación pasivos en la red de ano...Analizando la efectividad de ataques de correlación pasivos en la red de ano...
Analizando la efectividad de ataques de correlación pasivos en la red de ano...
 
No me indexes que me cacheo
No me indexes que me cacheoNo me indexes que me cacheo
No me indexes que me cacheo
 
XSS Google Persistentes
XSS Google PersistentesXSS Google Persistentes
XSS Google Persistentes
 
X Fórum AUSAPE 2014: Un Decálogo de Seguridad Máligna
X Fórum AUSAPE 2014: Un Decálogo de Seguridad MálignaX Fórum AUSAPE 2014: Un Decálogo de Seguridad Máligna
X Fórum AUSAPE 2014: Un Decálogo de Seguridad Máligna
 
LDAP Injection Techniques
LDAP Injection TechniquesLDAP Injection Techniques
LDAP Injection Techniques
 
X Forum AUSAPE 2014
X Forum AUSAPE 2014X Forum AUSAPE 2014
X Forum AUSAPE 2014
 
Código para Latch físico: Touch_calibrate.py
Código para Latch físico: Touch_calibrate.pyCódigo para Latch físico: Touch_calibrate.py
Código para Latch físico: Touch_calibrate.py
 

Último

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 

Último (16)

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 

Modelado de amenazas en el contexto de la indexación de páginas y propuesta de inclusión en el ENS

  • 1. Modelado de amenazas en el contexto de la indexación de páginas y propuesta de inclusión en el ENS Chema Alonso Cebrián ESCET Universidad Rey Juan Carlos Email: chema@informatica64.com Antonio Guzmán Sacristán DATCCCIA Universidad Rey Juan Carlos Email: antonio.guzman@urjc.es Gonzalo Álvarez Marañón Instituto de Física Aplicada Consejo Superior de Investigaciones Científicas Email: gonzalo@iec.csic.es Enrique Rando González Departamento de Informática Delegación de empleo de la Junta de Andalucía Email: enrique.rando@juntadeandalucia.es Resumen—Este trabajo analiza las amenazas derivadas de las malas prácticas en la gestión de técnicas SEO para indexación de páginas web, así como las vulnerabilidades y ataques que se pueden derivar de ellas. A partir de este análisis se ha propuesto un conjunto de cinco normas que deben resultar básicas para el desarrollo seguro de la gestión de indexación. Además, se ha propuesto la adaptación de estas normas al Esquema Nacional de Seguridad. I. INTRODUCCIÓN La correcta indexación de un sitio web por los motores de búsqueda reviste una importancia capital para contar con una presencia sólida en Internet. Con el fin de mejorar el posi-cionamiento de un sitio web en la página de resultados de un buscador se utilizan las denominadas técnicas de optimización para motores de búsqueda (Search Engine Optimization, SEO). Entre la gran variedad de técnicas SEO, se incluyen la correcta configuración de los archivos robots.txt [1] y sitemap.xml [2] para indicar a los buscadores qué indexar y qué no dentro de un sitio web. La incorrecta configuración de estos archivos puede acarrear consecuencias negativas desde el punto de vista de la seguridad y del rendimiento de un sitio web. El viernes 29 de enero de 2010 se publicó en el BOE el Real Decreto 3/2010, de 8 de enero, por el que se regula el Esquema Nacional de Seguridad (ESN) en el ámbito de la Administración Electrónica [3]. El ESN nace con el objetivo de crear las condiciones necesarias de confianza en el uso de los medios electrónicos en las relaciones de los ciudadanos con las Administraciones públicas. Se limita a establecer los principios básicos y requisitos mínimos que permiten una protección adecuada de la información y los servicios, en respuesta al Art. 42.2 de la Ley 11/2007, de 22 de junio, de acceso electrónico de los ciudadanos a los servicios públicos [4]. Con ello, se logra un común denominador normativo, constituido por los principios básicos y requisitos mínimos para una protección adecuada de la información [5]. En el extenso Anexo II, el ENS proporciona medidas de seguridad concretas estructuradas en tres grandes grupos (or-ganizativas, operacionales, de protección), los cuales pueden estar a su vez divididos en más subgrupos. Aunque existe una categoría destinada a la protección de servicios y aplicaciones web, no se tratan específicamente los posibles problemas de seguridad derivados de una deficiente configuración de los archivos robots.txt y sitemaps. El objetivo de este trabajo es exponer estos problemas y pro-poner unas guías de buenas prácticas de cara a combatirlos, las cuales podrían añadirse o complementar las recomendaciones del ENS. El trabajo está estructurado de la siguiente forma: en la Sec. II se realiza un modelado de amenazas sobre los riesgos derivados de la incorrecta indexación de páginas web; en la Sec. III se ofrecen una serie de recomendaciones para protegerse frente a los riesgos identificados; en la Sec. IV se adaptan estas recomendaciones al formato del ENS; la Sec. V concluye el trabajo. II. MODELADO DE AMENAZAS EN EL CONTEXTO DE LA INDEXACIÓN DE PÁGINAS El modelado de amenazas ayuda a identificar amenazas, ataques, vulnerabilidades y contramedidas con el fin de mejo-rar la gestión de la seguridad de los sistemas de información. En las siguientes secciones se explican cuáles son las ame-nazas, vulnerabilidades y ataques a los que está expuesto un sitio web con una incorrecta configuración de los archivos robots.txt y sitemap.xml. II-A. Amenazas derivadas de malas prácticas en la gestión de indexación Se entiende por amenaza el potencial de que un incidente, deliberado o no, comprometa los objetivos de seguridad de la organización [6]. Entre los objetivos de toda organización suelen figurar el salvaguardar la privacidad de la información sensible, así como asegurar un servicio rápido y de calidad.
  • 2. En las siguientes secciones se describe cómo estos objetivos pueden verse amenazados. II-A1. Revelación de información sensible sobre la organi-zación: Toda organización posee información sensible: datos de personas físicas y jurídicas, ya sean empleados, clientes o proveedores; datos de sistemas y servicios, como archivos de configuración, registros de actividad y código fuente; etc. Esta información sensible puede revelarse de varias maneras indeseadas y a veces insospechadas. II-A1a. Metadatos en documentos públicos: La mayoría de software utilizado cotidianamente para generar documentos digitales de todo tipo realiza la adición automática de datos sobre los datos creados (metadatos), los cuales se adjuntan de forma más o menos visible a los propios documentos. Estos metadatos pueden revelar información como nombres de personas, organizaciones, fechas de creación, histórico de alteraciones en el documento, rutas de acceso de archivos, dispositivos utilizados en su creación, coordenadas GPS, y un sinfín de datos adicionales. II-A1b. Errores de sistemas: Todo software está sujeto a errores o condiciones excepcionales que pueden provocar el funcionamiento anormal de una aplicación. Cuando estas excepciones no se gestionan adecuadamente, pueden revelar información sobre el sistema: código fuente, rutas de acceso de archivos, tipo de servidores, versión de software instalado, nombres de usuario, cadenas de conexión a bases de datos, consultas SQL que revelan a su vez estructuras internas de tablas, etc. II-A1c. Rutas de acceso: Aunque los archivos robots.txt y sitemap.xml están destinados a los robots de búsqueda, son públicos y cualquiera puede descargarlos. Pueden contener información sobre rutas de acceso, las cuales a su vez rev-elan qué tipo de software existe instalado y qué contenidos sensibles se desean ocultar. II-A1d. Contenido de ficheros de configuración: El funcionamiento de algunos servidores se configura mediante archivos de texto, los cuales pueden contener información sensible como nombres de usuario y contraseñas, cadenas de conexión a bases de datos, rutas de acceso de archivos, etc. II-A1e. Contenido de ficheros de registro de actividad: Registrar en archivos de texto la actividad de un servidor permite estudiar de qué manera es usado y también reconstruir incidencias. Estos registros o logs pueden contener informa-ción sensible de los visitantes, como por ejemplo los datos introducidos en formularios. II-A2. Deterioro del rendimiento: Un objetivo fundamen-tal de todo servicio web es asegurar un buen rendimiento, percibido por los usuarios como la cantidad de tiempo nece-saria para cargar la página solicitada. Los motores de búsqueda legítimos por lo general obedecen el protocolo de exclusión de robots que indica qué porciones del sitio web deben agregarse a los resultados de búsqueda. Archivos robots.txt y sitemap.xml mal configurados pueden originar una sobrecarga de peticiones por parte de estos robots, causando una pérdida de rendimiento. II-A3. Deterioro de la calidad de servicio: A medida que se incrementa la complejidad de un sitio web y crece su número de páginas, resulta más difícil navegar por ellas y encontrar la información deseada. Un sitio web que carezca de una buena gestión de SEO perderá visibilidad, ya que no aparecerá entre los 10 primeros puestos en las páginas de resultados de los buscadores, y también calidad, porque aunque aparezca listado, no aparecerán en primer lugar las páginas más relevantes dentro del propio sitio. II-A4. Secuestro de resultados de búsqueda: Para asegurar la visibilidad en Internet, es muy importante que la búsqueda de palabras relevantes para el servicio prestado por una orga-nización conduzca al sitio web de esta organización. Existen técnicas conocidas como Black Hat SEO [7] que pueden alterar artificialmente estos resultados. II-B. Vulnerabilidades en la gestión de indexación: Mala configuración de robots.txt y sitemap.xml Se entiende por vulnerabilidad toda debilidad en un sistema que podría permitir o facilitar la materialización de una amenaza contra un activo [6]. La forma de disminuir el riesgo a que se ven expuestos los activos de la organización pasa por mitigar o eliminar las vulnerabilidades. En las siguientes secciones se describen cuáles son las vulnerabilidades más importantes en la gestión de una política de SEO asociadas a los archivos robots.txt y sitemap.xml. II-B1. Inexistencia de archivos: Los robots de búsqueda indexarán absolutamente todo el contenido al que se tenga acceso públicamente navegando desde la página principal. II-B2. Archivos excesivamente explícitos: Algunos sitios web se sirven del archivo robots.txt para especificar los directorios o archivos con información sensible para evitar que sean indexados por los robots de búsqueda. Este archivo puede por tanto llegar a contener información sobre directorios y archivos confidenciales. II-B3. Archivos con errores: Un archivo robots.txt mal configurado puede suponer una sobrecarga para el servidor al obligar a los motores de búsqueda a realizar peticiones innecesarias y entrar en bucles. II-B4. Archivos robots.txt y sitemap.xml mal configurados: Como parte de una estrategia de SEO global, deben configu-rarse adecuadamente estos archivos para garantizar una buena visibilidad en la página de resultados y una buena calidad en los enlaces mostrados en primer lugar. II-B5. Archivos muy permisivos: Permiten que Google in-dexe todo tipo de páginas de configuración, manuales, ayudas y mensajes de error, los cuales son expuestos a través de búsquedas conocidas como “google dorks” [8]. II-C. Ataques Se entiende por ataque todo intento, exitoso o no, de atentar contra el buen funcionamiento del sistema con el consiguiente incumplimiento de los objetivos de la organización [6]. En las siguientes secciones se describen sin ánimo de exhaustividad algunos de los ataques más populares dirigidos contra sitios web con una pobre gestión de SEO, capaces de materializar las amenazas descritas en la Sec. II-A.
  • 3. User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /editor/ Disallow: /includes/ Disallow: /mambots/ Disallow: /modules/ Disallow: /templates/ Disallow: /installation/ Figura 1. Ejemplo de archivo robots.txt con exceso de información. User-Agent: * Disallow: /etc Disallow: /bin Disallow: /tmp Disallow: /log Allow: / Figura 2. Ejemplo de archivo robots.txt con exceso de información. II-C1. Rutas de acceso: El archivo robots.txt de la Fig. 1 contiene un exceso de información al revelar la zona de administración y el tipo de software usado, ya que la carpeta mambots, sumada al resto de carpetas, ofrece el panorama típico de Mambo [9]. Permitió descubrir el software y la ruta de administración para el ataque posterior. En la Fig. 2 se ofrece otro ejemplo de archivo robots.txt que revela directorios del servidor. II-C2. Metadatos: Debido a la mala manipulación de los archivos y a la indexación de Google es posible encontrar usuarios con sencillas búsquedas como la siguiente: http://www.google.com/#hl=es&q= intitle:"Documents and Settings"site:es ministerio &lr=&aq=f&oq= intitle:"Documents and Settings"site:es ministerio Posteriormente, utilizando herramientas como FOCA [10], puede extraerse información adicional sobre los usuarios y la organización a partir de los documentos encontrados. II-C3. Ficheros de configuración: El archivo robots.txt de la Fig. 3 contiene numerosas líneas como la mostrada, en la que se revelan los nombres y rutas de archivos de configuración. En este caso, los archivos ocultados a los buscadores contienen las respuestas al juego propuesto por el sitio web. II-C4. Revelación interna de datos: En teoría, un buscador sólo indexa documentos accesibles mediante un hiperenlace a partir del nombre de dominio en el DNS. Si existe un fichero sitemap.xml, sigue también todos los hiperenlaces en él dados de alta. Si el documento A no está enlazada desde Disallow: /educational_games/medicine/ dna_double_helix/xmldata.xml Figura 3. Fragmento de archivo robots.txt. ningún otro del sitio web, no será indexado por los buscadores. No obstante, si no existe un fichero robots.txt que prohíba la indexación de la ubicación del documento A, un atacante interno podría desvelar este fichero realizando una petición expresa de indexación al buscador con la ubicación exacta del documento A. III. BUENAS PRÁCTICAS EN LA GESTIÓN DE INDEXACIÓN El siguiente apartado recoge algunas de las buenas prácticas que deben ser aplicadas a la hora de exponer un sitio web a las arañas de los buscadores de Internet, con el fin de que la información que los buscadores obtengan de la organización sea única y exclusivamente aquella que la organización desea, y que su obtención sea efectiva. III-A. Por omisión: disallow:* para todos los robots La presencia o no de un sitio web en los buscadores de Internet debe ser una decisión de la organización a tomar en consideración con madurez. ¿Tiene sentido que estén indexa-dos los datos de una aplicación que utilizan sólo los empleados internos de una organización? ¿Tiene sentido que se indexen ficheros y datos privados de aplicaciones en la Intranet? En el caso que desee la organización tener presencia en los buscadores, ¿cómo quiere aparecer en ellos? Éstas y muchas preguntas deben ser contestadas con anterioridad a poner un sitio a disposición de las arañas de los buscadores. Si el sitio ha sido puesto en producción sin haber realizado la reflexión necesaria para conocer la presencia que se desea tener en ellos, debe configurarse un fichero robots.txt que bloquee la indexación de todos los contenidos de la organización. Debido al gran número de arañas de buscadores, es nece-sario realizar este bloque para todos los agentes: User-agent: * Disallow: / Este fichero indica a las arañas que no se desea ser in-dexado y no volverán a intentar indexar el sitio hasta que, manualmente, se pida su indexación. Si no se realiza esta configuración antes de poner el sitio en producción, los datos de la organización pueden estar copiados durante una cantidad incierta de tiempo en una gran cantidad de buscadores y será necesario realizar un borrado manual en todos ellos. III-B. Auto-catalogación Sí/No El siguiente paso consiste en realizar la clasificación que clarifique qué contenido debe o no ser indexado por los bus-cadores. Hay que tener en cuenta que debe ser indexado aquel contenido que sea estrictamente de índole público. En adelante se entiende por ruta pública la ubicación con contenidos que se desean indexar y por ruta privada la ubicación con contenidos que no se desea que sean copiados a los buscadores. Para realizar esta catalogación de una forma correcta se recomiendan las siguientes pautas: Evitar rutas con contenido mixto (público/privado), ya que provocaría o fugas de información o mala presencia en Internet a la hora de decidir si una ruta es pública o privada.
  • 4. User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /aplicaciones/ Figura 4. Ejemplo de un robots.txt para un sitio web. Evitar contenido no enlazado en rutas públicas, pues alguien que lo descubra o conozca podrá solicitar su indexación manualmente. Evitar rutas privadas conocidas, ya que ubicaciones privadas del tipo /etc o /home pueden identificar la existencia de archivos conocidos, sensibles a la seguridad de la información. Evitar rutas privadas explícitas: Una catalogación como privada de una ruta como /administrator o /admin puede ayudar a un atacante a descubrir la existencia de un fichero login.hml o login.jsp dentro de esas ubicaciones, debido a lo común de estas arquitecturas en aplicaciones web. Evitar configuraciones privadas automáticas: ciertas apli-caciones web, como gestores documentales o gestores de contenido, utilizan ficheros robots.txt estándar que son fácilmente reconocidos. Evitar el uso de rutas privadas a fichero: El pedir la no indexación de un fichero mediante el fichero robots.txt es hacer pública su ubicación, lo que es igual o más peligroso. Para restringir la indexación de una página única en rutas mixtas existen soluciones tecnológicas creadas para ello como es la meta etiqueta robots: <meta name=“robots” content=“noindex”> Aplicar la misma configuración para todas las arañas de todos los buscadores de Internet. Proteger las rutas privadas con listas de control de acceso si es posible para evitar cualquier indexación por parte de los buscadores. III-C. Optimización rendimiento y SEO con sitemap.xml Para optimizar tanto el consumo de recursos que realizan los robots dentro del sitio como la forma en la que un sitio aparece en ellos se recomienda hacer un correcto uso del archivo sitemap.xml. Este fichero, aunque es una modificación al estándar original del formato de robots.txt, es de aplicación extendida e indica a los robots de los buscadores tanto la importancia de los ficheros públicos, como su frecuencia de actualización. En sitios en los que se está indexando información estática con pocos cambios se puede configurar un largo periodo de actu-alización haciendo que el robot no intente indexar nuevamente los elementos. Además, en sitemap.xml se marca también la fecha de la última actualización y si ésta es anterior a la fecha de indexación que tiene el buscador, no se volverán a realizar todas las peticiones de documentos. Usar un sitemap.xml correctamente ayuda a: 1. Mejorar el rendimiento aligerando la carga de los bots en el servidor web. 2. Mejorar la presencia del sitio en Internet eligiendo cómo los usuarios deben encontrar y entrar en el sitio. 3. Evitar los ataques de hijacking-SEO [7]. III-D. Auditoría Una vez terminado de catalogarse correctamente el con-tenido entre público y privado, y tras optimizarse con sitemap.xml la carga de los robots y la relevancia del con-tenido, se podría plantearse añadir el sitio a los buscadores mediante la sustitución del archivo robots.txt inicial, que bloqueaba la indexación, por el nuevo archivo generado. Sin embargo, este proceso no debe realizarse hasta que el sitio web haya recibido una auditoría de seguridad, con el fin de que no se indexen posibles páginas de error como consecuencia de vulnerabilidades de Inyección de SQL o de Cross-Site Scripting (XSS). Además de la auditoría de seguridad, es altamente re-comendable realizar un análisis tanto del fichero robots.txt como de sitemap.xml para comprobar que su funcionamiento va a ser el esperado. Una vez que se haya validado tanto la seguridad del sitio como el formato y la estructura de robots.txt y sitemap.xml, podrá ponerse en producción. III-E. Auditoría constante Debido a la estructura viva de muchos sitios web de Internet, es necesario incluir dentro de los procedimientos de auditoría la revisión de la presencia del sitio en Internet, mediante la reevaluación de robots.txt y sitemap.xml, como mediante la presencia de posibles fugas de datos en buscadores de Internet para, en caso de haberse producido, solicitar el borrado de la URL de los índices de los buscadores. IV. RECOMENDACIONES PARA ENS Es preciso determinar la forma en que un sistema establece un equilibrio entre la importancia de la información que maneja, los servicios que presta y el esfuerzo de seguridad requerido. Esto supone categorizar el sistema basándose en la valoración del impacto que tendría sobre la organización un incidente que afectara a la seguridad de la información o de los sistemas con repercusión en las funciones de dicha organización. Para poder mesurar el impacto de un incidente en la ENS se proponen dimensiones de seguridad sobre las que posteriormente se podrán definir métricas de seguridad. Las dimensiones propuestas son: a) Disponibilidad (D) b) Autenticidad (A) c) Integridad (I) d) Confidencialidad (C) e) Trazabilidad (T) Cada uno de estos aspectos podrá evaluarse con tres posibles valores: BAJO, MEDIO y ALTO, según las definiciones del ENS [3]. Cuando un sistema maneja diferentes informaciones y presta diferentes servicios, el nivel del sistema en cada dimensión
  • 5. será el mayor de los establecidos. De esta forma es posible categorizar un sistema de información en tres categorías: BASICA, MEDIA y ALTA en función de que alguna de sus dimensiones esté evaluada en BAJO, MEDIO y ALTO, respectivamente. Una vez que se han definido las dimensiones de seguridad relevantes y la categoría del sistema a proteger, es posible elegir qué medidas de seguridad deben implementarse. La se-lección de las medidas de seguridad implicará la identificación de los tipos de activos presentes y la determinación de las dimensiones relevantes así como de su nivel correspondiente. Estas medidas pueden clasificarse en tres marcos diferencia-dos: el marco organizativo, el marco operacional y el marco de protección. Este último se centra en la protección de activos concretos, según su naturaleza y la calidad de servicio exigida. En el Esquema Nacional de Seguridad, a través del anexo II, se propone un sistema tabulado para incluir todos los aspectos que pueden ser estimados como medidas de seguridad. Según se ha visto en las secciones anteriores, surge la necesidad de ampliar la propuesta de medidas de seguridad dentro del marco de protección con un bloque centrado en la protección de las técnicas SEO, en línea con el artículo 42 del ENS, en el que se indica que el esquema se debe mantener actualizado de manera permanente. Se desarrollará y perfeccionará a lo largo del tiempo, en paralelo al progreso de los servicios de Administración electrónica, de la evolución tecnológica y nuevos estándares internacionales de seguridad y auditoría. En la tabla IV se utilizan las siguientes convenciones: a) Para indicar que una determinada medida de seguridad se debe aplicar a una o varias dimensiones de seguridad en algún nivel determinado se utiliza “aplica”. b) « n.a. » significa “no aplica”. c) Para indicar que las exigencias de un nivel son iguales a las de un nivel anterior se utiliza el signo « = ». d) Para indicar el incremento de exigencias graduado en función del nivel de la dimensión de seguridad, se utilizan los signos « + » y « ++ ». e) Para indicar que una medida protege específicamente una cierta dimensión de seguridad, ésta se explicita mediante su inicial. IV-A. Valor por omisión de disallow para todos los robots Debido al gran número de arañas de buscadores, es nece-sario realizar este bloque para todos los agentes: User-agent: * Disallow: / Este fichero indica a las arañas que no se desea ser in-dexado y no volverán a intentar indexar el sitio hasta que, manualmente, se pida su indexación. Si no se realiza esta configuración antes de poner el sitio en producción, los datos de la organización pueden estar copiados durante una cantidad incierta de tiempo en una gran cantidad de buscadores y será necesario realizar un borrado manual en todos ellos. IV-B. Autocatalogación: SI/NO Los sistemas deben decidir qué contenidos son privados y cuales son públicos. A partir de esta clasificación es preciso determinar si las diferentes ubicaciones del servidor correspon-den a una ruta pública o a una ruta privada. IV-C. Optimización rendimiento y SEO con sitemap.xml Para asegurar un rendimiento óptimo del consumo de re-cursos por parte de los robots en un sitio se recomienda una configuración adecuada del archivo sitemap.xml. Como resultado se consigue mejorar el rendimiento del sistema, mejorar la calidad de servicio y evitar los ataques de hijacking SEO. IV-D. Auditoría Además de las auditorías a las que deberían estar sujetas las aplicaciones informáticas ofertadas por el sitio es preciso realizar un análisis exhaustivo del fichero robots.txt así como de los ficheros sitemap.xml para validar el comportamiento del sistema y la estructura de estos archivos. Categoría Básica Antes de pasar a producción se comprobará el correcto funcionamiento del sistema. a) Se comprobará que se cumplen los criterios de seguridad b) Se harán pruebas en un entorno aislado c) Las pruebas no se harán con datos reales. d) Se diseñará un sistema de auditoría constante que con-temple la naturaleza viva de muchos sitios web de Internet y que se traduzca en una reevaluación de las configuraciones de robots y sitemap.xml. Para ello se deben revisar: a) Posibles fugas de datos en buscadores de Internet. b) Solicitar el borrado de la URL de los índices de los buscadores en caso de fugas. Categoría Media Se realizarán las siguientes inspecciones previas a la entrada en producción: a) Análisis de vulnerabilidades. b) Pruebas de intrusión derivadas del uso del sistema de indexación. Categoría Alta Se debe contemplar la siguiente línea de actuaciones: a) Análisis de cumplimiento con la calidad de servicio. b) Análisis de rendimiento del sistema. V. CONCLUSIONES A partir del modelado de las amenazas asociadas a una incorrecta configuración de las técnicas de optimización para el indexado de páginas web se ha propuesto una línea de actuación orientada a proporcionar una gestión eficaz de dichas técnicas SEO. Para ello se ha propuesto un conjunto de buenas prácticas y se ha adecuado su redacción al Esquema Nacional de Seguridad. En esta redacción se ha optado por un enfoque más conciso de lo que es habitual en la propuesta inicial del ENS buscando una mejor aplicabilidad del mismo.
  • 6. Dimensiones Medidas de seguridad Afectadas BAJO MEDIO ALTO mp Medidas de protección mp.seo Protección de sitios web C aplica = = mp.seo.1 Valor por omisión:Disallow para todos los robots C,D aplica = = mp.seo.2 Auto-catalogación si/no D n.a aplica = mp.seo.3 Optimización del rendimiento y SEO con sitemap.xml Categoría aplica + ++ mp.seo.4 Auditoría Cuadro I CORRESPONDENCIA ENTRE LOS NIVELES DE SEGURIDAD EXIGIDOS EN CADA DIMENSIÓN Y LAS MEDIDAS DE SEGURIDAD REFERENCIAS [1] M. Carl Drott, “Indexing aids at corporate websites: the use of robots.txt and META tags”, Information Processing & Management 38(2), 209– 219, 2002. [2] http://www.sitemaps.org/es/ [3] Ministerio de la Presidencia, “Real Decreto 3/2010, de 8 de enero, por el que se regula el Esquema Nacional de Seguridad en el ámbito de la Administración Electrónica”, BOE 25(I), 8089–8138, 2010. [4] Jefatura del Estado, “Ley 11/2007, de 22 de junio, de acceso electrónico de los ciudadanos a los Servicios Públicos”, BOE 150, 27150–27166, 2007. [5] Antonio Martínez, “Esquema Nacional de Seguridad: Seguridad Obliga-toria en las AAPP”, red seguridad 44, 74–76, 2010. [6] Urs E. Gattiker, The information security dictionary, Kluwer Academic Publishers, Boston 2004. [7] Ross A. Malaga, “Search Engine Optimization–Black and White Hat Approaches”, In: Marvin V. Zelkowitz, Editor(s), Advances in Computers: Improving the Web, 78, 1–39, Elsevier, 2010. [8] Johnny Long, Google Hacking, Syngress, 2007. [9] http://www.mamboserver.com [10] http://www.informatica64.com/foca/