4. ¿OSINT?
4
Inteligencia de fuentes abiertas u «Open Source Intelligence» (OSINT) hace referencia al
conocimiento recopilado a partir de fuentes de acceso público. [INCIBE]
➤ Medios de comunicación
➤ Redes sociales
➤ Foros
➤ Fuentes gubernamentales
➤ Conferencias
SOCMINT tiene como fuente de información exclusiva-
mente las redes sociales y trata de convertirla en
inteligencia.
5. Leyes de protección de datos
Constitución española - Artículo 18.
1. Se garantiza el derecho al honor, a la intimidad
personal y familiar y a la propia imagen.
4. La ley limitará el uso de la informática para
garantizar el honor y la intimidad personal y
familiar de los ciudadanos y el pleno ejercicio de
sus derechos
5
AEPD: Agencia Estatal de Protección de
Datos.
“La AEPD protege tus derechos de acceso,
rectificación, limitación, oposición, supresión
(“derecho al olvido”), portabilidad y oposición al
tratamiento de decisiones automatizadas.”
6. General Data Protection Regulation
(GDPR):
✘ Reglamento (UE) 2016/679 del Parlamento
Europeo y del Consejo
✘ Aplicable desde el 25 de mayo de 2018
✘ Deroga la Directiva 95/46/CE del
Parlamento Europeo y del Consejo de 24
de octubre de 1995
6
Ley Orgánica 3/2018, de 5 de diciembre, de
Protección de Datos Personales y garantía
de los derechos digitales.
✘ Aplicable desde 07/12/2018
✘ Adaptar nuestra legislación al GDPR.
✘ Extensión de la GDPR.
✘ Regular el derecho fundamental a la
protección de datos
✘ Garantizar los derechos digitales de los
ciudadanos
Reglamento: Actos legislativos
vinculantes. Deben aplicarse en su
integridad en toda la UE.
Directiva: Actos legislativos que
establecen objetivos que todos los
países deben cumplir. Cada país
elabora sus propias leyes.
10. 10
Osint + Porn
Top Sites
No existe path para listar usuarios
api.pornhub.com api.xhamster.com
https://sexualitics.github.io/ -> Dataset de videos (2007 - 2013) ~ 800.000 entradas
11. 11
Osint + Porn
Proceso bastante manual
debido a que las webs no
tienen implementadas (al
menos de cara a un
usuario consumidor) las
llamadas para poder
recopilar la información
de sus usuarios.
No es el objetivo de
esta charla
12. 12
Lo que Google sabe de mí
➤ Apariciones en medios
➤ Redes sociales
➤ Fotografías
13. REDES SOCIALES
Como hemos visto con el caso de Cambridge
Analytica, hay que tener el cuenta el poder de
los datos de redes sociales.
Muchas de las empresas están poniendo
medidas para evitar que se puedan explotar sus
datos desde fuera.
FUENTES GUBERNAMENTALES
Para información más institucional, es posible
analizar la que aparece tanto en el BOE como en
el BORME, aunque en el último año han ido
cambiando la publicación y ya no son visibles
documentos como el D.N.I.
Aunque en los antiguos se sigue pudiendo
conseguir estos datos.
FUENTES DE INFORMACIÓN
13
16. 16
SERVICIOS WEB DE OSINT
https://stalkface.com/
https://instamon.net
https://inteltechniques.com/menu.html
17. 17
HERRAMIENTAS DE OSINT
Maltego
✘ https://paterva.com/buy/maltego-clients.php
✘ La herramienta más famosa para analistas y
expertos en ciberinteligencia ($$$).
✘ Proporciona multitud de módulos, y expone la
información de manera interactiva.
○ Personas
■ Nombre
■ Correo
■ Alias
○ Grupos de personas
○ Empresas
✘ Herramientas basadas en servicios
americanos.
18. 18
HERRAMIENTAS DE OSINT
Pown-Recon
✘ https://github.com/pownjs/pown-recon
✘ Herramienta de recopilación de datos
abiertos con la salida en modo grafo para
después poder visualizarlo con otras
aplicaciones como SecApps.com.
✘ Proporciona multitud de modulos, los más
interesantes:
○ Búsquedas en GitHub por usuarios,
repositorios y Gists.
○ Búsquedas en Bitbucket por
usuarios, repositorios y Snippets.
○ Whoaretheyreport para buscar
donde se ha creado cuentas.
19. HERRAMIENTAS DE OSINT PARA RSS
OSRFramework
Esta herramienta no requiere de credenciales de ninguna
API.
✘ Busca en distintas redes sociales y muestra el
resultado por consola y en un CSV.
✘ Puedes buscar por nombre de persona, nickname
o nombre de empresa.
✘ Puede comprobar si los correos existen y en qué
rrss se ha registrado.
✘ Puedes seleccionar una o varias rrss
✘ Incluye un gran número de rrss
✘ https://github.com/i3visio/osrframework
19
23. 23
OSINT CON IMÁGENES
✘ Servicios Web:
○ Son de pago
○ Analizan Internet
○ Generan bases de datos
○ Algunos bloqueados por
GDPR
■ https://pimeyes.com/en/
■ https://socialcatfish.com/
24. 24
SocialMapper
OSINT CON IMÁGENES
● Correlación de perfiles en RRSS
mediante identificación facial.
● Entradas:
○ Carpeta con imágenes conocidas y
nombres.
○ Nombre de una organización
○ CSV con nombres y URLs de
imágenes
● RRSS:
○ Linkedin, Facebook, Twitter,
GooglePlus, Instagram, VKontakte,
Weibo, Douban Necesita siempre NOMBRE de la persona
Necesitas credenciales de las RRSS :
Problemas con las sesiones.
26. APIs: Las tripas de las RRSS
✘ Las principales redes sociales cuentan
con APIs que permiten la interacción
con sus plataformas para crear tus
propias aplicaciones.
✘ Dependiendo de la autenticación
permiten extraer grandes cantidades
de datos.
26
✘ Muchas de ellas están documentadas y
tienen ratios de uso.
27. Recopilación de ~ 500 usuarios por día
27
APIs: Las tripas de las RRSS
✘ APIs Ocultas
api.adoptauntio.es/robots.txt
---- Scanning URL:
https://api.adoptauntio.es/api/ ----
https://api.adoptauntio.es/api/users (CODE:401)
https://api.lovoo.com/robots.txt
Disallow: /api_web.php/*
---- Scanning URL:
https://api.lovoo.com/api_web.php/ ----
https://api.lovoo.com/api_web.php/init (CODE: 200)
https://api.happn.fr/
---- Scanning URL: https://api.happn.fr/api/ ----
https://api.happn.fr/api/users/user_id
FAIL AUTH TOKEN FB
✘ Es sencillo escanear las peticiones para automatizar.
32. 1. Image Search
✘ Yandex (Reverse Image Search)
○ Inputs:
■ Imágen conocida
○ Outputs:
■ Imágenes y urls.
✘ Google (Search Photos)
○ Inputs:
■ Nombre
■ Imágen conocida
○ Outputs:
■ Imágenes y urls.
■ NLP
32
33. 2. Redes Sociales
33
Facebook Twitter Instagram Tinder
Selenium Selenium API Abierta API REST con Token
https://facebook.co
m/public/<name>
https://www.google.c
om/search?q=site:twi
tter.com+AND+<name
>
https://www.instagram
.com/web/search/tops
earch/?context=blend
ed&query=<name>
https://api.gotinder.com
Fotos y datos. Coge información del
perfil y la imágen.
Fotos y datos. Límite por usuario/día.
No permite búsquedas
concretas, se
almacenan los datos en
DB y se busca sobre ella.
34. 3. Fuentes Gubernamentales
BOE: Contiene documentos oficiales donde se pueden encontrar DNIs,
nombres y apellidos. Hay versión PDF y versión XML.
✘ Selenium + XML
✘ Búsquedas:
○ DNI
○ Apellidos y/o Nombre
○ Palabras clave
✘ Fechas de búsqueda opcional.
✘ Resultados:
○ Documento BOE,
○ DNIs, Nombres y apellidos encontrados.
34
35. BROWSER AUTOMATION:
SELENIUM
✘ Herramienta para automatizar acciones
del navegador.
✘ Programable:
○ Python API
https://selenium-python.readthedocs.io/
✘ Testing de aplicaciones
✘ AUTOMATIZACIÓN DE BÚSQUEDAS
35
36. PLN/NLP
El procesamiento del lenguaje natural, en inglés natural language processing, es un campo de las
ciencias de la computación, inteligencia artificial y lingüística que estudia las interacciones entre las
computadoras y el lenguaje humano.
En nuestro caso, lo hemos aplicado para tratar de extraer entidades (Ciudades que aparezcan en el
texto por ejemplo).
36
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(stripped_filter2)
resp = req.get(from_url)
for e in doc.ents:
if e.label_ == "LOC":
# Palabras clave
40. 40
python3 main.py -t yandex -k token -i path
python3 --tag google -n name -i path
python3 -t tinder -k token
python3 -t instagram -n name -i path
python3 -t facebook -n name -i path
python3 -t twitter -n name -i path
python3 -t boe -n text -s pages
Se puede elegir realizar o no el
reconocimiento facial. Si no se hace,
se puede elegir descargar o no las
fotografías.
41. Data, Data, Data!
41
● Datos de una gran cantidad
de usuarios.
● Múltiples cuentas de Tinder
para extraer más perfiles.
● Búsquedas sobre la DB:
○ Nombre
○ Trabajo
○ Edad
○ Localización
51. Recomendaciones
● Recopilar información de cómo una persona puede aparecer en
Internet.
● Los usuarios ya no usan Nombre y Apellidos en las RSS pero la
mayoría hacen combinaciones.
○ PepeMartinezPerez
○ PepeMarPer
○ Pepe MP
○ PepeMP
○ PPMartinez
● Hacer búsquedas automáticas encadenadas.
● No siempre funciona el reconocimiento facial.
○ Calidad
○ No es una cara
51
52. Conclusiones
52
● Existen muchas fuentes de información
● Múltiples herramientas
● Definir:
○ Qué se quiere buscar
○ Cómo se quiere hacer
● Importante:
○ Automatización
○ Correlación de datos
● Diferenciación:
○ NLP
○ Identificación facial mediante ML
53. Lo que un stalker puede
saber de ti, Los riesgos de
publicar tu información
@MiguelHzBz
@RuthGnz
Ruthgonzaleznovillo