Web Crawlers

Luis Fernando Aguas Bucheli
Luis Fernando Aguas BucheliIngeniero en Sistemas y Computación, Master en Redes de Comunicaciones
Las Búsquedas Inteligentes
en las Ciudades del Futuro
Autor(es): • Mtr. Luis Fernando Aguas
Contenidos
• Introducción
• Knowledge Graph
• Búsquedas Inteligentes
• ¿Qué es un Webcrawler?
• Proceso de Webcrawling Inteligente
• Web Crawler- PHP
• Web Crawler aplicado a Redes Sociales
• Perfiles Digitales
• El futuro de las búsquedas
Introducción
• Buscador (motor de búsqueda) es un sistema
informático que busca archivos almacenados en
servidores web gracias a sus “spider” (o Web
crawler).
Knowledge Graph:
• El buscador perfecto debería entender exactamente
lo que quieres decir y debería devolver
exactamente lo que quieres.
• El nuevo concepto de google Knowledge Graph “El
gráfico de conocimiento” es una colección enorme
de personas, lugares y cosas del mundo y la forma
en que están interconectadas entre sí.
Knowledge Graph:
• Resultados de cosas y de conceptos
Knowledge Graph:
• Obtención de mejores resúmenes
Knowledge Graph:
• Profundizar y ampliar resultados
Búsquedas Inteligentes
Cola de
Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas
WEB
Distancias
(Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
¿Qué es un Webcrawler?
• Exploran páginas web en forma automática.
• Suelen ser bots.
• Es utilizado por los motores de búsqueda.
Proceso de Webcrawling Inteligente
• Lista inicial de links.
• Exploración de Sitios Web de la lista.
• Extracción de links
• Selección óptima de links
• Carga de nuevos links en la lista inicial
Proceso de Webcrawling Inteligente
Web Crawler- PHP
• Vamos a utilizar la clase
• Luego, agregamos las funciones que vamos a utilizar,
transformamos las URL que necesitamos quitando
caracteres especiales
Web Crawler- PHP
Web Crawler- PHP
• Rastreamos las URLS Reales
Web Crawler- PHP
• Crawler se ejecuta aquí:
Web Crawler- PHP
• Ejemplo:
• Demo 1
• Rastreo Total
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Nos registramos como desarrollador de aplicaciones
 https://developers.facebook.com/docs/apps
o Creamos un nuevo identificador de la aplicación
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Descargamos Simple Data Pull o el equivalente para python
o En la función principal colocamos, nuestro usuario y password:
1
2
3
4
5
def main():
list_companies = [“usuario", “password"]
graph_url = "https://graph.facebook.com/
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Comenzamos a analizar.
o Simplemente pegamos el APP_SECRET y APP_ID en el enlace
de abajo.
https://graph.facebook.com/usuario/posts/?key=value&access_token=A
PP_ID|APP_SECRET
• Colocando la línea anterior, nos retorna el id real del
usuario
Web Crawler aplicado a Redes
Sociales
• Retorna, la fecha de los posteos en el muro:
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def scrape_posts_by_date(graph_url, date, post_data):
page_posts = render_to_json(graph_url)
next_page = page_posts["paging"]["next"]
page_posts = page_posts["data"]
collecting = True
for post in page_posts:
for post in page_posts:
try:
current_post = [post["id"], post["message"],
post["created_time"],
post["shares"]["count"]]
Web Crawler aplicados a Redes
Sociales
• Contenido reciente compartido:
Web Crawler aplicados a Redes
Sociales
• Para contar el número de likes:
• En resumen analizando esta técnica, podemos
averiguar cualquier información del usuario en la red
social en cuestión
• Combinando con exploit, se podría hasta hackear.
Web Crawler aplicados a Redes
Sociales
• Video 1.: Facebook Fan
• Video 2.: Recolección Mails – Atomic Email Hunter
Perfiles Digitales
• Ficha personal de cada usuario en función de las
publicaciones en internet (Redes Sociales, etc..)
• Estas publicaciones se relacionan con las emociones,
personalidad, etc.
• Ciertas entidades en el mundo usan estos perfiles
para empleos, análisis psicológico, etc.
• Se usan crawlers para su creación
Perfiles Digitales
Filtrar
AnalizarExtraer
Buscar
Perfiles Digitales
Máquinas de Aprendizaje
• Uso tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.
Máquinas de Aprendizaje
• Sistemas Expertos convencionales:
(algunos) Sistemas Expertos de segunda
generación:
Experiencia Reglas
Ingeniero de
conocimiento
Experiencia Reglas
Algoritmo de
aprendizaje
Búsquedas Inteligentes
Cola de
Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas
WEB
Distancias
(Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
Google Neural Machine
Translation (GNMT)
• Fue empleada por primera vez para mejorar la
eficiencia de traducciones de una sola frase
• El algoritmo era efectivo con múltiples frases,
reduciendo errores en un 60%
• Los algoritmos convencionales de traducción son
capaces de “recordar”
Cloud Machine Learning Platform
• Máquina de aprendizaje en la nube.
• Creada por google.
• Para muchos de sus servicios como puedan ser en las
búsquedas de imágenes, en las búsquedas por voz
desde la aplicación, en las traducciones y en las
respuestas inteligentes de Inbox.
• El API puede ser usado por los desarrolladores
Cloud Machine Learning Platform
Google Open Images
• Reúne más de 9 millones de enlaces a imágenes que
han sido etiquetadas sobre unas 6.000 categorías.
• Han participado las universidades de Carnegie
Mellon y Cornell.
• Sobre dichas imágenes se han llevado a cabo una
serie de trabajos de investigación.
Google Open Images
El futuro de las búsquedas
• Uso de tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.
El futuro de las búsquedas
1 de 38

Recomendados

Sistemas MultiAgente por
Sistemas MultiAgenteSistemas MultiAgente
Sistemas MultiAgenteFernando Sancho Caparrini
10K visualizações30 slides
Precentacion sobre clourd computer por
Precentacion sobre clourd computerPrecentacion sobre clourd computer
Precentacion sobre clourd computerAna1gonzales
183 visualizações18 slides
Diseño web por
Diseño webDiseño web
Diseño webvalenciaredsocial
170 visualizações26 slides
Diseño web por
Diseño webDiseño web
Diseño webvalenciaredsocial
217 visualizações26 slides
Tendencias en las redes sociales by irene quiñones (2da parte) por
Tendencias en las redes sociales by irene quiñones (2da parte)Tendencias en las redes sociales by irene quiñones (2da parte)
Tendencias en las redes sociales by irene quiñones (2da parte)Irene Quiñones Osorio
157 visualizações52 slides
los buscadores por
los buscadores los buscadores
los buscadores diosydario
229 visualizações24 slides

Mais conteúdo relacionado

Similar a Web Crawlers

Gestion del conocimiento por
Gestion del conocimientoGestion del conocimiento
Gestion del conocimientoandresedogonzalez
487 visualizações30 slides
Mashups Aplicaciones hacia el Enterprise 2.0 por
Mashups Aplicaciones hacia el Enterprise 2.0Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0Esteban Saavedra
2.1K visualizações92 slides
Analisis seo.ppt2 por
Analisis seo.ppt2Analisis seo.ppt2
Analisis seo.ppt2Maribel_kar
260 visualizações15 slides
Comp2 guia2 por
Comp2 guia2Comp2 guia2
Comp2 guia2Waleska Leon
520 visualizações4 slides
Mashups por
MashupsMashups
MashupsLuis Galárraga
1.9K visualizações27 slides
Posicionamiento en buscadores y web por
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y webVanessa Martinez
285 visualizações9 slides

Similar a Web Crawlers(20)

Gestion del conocimiento por andresedogonzalez
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
andresedogonzalez487 visualizações
Mashups Aplicaciones hacia el Enterprise 2.0 por Esteban Saavedra
Mashups Aplicaciones hacia el Enterprise 2.0Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0
Esteban Saavedra2.1K visualizações
Analisis seo.ppt2 por Maribel_kar
Analisis seo.ppt2Analisis seo.ppt2
Analisis seo.ppt2
Maribel_kar260 visualizações
Comp2 guia2 por Waleska Leon
Comp2 guia2Comp2 guia2
Comp2 guia2
Waleska Leon520 visualizações
Mashups por Luis Galárraga
MashupsMashups
Mashups
Luis Galárraga1.9K visualizações
Posicionamiento en buscadores y web por Vanessa Martinez
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y web
Vanessa Martinez285 visualizações
Cloud Computer(Computación En La Nube) Y WEB por Vanessa Martinez
Cloud Computer(Computación En La Nube) Y WEBCloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEB
Vanessa Martinez170 visualizações
Analisis seo por Maribel Mercado
Analisis seoAnalisis seo
Analisis seo
Maribel Mercado306 visualizações
Microformatos [autoguardado] por Rashel Mercedes
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]
Rashel Mercedes399 visualizações
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l... por edwin.bernal
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
edwin.bernal312 visualizações
Todas las APIs de Google por Carlos Toxtli
Todas las APIs de GoogleTodas las APIs de Google
Todas las APIs de Google
Carlos Toxtli31.2K visualizações
Tecnologías para hacer Arquitectura de Información por Rodrigo Ronda
Tecnologías para hacer Arquitectura de InformaciónTecnologías para hacer Arquitectura de Información
Tecnologías para hacer Arquitectura de Información
Rodrigo Ronda1.4K visualizações
Aplicaciones de google por YanethCaldern1
Aplicaciones de googleAplicaciones de google
Aplicaciones de google
YanethCaldern118 visualizações
Google analytics por adrianbanchon
Google analyticsGoogle analytics
Google analytics
adrianbanchon894 visualizações
Presentación html5 por aydimdagam
Presentación html5Presentación html5
Presentación html5
aydimdagam6K visualizações
Instalacion adobe dream weaver por Luis Viteri
Instalacion adobe dream weaverInstalacion adobe dream weaver
Instalacion adobe dream weaver
Luis Viteri204 visualizações
IT Camps Apps Office 365 Valencia 2014 por Adrian Diaz Cervera
IT Camps Apps Office 365 Valencia 2014IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014
Adrian Diaz Cervera600 visualizações
Navegadores por nachoshelby
NavegadoresNavegadores
Navegadores
nachoshelby411 visualizações

Mais de Luis Fernando Aguas Bucheli

EFC-ISW-Luis Fernando Aguas.pptx por
EFC-ISW-Luis Fernando Aguas.pptxEFC-ISW-Luis Fernando Aguas.pptx
EFC-ISW-Luis Fernando Aguas.pptxLuis Fernando Aguas Bucheli
94 visualizações68 slides
P-S2.pptx por
P-S2.pptxP-S2.pptx
P-S2.pptxLuis Fernando Aguas Bucheli
36 visualizações48 slides
EBTS-S1.pptx por
EBTS-S1.pptxEBTS-S1.pptx
EBTS-S1.pptxLuis Fernando Aguas Bucheli
68 visualizações30 slides
P-S3.pptx por
P-S3.pptxP-S3.pptx
P-S3.pptxLuis Fernando Aguas Bucheli
29 visualizações18 slides
EBTS-S4.pptx por
EBTS-S4.pptxEBTS-S4.pptx
EBTS-S4.pptxLuis Fernando Aguas Bucheli
32 visualizações40 slides
P-S4.pptx por
P-S4.pptxP-S4.pptx
P-S4.pptxLuis Fernando Aguas Bucheli
29 visualizações17 slides

Mais de Luis Fernando Aguas Bucheli(20)

Web Crawlers

  • 1. Las Búsquedas Inteligentes en las Ciudades del Futuro Autor(es): • Mtr. Luis Fernando Aguas
  • 2. Contenidos • Introducción • Knowledge Graph • Búsquedas Inteligentes • ¿Qué es un Webcrawler? • Proceso de Webcrawling Inteligente • Web Crawler- PHP • Web Crawler aplicado a Redes Sociales • Perfiles Digitales • El futuro de las búsquedas
  • 3. Introducción • Buscador (motor de búsqueda) es un sistema informático que busca archivos almacenados en servidores web gracias a sus “spider” (o Web crawler).
  • 4. Knowledge Graph: • El buscador perfecto debería entender exactamente lo que quieres decir y debería devolver exactamente lo que quieres. • El nuevo concepto de google Knowledge Graph “El gráfico de conocimiento” es una colección enorme de personas, lugares y cosas del mundo y la forma en que están interconectadas entre sí.
  • 5. Knowledge Graph: • Resultados de cosas y de conceptos
  • 6. Knowledge Graph: • Obtención de mejores resúmenes
  • 7. Knowledge Graph: • Profundizar y ampliar resultados
  • 8. Búsquedas Inteligentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios
  • 9. Búsquedas Inteligentes Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes
  • 10. ¿Qué es un Webcrawler? • Exploran páginas web en forma automática. • Suelen ser bots. • Es utilizado por los motores de búsqueda.
  • 11. Proceso de Webcrawling Inteligente • Lista inicial de links. • Exploración de Sitios Web de la lista. • Extracción de links • Selección óptima de links • Carga de nuevos links en la lista inicial
  • 12. Proceso de Webcrawling Inteligente
  • 13. Web Crawler- PHP • Vamos a utilizar la clase • Luego, agregamos las funciones que vamos a utilizar, transformamos las URL que necesitamos quitando caracteres especiales
  • 15. Web Crawler- PHP • Rastreamos las URLS Reales
  • 16. Web Crawler- PHP • Crawler se ejecuta aquí:
  • 17. Web Crawler- PHP • Ejemplo: • Demo 1 • Rastreo Total
  • 18. Web Crawler aplicado a Redes Sociales • Facebook: o Nos registramos como desarrollador de aplicaciones  https://developers.facebook.com/docs/apps o Creamos un nuevo identificador de la aplicación
  • 19. Web Crawler aplicado a Redes Sociales • Facebook: o Descargamos Simple Data Pull o el equivalente para python o En la función principal colocamos, nuestro usuario y password: 1 2 3 4 5 def main(): list_companies = [“usuario", “password"] graph_url = "https://graph.facebook.com/
  • 20. Web Crawler aplicado a Redes Sociales • Facebook: o Comenzamos a analizar. o Simplemente pegamos el APP_SECRET y APP_ID en el enlace de abajo. https://graph.facebook.com/usuario/posts/?key=value&access_token=A PP_ID|APP_SECRET • Colocando la línea anterior, nos retorna el id real del usuario
  • 21. Web Crawler aplicado a Redes Sociales • Retorna, la fecha de los posteos en el muro: 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 def scrape_posts_by_date(graph_url, date, post_data): page_posts = render_to_json(graph_url) next_page = page_posts["paging"]["next"] page_posts = page_posts["data"] collecting = True for post in page_posts: for post in page_posts: try: current_post = [post["id"], post["message"], post["created_time"], post["shares"]["count"]]
  • 22. Web Crawler aplicados a Redes Sociales • Contenido reciente compartido:
  • 23. Web Crawler aplicados a Redes Sociales • Para contar el número de likes: • En resumen analizando esta técnica, podemos averiguar cualquier información del usuario en la red social en cuestión • Combinando con exploit, se podría hasta hackear.
  • 24. Web Crawler aplicados a Redes Sociales • Video 1.: Facebook Fan • Video 2.: Recolección Mails – Atomic Email Hunter
  • 25. Perfiles Digitales • Ficha personal de cada usuario en función de las publicaciones en internet (Redes Sociales, etc..) • Estas publicaciones se relacionan con las emociones, personalidad, etc. • Ciertas entidades en el mundo usan estos perfiles para empleos, análisis psicológico, etc. • Se usan crawlers para su creación
  • 28. Máquinas de Aprendizaje • Uso tecnología de inteligencia artificial. • Aprendizaje automático • Búsquedas en base a la construcción de Perfiles Digitales • Dar al motor de búsqueda la capacidad de decisión o Las aplicaciones más populares de Google ya cuentan con máquinas de aprendizaje o Gmail cuenta con una inteligencia artificial que sugiere posibles respuestas a un correo electrónico dependiendo de su texto e imágenes.
  • 29. Máquinas de Aprendizaje • Sistemas Expertos convencionales: (algunos) Sistemas Expertos de segunda generación: Experiencia Reglas Ingeniero de conocimiento Experiencia Reglas Algoritmo de aprendizaje
  • 30. Búsquedas Inteligentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios
  • 31. Búsquedas Inteligentes Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes
  • 32. Google Neural Machine Translation (GNMT) • Fue empleada por primera vez para mejorar la eficiencia de traducciones de una sola frase • El algoritmo era efectivo con múltiples frases, reduciendo errores en un 60% • Los algoritmos convencionales de traducción son capaces de “recordar”
  • 33. Cloud Machine Learning Platform • Máquina de aprendizaje en la nube. • Creada por google. • Para muchos de sus servicios como puedan ser en las búsquedas de imágenes, en las búsquedas por voz desde la aplicación, en las traducciones y en las respuestas inteligentes de Inbox. • El API puede ser usado por los desarrolladores
  • 35. Google Open Images • Reúne más de 9 millones de enlaces a imágenes que han sido etiquetadas sobre unas 6.000 categorías. • Han participado las universidades de Carnegie Mellon y Cornell. • Sobre dichas imágenes se han llevado a cabo una serie de trabajos de investigación.
  • 37. El futuro de las búsquedas • Uso de tecnología de inteligencia artificial. • Aprendizaje automático • Búsquedas en base a la construcción de Perfiles Digitales • Dar al motor de búsqueda la capacidad de decisión o Las aplicaciones más populares de Google ya cuentan con máquinas de aprendizaje o Gmail cuenta con una inteligencia artificial que sugiere posibles respuestas a un correo electrónico dependiendo de su texto e imágenes.
  • 38. El futuro de las búsquedas