SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
Analyse et classification d’URL
        Projet iPinion - avril 2010
Objectifs
•   Extraire le maximum d’informations possible
    d’une URL sans avoir à crawler la page
    correspondante
•   La taxonomie utilisée pour la classification est
    basée sur l’auteur du contenu : institutionnel,
    corporate, particulier, journaliste
•   D’autres aspects sont pris en compte par un
    système de tags (type de site, langue, etc.)
Sommaire

• 1. Analyse de l’URL de base
• 2. Analyse du path
• 3. Résultats
• 4. Traitements postérieurs
Décomposition d’une URL

Protocole   Sous-domaine   Domaine   TLD     Sous-dossier   Sous-dossiers

http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/
 sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html
                                     Titre                                  Extension
1. Analyse de l’URL de base

• L’URL de base se compose du sous-
  domaine, du domaine, du TLD, et
  éventuellement du premier sous-répertoire
• Elle est la partie la plus signifiante de l’URL,
  et contient toujours le nom du site
• Elle a l’inconvénient d’être très courte
Déterminer le nom du site
       Le nom du site est l’un de ces trois tokens :
http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/
 sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html


  http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html
                   http://twitter.com/bitsmedia/status/12255541587
http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia

   -> si l’URL contient deux tokens, le premier est le nom du site
   -> si elle contient trois tokens :
      -> si elle commence par www, le token suivant est le nom du site
      -> si non, on examine le deuxième token :
          -> si c’est un service de blog listé, le premier token est le site
          -> si non, le deuxième token est le site, et le premier est un sous-domaine, à
   traiter avec les sous-url
   -> dans tous les cas, le dernier token est le TLD
   -> si le nom du site récupéré à l’issue de cette première étape est dans la liste des
   exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
Tests sur le nom du site 1
    •   On recheche le nom, par ordre de priorité, dans :
    - la liste des exceptions
    - la liste ‘institutionnels’
    - la liste ‘médias’
    - Google News (s’il est présent, il est ajouté à la liste ‘médias’)
    - la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la
    liste ‘marques’)
 http://www.elysee.fr/president/les-actualites/communiques-de-presse/
2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html

                           auteur="institutionnel"


 http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale-
                       comprend-la-crise.html

                                 auteur="média"
Tests sur le nom du site II

  • Si tous les tests précédents échouent, on
     recherche la présence de mots qualifiants
     (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site
                 http://fragiles-lefilm.com/
  nom="fragiles" type="film" auteur="corporate" lang="fr"


  • En cas de nouvel échec, on effectue ces tests
     sur le sous-domaine et le premier sous-
     répertoire
http://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un-
                        twitter-like-6543/
              nom="vendeesign" type="blog" lang="fr"
Tests sur le TLD

• Si le TLD est national : on note #france (.fr),
  #francophone (.ch) ou #international (.de)
• Si le TLD est générique : s’il existe des
  restrictions particulières (.gov, .mil, .edu), on
  ajoute un tag correspondant (#institutionnel)
• Cas spécifique : .gouv.fr , par exemple, ajoute
  les tags #france et #institutionnel
2. Analyse du path

• La suite de l’URL (‘path’) est segmentée sur
  les ‘/’
• Le path peut contenir de nombreuses
  informations pertinentes
• Cependant, il doit être traité différemment
  de la partie principale l’URL
Recherche de date
• On trouve souvent une date encodée dans
  la première partie du path
• Diverses expressions régulières permettent
  de rechercher la présence d’une date
• La date de publication d’une page est une
  information importante pour en
  déterminer la pertinence
    http://www.capitaine-commerce.com/2007/12/20/
  http://fr.rian.ru/business/20071001/81826681.html
Test sur l’extension

• L’analyse de l’extension permet de
  déterminer s’il s’agit d’une page (.html, .php,
  etc.), d’un fichier multimédia (.jpg, .png, etc.),
  ou d’un flux RSS (.xml)
• On peut ensuite savoir quels traitements
  postérieurs seront possibles ou nécessaires :
  il est par exemple inutile de crawler les
  adresses pointant vers un fichier multimédia
Recherche du type de site

   • Certains tokens (ex. : ‘wiki’ ou ‘blog’)
      permettent de déterminer le type de site
      correspondant à l’URL
     http://forums.thinkpads.com/viewtopic.php?f=43&t=86489
                          type="forum"


   • Le type de site peut également être
      déterminé à partir des listes de sites
      utilisées pour l’analyse
http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale-
                      comprend-la-crise.html
                        type="actualités"
Parsing du titre
    • On fait l’hypothèse que le dernier token
       avant l’extension est le titre de la page
    • On élimine tous les nombres de plus de
       quatre chiffres, ainsi que tout se qui se trouve
       avant un underscore, dans le premier token
    • On tokenize ensuite sur ‘-’ , le seul
       séparateur possible
http://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard-
   deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html

  titre="un milliard deuros provisionné pour les traders de bnp
                            paribas"
Des tags pour les autres
             informations
     • Si un mot qualifiant a été identifié dans
         l’URL, mais pas à une position particulière
         (ni nom du site, ni titre de la page), il est
         récupéré sous forme de tag :

http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/
                           53169148-fr.php

                     tags="creation entreprise"
3. Résultats provisoires

• A l’issue du script on dispose au minimum,
  pour chaque URL, du nom du site.
• On parvient à identifier un type d’auteur
  dans 60-70% des cas
• On dispose également de plusieurs tags
  (environ 5 par URL en moyenne)
Exemples complets I
http://al-turayya.hautetfort.com/archive/2010/03/08/
     faire-un-don-pour-soutenir-mon-blog.html

<url site="al turayya" page_title="faire un don pour
    soutenir mon blog" auteur="perso" type="blog"
service="hautetfort" lang="fr" filetype="text/html"
date="08/03/2010">http://al-turayya.hautetfort.com/
 archive/2010/03/08/faire-un-don-pour-soutenir-mon-
                   blog.html</url>




              http://www.ameliste.fr/

<url site="ameliste" auteur="commercial" lang="fr">
           http://www.ameliste.fr/</url>
Exemples complets II
     http://www.lalibre.be/economie/finance/article/
        285542/ing-a-bien-commence-l-annee.html


<url site="lalibre.be" page_title="ing a bien commence
       l annee" tags="economie finance article"
auteur="média" lang="fr" country="be" filetype="text/
           html" date="08/03/2010">http://al-
 turayya.hautetfort.com/archive/2010/03/08/faire-un-
         don-pour-soutenir-mon-blog.html</url>
4. Traitements postérieurs
• A l’issue de ce premier traitement, on peut
  envisager d’affiner la classification des URL
• On classifie les URL du corpus de référence en
  fonction d’une typologie plus fine, créant ainsi
  des ‘profils’
• Dans un second temps, on peut envisager
  d’utiliser ce corpus annoté avec un programme
  d’apprentissage automatique supervisé

Mais conteúdo relacionado

Mais procurados

Web Invisible et Deep Web
Web Invisible et Deep WebWeb Invisible et Deep Web
Web Invisible et Deep Webei4idi
 
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Serge Courrier
 

Mais procurados (6)

RDF : une introduction
RDF : une introductionRDF : une introduction
RDF : une introduction
 
Web Invisible et Deep Web
Web Invisible et Deep WebWeb Invisible et Deep Web
Web Invisible et Deep Web
 
Initiation la rechercher sur le web
Initiation la rechercher sur le webInitiation la rechercher sur le web
Initiation la rechercher sur le web
 
Boostez vos recherches sur Internet
Boostez vos recherches sur InternetBoostez vos recherches sur Internet
Boostez vos recherches sur Internet
 
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
Modèle d'une plateforme de veille visant à automatiser la rediffusion de l'in...
 
Art_URL
Art_URLArt_URL
Art_URL
 

Destaque

Proyecto de Innovación
Proyecto de InnovaciónProyecto de Innovación
Proyecto de InnovaciónFeer Gonzalez
 
Guía de español 2°
Guía de  español 2°Guía de  español 2°
Guía de español 2°farina robles
 
Cabinet Conseil Houriet
Cabinet Conseil HourietCabinet Conseil Houriet
Cabinet Conseil HourietHPMConseilRH
 
251428 reveuse21
251428 reveuse21251428 reveuse21
251428 reveuse21filipj2000
 
Photos assemblées des années 40' & 50' aux usa
Photos assemblées des années 40' & 50' aux usaPhotos assemblées des années 40' & 50' aux usa
Photos assemblées des années 40' & 50' aux usaourbothy
 
Wp f 20130101
Wp f 20130101Wp f 20130101
Wp f 20130101ourbothy
 
Social protection and the achievement of the millennium development goa...
Social protection  and the   achievement  of the millennium  development  goa...Social protection  and the   achievement  of the millennium  development  goa...
Social protection and the achievement of the millennium development goa...ezzeddine
 
Relaxation
RelaxationRelaxation
Relaxationsinagua
 
Colegio nacional nicolás esquerra
Colegio nacional nicolás esquerraColegio nacional nicolás esquerra
Colegio nacional nicolás esquerrachavezmurillo
 
Présentation de l'agence Access Dev
Présentation de l'agence Access DevPrésentation de l'agence Access Dev
Présentation de l'agence Access DevAccess Dev
 
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTO
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTOCOMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTO
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTOMauricio Olaya Gaitán
 
Presentación1
Presentación1Presentación1
Presentación1pmhola
 
Revue de presse 08/04/10
Revue de presse 08/04/10Revue de presse 08/04/10
Revue de presse 08/04/10Capa presse tv
 
Dépistage de l'atherosclérose m depairon
Dépistage de l'atherosclérose  m depaironDépistage de l'atherosclérose  m depairon
Dépistage de l'atherosclérose m depaironsfa_angeiologie
 
Pourquoi je suis une candidate idéale pour Simplon
Pourquoi je suis une candidate idéale pour SimplonPourquoi je suis une candidate idéale pour Simplon
Pourquoi je suis une candidate idéale pour SimplonBertaux Mylene
 
Attribution
AttributionAttribution
AttributionMatiro
 

Destaque (20)

Proyecto de Innovación
Proyecto de InnovaciónProyecto de Innovación
Proyecto de Innovación
 
Guía de español 2°
Guía de  español 2°Guía de  español 2°
Guía de español 2°
 
08 let us be humble in tamil
08 let us be humble in tamil08 let us be humble in tamil
08 let us be humble in tamil
 
Cabinet Conseil Houriet
Cabinet Conseil HourietCabinet Conseil Houriet
Cabinet Conseil Houriet
 
251428 reveuse21
251428 reveuse21251428 reveuse21
251428 reveuse21
 
Photos assemblées des années 40' & 50' aux usa
Photos assemblées des années 40' & 50' aux usaPhotos assemblées des années 40' & 50' aux usa
Photos assemblées des années 40' & 50' aux usa
 
Wp f 20130101
Wp f 20130101Wp f 20130101
Wp f 20130101
 
Social protection and the achievement of the millennium development goa...
Social protection  and the   achievement  of the millennium  development  goa...Social protection  and the   achievement  of the millennium  development  goa...
Social protection and the achievement of the millennium development goa...
 
Culte du 14 Fev 2010
Culte du 14 Fev 2010Culte du 14 Fev 2010
Culte du 14 Fev 2010
 
Relaxation
RelaxationRelaxation
Relaxation
 
Como vender urgente
Como vender urgenteComo vender urgente
Como vender urgente
 
Villagesperches.md
Villagesperches.mdVillagesperches.md
Villagesperches.md
 
Colegio nacional nicolás esquerra
Colegio nacional nicolás esquerraColegio nacional nicolás esquerra
Colegio nacional nicolás esquerra
 
Présentation de l'agence Access Dev
Présentation de l'agence Access DevPrésentation de l'agence Access Dev
Présentation de l'agence Access Dev
 
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTO
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTOCOMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTO
COMO INGRESAR A LAS AULAS VIRTUALES DE UNIMINUTO
 
Presentación1
Presentación1Presentación1
Presentación1
 
Revue de presse 08/04/10
Revue de presse 08/04/10Revue de presse 08/04/10
Revue de presse 08/04/10
 
Dépistage de l'atherosclérose m depairon
Dépistage de l'atherosclérose  m depaironDépistage de l'atherosclérose  m depairon
Dépistage de l'atherosclérose m depairon
 
Pourquoi je suis une candidate idéale pour Simplon
Pourquoi je suis une candidate idéale pour SimplonPourquoi je suis une candidate idéale pour Simplon
Pourquoi je suis une candidate idéale pour Simplon
 
Attribution
AttributionAttribution
Attribution
 

Semelhante a Classificateur d'URL

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Blogs pour la veille
Blogs pour la veilleBlogs pour la veille
Blogs pour la veilleAref Jdey
 
Methodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecMethodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecBibliolab
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanAymeric Bouillat
 
Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Thierry Régagnon
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
Utilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSUtilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSStéphane Dufournet
 
Introduction aux blogs
Introduction aux blogsIntroduction aux blogs
Introduction aux blogsolivier
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLa Cuisine du Web
 
CSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesCSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesYves Van Goethem
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...semrush_webinars
 
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...pwod
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurElium
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleURFIST de Paris
 
Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Cynthia Lisée
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 

Semelhante a Classificateur d'URL (20)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Blogs pour la veille
Blogs pour la veilleBlogs pour la veille
Blogs pour la veille
 
Methodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 DecMethodologie Recherche Je 15 Dec
Methodologie Recherche Je 15 Dec
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisan
 
Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)Référencement & Standards Web : La même direction (PW2009)
Référencement & Standards Web : La même direction (PW2009)
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Utilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSSUtilisation professionnelle des flux RSS
Utilisation professionnelle des flux RSS
 
Introduction aux blogs
Introduction aux blogsIntroduction aux blogs
Introduction aux blogs
 
Se faire connaitre sur le web
Se faire connaitre sur le webSe faire connaitre sur le web
Se faire connaitre sur le web
 
Recommandations seo Webdo
Recommandations seo WebdoRecommandations seo Webdo
Recommandations seo Webdo
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
 
CSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnaliséesCSS @font-face : Des polices personnalisées
CSS @font-face : Des polices personnalisées
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
 
Désindexation
DésindexationDésindexation
Désindexation
 
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheur
 
Atelier template
Atelier templateAtelier template
Atelier template
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veille
 
Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001Maitriser environnement informationnel_aut2015_ing4001
Maitriser environnement informationnel_aut2015_ing4001
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 

Mais de martin255

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweetsmartin255
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012martin255
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012martin255
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URLmartin255
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procéduralemartin255
 
L'unité documentaire sur le web
L'unité documentaire sur le webL'unité documentaire sur le web
L'unité documentaire sur le webmartin255
 

Mais de martin255 (6)

Digital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient TweetsDigital Paleontology - Digging for Ancient Tweets
Digital Paleontology - Digging for Ancient Tweets
 
Kontrast@TOTh 2012
Kontrast@TOTh 2012Kontrast@TOTh 2012
Kontrast@TOTh 2012
 
Kontrast@TKE 2012
Kontrast@TKE 2012Kontrast@TKE 2012
Kontrast@TKE 2012
 
Classificateur d'URL
Classificateur d'URLClassificateur d'URL
Classificateur d'URL
 
Architecture procédurale
Architecture procéduraleArchitecture procédurale
Architecture procédurale
 
L'unité documentaire sur le web
L'unité documentaire sur le webL'unité documentaire sur le web
L'unité documentaire sur le web
 

Classificateur d'URL

  • 1. Analyse et classification d’URL Projet iPinion - avril 2010
  • 2. Objectifs • Extraire le maximum d’informations possible d’une URL sans avoir à crawler la page correspondante • La taxonomie utilisée pour la classification est basée sur l’auteur du contenu : institutionnel, corporate, particulier, journaliste • D’autres aspects sont pris en compte par un système de tags (type de site, langue, etc.)
  • 3. Sommaire • 1. Analyse de l’URL de base • 2. Analyse du path • 3. Résultats • 4. Traitements postérieurs
  • 4. Décomposition d’une URL Protocole Sous-domaine Domaine TLD Sous-dossier Sous-dossiers http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html Titre Extension
  • 5. 1. Analyse de l’URL de base • L’URL de base se compose du sous- domaine, du domaine, du TLD, et éventuellement du premier sous-répertoire • Elle est la partie la plus signifiante de l’URL, et contient toujours le nom du site • Elle a l’inconvénient d’être très courte
  • 6. Déterminer le nom du site Le nom du site est l’un de ces trois tokens : http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/ sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html http://twitter.com/bitsmedia/status/12255541587 http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia -> si l’URL contient deux tokens, le premier est le nom du site -> si elle contient trois tokens : -> si elle commence par www, le token suivant est le nom du site -> si non, on examine le deuxième token : -> si c’est un service de blog listé, le premier token est le site -> si non, le deuxième token est le site, et le premier est un sous-domaine, à traiter avec les sous-url -> dans tous les cas, le dernier token est le TLD -> si le nom du site récupéré à l’issue de cette première étape est dans la liste des exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
  • 7. Tests sur le nom du site 1 • On recheche le nom, par ordre de priorité, dans : - la liste des exceptions - la liste ‘institutionnels’ - la liste ‘médias’ - Google News (s’il est présent, il est ajouté à la liste ‘médias’) - la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la liste ‘marques’) http://www.elysee.fr/president/les-actualites/communiques-de-presse/ 2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html auteur="institutionnel" http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html auteur="média"
  • 8. Tests sur le nom du site II • Si tous les tests précédents échouent, on recherche la présence de mots qualifiants (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site http://fragiles-lefilm.com/ nom="fragiles" type="film" auteur="corporate" lang="fr" • En cas de nouvel échec, on effectue ces tests sur le sous-domaine et le premier sous- répertoire http://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un- twitter-like-6543/ nom="vendeesign" type="blog" lang="fr"
  • 9. Tests sur le TLD • Si le TLD est national : on note #france (.fr), #francophone (.ch) ou #international (.de) • Si le TLD est générique : s’il existe des restrictions particulières (.gov, .mil, .edu), on ajoute un tag correspondant (#institutionnel) • Cas spécifique : .gouv.fr , par exemple, ajoute les tags #france et #institutionnel
  • 10. 2. Analyse du path • La suite de l’URL (‘path’) est segmentée sur les ‘/’ • Le path peut contenir de nombreuses informations pertinentes • Cependant, il doit être traité différemment de la partie principale l’URL
  • 11. Recherche de date • On trouve souvent une date encodée dans la première partie du path • Diverses expressions régulières permettent de rechercher la présence d’une date • La date de publication d’une page est une information importante pour en déterminer la pertinence http://www.capitaine-commerce.com/2007/12/20/ http://fr.rian.ru/business/20071001/81826681.html
  • 12. Test sur l’extension • L’analyse de l’extension permet de déterminer s’il s’agit d’une page (.html, .php, etc.), d’un fichier multimédia (.jpg, .png, etc.), ou d’un flux RSS (.xml) • On peut ensuite savoir quels traitements postérieurs seront possibles ou nécessaires : il est par exemple inutile de crawler les adresses pointant vers un fichier multimédia
  • 13. Recherche du type de site • Certains tokens (ex. : ‘wiki’ ou ‘blog’) permettent de déterminer le type de site correspondant à l’URL http://forums.thinkpads.com/viewtopic.php?f=43&t=86489 type="forum" • Le type de site peut également être déterminé à partir des listes de sites utilisées pour l’analyse http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale- comprend-la-crise.html type="actualités"
  • 14. Parsing du titre • On fait l’hypothèse que le dernier token avant l’extension est le titre de la page • On élimine tous les nombres de plus de quatre chiffres, ainsi que tout se qui se trouve avant un underscore, dans le premier token • On tokenize ensuite sur ‘-’ , le seul séparateur possible http://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard- deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html titre="un milliard deuros provisionné pour les traders de bnp paribas"
  • 15. Des tags pour les autres informations • Si un mot qualifiant a été identifié dans l’URL, mais pas à une position particulière (ni nom du site, ni titre de la page), il est récupéré sous forme de tag : http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/ 53169148-fr.php tags="creation entreprise"
  • 16. 3. Résultats provisoires • A l’issue du script on dispose au minimum, pour chaque URL, du nom du site. • On parvient à identifier un type d’auteur dans 60-70% des cas • On dispose également de plusieurs tags (environ 5 par URL en moyenne)
  • 17. Exemples complets I http://al-turayya.hautetfort.com/archive/2010/03/08/ faire-un-don-pour-soutenir-mon-blog.html <url site="al turayya" page_title="faire un don pour soutenir mon blog" auteur="perso" type="blog" service="hautetfort" lang="fr" filetype="text/html" date="08/03/2010">http://al-turayya.hautetfort.com/ archive/2010/03/08/faire-un-don-pour-soutenir-mon- blog.html</url> http://www.ameliste.fr/ <url site="ameliste" auteur="commercial" lang="fr"> http://www.ameliste.fr/</url>
  • 18. Exemples complets II http://www.lalibre.be/economie/finance/article/ 285542/ing-a-bien-commence-l-annee.html <url site="lalibre.be" page_title="ing a bien commence l annee" tags="economie finance article" auteur="média" lang="fr" country="be" filetype="text/ html" date="08/03/2010">http://al- turayya.hautetfort.com/archive/2010/03/08/faire-un- don-pour-soutenir-mon-blog.html</url>
  • 19. 4. Traitements postérieurs • A l’issue de ce premier traitement, on peut envisager d’affiner la classification des URL • On classifie les URL du corpus de référence en fonction d’une typologie plus fine, créant ainsi des ‘profils’ • Dans un second temps, on peut envisager d’utiliser ce corpus annoté avec un programme d’apprentissage automatique supervisé