Mais conteúdo relacionado Semelhante a Boostez vos recherches sur Internet (20) Mais de Béatrice Foenix-Riou (6) Boostez vos recherches sur Internet1. Boostez vos recherches sur Internet
Béatrice Foenix-Riou
BFR Consultants
www.bfr-consultants.com
ADBS Lyon Rhône-Alpes &
ADBS Secteur Veille
15 avril 2011
2. Boostez ses recherches sur Internet
En France, en mars 2011,
91,6 % des internautes utilisant un outil de recherche
ont interrogé … Google !
Google, pourtant :
-> ne couvre que partiellement le Web visible,
-> et ignore totalement le Web invisible…
1 © BFR Consultants - 2011
3. Boostez ses recherches sur Internet
WEB VISIBLE
Tout ce qui peut être indexé par un moteur
FONCTIONNEMENT DES MOTEURS
Les moteurs (Google…) sont composés de trois éléments :
• un robot : logiciel qui parcourt le Web de liens en liens et qui « copie »
toutes les pages qu’il rencontre
• un index : qui contient le texte des pages rencontrées par le robot
• une interface Web
2 © BFR Consultants - 2011
4. Boostez ses recherches sur Internet
WEB VISIBLE
Tout ce qui peut être indexé par un moteur
-> Croissance exponentielle
☛ Entre septembre 1998 et septembre 2005, l’index de Google a été
multiplié par 1000 ! (de 24 millions à 24 milliards de pages !). Dernière
communication sur la taille de son index en sept. 2005.
☛ Juillet 2008 : Cuil.com : 120 milliards de pages
☛ Juillet 2008 : Google annonce que son système a identifié (mais pas indexé)
… mille milliards d’URLs !
☛ Pour autant, la recherche ne se fait que sur une partie de l’index du
moteur, et le nombre de résultats annoncé est toujours très largement
surestimé ! (il suffit de tenter d’afficher « tous » les résultats – dans la limite
des 1000 autorisés – pour prendre Google en défaut…)
3 © BFR Consultants - 2011
6. Boostez ses recherches sur Internet
WEB INVISIBLE
La partie immergée de l’iceberg
Appartiennent au Web invisible :
• Banques de données = pages dynamiques
• Sites avec identification
• Serveurs classiques
• Formats spécifiques
• [no robot]
☛ Gisement mal couvert par les moteurs
☛ Mais frontières de plus en plus « perméables »
5 © BFR Consultants - 2011
7. Boostez ses recherches sur Internet
CONSEQUENCES
Ce mode de fonctionnement des moteurs a plusieurs
conséquences :
-> aucun moteur n’a la même couverture (ni le même classement) ;
-> la recherche se fait sur l’index des moteurs -> sur la copie des
pages telles qu’elles étaient lorsqu’il les a copiées
-> pour être indexé par un moteur, un site doit être référencé, ou
posséder de nombreux « backlinks »
-> pour optimiser sa recherche sur le Web visible et invisible, il faudra
choisir avec soin la famille d’outils de recherche que l’on va interroger
6 © BFR Consultants - 2011
8. Les moteurs de recherche
1. LES MOTEURS DE RECHERCHE
Google
Yahoo!
Bing.com
Exalead
etc
7 © BFR Consultants - 2011
9. Les moteurs de recherche
PRINCIPES DE FORMULATION
• L’utilisateur saisit un ou plusieurs mots-clés dans le
formulaire
• La requête est lancée sur le texte intégral des pages enregistrées par
le moteur (contenues dans son index)
• La page de résultats affiche la liste et les extraits des (copies de)
pages contenant le(s) mot(s)-clé(s) (à la date de l’indexation)
• Un clic sur le titre affiche la page aujourd’hui sur le Web
8 © BFR Consultants - 2011
10. Les moteurs de recherche
REGLES
• Utiliser des mots aussi PRECIS que possible, dans la langue des
documents que l’on recherche
• Utiliser « LES GUILLEMETS » pour rechercher une personnalité (« prénom
nom »), un mot-composé ou une expression/citation (titre d’un ouvrage…)
• Ecrire de préférence les mots AVEC leurs ACCENTS
• Comparer les résultats au SINGULIER et au PLURIEL
(ex.: « agent intelligent » OR « agents intelligents »)
9 © BFR Consultants - 2011
11. Les moteurs de recherche
MAIS ATTENTION…
• GUILLEMETS : signifie théoriquement « tel quel » (dans l’ordre)
- il faudra donc utiliser les différentes variantes : exemple « prénom
nom » OR « nom prénom » OR « initiale prénom nom » OR…
- à utiliser uniquement lorsque les mots doivent être obligatoirement
côte à côte : exemple : « bibliothèque numérique » oui ; « consommation
de carburants » non…
• ACCENTS : théoriquement non pris en compte par Google…
- mais incohérences lorsque le mot est entre « guillemets »
exemple : « a parts egales » : 295000 résultats ; « a parts égales » :
77 500 résultats ; « à parts égales » : 5 490 000 résultats !
- mais bug lorsque la recherche est limitée au titre :
recherche alors sur l’occurrence exacte du mot (avec ou sans accents)
10 © BFR Consultants - 2011
12. Les moteurs de recherche
MAIS ATTENTION…
• TRONCATURE :
- l’utilisateur ne peut exiger la troncature sur Google (contrairement à
Exalead) ;
- mais Google l’applique « quand il le juge utile » !!!, et pas seulement
sur les pluriels/singuliers…
exemple : bibliographie « jean racine » recherche aussi « biographie
« jean racine »
-> vérifier la façon dont Google a pris en compte les mots
- utiliser le cas échéant le + (+bibliographie « jean racine »)
- sur Google, le * fait office d’opérateur « de proximité » (« bibliothèque*
numérique* » recherche « bibliothèque mondiale numérique »…)
11 © BFR Consultants - 2011
13. Les moteurs de recherche
FONCTIONS AVANCEES
• Si le nombre de réponses est trop important : limiter la
recherche aux titres des pages
(ex.: intitle:«développement durable» (OR intitle:«developpement
durable»)
• Pour identifier des documents spécifiques (publications, chiffres…) :
limiter à un type de fichier
ex.: statistiques énergie filetype:pdf (ou doc, ppt, xls)
• Pour restreindre à certains types de sites : limiter selon le nom de
domaine
Ex.: statistiques énergie site:gouv.fr (ou site:industrie.gouv.fr)
• Si besoin : limiter à l’URL (veille inurl:univ)
-> Ne pas hésiter à combiner les critères
12 © BFR Consultants - 2011
14. Les moteurs de recherche
EXEMPLE : identifier rapidement quelques statistiques
officielles sur la consommation d’énergie en France
- consommation énergie : 13 800 000 pages sur Google
- consommation énergie site:gouv.fr OR site:insee.fr : 360 000 pages
- consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR
filetype:pdf : 13 500 pages
- consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR
filetype:pdf 2011 OR 2010 OR 2009 : 8 920 pages
- consommation intitle:énergie OR intitle:energie site:gouv.fr OR
site:insee.fr filetype:doc OR filetype:pdf 2011 OR 2010 OR 2009 :
2160 pages
13 © BFR Consultants - 2011
15. Les moteurs de recherche
ASTUCES
• Fonctions En cache de Google :
-> retrouver une page disparue
-> repérer les extraits pertinents
• Fonction Pages similaires (related:url sur Google)
-> identifier les sites concurrents
-> identifier d’autres sites de même type
• Utiliser l’opérateur OR (en majuscules), pour étendre aux mots de forme
voisine, aux synonymes…
• Utiliser les symboles +mot pour rechercher un mot tel qu’il est écrit et
-mot pour exclure un mot
14 © BFR Consultants - 2011
16. Les moteurs de recherche
ASTUCES
• Fonctions define: de Google (ex.: define:blog)
-> trouver des définitions (mais il faut vérifier la source ; ex. define:ordinateur)
• Fonction conversion de Google (ex.: 18 dollars en euro ; devise du Brésil en
monnaie mexicaine)
• Fonction numrange: de Google
(ex.: « énergie renouvelable » 2015..2100)
-> trouver des pages contenant un chiffre compris entre deux fourchettes ; utile
pour données prospectives
• opérateur AROUND(n) sur Google, NEAR/n sur Exalead
(ex.: marché AROUND(5) tourisme : retrouve les pages contenant marché et
tourisme à 5 mots maximum l’un de l’autre
15 © BFR Consultants - 2011
17. Les moteurs de recherche
NOUVELLES FONCTIONNALITES
Nouvelles fonctionnalités de Google, dans la colonne de gauche :
- Sources : sélection par type de résultats (vidéos, actualités, blogs, forums) ;
-> Date de publication (résultats récents, moins d’une heure, depuis 24h, depuis
une semaine…) ou Période personnalisée : possibilité de retrouver des
documents « publiés » à une date donnée ou une période donnée (équivalent
daterange:date1-date2)
- Informations connexes : Recherches associées ; Roue magique (concepts
proches)…
-> Chronologie : sélection chronologique de résultats les plus populaires
- Affichage : avec images, résumé textuel + long…
- Traduction des résultats
16 © BFR Consultants - 2011
18. Les moteurs de recherche
IDENTIFIER DES PAGES DE LIENS
Lorsque l’on souhaite identifier une liste de sites web sur un sujet,
et que la requête amène trop de résultats -> rechercher
spécifiquement des pages de liens
Pages contenant le mot-clé + le mot liens (ou le mot sites) dans le titre ou dans l’URL
Exemple : identifier une liste de ressources concernant les énergies renouvelables
- « énergies renouvelables » : 2 190 000 pages sur Google
- « énergies renouvelables » intitle:liens OR inurl:liens :
47 800 pages sur Google
- intitle: « énergies renouvelables » OR intitle: « énergies
renouvelables » intitle:liens OR inurl:liens : 1 130 pages
17 © BFR Consultants - 2011
20. Les moteurs de recherche
GOOGLE TRADUCTION
Pour savoir savoir ce qui se dit sur un sujet dans une langue différente…
19 © BFR Consultants - 2011
21. Les moteurs de recherche
UN MONDE DOMINE PAR TROIS GEANTS
Google (sept. 1998) (www.google.fr)
• Juillet 2000 : 1% du trafic mondial. Est choisi par Yahoo! pour remplacer Inktomi
• Septembre 2001 : 30% du trafic en France (1ere place) (Xiti)
• Février 2011 : 91,4 % du trafic en France (Xiti) (64,9 % aux USA - Comscore)
Yahoo! (avril 1994) (fr.search.yahoo.com ou www.yahoo.fr)
• Septembre 2001 : 24% du trafic en France (1ere place) (Xiti)
• Février 2011 : 1,4% du trafic en France (Xiti) (17,3 % aux USA)
• Juillet 2009 : accord Yahoo/Microsoft. Yahoo! utilise la technologie Bing aux USA
Microsoft (www.bing.com)
• Septembre 2001 : 8% du trafic en France (5° place) (Xiti)
• Février 2011 : 3,7 % du trafic en France (Xiti) (13,4% aux USA)
20 © BFR Consultants - 2011
22. Les moteurs de recherche
DES OUTSIDERS A PRENDRE EN CONSIDERATION
Exalead (2004) (www.exalead.fr)
• développé par la société française Exalead
• point fort : expressions connexes
• point fort : critères de recherche sophistiqués
16 milliards de pages
21 © BFR Consultants - 2011
24. Les annuaires généralistes
FONCTIONNEMENT
☛ Description de sites Web (titre et résumé) répertoriés dans des rubriques et
sous-rubriques. Travail humain d’indexation
☛ Recensent les sites grand public et professionnels, tous domaines confondus.
Pas de sélection qualitative
☛ Part très importante de sites d’entreprises.
☛ Recherche par choix successifs ou par mots sur les catégories et les
descriptifs des sites
☛ La page de résultats affiche la liste des sites répondant à la requête
23 © BFR Consultants - 2011
25. Les annuaires généralistes
EVOLUTION
☛ En voie de disparition
☛ Exception : l’Open Directory (www.dmoz.org) - modèle
économique différent
24 © BFR Consultants - 2011
26. Les annuaires généralistes
UTILES POUR :
• débroussailler un sujet en identifiant des SITES spécialisés
• identifier des sites localisés dans un pays
Exemple : repérer des sites dans le domaine de la pollution
- pollution : 93 400 000 pages sur Google
-> sur Dmoz.org : pollution dans World: Français:
rubrique «World: Français: Sciences: Environnement: Pollution» :
31 sites et sous-rubriques comme Ozone, Pollution sonore…
25 © BFR Consultants - 2011
28. Les répertoires sélectifs
LES REPERTOIRES SELECTIFS
• Une offre ancienne, qui évolue peu
• Réalisés souvent par des universités pour répondre aux
questions des enseignants, chercheurs…
• Recensent les sites professionnels à valeur ajoutée, dans
les domaines couverts par l’université (nombreuses
ressources du Web invisible). Sélection qualitative
• Couverture internationale, majoritairement anglo-saxonne
☛ Utiles pour identifier les sites de référence.
27 © BFR Consultants - 2011
29. Les répertoires sélectifs
UTILES POUR : identifier les sites de référence sur un
sujet (couverture ± université/recherche)
Exemple : identifier des banques de données sur le théâtre
• Google : « banque de données » théâtre : 5 310 000 pages
• Dmoz : «théâtre » : catégorie Top: World: Français: Regional: Europe: France:
Arts et culture: Arts du spectacle: Théâtre : 417 sites mais pas bdd
• Signets.bnf.fr : Arts: Arts du spectacle: Théâtre: Répertoires, bases de données
et catalogues
28 © BFR Consultants - 2011
30. Les répertoires sélectifs
QUELQUES REPERTOIRES SELECTIFS
• Bubl Link : http://bubl.ac.uk/link
Infomine : http://infomine.ucr.edu/
Intute : www.intute.ac.uk
IPL2 : www.ipl.org
Signets de la BnF : http://signets.bnf.fr
Signets universités : www.signets-universites.fr
Pour identifier les répertoires sélectifs :
☛ Signets de la BNF : signets.bnf.fr/
rubrique Outils Internet - choix Répertoires sélectifs
29 © BFR Consultants - 2011
32. Les outils thématiques
LES OUTILS THEMATIQUES
Recensement aussi complet que possible de sites sur un sujet ou dans un
domaine particulier (chimie, agriculture, bois…).
2 niveaux :
• Sites fédérateurs et pages de liens
• Annuaires thématiques et « vortails »
31 © BFR Consultants - 2011
33. Les outils thématiques
☛ Les sites fédérateurs
Listes de liens sur un sujet -> signets
Réalisés par un expert / passionné
Sélection qualitative
☛ Utiles pour démarrer une recherche sur une question précise
☛ Identifiables via les fonctions avancées des moteurs (veille inurl:liens OR
intitle:liens)
32 © BFR Consultants - 2011
34. Les outils thématiques
☛ Les annuaires et portails thématiques
Ex.: CTC, Cismef…
Approche verticale
Nombreuses informations sur un domaine : annuaire + actualités + forums
Arborescence plus homogène
☛ Utiles pour approfondir une recherche, ou pour identifier les
professionnels d’un domaine
33 © BFR Consultants - 2011
35. Les outils thématiques
QUELQUES ANNUAIRES ET PORTAILS THEMATIQUES
Chimie : www.chemindustry.com
Industrie : www.usinenouvelle.com/web
Médecine : www.cismef.org
Management : www.manager-go.com
Statistiques : www.nationmaster.com
Economie : www.helsinki.fi/WebEc
☛ Pour identifier un annuaire thématique
• interroger un annuaire d’annuaires : www.lesannuaires.com
www.objectifgrandesecoles.com/pro/secteurs/index.htm; www.indicateur.com
• interroger un annuaire généraliste, avec « thème + annuaire »
• interroger un moteur, avec « annuaire de … » (ou intitle:annuaire intitle:thème)
34 © BFR Consultants - 2011
36. Optimiser ses recherches sur Google
CONCLUSIONS :
• L’interrogation de Google reste un excellent point de départ pour démarrer
une recherche – à la condition toutefois de bien formuler sa requête et de tirer
parti des fonctions avancées du moteur –
• Mais il est impératif d’utiliser :
-> d’autres moteurs (Exalead..) pour compléter des résultats ;
-> d’autres familles d’outils – notamment des annuaires généralistes, sélectifs
ou thématiques – dès lors que l’on souhaite identifier une liste de sites (dans un
pays, dans un domaine, etc), repérer des sources à valeur ajoutée, etc.
35 © BFR Consultants - 2011
37. POUR EN SAVOIR PLUS
Sites Web + blogs
– www.abondance.com
– www.outilsfroids.net…
– http://blog.recherche-eveillee.com
Lettre bimestrielle NETSOURCES (articles de plus d’un an en accès libre sur
www.bases-publications.com)
« Recherche éveillée sur Internet : mode d’emploi - Outils et méthodes
pour explorer le Web (visible, invisible, social, temps réel) »
Béatrice Foenix-Riou
Co-édité par Bases Publications et Lavoisier, avril 2011
36 © BFR Consultants - 2011
38. Pour tous renseignements
Béatrice Foenix-Riou
BFR Consultants
www.bfr-consultants.com
contact [at] bfr-consultants [point] com
37 © BFR Consultants - 2011