Cette présentation est composée de deux parties. Une partie théorique sur la méthodologie de recherche d'information sur Internet, ainsi qu'une présentation des outils disponibles (moteurs de recherches, méta-moteurs et annuaires).
Et, une deuxième partie plus pratique centrée sur l'utilisation de Google.
2. Plan de la formation
– La recherche d’information sur le Web : quelles sont vos pratiques ?
– Quelques rappels théoriques sur le World Wide Web : évolutions,
avantages et limites.
– Et si on parlait de méthodologie !
– Préciser sa recherche
– Construire sa stratégie de recherche
– Analyser ses résultats
– Quels outils utiliser ?
– Annuaires
– Moteurs de recherche
– Méta-moteurs
– Focus sur Google.
– Exercices.
2
3. Quelques chiffres
– En juin 2010, 1.9 millions d’internautes1
– Explosion du nombre de sites web : près de 207 millions2 en 2010 !
– 1 000 milliards de pages web répertoriées par Google
– Les 3 principales activités sur Internet sont (internautes Européens)3 :
– La recherche d’information
– La consultation des courriels
– La communication via les réseaux sociaux
1- http://www.internetworldstats.com
2- http://news.netcraft.com/archives/category/web-server-survey/
3- http://www.journaldunet.com/cc/01_internautes/inter_usage_eu.shtml
4. Quelles sont vos pratiques
– Quelles recherches faites-vous ?
– Quels outils utilisez-vous ?
– Perdez-vous du temps ?
– Etes-vous satisfait des résultats obtenus ?
5. Quelques rappels théoriques sur le Web
– Du Web 1.0…
• Le World Wide Web (www) = une composante d’Internet
• Dématérialisation de l’information, changement de support
• Hyperliens reliant les pages web entre elles
• Démultiplication des flux d’information
– … au Web 2.0
• Auto-publication (blogs, wikis…) : aujourd’hui tout le monde peut
devenir producteur d’informations sur le Web
7. Les limites et les dangers du Web
– Les risques d’« infobésité » : impossibilité de cerner l’étendue du web
– Comment filtrer et exploiter la surabondance des résultats ?
– L’« info-pollution » : on y trouve le pire comme le meilleur
– D’où la question de la validité et de la fiabilité de l’information
– L’« info-zapping » : l’instabilité, le renouvellement continu
– La gratuité VS une sphère commerciale
– Publicités, achat de mots-clés, liens sponsorisés, positionnement
payant…
8. Le Web profond ou invisible
– Partie du web accessible en ligne mais non indexée par des moteurs de
recherche classiques généralistes
– Beaucoup plus vaste que le web indexé : ressources volumineuses et
souvent de très bonne qualité !
– Les causes :
– pages générées dynamiquement (via des formulaires de recherche, des
bases de données)
– absence d’hyperliens
– sites nécessitant une authentification, avec ou sans un accès payant
– certains formats de données (Flash, Javascript)
– pages interdites de référencement…
9. Et si on parlait de méthodologie !
– Préciser sa recherche : que cherche-t-on exactement ?
– Quel type d’information ai-je besoin : des informations sur une
personne, un organisme, une entreprise ?
– Quelle couverture : des informations scientifiques et techniques,
économiques, juridiques, sur l’actualité ?
– Quel est le contexte de ma recherche ?
– Comment dois-je restituer mes résultats (article scientifique ou
connaissance personnelle) ?
10. Construire sa stratégie de recherche (1/2)
– Quels outils utiliser ?
– Annuaire, moteur de recherche, méta-moteur ?
– en fonction du type de recherche et de la thématique de recherche
– Comment les utiliser ?
– Consulter l’aide de chaque outil pour connaître les règles et astuces
d’interrogation
– Choisir les mots-clés et les expressions de recherche appropriés :
· S'aider de dictionnaires, encyclopédies
· Trouver des synonymes, penser aux singuliers/pluriels, attention à la
polysémie
· Traduire les termes en plusieurs langues
– Construire ses requêtes : utiliser les opérateurs booléens et les
parenthèses pour combiner les mots-clés
– Utiliser si possible la « recherche avancée», plus précise
11. Construire sa stratégie de recherche (2/2)
– Analyser les résultats de sa recherche et la relancer :
– Pertinence des résultats ?
– Trop nombreux (« bruit ») : affiner sa recherche (termes spécifiques),
trier les résultats, filtré par date, langue ou type de document.
– Insuffisants (« silence ») : élargir sa recherche (termes génériques)
– Utiliser de nouveaux termes ou mots-clés apparus dans les résultats
– Dans tous les cas : vérifier la validité des sources d’information
– privilégier les sources officielles
– multiplier et confronter les sources : utiliser plusieurs outils
13. De nombreux outils à votre disposition !
– Les outils propres au Web (interrogent l’ensemble ou une partie du
web) :
– qui ont leur propre base : moteurs de recherche, annuaires
– qui exploitent les bases d’autres outils : métamoteurs
Quelles sont leurs spécificités ?
Dans quel cas les interroger ?
– Les outils disponibles via le Web :
– bases de données spécialisées
– catalogues de bibliothèque
– Encyclopédies
– …
14. Annuaires et portails : fonctionnement :
avantages et limites
– Généralistes ou spécialisés
– Indexation humaine des sites : faite par des professionnels selon une
classification validée
– Recherche par arborescence, navigation dans des catégories
– Avantages :
– limitation du « bruit » : choix des informations, outils qualitatifs, recherche dans
le web invisible
– classement raisonné par catégories et sous-catégories
– Limites :
– « silence » sur certains sujets, moins d'exhaustivité
– mise à jour moins rapide qu’un moteur de recherche
A utiliser pour :
– explorer plus en profondeur un sujet
– trouver des sites ressources dans un domaine ou des sites similaires
15. Annuaires et portails : quelques exemples
– Généralistes :
– DMOZ l’Open Directory
– Yahoo Directory
– Signets de la BnF
– Spécialisés ou thématiques :
– Intute : Intute - Science, Engineering and Technology
– Sciseek : sciences
16.
17. Les moteurs de recherche :
fonctionnement (1/5)
– Moteurs généralistes ou spécialisés
– L'exploration ou crawl :
– le Web est exploré par un robot (crawler, spider) qui suit tous les hyperliens
– L'indexation automatique :
– extrait et enregistre dans une base (sous la forme d’un gigantesque index) les
mots considérés comme significatifs de chaque ressource repérée
– permet au moteur de retrouver rapidement où se situe un terme significatif.
– Les termes non significatifs s'appellent des mots vides de sens : de, le…
– La recherche :
– correspond à la partie requête du moteur
– restitue les résultats
– un algorithme est appliqué afin de présenter les résultats par ordre de
pertinence : il tient généralement compte du contexte du mot-clé (titre,
paragraphe, hyperlien...) et de la ressource elle-même (ressources liées,
popularité du site...)
18. Les moteurs de recherche :
avantages et limites (2/5)
– Avantages :
– Rapidité, immédiateté
– Recherche en texte intégral dans les pages web
– Par rapport à un annuaire : plus d'exhaustivité, mise à jour plus rapide
– Limites :
– Sélection automatique de l’information
– Hétérogénéité des sources et des formats interrogés
– « Bruit » documentaire, pertinence variable des résultats, publicités
– Fonctionnalités varient selon les moteurs
A utiliser pour :
– Une première approche
– Effectuer des recherches complexes (construction de requêtes)
– Repérer des sites récents
19. Les moteurs de recherche :
construire sa requête avec des opérateurs (3/5)
– Opérateurs booléens :
– Opérateur par défaut : utilisé implicitement dans la recherche (varie selon
l’outil)
– ET/AND : les deux mots saisis apparaissent dans les résultats
– OU/OR : l’un des deux mots ou les deux apparaissent dans les résultats
– SAUF/NOT : le terme saisi ne doit pas apparaître
– NEAR : les deux termes doivent apparaître l’un près de l’autre
– Les guillemets : recherche sur l’expression exacte saisie entre guillemets
– La troncature finale « * » peut remplacer la fin d’un mot
– Le caractère joker « ? » remplace un caractère et un seul au sein d’un
mot
– Caractère « + » ou « - » devant un mot : s’assurer de la présence (ou
absence) du mot dans la requête
– Comparatif des règles d’interrogation des moteurs Google, Yahoo et
Exalead :
http://bibli.ec-lyon.fr/documents/comparatif_moteurs_recherche.pdf
20. Les moteurs de recherche généralistes :
quelques exemples (4/5)
– Le préféré des internautes : Google
– interface d’interrogation épurée
– taille de l’index
– Pagerank : classement des résultats
– mais attention à la simplicité apparente !
– Autres moteurs les plus utilisés : Yahoo, Bing
– Fonctionnalités différentes offertes :
– Exalead (moteur Européen)
– Ask
– Lexxe : interrogation en langage naturel
21. Les moteurs de recherche généralistes :
quelques exemples (5/5)
– Littérature scientifique et technique (articles, livres, brevets, congrès…) :
• SCIRUS
• Google Scholar
• Google Patent : brevets
• Google Books : livres
• BioText Search Engine : articles et illustrations
• Scitopia - Sciences et Techniques
• TechXtra - Engenierie, mathématiques et informatique
• OAIster - le moteur des archives ouvertes
22. Les métamoteurs (1/2)
– Effectuent une requête dans plusieurs moteurs de recherche à la fois
– Ils sont de deux types :
– Ceux qui intègrent et fusionnent les résultats obtenus, éliminent les doublons et
classent les résultats par ordre de pertinence ou par catégorie
– Ixquick
– Yippi
– Metacrawler
– PolyMeta
– Ceux qui donnent les résultats en listes séparées selon le moteur interrogé
– Hooseek
23. Les métamoteurs (2/2)
– Valeur ajoutée : ajouts de fonctionnalités innovantes (affichage et tri des
résultats, regroupement des résultats par catégories…)
• TouchGraph offre une représentation cartographique des résultats
• iBoogie propose une présentation des résultats par catégorie
– Avantages : gain de temps et élargissement du champ de recherche
– Limites : pas de syntaxe commune, impossible d’utiliser les fonctionnalités
avancées des moteurs de recherche
A utiliser pour :
– Débroussailler rapidement un sujet
– Repérer les outils qui répondent le mieux à un sujet
29. Focus sur Google
– Google, est bien plus qu’un moteur de recherche classique :
– Calculatrice (+, -, *, /, ^, %, % of)
– Définitions de dictionnaires (ex : define:ingénieur)
– Recherche dans un site web (ex : site:www.ademe.fr)
– Recherche de valeurs comprises dans un interval (ex : camera $100…$300)
– Pour aller encore plus loin , Google affiche instantanément :
– Conversions d’unités de mesures (ex : 5 m/s IN km/s)
– Des constantes mathématiques (G, r_earth…)
– Conversion de devises (ex : 54 EUR IN GBP)
– Cours de la bourse (ex : GOOG)
– Un brevet, un suivi de colis FeDex ou UPS.
– Mais aussi …
– La météo (ex : meteo Lyon)
– Un plan (ex : carte san francisco)
– Les résultats sportifs (ex : OL)
30. Excercices
– Effectuer les recherches suivantes :
– J’aimerais savoir pourquoi il faut remplacer SF6 par de nouveaux gaz ou de
mélanges gazeux.
Comment traduire ce besoin en équation de recherche (langue + date)
– Définition de la tribologie
– Les derniers résultats sportifs de Saint Etienne et du Milan AC
– Effectuer les conversions suivantes :
– Convertir 54 euros (EUR) en dollar américain (USD)
– Convertir 331 m/s en km/h
– Effectuez les calculs suivants :
– 87 divisé par 3.6
– 82 % des 1200 élèves de Centrale ont un emploi au plus tard 2 mois après
l’obtention de leur diplôme. Cela fait combien d’élèves ?
– Calculer le périmètre de la Terre (2πr)
31. Pour aller plus loin…
– Abondance, "Le" site sur l'actualité des annuaires et des moteurs de recherche.
– Doc’INSA. Sentiers d'Accès et des Pistes de Recherche d'Informations Scientifiques et
Techniques sur Internet, (Maj 2007).
– Formist, Ressources Electroniques Pour les Etudiants, la Recherche et l’Enseignement
(Maj 2010).
– URFIST de Lyon, Ressources pédagogiques, (Maj 2010).
– UQAM, Infosphères, sciences et technologies, (Maj 2010)
– URFIST de Rennes, supports de formations sur la recherche d’information
– Scérèn CNDP, Guide et outils pour chaque étape de la recherche documentaire. Savoir
CDI, (Maj 2009)
– UC BERKELEY Library, comparatif des principaux moteurs de recherche, (Maj 2010)
– Ecole Centrale de Lyon, Julien SICOT, Du bon usage de Google, (Maj 2008)