SlideShare uma empresa Scribd logo
1 de 49
Baixar para ler offline
Faculté Polytechnique



Étudiant d'un jour en
Polytech
De l'annuaire de sites à la recherche sociale: 15 ans
  d'évolution

Dr Ir Robert Viseur
robert.viseur@umons.ac.be



Etudiant d'un jour en Polytech - L'informatique, une affaire d'ingénieur! - Entre
réseaux sociaux, vie privée et infrastructure.
Mons, le 23 février 2012.
De l'annuaire à la recherche
                 sociale




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   2
1994 : création de Yahoo!
   Yahoo! démarre comme
     annuaire de sites Internet.
   
       Principe des « Pages Jaunes »
       adapté à la recherche de sites.
   
       Problèmes ?
       
           Fastidieux travail humain...
           
               De classement des sites dans des
               catégories.
           
               De mise à jour des informations
               (évolution des contenus, liens
               morts).
       
           Pas de prise en compte du contenu
           textuel du site.
       
           Croissance rapide du nombre de
           sites Internet.


Université de Mons       Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   3
1995 : création d'Altavista
   Premier moteur de recherche Web
     commercial.
      Deux parties importantes :
          Le « spider » qui parcourt le Web en passant
           de lien hypertexte en lien hypertexte, et
           découvre ainsi les pages Web disponibles.
          L' « indexeur » qui structure le texte contenu
           dans les pages Web d'une manière qui facilite
           la recherche par mot-clef.
      Points forts :
          Il découvre les contenus et procède aux
           mises à jour de manière automatique.
          Il permet la recherche « plein texte »
           (fulltext).
      Pour chaque recherche, les documents
       sont classés en fonction de la fréquence
       d'apparition du mot-clef recherché.

Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   4
1998 : création de Google

   Premier moteur de recherche
     prenant en compte la popularité
     des pages Web.
   
       Même principe qu'Altavista mais...
   
       Google analyse en plus les relations
       entre pages Web.
       
           Les pages les plus souvent citées sont
           jugées plus intéressantes.
       
           Chaque page est ainsi associée à un
           score d'autorité (= Pagerank).
   
       Pour chaque recherche, les pages sont
       classées en fonction de leur
       pertinence (fréquence d'apparition du
       mot-clef recherché et Pagerank).
Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   5
Les autres innovations de
                      Google
  Cluster de PC :
     Pour « motoriser » son moteur, Google
      renonce aux coûteux serveurs haut de
      gamme (serveurs « Alpha » chez
      Altavista) et utilise un cluster (groupe)
      d'ordinateurs standards à bas prix.
  « Light is better » :
     Google passe d'une page portail
      (Altavista) à une simple « boîte » de
      recherche.
  Publicité contextuelle :
     Google comprend très vite l'intérêt de
      proposer une publicité discrète et
      contextualisée.
         Google AdWords est lancé en 2000 ;
          Google Adsense, en 2003.

Université de Mons     Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   6
Quelques raisons au succès
             initial de Google
   Une gestion raisonnable de la propriété industrielle.
      Le brevet du Pagerank a été déposé par l'Université Stanford en
       1997.
   Une pertinence supérieure à celle des concurrents.
      Google présente en 1998 une pertinence supérieure à son principal
       concurrent, Altavista.
   Une capacité d'indexation supérieure à celle des
    concurrents.
      Les performances de l'algorithme de classement et la flexibilité du
       cluster de PC permettent l'augmentation rapide de la taille de
       l'index (nombre de pages enregistrées).
   Une rentabilité rapidement atteinte.
      Google est rentable dès 1998 et dépasse les 100 millions de dollars
       de CA dès 2001.

Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   7
Google aujourd'hui
   Diversification des activités.
      Moteurs spécialisés (Google News,
       Google Images, Google Books, Google
       Scholar,...).
      Vidéos (achat de Youtube).
      Cartographie (Google Maps).
      Mails (Gmail) et bureautique en mode
       SaaS (Google Docs).
      Outils : navigateur Chrome et OS
       mobile Android (maîtrise de
       l'expérience utilisateur).
      ...
   Évolution continue de l'algorithme
     de classement.
      Ajout de filtres, évolution du Pagerank
       (Trustrank ?), recherche universelle,...
   Un échec (?) : les réseaux
    sociaux.


Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   8
2004 : création de Facebook
Réseau social (synchrone)
  permettant :
    la création d'un profil détaillé (plus ou
     moins privé),
    la publication d'informations (statuts,
     vidéos, photos,...).
Facebook pourrait atteindre 1 milliard
  d'utilisateurs inscrits à l'été 2012 !
Microsoft commence à exploiter les
  « Like » / « J'aime » de Facebook.
    But : personnaliser les résultats des
     recherches dans le moteur de recherche
     Bing...
    Et améliorer la pertinence globale des
     résultats de recherche ?

Université de Mons    Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   9
2006 : création de
                         Twitter (1/2)
   Twitter est un outil de réseau social
     (asymétrique) et de
     microblogage.
      Les utilisateurs postent des messages
       de 140 caractères (max.).
          Le « tweet » (gazouillis) est comparable
           à un SMS.
   Application du principe « Keep it
     Simple, Stupid ».
      Twitter laisse les pratiques émerger
       (plutôt que de les « forcer »), et les
       accompagne.
      Twitter permet aux utilisateurs de
       développer leurs propres services via
       une API publique.


Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   10
2006 : création de
                        Twitter (2/2)
   De 2009 à 2011, Google a
    indexé les tweets publics.
   Surtout, Twitter a émergé
     comme plate-forme de
     recherche d'information
     « temps réel »
   
       Complément aux moteurs de
       recherche d'actualités comme
       Google News.
   
       Exemple : séisme du 12 janvier
       2010 en Haïti.
   
       Les informations « chaudes » sont
       « retweetées » (« RT »,
       « hashtags »).                                              La révolution égyptienne sur Twitter   ↑


Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation         11
Chercher... Oui, mais quoi, et
              comment ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   12
Bien utiliser les outils de
                   recherche
   Les outils de recherche sont :
   
       diversifiés,
   
       puissants,
   
       éphémères (parfois).
   Donc, il faut être capable de :
   
       les découvrir,
   
       en exploiter les fonctionnalités cachées (ou peu
       connues),
   
       croiser l'information.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   13
Diversité des outils de
                    recherche
   Exemples :
   
       Infobel : annuaire de personnes et d'entreprises.
      Banque Carrefour des Entreprises : documents officiels des
       entreprises.
   
       Who is : recherche d'information sur les noms de domaine.
      Facebook, Twitter, LinkedIn,... : recherche de profils utilisateurs.
      Google Images : recherche avancée d'images et de photos.
      Google Books : recherche dans les livres.
      Google Scholar : recherche dans les articles scientifiques.
      Google Web : recherche d'informations générales (principe de la
       « recherche universelle »).
      Google Maps / Streetview : vue satellite / vidéo des villes.
      ...



Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   14
Fonctions avancées des outils
               de recherche
   Exemple (Bing) :
   
       Par défaut : recherche par mot-clef.
   
       Opérateurs booléens : AND, OR, NOT.
   
       Opérateurs avancés (support variable dans le temps!) :
       
           « site: » : permet de cibler la recherche sur un site.
       
           « filetype: » : permet de restreindre la recherche à un type de
           fichier.
       
           « feed: » : permet de trouver des flux RSS.
       
           « loc: » : permet de restreindre la recherche aux sites associés
           à un pays donné.
       
           « ip: » : permet de lister les sites hébergés à la même adresse
           IP (= adresse associée à chaque ordinateur connecté).
       
           ...


Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   15
Croisement d'informations

   Voir la recherche
     d'informations comme
     une enquête
     policière...
   Existence d'outils
     intégrés.
   
       Exemple: recherche
       d'informations
       personnelles.
       
           123People (cf.     www.123people.com     ).




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   16
Exemple n°1 – Spam « Euro
            Software » (1/2)
   280 euros sur une licence Windows Vista, 900
     euros sur une licence Photoshop...
   Bonne affaire ou véritable arnaque ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   17
Exemple n°1 – Spam « Euro
               Software » (2/2)
   Que dit whois.org ?
   
       Le nom de domaine a été déposé le 16/05/2008 par un certain
       liu bin / wu han huoche zhan / 410214, semble-t-il basé à
       Beijing (Chine).
   Que dit loc8ip.com ?
   
       Le site a pour adresse « 211.49.115.57 » et est hébergé en
       Corée du Sud.
   Que dit bing.com ?
   
       Le serveur « 211.49.115.57 » (opérateur « ip: ») héberge des
       sites clones (comme zasofta.com ou dasofte.com) mais aussi plusieurs
       sites de casino en ligne (netgamemagic.com, eurocasinoajy.com, gamenetmagic.net,
       casinorichdot.net, www.eurocasinoajn.com,...).


   → conclusion : à éviter...
   [Test fait le 31 mai 2008]


Université de Mons              Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   18
Exemple n°2 - « Voici l'accusatrice
     de Koekelberg » (1/2)
       Sur DH.Net : « Voici
        l'accusatrice de
        Koekelberg » (cf.
        shrl.be/000087).

   
       Pas de nom,
       uniquement un prénom
       et une photo (avec un
       bandeau sur les yeux).
       
           Anonymat respecté ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   19
Exemple n°2 - « Voici l'accusatrice
     de Koekelberg » (2/2)
   Procédure:
   
       Ouvrir un onglet Google Images.
   
       Transférer la photo dans la zone de
       recherche.
   
       Prendre le premier résultat (page avec
       photo originale sans bandeau) :


           Laurence Vxxxxxxxxr
           GSM : 0476/6x.xx.x1
           laurence.vxxxxxxxxr@rxxxxxxxxxxxxn.org




   
       Remarque: la photo originale a depuis été
       retirée du site.
Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   20
Du cluster au réseaux de
            fermes d'ordinateurs




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   21
Altavista en 1998

   140 millions de documents indexés.
   13 millions de requêtes par jour.
   20 serveurs multiprocesseurs 64 bits Digital
     Alpha.
      (chiffres :   wikipedia.org   ,   searchenginewatch.com   )




                                                                                                ← Évolution des citations
                                                                                                dans les livres (via Google
                                                                                                Books).

Université de Mons          Dr Ir R. Viseur           |   FPMs : Service d'Économie et de Management de l'Innovation          22
Google en 2011
   40 milliards de pages indexées.
   
       Contre 8 milliards de pages indexées et 1 billion d'URLs
       traitées en 2008
   Trafic : 1 milliard de requêtes par jour sur Google.com.
   Plus d'un million de serveurs (ordinateurs).
   
       Pour faire quoi ?
       
           Gérer (= collecter, indexer, mettre à jour, etc.) le volume
           croissant de données.
           
               Moteur de recherche mais aussi services annexes : Google Mail, Google
               Docs, Picassa, etc.
       
           Répondre aux requêtes des utilisateurs.
   
       A comparer aux 6.000 serveurs détenus en 2003, et 400.000
       en 2006 (wikipedia.org).
   
       Soit ~2% des ordinateurs au monde (!).
Université de Mons       Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   23
Datacenters Google

   Installation de Ghlin : plus de 250 millions
     d'investissements locaux, et la mobilisation
     de multiples métiers de l'ingénieur !




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   24
Pourquoi s'installer à Ghlin ?

   Plus de 100ha de
     zoning encore
     disponibles.
   Zoning bien fourni en
     infrastructures.
   
       Alimentation électrique,
       fibre optique,...
   Présence du canal en
     bordure de zoning.
   
       Important pour le
       refroidissement !

Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   25
Un challenge : le
                      refroidissement
   Comment refroidir 100.000
     ordinateurs fonctionnant
     en parallèle ?
   Par de la climatisation ?
   
       Trop coûteux !
   
       Solution ?
       
           Le refroidissement par eau !




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   26
L'installation près de l'eau

   Le datacenter est construit
     le long d'un canal ou d'un
     fleuve.
   
       L'eau y est pompée, puis
       épurée.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   27
L'évacuation de la chaleur

   Les ordinateurs (modèle conçu par Google) sont
     installés dans des containers optimisant la
     circulation et l'évacuation de la chaleur.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   28
L'évacuation de la chaleur

   La chaleur des machines est extraite dans le
     datacenter via un système de refroidissement
     (air → eau), puis...
   L'eau chaude est refroidie à l'extérieur du
     datacenter via un système de refroidissement
     (eau → air).




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   29
La quête de l'efficacité
                   énergétique
   But de ce dispositif ?
   
       Améliorer l'efficacité
       énergétique du datacenter.
   
       C'est-à-dire abaisser son
       PUE (Power Usage
       Effectiveness).


   Intérêt pour Google ?
   
       Moins de CO² émis...
   
       Et coûts d'exploitation plus
       faibles !

Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   30
Que peut-on faire d'autre ?

   Optimiser les logiciels utilisés dans les datacenters.
      Exemple : Facebook (30.000 ordinateurs en 2011) utilise une version
       compilée du langage PHP (compilateur HipHop).
   Développer des ordinateurs ayant besoin de moins
    d'électricité et chauffant moins.
      Exemple : Google utilise son propre modèle de serveur.
   Placer au maximum les centres de données dans des pays
     froids, et y concentrer la charge.
      Exemple : Google a récemment construit un datacenter à Hamina en
       Finlande (alimenté par l'eau de la mer).
   Investir dans les énergies renouvelables.
      Exemple : OVH (Roubaix, France ; premier hébergeur européen)
       dispose d'éoliennes pour son datacenter de Strasbourg.


Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   31
Et si vous expérimentiez par
              vous-mêmes ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   32
Le Web en tant que plate-
                        forme
   Évolution :
   
       1995 : l'utilisateur d'Internet est un consommateur passif de
       contenu.
   
       2005 : l'utilisateur d'Internet peut être co-producteur de
       contenus et de services (« Web 2.0 »).
       
           Il est en contact permanent avec les autres utilisateurs
           
               → Réseaux sociaux.
       
           Il rédige des articles sur des journaux participatifs, poste des
           commentaires sur les blogs, alimente l'encyclopédie
           collaborative Wikipédia, etc.
           
               → Co-création, « User Generated Contents », « crowdsourcing », etc.
       
           Il peut développer de nouveaux services en s'aidant des
           Interfaces de Programmation d'Applications (APIs) proposée par
           certains sites Internet.
           
               → Co-création, « Web as a Platform », mashups, etc.

Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   33
Application Programming
                Interfaces ?
   La face cachée des moteurs de recherche...




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   34
Bing API (1/2)

   Que permet de faire Bing API ?
   
       Récupérer, sous une forme structurée, les résultats
       d'une requête par mot-clef.
       
           Adresse : code.google.com, www.bing.com/toolbox/bingdeveloper/ .
       
           Les opérateurs, classiques ou avancés, des moteurs de
           recherche sont utilisables.
           
               Exemples : « + », « - », « ip: », « loc: », etc.
       
           Ces APIs fonctionnent généralement pour le Web (pages)
           mais aussi pour les actualités et les images.
   
       Concurrents : Google Custom Search, Yahoo! Boss, etc.




Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   35
Bing API (2/2)




  ↑ Étapes :

    - Récupérer les résultats d'une recherche par
      mot-clef sur plusieurs moteurs de recherche.
    - Les fusionner (les plus fréquents,
      les plus populaires, etc.).
    - Afficher un nouveau classement des résultats
      (principe du « métamoteur »).




Université de Mons         Dr Ir R. Viseur    |   FPMs : Service d'Économie et de Management de l'Innovation   36
Twitter API (1/2)

   Que permet de faire la Twitter API ?
   
       Piloter la plate-forme sociale Twitter (dev.twitter.com).
       
           Exemples :
           
               Récupérer les tweets postés sur la « timeline » en fonction de
               mots-clefs, d'une langue ou d'une zone géographique.
           
               A condition de s'être authentifié :
                        
                          Poster un tweet sur un compte Twitter depuis une
                          application extérieure.
                        
                          Récupérer l'information relative à un profil
                          utilisateur.
           
               ...
   
       Concurrent : Facebook API.



Université de Mons     Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   37
Twitter API (2/2)
                                           ← Étapes :

                                           - Collecte des tweets par API.
                                           - Identification des sujets (i.e. news citées dans
                                             les tweets via une URL raccourcie)
                                             les plus tweetés (ici : crash d'un avion).
                                           - Sélection d'utilisateurs (pour chaque sujet).




Université de Mons   Dr Ir R. Viseur   |     FPMs : Service d'Économie et de Management de l'Innovation   38
HostIP.info API (1/2)

   Que permet de faire l'API de Hostip.info ?
   
       Récupérer la localisation associée à une adresse IP
       (www.hostip.info).
       
           L'adresse IP identifie « grossièrement » votre ordinateur.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   39
HostIP.info API (2/2)




                                                                 ← Étapes :
                                                                   - Localisation d'un visiteur ou d'un serveur
                                                                     Web sur base de l'IP (ville et
                                                                     pays) avec HostIP.
                                                                   - Géolocalisation de la ville
                                                                     (longitude et latitude).
                                                                   - Affichage sur une carte Google Maps.
                                                                   - Autre usage possible : affichage
                                                                     de publicité locale sur un site Internet.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation             40
Google Maps API (1/2)

   Que permet de faire Google Maps API ?
   
       Géolocaliser une adresse postale.
   
       Afficher une carte localisant un point d'intérêt à partir
       de ses coordonnées GPS.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   41
Google Maps API (2/2)


                                                                 ← Étapes :

                                                                    - Pré-requis : base de données de terrils (RW).
                                                                    - Conversion des coordonnées géographiques
                                                                      (Lambert → WGS84).
                                                                    - Récupération des altitudes via l'U.S.
                                                                      Geological Survey (API).
                                                                    - Affichage des terrils sur Google Maps.
                                                                    - Exemples d'usage : trouver des terrils
                                                                      exploitables pour les schistes rouges
                                                                      (gravier décoratif), trouver des terrils
                                                                      hauts et chauves pour la photographie
                                                                      de panoramas,...        ↓




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation           42
Pour passer à l'action (1/2)

   Programmable Web
     (www.programmableweb.com).
   
       Répertoire d'APIs (plus de
       5000) et de « mashups »
       (plus de 6000).
         (mashups = combinaison d'APIs)




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   43
Pour passer à l'action (2/2)
   Il y a les APIs mais aussi :
   
       Les logiciels Open Source
       (logiciels librement utilisables
       et modifiables).
       
           Exemple : Apache Lucene
           (indexeur, permettant la création
           de moteurs de recherche
           personnalisés).
   
       L'Open Data (bases de données
       téléchargeables et
       réutilisables).
       
           Exemple : DBPedia, la version
           structurée (Web sémantique) de
           l'éncyclopédie en ligne
           Wikipédia.


Université de Mons    Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   44
Conclusions




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   45
Conclusions (1/2)

   Trois phases dans l'histoire des moteurs de
     recherche :
    La collecte manuelle (annuaires).


    L'indexation automatique de l'information


     (moteurs de recherche « plein texte »).
    La mise en œuvre progressive de la recherche


     sociale.
   Les outils de recherche sont nombreux, parfois
     éphémères, et proposent des fonctionnalités de
     recherches souvent méconnues.


Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   46
Conclusions (2/2)
   La mise en œuvre d'un moteur de recherche mondial suppose
     l'exploitation d'infrastructures importantes et énergivores.
    Ces infrastructures mobilisent plusieurs métiers de l'ingénieur :


      production locale d'électricité,


      création d'ordinateurs économes,


      optimisation des programmes informatiques,


      conception de systèmes de refroidissement efficaces,


      ...


   Les moteurs de recherche mettent souvent à disposition des interfaces
     de programmation d'applications.
    Elles vous permettent, moyennant quelques compétences

     informatiques, d'expérimenter leur fonctionnement.
    Elles permettent de répondre à des besoins diversifiés (pour des

     métiers parfois éloignés de l'informatique).

                     Et vous, quand commencez-vous ;-) ?
Université de Mons    Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   47
Quizz
   Combien de serveurs étaient utilisés par le moteur de recherche
     Altavista en 1998 ?
      Réponses : 20, 30 mille ou 100 mille ?
   Quel nombre d'utilisateurs inscrits le réseau social Facebook
    devrait-il atteindre à l'été 2012 ?
      Réponses : 100 mille, 100 millions ou 1 milliard ?
   Combien d'URLs le moteur de recherche Google traitait-t-il
     officiellement en 2008 ?
      Réponses : 140 millions, 8 milliards ou 1 billion ?
   Comment les datacenters Google sont-ils refroidis ?
      Réponses : Par évacuation naturelle de la chaleur (convection), avec des
       climatiseurs, avec de l'eau du robinet ou avec de l'eau « sale » ?
   Combien d'APIs publiques pouvez-vous utiliser sur Internet ?
      Réponses : plus de 100, plus de 5 mille, ou plus de 100 mille ?


Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   48
Merci pour votre attention.
                                   Des questions?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   49

Mais conteúdo relacionado

Semelhante a De l’annuaire de sites à la recherche sociale: 15 ans d’évolution!

Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Philippe YONNET
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stgamazonai
 
Formation ESFF 2013 Internet Jacques Loigerot
Formation ESFF 2013 Internet Jacques LoigerotFormation ESFF 2013 Internet Jacques Loigerot
Formation ESFF 2013 Internet Jacques LoigerotJacques Loigerot
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2BELVEZE Damien
 
Les clés du référencement
Les clés du référencementLes clés du référencement
Les clés du référencementOpenEdition
 
Management de la co-création (thèse de doctorat)
Management de la co-création (thèse de doctorat) Management de la co-création (thèse de doctorat)
Management de la co-création (thèse de doctorat) Robert Viseur
 
L'espace Internet, cartographie et repérage
L'espace Internet, cartographie et repérageL'espace Internet, cartographie et repérage
L'espace Internet, cartographie et repérageguest68d9511
 
Infopromotions intranet & rse 9 juin 2011 v1.1
Infopromotions intranet & rse 9 juin 2011   v1.1Infopromotions intranet & rse 9 juin 2011   v1.1
Infopromotions intranet & rse 9 juin 2011 v1.1CHARLES Frédéric
 
Les tendances du web
Les tendances du webLes tendances du web
Les tendances du webEmblematic
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...CYB@RDECHE
 
Urfist bordeaux-moteurs
Urfist bordeaux-moteursUrfist bordeaux-moteurs
Urfist bordeaux-moteursolivier
 
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...AKASIAS
 
Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3BELVEZE Damien
 

Semelhante a De l’annuaire de sites à la recherche sociale: 15 ans d’évolution! (20)

Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stg
 
Formation ESFF 2013 Internet Jacques Loigerot
Formation ESFF 2013 Internet Jacques LoigerotFormation ESFF 2013 Internet Jacques Loigerot
Formation ESFF 2013 Internet Jacques Loigerot
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2
Cours magistral Internet et Recherche documentaire, SCD Université de Rennes 2
 
Cm internet 2010 2011
Cm internet 2010 2011Cm internet 2010 2011
Cm internet 2010 2011
 
Les clés du référencement
Les clés du référencementLes clés du référencement
Les clés du référencement
 
Forum du GFII paris 2013
Forum du GFII paris 2013Forum du GFII paris 2013
Forum du GFII paris 2013
 
Management de la co-création (thèse de doctorat)
Management de la co-création (thèse de doctorat) Management de la co-création (thèse de doctorat)
Management de la co-création (thèse de doctorat)
 
L'espace Internet, cartographie et repérage
L'espace Internet, cartographie et repérageL'espace Internet, cartographie et repérage
L'espace Internet, cartographie et repérage
 
Infopromotions intranet & rse 9 juin 2011 v1.1
Infopromotions intranet & rse 9 juin 2011   v1.1Infopromotions intranet & rse 9 juin 2011   v1.1
Infopromotions intranet & rse 9 juin 2011 v1.1
 
Les tendances du web
Les tendances du webLes tendances du web
Les tendances du web
 
La curation comment collecter de l’information sur le web ?
La curation   comment collecter de l’information sur le web ?La curation   comment collecter de l’information sur le web ?
La curation comment collecter de l’information sur le web ?
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...
 
Urfist bordeaux-moteurs
Urfist bordeaux-moteursUrfist bordeaux-moteurs
Urfist bordeaux-moteurs
 
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...
Pourquoi l'Intelligence Stratégique pour la recherche et l'innovation ? - par...
 
Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3
 

Mais de Robert Viseur

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...Robert Viseur
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libresRobert Viseur
 
Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaRobert Viseur
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloudRobert Viseur
 
Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapeeRobert Viseur
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpRobert Viseur
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationRobert Viseur
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsRobert Viseur
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)Robert Viseur
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifRobert Viseur
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for DummiesRobert Viseur
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Robert Viseur
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueRobert Viseur
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresRobert Viseur
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Robert Viseur
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Robert Viseur
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libresRobert Viseur
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsRobert Viseur
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICRobert Viseur
 

Mais de Robert Viseur (20)

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libres
 
Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de Wikipedia
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloud
 
Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapee
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec Gimp
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovation
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à Mons
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for Dummies
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en Belgique
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libres
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libres
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editors
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TIC
 

De l’annuaire de sites à la recherche sociale: 15 ans d’évolution!

  • 1. Faculté Polytechnique Étudiant d'un jour en Polytech De l'annuaire de sites à la recherche sociale: 15 ans d'évolution Dr Ir Robert Viseur robert.viseur@umons.ac.be Etudiant d'un jour en Polytech - L'informatique, une affaire d'ingénieur! - Entre réseaux sociaux, vie privée et infrastructure. Mons, le 23 février 2012.
  • 2. De l'annuaire à la recherche sociale Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 2
  • 3. 1994 : création de Yahoo! Yahoo! démarre comme annuaire de sites Internet.  Principe des « Pages Jaunes » adapté à la recherche de sites.  Problèmes ?  Fastidieux travail humain...  De classement des sites dans des catégories.  De mise à jour des informations (évolution des contenus, liens morts).  Pas de prise en compte du contenu textuel du site.  Croissance rapide du nombre de sites Internet. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 3
  • 4. 1995 : création d'Altavista Premier moteur de recherche Web commercial.  Deux parties importantes :  Le « spider » qui parcourt le Web en passant de lien hypertexte en lien hypertexte, et découvre ainsi les pages Web disponibles.  L' « indexeur » qui structure le texte contenu dans les pages Web d'une manière qui facilite la recherche par mot-clef.  Points forts :  Il découvre les contenus et procède aux mises à jour de manière automatique.  Il permet la recherche « plein texte » (fulltext).  Pour chaque recherche, les documents sont classés en fonction de la fréquence d'apparition du mot-clef recherché. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 4
  • 5. 1998 : création de Google Premier moteur de recherche prenant en compte la popularité des pages Web.  Même principe qu'Altavista mais...  Google analyse en plus les relations entre pages Web.  Les pages les plus souvent citées sont jugées plus intéressantes.  Chaque page est ainsi associée à un score d'autorité (= Pagerank).  Pour chaque recherche, les pages sont classées en fonction de leur pertinence (fréquence d'apparition du mot-clef recherché et Pagerank). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 5
  • 6. Les autres innovations de Google Cluster de PC :  Pour « motoriser » son moteur, Google renonce aux coûteux serveurs haut de gamme (serveurs « Alpha » chez Altavista) et utilise un cluster (groupe) d'ordinateurs standards à bas prix. « Light is better » :  Google passe d'une page portail (Altavista) à une simple « boîte » de recherche. Publicité contextuelle :  Google comprend très vite l'intérêt de proposer une publicité discrète et contextualisée.  Google AdWords est lancé en 2000 ; Google Adsense, en 2003. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 6
  • 7. Quelques raisons au succès initial de Google Une gestion raisonnable de la propriété industrielle.  Le brevet du Pagerank a été déposé par l'Université Stanford en 1997. Une pertinence supérieure à celle des concurrents.  Google présente en 1998 une pertinence supérieure à son principal concurrent, Altavista. Une capacité d'indexation supérieure à celle des concurrents.  Les performances de l'algorithme de classement et la flexibilité du cluster de PC permettent l'augmentation rapide de la taille de l'index (nombre de pages enregistrées). Une rentabilité rapidement atteinte.  Google est rentable dès 1998 et dépasse les 100 millions de dollars de CA dès 2001. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 7
  • 8. Google aujourd'hui Diversification des activités.  Moteurs spécialisés (Google News, Google Images, Google Books, Google Scholar,...).  Vidéos (achat de Youtube).  Cartographie (Google Maps).  Mails (Gmail) et bureautique en mode SaaS (Google Docs).  Outils : navigateur Chrome et OS mobile Android (maîtrise de l'expérience utilisateur).  ... Évolution continue de l'algorithme de classement.  Ajout de filtres, évolution du Pagerank (Trustrank ?), recherche universelle,... Un échec (?) : les réseaux sociaux. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 8
  • 9. 2004 : création de Facebook Réseau social (synchrone) permettant :  la création d'un profil détaillé (plus ou moins privé),  la publication d'informations (statuts, vidéos, photos,...). Facebook pourrait atteindre 1 milliard d'utilisateurs inscrits à l'été 2012 ! Microsoft commence à exploiter les « Like » / « J'aime » de Facebook.  But : personnaliser les résultats des recherches dans le moteur de recherche Bing...  Et améliorer la pertinence globale des résultats de recherche ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 9
  • 10. 2006 : création de Twitter (1/2) Twitter est un outil de réseau social (asymétrique) et de microblogage.  Les utilisateurs postent des messages de 140 caractères (max.).  Le « tweet » (gazouillis) est comparable à un SMS. Application du principe « Keep it Simple, Stupid ».  Twitter laisse les pratiques émerger (plutôt que de les « forcer »), et les accompagne.  Twitter permet aux utilisateurs de développer leurs propres services via une API publique. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 10
  • 11. 2006 : création de Twitter (2/2) De 2009 à 2011, Google a indexé les tweets publics. Surtout, Twitter a émergé comme plate-forme de recherche d'information « temps réel »  Complément aux moteurs de recherche d'actualités comme Google News.  Exemple : séisme du 12 janvier 2010 en Haïti.  Les informations « chaudes » sont « retweetées » (« RT », « hashtags »). La révolution égyptienne sur Twitter ↑ Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 11
  • 12. Chercher... Oui, mais quoi, et comment ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 12
  • 13. Bien utiliser les outils de recherche Les outils de recherche sont :  diversifiés,  puissants,  éphémères (parfois). Donc, il faut être capable de :  les découvrir,  en exploiter les fonctionnalités cachées (ou peu connues),  croiser l'information. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 13
  • 14. Diversité des outils de recherche Exemples :  Infobel : annuaire de personnes et d'entreprises.  Banque Carrefour des Entreprises : documents officiels des entreprises.  Who is : recherche d'information sur les noms de domaine.  Facebook, Twitter, LinkedIn,... : recherche de profils utilisateurs.  Google Images : recherche avancée d'images et de photos.  Google Books : recherche dans les livres.  Google Scholar : recherche dans les articles scientifiques.  Google Web : recherche d'informations générales (principe de la « recherche universelle »).  Google Maps / Streetview : vue satellite / vidéo des villes.  ... Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 14
  • 15. Fonctions avancées des outils de recherche Exemple (Bing) :  Par défaut : recherche par mot-clef.  Opérateurs booléens : AND, OR, NOT.  Opérateurs avancés (support variable dans le temps!) :  « site: » : permet de cibler la recherche sur un site.  « filetype: » : permet de restreindre la recherche à un type de fichier.  « feed: » : permet de trouver des flux RSS.  « loc: » : permet de restreindre la recherche aux sites associés à un pays donné.  « ip: » : permet de lister les sites hébergés à la même adresse IP (= adresse associée à chaque ordinateur connecté).  ... Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 15
  • 16. Croisement d'informations Voir la recherche d'informations comme une enquête policière... Existence d'outils intégrés.  Exemple: recherche d'informations personnelles.  123People (cf. www.123people.com ). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 16
  • 17. Exemple n°1 – Spam « Euro Software » (1/2) 280 euros sur une licence Windows Vista, 900 euros sur une licence Photoshop... Bonne affaire ou véritable arnaque ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 17
  • 18. Exemple n°1 – Spam « Euro Software » (2/2) Que dit whois.org ?  Le nom de domaine a été déposé le 16/05/2008 par un certain liu bin / wu han huoche zhan / 410214, semble-t-il basé à Beijing (Chine). Que dit loc8ip.com ?  Le site a pour adresse « 211.49.115.57 » et est hébergé en Corée du Sud. Que dit bing.com ?  Le serveur « 211.49.115.57 » (opérateur « ip: ») héberge des sites clones (comme zasofta.com ou dasofte.com) mais aussi plusieurs sites de casino en ligne (netgamemagic.com, eurocasinoajy.com, gamenetmagic.net, casinorichdot.net, www.eurocasinoajn.com,...). → conclusion : à éviter... [Test fait le 31 mai 2008] Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 18
  • 19. Exemple n°2 - « Voici l'accusatrice de Koekelberg » (1/2) Sur DH.Net : « Voici l'accusatrice de Koekelberg » (cf. shrl.be/000087).  Pas de nom, uniquement un prénom et une photo (avec un bandeau sur les yeux).  Anonymat respecté ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 19
  • 20. Exemple n°2 - « Voici l'accusatrice de Koekelberg » (2/2) Procédure:  Ouvrir un onglet Google Images.  Transférer la photo dans la zone de recherche.  Prendre le premier résultat (page avec photo originale sans bandeau) : Laurence Vxxxxxxxxr GSM : 0476/6x.xx.x1 laurence.vxxxxxxxxr@rxxxxxxxxxxxxn.org  Remarque: la photo originale a depuis été retirée du site. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 20
  • 21. Du cluster au réseaux de fermes d'ordinateurs Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 21
  • 22. Altavista en 1998 140 millions de documents indexés. 13 millions de requêtes par jour. 20 serveurs multiprocesseurs 64 bits Digital Alpha. (chiffres : wikipedia.org , searchenginewatch.com ) ← Évolution des citations dans les livres (via Google Books). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 22
  • 23. Google en 2011 40 milliards de pages indexées.  Contre 8 milliards de pages indexées et 1 billion d'URLs traitées en 2008 Trafic : 1 milliard de requêtes par jour sur Google.com. Plus d'un million de serveurs (ordinateurs).  Pour faire quoi ?  Gérer (= collecter, indexer, mettre à jour, etc.) le volume croissant de données.  Moteur de recherche mais aussi services annexes : Google Mail, Google Docs, Picassa, etc.  Répondre aux requêtes des utilisateurs.  A comparer aux 6.000 serveurs détenus en 2003, et 400.000 en 2006 (wikipedia.org).  Soit ~2% des ordinateurs au monde (!). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 23
  • 24. Datacenters Google Installation de Ghlin : plus de 250 millions d'investissements locaux, et la mobilisation de multiples métiers de l'ingénieur ! Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 24
  • 25. Pourquoi s'installer à Ghlin ? Plus de 100ha de zoning encore disponibles. Zoning bien fourni en infrastructures.  Alimentation électrique, fibre optique,... Présence du canal en bordure de zoning.  Important pour le refroidissement ! Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 25
  • 26. Un challenge : le refroidissement Comment refroidir 100.000 ordinateurs fonctionnant en parallèle ? Par de la climatisation ?  Trop coûteux !  Solution ?  Le refroidissement par eau ! Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 26
  • 27. L'installation près de l'eau Le datacenter est construit le long d'un canal ou d'un fleuve.  L'eau y est pompée, puis épurée. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 27
  • 28. L'évacuation de la chaleur Les ordinateurs (modèle conçu par Google) sont installés dans des containers optimisant la circulation et l'évacuation de la chaleur. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 28
  • 29. L'évacuation de la chaleur La chaleur des machines est extraite dans le datacenter via un système de refroidissement (air → eau), puis... L'eau chaude est refroidie à l'extérieur du datacenter via un système de refroidissement (eau → air). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 29
  • 30. La quête de l'efficacité énergétique But de ce dispositif ?  Améliorer l'efficacité énergétique du datacenter.  C'est-à-dire abaisser son PUE (Power Usage Effectiveness). Intérêt pour Google ?  Moins de CO² émis...  Et coûts d'exploitation plus faibles ! Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 30
  • 31. Que peut-on faire d'autre ? Optimiser les logiciels utilisés dans les datacenters.  Exemple : Facebook (30.000 ordinateurs en 2011) utilise une version compilée du langage PHP (compilateur HipHop). Développer des ordinateurs ayant besoin de moins d'électricité et chauffant moins.  Exemple : Google utilise son propre modèle de serveur. Placer au maximum les centres de données dans des pays froids, et y concentrer la charge.  Exemple : Google a récemment construit un datacenter à Hamina en Finlande (alimenté par l'eau de la mer). Investir dans les énergies renouvelables.  Exemple : OVH (Roubaix, France ; premier hébergeur européen) dispose d'éoliennes pour son datacenter de Strasbourg. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 31
  • 32. Et si vous expérimentiez par vous-mêmes ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 32
  • 33. Le Web en tant que plate- forme Évolution :  1995 : l'utilisateur d'Internet est un consommateur passif de contenu.  2005 : l'utilisateur d'Internet peut être co-producteur de contenus et de services (« Web 2.0 »).  Il est en contact permanent avec les autres utilisateurs  → Réseaux sociaux.  Il rédige des articles sur des journaux participatifs, poste des commentaires sur les blogs, alimente l'encyclopédie collaborative Wikipédia, etc.  → Co-création, « User Generated Contents », « crowdsourcing », etc.  Il peut développer de nouveaux services en s'aidant des Interfaces de Programmation d'Applications (APIs) proposée par certains sites Internet.  → Co-création, « Web as a Platform », mashups, etc. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 33
  • 34. Application Programming Interfaces ? La face cachée des moteurs de recherche... Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 34
  • 35. Bing API (1/2) Que permet de faire Bing API ?  Récupérer, sous une forme structurée, les résultats d'une requête par mot-clef.  Adresse : code.google.com, www.bing.com/toolbox/bingdeveloper/ .  Les opérateurs, classiques ou avancés, des moteurs de recherche sont utilisables.  Exemples : « + », « - », « ip: », « loc: », etc.  Ces APIs fonctionnent généralement pour le Web (pages) mais aussi pour les actualités et les images.  Concurrents : Google Custom Search, Yahoo! Boss, etc. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 35
  • 36. Bing API (2/2) ↑ Étapes : - Récupérer les résultats d'une recherche par mot-clef sur plusieurs moteurs de recherche. - Les fusionner (les plus fréquents, les plus populaires, etc.). - Afficher un nouveau classement des résultats (principe du « métamoteur »). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 36
  • 37. Twitter API (1/2) Que permet de faire la Twitter API ?  Piloter la plate-forme sociale Twitter (dev.twitter.com).  Exemples :  Récupérer les tweets postés sur la « timeline » en fonction de mots-clefs, d'une langue ou d'une zone géographique.  A condition de s'être authentifié :  Poster un tweet sur un compte Twitter depuis une application extérieure.  Récupérer l'information relative à un profil utilisateur.  ...  Concurrent : Facebook API. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 37
  • 38. Twitter API (2/2) ← Étapes : - Collecte des tweets par API. - Identification des sujets (i.e. news citées dans les tweets via une URL raccourcie) les plus tweetés (ici : crash d'un avion). - Sélection d'utilisateurs (pour chaque sujet). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 38
  • 39. HostIP.info API (1/2) Que permet de faire l'API de Hostip.info ?  Récupérer la localisation associée à une adresse IP (www.hostip.info).  L'adresse IP identifie « grossièrement » votre ordinateur. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 39
  • 40. HostIP.info API (2/2) ← Étapes : - Localisation d'un visiteur ou d'un serveur Web sur base de l'IP (ville et pays) avec HostIP. - Géolocalisation de la ville (longitude et latitude). - Affichage sur une carte Google Maps. - Autre usage possible : affichage de publicité locale sur un site Internet. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 40
  • 41. Google Maps API (1/2) Que permet de faire Google Maps API ?  Géolocaliser une adresse postale.  Afficher une carte localisant un point d'intérêt à partir de ses coordonnées GPS. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 41
  • 42. Google Maps API (2/2) ← Étapes : - Pré-requis : base de données de terrils (RW). - Conversion des coordonnées géographiques (Lambert → WGS84). - Récupération des altitudes via l'U.S. Geological Survey (API). - Affichage des terrils sur Google Maps. - Exemples d'usage : trouver des terrils exploitables pour les schistes rouges (gravier décoratif), trouver des terrils hauts et chauves pour la photographie de panoramas,... ↓ Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 42
  • 43. Pour passer à l'action (1/2) Programmable Web (www.programmableweb.com).  Répertoire d'APIs (plus de 5000) et de « mashups » (plus de 6000). (mashups = combinaison d'APIs) Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 43
  • 44. Pour passer à l'action (2/2) Il y a les APIs mais aussi :  Les logiciels Open Source (logiciels librement utilisables et modifiables).  Exemple : Apache Lucene (indexeur, permettant la création de moteurs de recherche personnalisés).  L'Open Data (bases de données téléchargeables et réutilisables).  Exemple : DBPedia, la version structurée (Web sémantique) de l'éncyclopédie en ligne Wikipédia. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 44
  • 45. Conclusions Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 45
  • 46. Conclusions (1/2) Trois phases dans l'histoire des moteurs de recherche :  La collecte manuelle (annuaires).  L'indexation automatique de l'information (moteurs de recherche « plein texte »).  La mise en œuvre progressive de la recherche sociale. Les outils de recherche sont nombreux, parfois éphémères, et proposent des fonctionnalités de recherches souvent méconnues. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 46
  • 47. Conclusions (2/2) La mise en œuvre d'un moteur de recherche mondial suppose l'exploitation d'infrastructures importantes et énergivores.  Ces infrastructures mobilisent plusieurs métiers de l'ingénieur :  production locale d'électricité,  création d'ordinateurs économes,  optimisation des programmes informatiques,  conception de systèmes de refroidissement efficaces,  ... Les moteurs de recherche mettent souvent à disposition des interfaces de programmation d'applications.  Elles vous permettent, moyennant quelques compétences informatiques, d'expérimenter leur fonctionnement.  Elles permettent de répondre à des besoins diversifiés (pour des métiers parfois éloignés de l'informatique). Et vous, quand commencez-vous ;-) ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 47
  • 48. Quizz Combien de serveurs étaient utilisés par le moteur de recherche Altavista en 1998 ?  Réponses : 20, 30 mille ou 100 mille ? Quel nombre d'utilisateurs inscrits le réseau social Facebook devrait-il atteindre à l'été 2012 ?  Réponses : 100 mille, 100 millions ou 1 milliard ? Combien d'URLs le moteur de recherche Google traitait-t-il officiellement en 2008 ?  Réponses : 140 millions, 8 milliards ou 1 billion ? Comment les datacenters Google sont-ils refroidis ?  Réponses : Par évacuation naturelle de la chaleur (convection), avec des climatiseurs, avec de l'eau du robinet ou avec de l'eau « sale » ? Combien d'APIs publiques pouvez-vous utiliser sur Internet ?  Réponses : plus de 100, plus de 5 mille, ou plus de 100 mille ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 48
  • 49. Merci pour votre attention. Des questions? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 49