Présentation réalisée par Frédéric Martinet suite au webinar sur l’innovation dans le secteur de la recherche d’information, organisé par la délégation ADBS Languedoc-Roussillon.
1. Les nouvelles tendances et les
innovations dans la recherche
d’information
Webinar organisé par Actulligence Consulting et l’ADBS Languedoc-
Roussillon
2. Plan
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Les nouveautés de Google
✓ Big Data et Structuration de
la donnée
✓ Médias sociaux et veille
1
2
3
4. Des algorithmes qui n’en finissent pas
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Depuis 3 ans Google accélère les changements de son
algorithme
✓ En février 2011 Google a lancé Panda, un algorithme qui pour la
première fois avait un nom et visait a réduire drastiquement le
spam qui était devenu endémique y compris sur les première
pages de résultats.
✓ Suivront différentes mises à jour de Panda puis la sortie de
Penguin en avril 2012, qui durcira la lutte contre le spam.
✓ En août 2013 Google commence à déployer HummingBirds, un
algorithme visant à bouleverser Google et à le faire basculer du
statistique au sémantique.
Source : http://moz.com/google-algorithm-change
5. Statistiques VS Sémantique
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Statistique
- Appliquer un algorithme de
pondération des contenus par rapport
aux mots clés
- Les mots sont traités indépendamment
de leur contexte
- Les résultats sont sous forme de liste
- Les algorithmes évoluent en fonction
des contournements détectés
Sémantique
- Le mot est compris dans son contexte
- La requête peut-être traitée même si
elle est exprimée de façon naturelle
- Les résultats peuvent apparaître de
façons différentes en fonction de la
question
- Il peut s’agir d’une réponse même
plutôt que d’une forme de résultats
6. Un exemple de sémantique
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
7. Le Knowledge Graph
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Le Google Knowledge Graph vise à structurer l’information à la
volée en agrégeant une fiche réponse et en proposant une
navigation exploratoire pertinente sur le sujet.
✓ Les données sont agrégées de tous types de sources :
1. Wikipédia
2. Site officiel de l’entité
3. Articles de presse
4. Images
5. Vidéos
✓ Le Knowledge Graph veut apporter une réponse et non pas une
liste de résultats.
✓ Pour les professionnels de la recherche d’information
permettre à terme de disposer d’un « pré-rapport ».
8. La fin du RSS ?
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Avec la fin de Google Reader, Google a porté un coup fatal à la
démocratisation de la technologie RSS.
✓ Plus globalement il suit le mouvement amorcé par Facebook et Twitter
qui referment leur écosystème.
✓ Google était même allé jusqu’à supprimer pendant quelques semaines le
format RSS de ses Google Alertes qu’il a toutefois restauré.
✓ Google maintient cependant le RSS sur sa plateforme de blogs.
9. Des Google Alertes en perdition
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Les Google Alertes qui n’étaient déjà pas un outil très
performant sont en perdition complètes.
✓ Sur la plupart des requêtes un seul résultat quotidien est
ramené.
✓ Il y a parfois plus de résultat dans les « meilleurs résultats »
que dans « tous les résultats ».
✓ Google Alertes est incapable d’adresser les corpus en
différentes langues.
✓ Pistes d’améliorations :
1. Disposer de plusieurs comptes Google en différentes langues
2. Splitter les Google alertes par type de corpus et les multiplier
3. Multiplier les requêtes et combinaisons de mots plutôt que de faire une
longue équation de recherche
10. Marche forcée sur Google +
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Google veut rattraper son retard sur le social :
1. Il supprime toutes les applications concurrentes ou les délaisse (Wave /
Gtalk est replacé par Hangouts, Picasa par Google + photos, les Apps sont
remplacées par Google Drive et intégrées à Google +)
2. L’intégration avec son OS téléphone est « forcée ». Quasiment impossible
d’avoir un téléphone Androïd sans compte Google+.
3. Google + commence à s’intégrer dans les résultats des moteurs de
recherche.
11. Google Glasses
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Bienvenue dans Minority Report :
1. Head Up Display
2. Contrôle vocal
3. Traduction
4. Recherche visuelle
5. …
✓ La recherche en continue, sans le demander
12. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Recherche et affichage d’images
Speech to text et traduction
GPS
Vision conférence en direct
13. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Recherche et affichage d’images
Speech to text et traduction
GPS
14. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Recherche et affichage d’images
Speech to text et traduction
15. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Recherche et affichage d’images
16. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
17. Google c’est …
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Une infrastructure serveurs et réseaux qui assure la
disponibilité
✓ Un algorithme qui ordonne la pertinence
✓ Des technologies qui assurent l’immersion
1. Google Glass
2. Voice search
✓ Des modèle qui assurent la permanence :
1. Sur son ordinateur
2. Sur son mobile
3. Sur sa télé
✓ Une communauté fermée qui promet la cosanguinité
Mais c’est avant tout un moteur de recherche qui répond à un besoin là où aucune
autre solution n’est crédible
18. 15/04/2014
✓ Et dans d’autres pays ?
F. Martinet | Actulligence Consulting & ADBS LR
19. Google laisse échapper l’Asie
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Source : http://webcertain.com/search-engines.html
21. 15/04/2014 F. Martinet | Actulligence Consulting & ADBS LR
✓ « Avant les enjeux
étaient de savoir
comment stocker
la donnée,
maintenant il s’agit
de les
comprendre, de
les analyser »
Zettaset
22. Big data : nouveau nom, ancienne histoire ?
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Big data : ensemble de données qui devient tellement
volumineux qu’il est difficile de travailler avec des outils de
gestion de bases de données.
✓ Avant le big data on parlait de data warehouse, Business
Intelligence, décisionnel, data mining
✓ Un nouvel enjeu : les logs et les UGC
1. Log : traces laissées sur un serveur, une application par des individus et qui
enregistrent toutes leurs interactions
2. UGC : User Generated Content / informations créées par les internautes
sur les réseaux sociaux
23. Une équation magique
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
UGC + logs = insights
…
24. Les nouvelles technologies
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Calcul distribué et optimisé :
1. Hadoop
2. MapReduce
✓ Base de données :
1. Hbase
2. NOSQL
✓ Schedulers et Trackers (ordonnanceurs) :
1. Oozie
2. …
✓ Infrastructure locale et cloud
Traiter plus, traiter mieux, stocker efficacement, requêter rapidement
25. Les enjeux du big data pour le search
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Des nouvelles technologies pour les bases de données et les
index :
1. Plus rapides
2. Plus légères
✓ Des enrichissements de données :
1. Croiser web traditionnel et UGC, usages sociaux et publications
personnelles
2. Apporter des nouvelles dimensions aux données :
• Données physiques : Qui ?
• Données environnementales : Dans quel environnement ? Contexte ?
• Données géographiques : à quel endroit ?
• Données temporelles : Quand ? Pendant combien de temps ?
26. La Dataviz : big data, statistiques et représentation
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Utilisations de la Dataviz :
1. Dès qu’il y a des entités et des relations entre ces dernières, on parle alors
souvent de SNA (Social Network Analysis)
2. Pour détecter :
• Des communautés
• Des influenceurs / des hubs
• Des relations cachées
• Des signaux faibles
3. Applicables aux données de veille :
• Sur les relations entre les sites Web
• Sur les relations entre les documents
• Sur les relations entre les entités nommées
28. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Exemples de mapping des
forces antagonistes, les
« neutres » (plutôt médias
presse / TV) apparaissent
en blanc.
29. Les difficultés du Big Data appliquées à la veille
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Data ≠ Text
✓ Il faut créer de la donnée à partir de textes :
1. Des métriques / comptages
2. Structurer le contenu en créant de la méta donnée
3. Lever les ambiguïtés / rapprocher
4. Créer de la relation
✓ Alors il est possible d’apporter du sens
✓ Le big data appliqué au search et à la veille implique des
technologies de traduction, d’extraction d’entités nommées, de
sémantique.
30. Open Data et Big Data (1)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
31. Open Data et Big Data (2)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
32. 15/04/2014 F. Martinet | Actulligence Consulting & ADBS LR
✓ Réseaux sociaux
et veille
3
33. Les médias sociaux et les réseaux sociaux
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Des endroits où l’on peut trouver :
1. De l’information divergente / originale
2. Des personnes
✓ Des fonctionnalités pour :
1. Partager
2. Se faire connaître
3. Apprendre
✓ De l’information :
1. Segmentée
2. Cloisonnée
36. Votre réseau de personnes
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
37. Les réseaux de personnes
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
38. De nombreux réseaux sociaux dédiés
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Par métier
✓ Par zone géographique
✓ Par centres d’intérêt :
1. IT
2. Innovation
3. Environnement
4. …
39. Réseaux sociaux par spécialisation (1)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
40. Réseaux sociaux par spécialisation (2)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
41. Réseaux sociaux par spécialisation (3)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
42. Réseaux sociaux par spécialisation (4)
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
43. Les difficultés de la surveillance des réseaux sociaux
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Elles comportent de nombreuses données personnelles qui
sont donc techniquement protégées
✓ Un réseau « facile » à observer de son point de vue : vous
pouvez observer et accéder à votre réseau. Au-delà c’est
compliqué :
1. Vous devez donc vous identifier et vous dévoiler.
2. Il est sinon possible de développer des solutions coûteuses de crawling.
✓ Les APIs donnent accès à l’information mais les contraintes de
volumétrie sont très fortes
✓ Les stratégies de crawling sont particulièrement complexes à
mettre en œuvre :
1. Reposant sur des moteurs de recherche
2. Nécessitant plusieurs passes
44. Autres réseaux sociaux
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Les réseaux sociaux de lieux – Particulièrement utiles dans le
domaine industriel
1. Identifier des personnes se rendant à …
2. Identifier des photos
3. Identifier des sites
• Peut être utilisé pour accéder aux implantations des agences ?
✓ Les réseaux sociaux de partages vidéos et photos :
1. Photos des lieux de production
2. Photos des machines outils
3. Use cases produits
46. Info localisée en temps réel
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Le démonstrateur créé par Ubisoft
pour faire la démonstration du jeu
Watch Dogs démontre à quel point
la localisation de l’information
disponible en temps réel et de
façon ouverte sur les réseaux
sociaux et l’open data offre une
vision éclairée d’un espace et de
ce qui s’y passe.
http://wearedata.watchdogs.com
48. Quelques prévisions
F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
✓ Un combat contre le spamdexing qui n’en finira jamais : une guerre
technologique, une guerre algorithmique, une guerre de robots pour la
maîtrise de l’espace « Search Results »
✓ Une recherche sans la demander : dans votre téléphone, sur votre frigo,
pendant que vous jouez à votre console, sur vos lunettes, vos lentilles,
le HUD de votre véhicule
✓ Des réponses plutôt que des résultats : détecter les méta données, les
structurer à la volée, interpréter le langage humain, dialoguer avec le
web chercheur, guider (orienter?) sa recherche, structurer la réponse
✓ Dynamique, cinétique et prédictivité : le search, le sémantique et le big
data appliqués à la modélisation des écosystèmes webs mais aussi IRL
(épidémiologie, cours de bourse, élections)
✓ Un web cloisonné, cosanguin, ou la recherche est un moyen de
captiver, de capturer et de rentabiliser l’attention
50. ✓ Support de
présentation Tous
droits réservés
Frédéric Martinet
@ Actulligence
Consulting
✓ Ne pas rediffuser
sans accord
préalable
15/04/2014 F. Martinet | Actulligence Consulting & ADBS LR
Respectez les auteurs qui partagent gratuitement leurs créations et leurs réflexions
51. F. Martinet | Actulligence Consulting & ADBS LR
15/04/2014
Frédéric Martinet
Consultant Intelligence Economique,
Veille stratégique et e-réputation
Actulligence Consulting
+33 (0) 6 19 05 41 37
frederic.martinet@actulligence.com
www.actulligence.com
www.twitter.com/actulligence
www.facebook.com/actulligence
fr.linkedin.com/in/fmartinet
ADBS Languedoc-Roussillon
Déléguation Régionale de
l’association des professionnels de
l’information et de la documentations
www.twitter.com/adbs_lr
www.facebook.com/adbs_lr