Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » :
content analytics, machine-learning, prédictif
13 avril 2015
LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE
Expérience informationnelle et exploitation analytique des données :
comment aller au-delà des discours très généraux sur les données
massives et le machine learning ?
Odile Quesnel - Responsable ArgusLab

ARGUS DE LA PRESSE 2LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
L’ARGUS, SES SERVICES & SON TERRAIN DE JEU

DEVELOPPEMENT
&
ANTICIPATION
VEILLE
STRATEGIQUE
ANALYSE
STRATEGIQUE
CONTACT
STRATEGIQUE
REPUTATION
&
INFLUENCE
VEILLE
MEDIA
ANALYSE
MEDIA
ENGAGEMENT
MEDIA
ARGUS DE LA PRESSE
ENJEUX & EXPERTISES

SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION
• Un monde en permanence « augmenté »
• le data exhaust bouscule les processus de production
et d’accès aux contenus
Dans ce contexte de données massives les cloisonnements
traditionnels tombent
Les décideurs attendent des réponses de la part des professionnels de l’information, de la
communication comme du marketing
Apprécier les contenus nécessite de passer par du cross-media

UN PEU DE THEORIE

DE QUOI PARLE-T-ON ?
Jordan Awan

• S’agit-il de prédire un prix, ou une catégorie ?
• Souhaite-t-on un apprentissage au fil de l’eau ou statique ?
• Quelles variables cibles souhaite-ton prédire au moyen de quelles variables prédictives ?
• A-t-on par avance une idée du type de relation qui lie les variables prédictives à la variable cible ?
=> Plusieurs types d'algorithmes ML à choisir et à appliquer en fonction de l'objectif et du type de données
D’après Melanie Warrick
MAIS ENCORE ?
Ce qui manque par la connaissance « objective » et
un modèle explicatif nous le chercherons par les
données
S’il n’y a pas d’algorithme idéal nous avons des
données pour apprendre
Le Machine Learning a donc pour objectif d’élaborer et d’optimiser des algorithmes pour optimiser des processus
d’apprentissage et concevoir des modèles prédictifs.

Apprentissage supervisé
• Anticiper la gestion des stations de vélos en libre
accès sachant que ….
• Eviter d’être pollué par des messages publicitaires
sachant que …
La classification consiste à identifier les classes
d'appartenance de nouveaux objets à partir
d'exemples antérieurs connus
La régression prédit les valeurs possibles d'une ou
plusieurs variables à partir des anciennes valeurs
relevées
Apprendre d’une relation , la phase
d’apprentissage consiste à trouver les bonnes
questions à poser pour catégoriser correctement
un ensemble
Généraliser à partir de ce qu'on connaît déjà
Apprentissage non supervisé
• Répartir un ensemble de prospects en niches
quand on ignore la segmentation du marché
• Prévoir quels seront les clients potentiels pour
un produit, à partir des données d’achat de
déplacement
• des données qui peuvent se classer dans un
trop grand nombre de catégories.
Découvrir des structures cachées dans les
données plutôt que de « généraliser » à partir
d’un corpus exemple.
Il ne s’agit pas de « profiler » complètement les
processus
Si les corrélations n’expliquent pas tout, elles
aident à détecter certains motifs ou
régularités.
APPRENDRE ?
Construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples
pertinents pré existant ou que le système fera émerger

http://www.ted.com/talks/fei_fei_li_how_we_re_teachin
g_computers_to_understand_pictures#t-477527
NOS MACHINES LES PLUS INTELLIGENTES SONT TOUJOURS AVEUGLES
Modèles de réseaux neuronaux :
le laboratoire d’IA de Stanford dirigé par
Fei Fei Li a créé un logiciel capable de
reconnaître des scènes fixes photographiés
et de les décrire en langage naturel .
Projet de catégorisation en
crowdsourcing

Que dit l’ordinateur quand il
voit une image
OU COMMENT ENSEIGNER AUX MACHINES A COMPRENDRE UNE PHOTO
La machine a appris comme un enfant de 0 à 3 ans,
Le défi suivant est d’aller de 3 à 13 ans
Elle fait des erreurs

ALGORITHMES ET MACHINE LEARNING A L’ARGUS
DE LA THEORIE A L’ACTION

8 500 Publications Presse France &
International
270 Radios et TV
10 500 Sites Internet éditoriaux
France & International
60 000 contacts et influenceurs
médias & sociaux
Web social : blogs & réseaux sociaux
Web corporate & Institutionnel
QUELLES ROUTES TRACER ?
Des contenus hétérogènes dans leur forme et leur langage
Des données structurées et qualifiées
Des données à extraire pour donner du sens
• Vision à 360 de son marché
• Connaître les évolutions et les tendances
• Identifier les menaces & opportunités
• Détecter & analyser les leviers de croissance
• Détecter de nouveaux prospects
• Détection et suivi des signaux d’alertes
……..
Un territoire complexe et mouvant
Un monde à révéler
Apprendre à partir des jeux de données
Identifier des schémas via l’exploration
Des données correctement préparées & des
stratégies soigneusement considérées
Des outils et des méthodologies qui mobilisent :
• Traitement automatique de la langue
• Modèles algorithmiques et apprentissage
automatique
• Content analytics
De multiples destinations

Lever les contraintes
de format
Des contenus cross
media et des données
intelligibles
Des données enrichies et
contextualisées
Systèmes de
représentation et de
navigation pour
exploiter contenus et
connaissance
extraite en contexte
UNE CHAÎNE DE VALEUR POUR DES SPHÈRES D’USAGES MULTIPLES
Data scientist
Linguiste
Développeur
Chief Data Officer
Architecte
Linguiste - Mathématicien

LEVER LES CONTRAINTES DE FORMAT
OCR - Reconnaissance automatique de
caractères
• Comparer sur un corpus de formes connues
• Retenir les formes les plus proches
• Traiter sur méthodes linguistiques et
contextuelles pour réduire le nombre
d'erreurs de reconnaissance
Reconnaissance automatique de la parole
Hypothèse de transcription avec une mesure de confiance
sur des modèles de langue et acoustiques
D’après Pascale Sébillot Inria

DES DONNEES INTELLIGIBLES & ENRICHIES
Extraction de relations
Apprentissage d’un classificateur classant chaque
phrase avec au moins deux EN et un déclencheur
=> relation / pas de relation
=> relation positive ou négative
Catégorisation des contenus textuels
Classificateur de texte par l’apprentissage, à
partir d’une série des documents pré-
classifiés ou de caractéristiques de
catégories d’intérêts
L’’algorithme ventile dans des classes
différenciées et ce sur la base du critère de
similarité entre documents
Analyse de sentiments
Apprentissage de l’orientation sémantique des
mots ou des expressions
Un mot a un contexte qui contribue au sens
Signaux forts et faibles
Algorithme de « régression linéaire
Comptages de présence d’information sur des
périodes => montrer une tendance constatée.
Une dimension prédictive => faire intervenir
d’autres variables comme la durée de la
tendance sur les périodes passées, le nombre
de médias qui en parlent, etc.

Valoriser le contenu
Aider à la décision
Exploiter la mesure
Tendances
Aider au repérage
“Prendre ce que l’on a et le faire parler”
Produire de la valeur
sur le contenu :
Mesure
Indicateurs
Proposer des endroits à écouter
Etudier viralité
Cartographier relations et
interactions cross media
Rechercher
DES FONCTIONS ADAPTÉES A CHAQUE SPHÈRE D’USAGE
Comprendre la propagation d’une information, les processus de
contamination - Explorer dans une multitude de signaux
=> Des modèles existants et de nouveaux modèles à construire
• Dans des formes variées de trajectoires de notoriété.
discriminer ce qui relève de la « contagion » et ce qui ressort
des différentes formes d’éditorialisation cross media
Faire émerger une histoire pertinente
Découverte de faits intéressants
Mise en évidence de tendances cachées
=> D’une histoire complexe à un
graphique interactif, personnalisable

Merci pour votre attention
odile.quesnel@argus-presse.fr

Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (12)

Semelhante a Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

Semelhante a Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse (20)

Mais de Le_GFII

Mais de Le_GFII (20)

Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse