SlideShare uma empresa Scribd logo
1 de 43
Des applications plus intelligentes Bashar Al-Fallouji
Qui suis-je ? Bashar Al-Fallouji 	 Architecte de Solution chez OpenText (Nstein) Mon Blog : bashar.alfallouji.com Sujets d’intérêt  Génie logiciel Informatique décisionnelle (BI) Bashar Al-Fallouji - Des Applications Plus Intelligentes 2
Objectif Présenter les technologies de Text-Mining existantes et leurs fonctionnalités. Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web). Bashar Al-Fallouji - Des Applications Plus Intelligentes 3
Agenda Rappel sur le textmining  (définition, concepts clés, etc.) Présentation des technologies existantes  (produits, API, fonctionnalités, etc.) Intégration du Text-Mining dans les applications (Web) Bashar Al-Fallouji - Des Applications Plus Intelligentes 4
Deux questions pour vous … Que signifie le terme Text-Mining ? Qui a déjà utilisé une technologie de Text-Mining ? Bashar Al-Fallouji - Des Applications Plus Intelligentes 5
#1 – Rappel sur le Text-Mining
Différents types de donnéesdansnos applications Les applications de traitement de l’information gère en général différents types de données  Données structurées Date Booléen  Valeur numérique (prix, pourcentage, quantité, etc.) Types énumérés (Mr, Ms, etc.) Données non-structurées Image Vidéo Son Corps de texte Bashar Al-Fallouji - Des Applications Plus Intelligentes 7
Différents types de donnéesdansnos applications Il est facile de comprendre et de retrouver de l’information à partir de données structurés SELECT  *   FROM   TBL_FACTURE   WHERE  prix > 100 Moins évident avec les données non-structurées Pourtant les données non-structurées peuvent receler une grande quantité d’information! Bashar Al-Fallouji - Des Applications Plus Intelligentes 8
Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 9
Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 10
Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 11 Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
Mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 12 Constat Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités. But Extraire cette information et automatiser le processus d’extraction.
Données non-structurées 80% Source : Experts Corner: Seth Grimes Bashar Al-Fallouji - Des Applications Plus Intelligentes 13
Définition Text-Mining   Processusd’extractiond’information de hautes-qualités à partir d’un texte Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations. Le Text-Mining mélange plusieurs disciplines  Recherche d’information (Information Retrieval); Data Mining; Apprentissage Machine (Machine Learning); Linguistique; Statistique. Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 14
Text-Mining Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte) Données non-structurées, Bloc de texte :  Article (e.g. news, blogs) Email (e.g. feedback client) Post, Commentaire (e.g. forum) Logs  (Server logs) Le Text-Mining permet d’enrichir le contenu et de mieux les structurer Plus les données sont structurées, plus facile il est de les  Retrouver (Recherche facilitée) Analyser (Interprétation des données) Regrouper, relier  Réutiliser Bashar Al-Fallouji - Des Applications Plus Intelligentes 15
Quelques concepts clés Traitementautomatique du language naturelou NLP (Natural Language Processing) Discipline mélangeant informatique et linguistique Application de programmes et techniques à tous les aspects du language humain  Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc. Source : Wikipedia Entité Catégories  ,[object Object]
Taxonomie  = Classification d’entités (souvent représenté sous forme d’un arbre)
Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)Bashar Al-Fallouji - Des Applications Plus Intelligentes 16
Text-Mining ? Permet de répondre à des questions précises Qui, Quand, Où, etc. Détection de la langue Génération automatisée de résumés  Détection du ton (Sentiment Analysis) Bashar Al-Fallouji - Des Applications Plus Intelligentes 17
Extraction d’entités Bashar Al-Fallouji - Des Applications Plus Intelligentes 18
Exemple Bashar Al-Fallouji - Des Applications Plus Intelligentes 19 Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway. Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna. The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time. MinedwithAlchemyAPI
Garbage in = Garbage out Bashar Al-Fallouji - Des Applications Plus Intelligentes 20
#2 – Technologies existantes
SaaSvs not SaaS SaaS Avantages  Accès facile aux fonctionnalités (Rest, Soap) Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.) Désavantages Restrictions au niveau API Potentiels problèmes au niveau performance (ping, blocage IP) Disponibilité du service (Service Level Agreement) Bashar Al-Fallouji - Des Applications Plus Intelligentes 22 Not SaaS ,[object Object]
Peut être plus performant  (temps de latence, pas de restriction à priori)
Possibilité d’avoir des taxonomies et AF personnalisés
Désavantages
Coût
Complexité et maintenance,[object Object]
Technologies existantes (SaaS) Quelquesnoms (listes non-exhaustive!) Open Calais AlchemyAPI OpenAmplify BeliefNetworks Yahoo Term Extraction Evri Wingify Zemanta UClassify Alias-I Etc… Bashar Al-Fallouji - Des Applications Plus Intelligentes 24
Fonctionnalitéesoffertes Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue Langues supportées  (EN, FR, SP) Format supportés (HTML, Microformats) API existantes (PHP, Perl, .NET, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 25
OpenCalais Rachat par Reuters de ClearForest en 2007 Reuters a démarré OpenCalais en Janvier 2008 Fonctionnalités principales Catégorisation Extraction d’entité, faits et événements Langues supportées : Anglais, Français (Espagnol) Quota : 50,000 transactions / jour, 4 transactions par seconde Bashar Al-Fallouji - Des Applications Plus Intelligentes 26
OpenCalais : Exempled’appel Bashar Al-Fallouji - Des Applications Plus Intelligentes 27
AlchemyAPI Produit de Orchestr8 (2005) Fonctionnalités principales Concept / Keywords Extractions Categorization Entity Languagedetection MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing Quota : 30,000 API appel / jour Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois) Plugins Wordpress AlchemySEO : Tagging Automatique (SEO) basé sur les microformats Bashar Al-Fallouji - Des Applications Plus Intelligentes 28
OpenAmplify Web service développé par Hapax Fonctionnalités principales Catégorisation Extraction d’entité Analyse du Sentiment  Format de sortie supporté : DART, OAS, RDF, RDFa, HTML 1000 transactions / jour Source : www.openAmplify.com Bashar Al-Fallouji - Des Applications Plus Intelligentes 29
Yahoo Term Extraction Fonctionnalités principales Extraction d’entité 5000 transactions / jour et IP (utilisation non-commerciale) Seule l’anglais est supportée Output : JSON / PHP Bashar Al-Fallouji - Des Applications Plus Intelligentes 30
NaCTeM National Center for TextMining NaCTeMoffredifférentes solutions  TerMine : Reconnaissance automatique de termesdans un document AcroMine : Recherched’acronyme (biomédical) Medie : Engin de rechercheSémantique (Biomédical) Facta+ : Engin de recherched’association entre concept (biomédical) KLEIO : Recherchesémantique par facette (biomédical) Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes Bashar Al-Fallouji - Des Applications Plus Intelligentes 31
#3 – L’intégration du Text-Mining dans les applications (Web)
Intégration typique Bashar Al-Fallouji - Des Applications Plus Intelligentes 33
Intégration du Text-Mining dans des applications open source OpenCalais Drupalhttp://drupal.org/project/opencalais Wordpresshttp://tagaroo.opencalais.com/ Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999 Bashar Al-Fallouji - Des Applications Plus Intelligentes 34
Intégration du Text-Mining dans des applications open source AlchemyAPI PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi AlchemySEO Automatic tagging for SEO using MicroFormats Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/ Exemple (tags générés automatiquement)  Bashar Al-Fallouji - Des Applications Plus Intelligentes 35
Intégration du Text-Mining dans des applications open source OpenAmplify Drupalhttp://drupal.org/project/amplify Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx Bashar Al-Fallouji - Des Applications Plus Intelligentes 36
Autresexemples :RechercheSémantiqueOntoText KIM Bashar Al-Fallouji - Des Applications Plus Intelligentes 37

Mais conteúdo relacionado

Mais procurados (8)

Méthodologie de la recherche documentaire en psychanalyse master 2 2012 2013
Méthodologie de la recherche documentaire en psychanalyse master 2 2012 2013Méthodologie de la recherche documentaire en psychanalyse master 2 2012 2013
Méthodologie de la recherche documentaire en psychanalyse master 2 2012 2013
 
Recherche documentaire Master 2 GEMA
Recherche documentaire Master 2 GEMARecherche documentaire Master 2 GEMA
Recherche documentaire Master 2 GEMA
 
UQAM_JML_formation_documentaire_19sept2016
UQAM_JML_formation_documentaire_19sept2016UQAM_JML_formation_documentaire_19sept2016
UQAM_JML_formation_documentaire_19sept2016
 
Master Analyse et qualité novembre 2016
Master Analyse et qualité novembre 2016Master Analyse et qualité novembre 2016
Master Analyse et qualité novembre 2016
 
Cours recherche google
Cours recherche googleCours recherche google
Cours recherche google
 
Veille, visibilité et communication : les atouts des réseaux sociaux pour le ...
Veille, visibilité et communication : les atouts des réseaux sociaux pour le ...Veille, visibilité et communication : les atouts des réseaux sociaux pour le ...
Veille, visibilité et communication : les atouts des réseaux sociaux pour le ...
 
Brevet2016
Brevet2016Brevet2016
Brevet2016
 
Recherche documentaire : premiers pas
Recherche documentaire : premiers pasRecherche documentaire : premiers pas
Recherche documentaire : premiers pas
 

Semelhante a Des applications plus intelligentes

Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Marc Maisonneuve
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Véronique Gambier
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Véronique Gambier
 
La Fondation Apache - keynote au Paris Open Source Summit 2017
La Fondation Apache - keynote au Paris Open Source Summit 2017La Fondation Apache - keynote au Paris Open Source Summit 2017
La Fondation Apache - keynote au Paris Open Source Summit 2017Bertrand Delacretaz
 
ASFWS 2011 - L’importance du protocole HTTP dans la menace APT
ASFWS 2011 - L’importance du protocole HTTP dans la menace APTASFWS 2011 - L’importance du protocole HTTP dans la menace APT
ASFWS 2011 - L’importance du protocole HTTP dans la menace APTCyber Security Alliance
 
Support acceder info
Support acceder infoSupport acceder info
Support acceder infoClaude Boé
 
Enjeux de recherches pour les Humanités Digitales
Enjeux de recherches pour les Humanités DigitalesEnjeux de recherches pour les Humanités Digitales
Enjeux de recherches pour les Humanités DigitalesAmar LAKEL, PhD
 
iBusiness, au service d'une veille partagée et collaborative efficace
iBusiness, au service d'une veille  partagée et collaborative efficaceiBusiness, au service d'une veille  partagée et collaborative efficace
iBusiness, au service d'une veille partagée et collaborative efficaceXWiki
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le webQuentin Adam
 
La sécurité des applications avec ESAPI
La sécurité des applications avec ESAPILa sécurité des applications avec ESAPI
La sécurité des applications avec ESAPITakfarinas KENOUCHE
 
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014francelabs
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantiquebadirh
 
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...AssociationAF
 
2011 06 gestion_recherche_info_internet
2011 06 gestion_recherche_info_internet2011 06 gestion_recherche_info_internet
2011 06 gestion_recherche_info_internetRobin Masur
 
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...URFIST de Paris
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014francelabs
 

Semelhante a Des applications plus intelligentes (20)

Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
 
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
Panoramadeloffredelogicielslibrespourbibliothque 150123082251-conversion-gate...
 
La Fondation Apache - keynote au Paris Open Source Summit 2017
La Fondation Apache - keynote au Paris Open Source Summit 2017La Fondation Apache - keynote au Paris Open Source Summit 2017
La Fondation Apache - keynote au Paris Open Source Summit 2017
 
Cyberun #12
Cyberun #12Cyberun #12
Cyberun #12
 
Web 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & WikisWeb 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & Wikis
 
ASFWS 2011 - L’importance du protocole HTTP dans la menace APT
ASFWS 2011 - L’importance du protocole HTTP dans la menace APTASFWS 2011 - L’importance du protocole HTTP dans la menace APT
ASFWS 2011 - L’importance du protocole HTTP dans la menace APT
 
Support acceder info
Support acceder infoSupport acceder info
Support acceder info
 
Offre Search
Offre SearchOffre Search
Offre Search
 
Enjeux de recherches pour les Humanités Digitales
Enjeux de recherches pour les Humanités DigitalesEnjeux de recherches pour les Humanités Digitales
Enjeux de recherches pour les Humanités Digitales
 
iBusiness, au service d'une veille partagée et collaborative efficace
iBusiness, au service d'une veille  partagée et collaborative efficaceiBusiness, au service d'une veille  partagée et collaborative efficace
iBusiness, au service d'une veille partagée et collaborative efficace
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
 
La sécurité des applications avec ESAPI
La sécurité des applications avec ESAPILa sécurité des applications avec ESAPI
La sécurité des applications avec ESAPI
 
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014
Migration d'Exalead vers Solr - IFCE et France Labs - Search Day 2014
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
 
2011 06 gestion_recherche_info_internet
2011 06 gestion_recherche_info_internet2011 06 gestion_recherche_info_internet
2011 06 gestion_recherche_info_internet
 
RAD avec IPF pour ImpressCMS 1.2
RAD avec IPF pour ImpressCMS 1.2RAD avec IPF pour ImpressCMS 1.2
RAD avec IPF pour ImpressCMS 1.2
 
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
 

Des applications plus intelligentes

  • 1. Des applications plus intelligentes Bashar Al-Fallouji
  • 2. Qui suis-je ? Bashar Al-Fallouji Architecte de Solution chez OpenText (Nstein) Mon Blog : bashar.alfallouji.com Sujets d’intérêt Génie logiciel Informatique décisionnelle (BI) Bashar Al-Fallouji - Des Applications Plus Intelligentes 2
  • 3. Objectif Présenter les technologies de Text-Mining existantes et leurs fonctionnalités. Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web). Bashar Al-Fallouji - Des Applications Plus Intelligentes 3
  • 4. Agenda Rappel sur le textmining (définition, concepts clés, etc.) Présentation des technologies existantes (produits, API, fonctionnalités, etc.) Intégration du Text-Mining dans les applications (Web) Bashar Al-Fallouji - Des Applications Plus Intelligentes 4
  • 5. Deux questions pour vous … Que signifie le terme Text-Mining ? Qui a déjà utilisé une technologie de Text-Mining ? Bashar Al-Fallouji - Des Applications Plus Intelligentes 5
  • 6. #1 – Rappel sur le Text-Mining
  • 7. Différents types de donnéesdansnos applications Les applications de traitement de l’information gère en général différents types de données Données structurées Date Booléen Valeur numérique (prix, pourcentage, quantité, etc.) Types énumérés (Mr, Ms, etc.) Données non-structurées Image Vidéo Son Corps de texte Bashar Al-Fallouji - Des Applications Plus Intelligentes 7
  • 8. Différents types de donnéesdansnos applications Il est facile de comprendre et de retrouver de l’information à partir de données structurés SELECT * FROM TBL_FACTURE WHERE prix > 100 Moins évident avec les données non-structurées Pourtant les données non-structurées peuvent receler une grande quantité d’information! Bashar Al-Fallouji - Des Applications Plus Intelligentes 8
  • 9. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 9
  • 10. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 10
  • 11. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 11 Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
  • 12. Mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 12 Constat Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités. But Extraire cette information et automatiser le processus d’extraction.
  • 13. Données non-structurées 80% Source : Experts Corner: Seth Grimes Bashar Al-Fallouji - Des Applications Plus Intelligentes 13
  • 14. Définition Text-Mining Processusd’extractiond’information de hautes-qualités à partir d’un texte Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations. Le Text-Mining mélange plusieurs disciplines Recherche d’information (Information Retrieval); Data Mining; Apprentissage Machine (Machine Learning); Linguistique; Statistique. Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 14
  • 15. Text-Mining Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte) Données non-structurées, Bloc de texte : Article (e.g. news, blogs) Email (e.g. feedback client) Post, Commentaire (e.g. forum) Logs (Server logs) Le Text-Mining permet d’enrichir le contenu et de mieux les structurer Plus les données sont structurées, plus facile il est de les Retrouver (Recherche facilitée) Analyser (Interprétation des données) Regrouper, relier Réutiliser Bashar Al-Fallouji - Des Applications Plus Intelligentes 15
  • 16.
  • 17. Taxonomie = Classification d’entités (souvent représenté sous forme d’un arbre)
  • 18. Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)Bashar Al-Fallouji - Des Applications Plus Intelligentes 16
  • 19. Text-Mining ? Permet de répondre à des questions précises Qui, Quand, Où, etc. Détection de la langue Génération automatisée de résumés Détection du ton (Sentiment Analysis) Bashar Al-Fallouji - Des Applications Plus Intelligentes 17
  • 20. Extraction d’entités Bashar Al-Fallouji - Des Applications Plus Intelligentes 18
  • 21. Exemple Bashar Al-Fallouji - Des Applications Plus Intelligentes 19 Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway. Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna. The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time. MinedwithAlchemyAPI
  • 22. Garbage in = Garbage out Bashar Al-Fallouji - Des Applications Plus Intelligentes 20
  • 23. #2 – Technologies existantes
  • 24.
  • 25. Peut être plus performant (temps de latence, pas de restriction à priori)
  • 26. Possibilité d’avoir des taxonomies et AF personnalisés
  • 28. Coût
  • 29.
  • 30. Technologies existantes (SaaS) Quelquesnoms (listes non-exhaustive!) Open Calais AlchemyAPI OpenAmplify BeliefNetworks Yahoo Term Extraction Evri Wingify Zemanta UClassify Alias-I Etc… Bashar Al-Fallouji - Des Applications Plus Intelligentes 24
  • 31. Fonctionnalitéesoffertes Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue Langues supportées (EN, FR, SP) Format supportés (HTML, Microformats) API existantes (PHP, Perl, .NET, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 25
  • 32. OpenCalais Rachat par Reuters de ClearForest en 2007 Reuters a démarré OpenCalais en Janvier 2008 Fonctionnalités principales Catégorisation Extraction d’entité, faits et événements Langues supportées : Anglais, Français (Espagnol) Quota : 50,000 transactions / jour, 4 transactions par seconde Bashar Al-Fallouji - Des Applications Plus Intelligentes 26
  • 33. OpenCalais : Exempled’appel Bashar Al-Fallouji - Des Applications Plus Intelligentes 27
  • 34. AlchemyAPI Produit de Orchestr8 (2005) Fonctionnalités principales Concept / Keywords Extractions Categorization Entity Languagedetection MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing Quota : 30,000 API appel / jour Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois) Plugins Wordpress AlchemySEO : Tagging Automatique (SEO) basé sur les microformats Bashar Al-Fallouji - Des Applications Plus Intelligentes 28
  • 35. OpenAmplify Web service développé par Hapax Fonctionnalités principales Catégorisation Extraction d’entité Analyse du Sentiment Format de sortie supporté : DART, OAS, RDF, RDFa, HTML 1000 transactions / jour Source : www.openAmplify.com Bashar Al-Fallouji - Des Applications Plus Intelligentes 29
  • 36. Yahoo Term Extraction Fonctionnalités principales Extraction d’entité 5000 transactions / jour et IP (utilisation non-commerciale) Seule l’anglais est supportée Output : JSON / PHP Bashar Al-Fallouji - Des Applications Plus Intelligentes 30
  • 37. NaCTeM National Center for TextMining NaCTeMoffredifférentes solutions TerMine : Reconnaissance automatique de termesdans un document AcroMine : Recherched’acronyme (biomédical) Medie : Engin de rechercheSémantique (Biomédical) Facta+ : Engin de recherched’association entre concept (biomédical) KLEIO : Recherchesémantique par facette (biomédical) Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes Bashar Al-Fallouji - Des Applications Plus Intelligentes 31
  • 38. #3 – L’intégration du Text-Mining dans les applications (Web)
  • 39. Intégration typique Bashar Al-Fallouji - Des Applications Plus Intelligentes 33
  • 40. Intégration du Text-Mining dans des applications open source OpenCalais Drupalhttp://drupal.org/project/opencalais Wordpresshttp://tagaroo.opencalais.com/ Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999 Bashar Al-Fallouji - Des Applications Plus Intelligentes 34
  • 41. Intégration du Text-Mining dans des applications open source AlchemyAPI PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi AlchemySEO Automatic tagging for SEO using MicroFormats Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/ Exemple (tags générés automatiquement) Bashar Al-Fallouji - Des Applications Plus Intelligentes 35
  • 42. Intégration du Text-Mining dans des applications open source OpenAmplify Drupalhttp://drupal.org/project/amplify Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx Bashar Al-Fallouji - Des Applications Plus Intelligentes 36
  • 43. Autresexemples :RechercheSémantiqueOntoText KIM Bashar Al-Fallouji - Des Applications Plus Intelligentes 37
  • 44. Autres exemples : Zemanta Zemanta analyses des donnéesgénérées par les utilisateurs (UGC) pour suggérer des photos, tags et liens pertinents. Disponible pour Firefox, Explorer et Google Chrome Zemantasuggère du contenuprovenant de Wikipedia, Youtube, IMDB, Amazon.com, Crunchbase, Flickr, ITIS, Musicbrainz, Mybloglog, Myspace, NCBI, Rottentomatoes, Twitter, Facebook, Snooth et Wikinvest. Source : Wikipedia Bashar Al-Fallouji - Des Applications Plus Intelligentes 38
  • 45. Autres exemples : Zemanta Bashar Al-Fallouji - Des Applications Plus Intelligentes 39
  • 46. Conclusion - Le Text-Mining dansvos applications ? Système d’annotation / tagging automatisée Amélioration de la recherche Regroupement automatisée de contenu A des fins d’analyses Rapport (Statistique sur le contenu, Aggrégation, etc) Offrir plus de liens sur un site Web Bashar Al-Fallouji - Des Applications Plus Intelligentes 40
  • 47. Merci pour votre attention ! Bashar Al-Fallouji - Des Applications Plus Intelligentes 41
  • 48. Liens & Références SemanticSearchEngine http://wortschatz.uni-leipzig.de/ NaCTeM http://www.nactem.ac.uk/ OpenCalais http://www.opencalais.com OpenAmplify http://www.openamplify.com AlchemyAPI http://www.alchemyapi.com Bashar Al-Fallouji - Des Applications Plus Intelligentes 42
  • 49. Liens & Références Text Mining: Finding Nuggets in Mountains of Textual DataJochen Dijrre, Peter Gerstl, Roland Seiffert http://www.cs.uvm.edu/~xwu/kdd/TextMining-09.ppt Natural Language ProcessingJF Allen http://portal.acm.org/citation.cfm?id=1074630 Bashar Al-Fallouji - Des Applications Plus Intelligentes 43

Notas do Editor

  1. 80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)