Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide to your (Web) application.
2. Qui suis-je ? Bashar Al-Fallouji Architecte de Solution chez OpenText (Nstein) Mon Blog : bashar.alfallouji.com Sujets d’intérêt Génie logiciel Informatique décisionnelle (BI) Bashar Al-Fallouji - Des Applications Plus Intelligentes 2
3. Objectif Présenter les technologies de Text-Mining existantes et leurs fonctionnalités. Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web). Bashar Al-Fallouji - Des Applications Plus Intelligentes 3
4. Agenda Rappel sur le textmining (définition, concepts clés, etc.) Présentation des technologies existantes (produits, API, fonctionnalités, etc.) Intégration du Text-Mining dans les applications (Web) Bashar Al-Fallouji - Des Applications Plus Intelligentes 4
5. Deux questions pour vous … Que signifie le terme Text-Mining ? Qui a déjà utilisé une technologie de Text-Mining ? Bashar Al-Fallouji - Des Applications Plus Intelligentes 5
7. Différents types de donnéesdansnos applications Les applications de traitement de l’information gère en général différents types de données Données structurées Date Booléen Valeur numérique (prix, pourcentage, quantité, etc.) Types énumérés (Mr, Ms, etc.) Données non-structurées Image Vidéo Son Corps de texte Bashar Al-Fallouji - Des Applications Plus Intelligentes 7
8. Différents types de donnéesdansnos applications Il est facile de comprendre et de retrouver de l’information à partir de données structurés SELECT * FROM TBL_FACTURE WHERE prix > 100 Moins évident avec les données non-structurées Pourtant les données non-structurées peuvent receler une grande quantité d’information! Bashar Al-Fallouji - Des Applications Plus Intelligentes 8
9. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 9
10. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 10
11. Données non-structurées sont des mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 11 Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
12. Mine d’or d’information Bashar Al-Fallouji - Des Applications Plus Intelligentes 12 Constat Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités. But Extraire cette information et automatiser le processus d’extraction.
13. Données non-structurées 80% Source : Experts Corner: Seth Grimes Bashar Al-Fallouji - Des Applications Plus Intelligentes 13
14. Définition Text-Mining Processusd’extractiond’information de hautes-qualités à partir d’un texte Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations. Le Text-Mining mélange plusieurs disciplines Recherche d’information (Information Retrieval); Data Mining; Apprentissage Machine (Machine Learning); Linguistique; Statistique. Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 14
15. Text-Mining Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte) Données non-structurées, Bloc de texte : Article (e.g. news, blogs) Email (e.g. feedback client) Post, Commentaire (e.g. forum) Logs (Server logs) Le Text-Mining permet d’enrichir le contenu et de mieux les structurer Plus les données sont structurées, plus facile il est de les Retrouver (Recherche facilitée) Analyser (Interprétation des données) Regrouper, relier Réutiliser Bashar Al-Fallouji - Des Applications Plus Intelligentes 15
16.
17. Taxonomie = Classification d’entités (souvent représenté sous forme d’un arbre)
18. Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)Bashar Al-Fallouji - Des Applications Plus Intelligentes 16
19. Text-Mining ? Permet de répondre à des questions précises Qui, Quand, Où, etc. Détection de la langue Génération automatisée de résumés Détection du ton (Sentiment Analysis) Bashar Al-Fallouji - Des Applications Plus Intelligentes 17
21. Exemple Bashar Al-Fallouji - Des Applications Plus Intelligentes 19 Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway. Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna. The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time. MinedwithAlchemyAPI
22. Garbage in = Garbage out Bashar Al-Fallouji - Des Applications Plus Intelligentes 20
30. Technologies existantes (SaaS) Quelquesnoms (listes non-exhaustive!) Open Calais AlchemyAPI OpenAmplify BeliefNetworks Yahoo Term Extraction Evri Wingify Zemanta UClassify Alias-I Etc… Bashar Al-Fallouji - Des Applications Plus Intelligentes 24
31. Fonctionnalitéesoffertes Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue Langues supportées (EN, FR, SP) Format supportés (HTML, Microformats) API existantes (PHP, Perl, .NET, etc.) Bashar Al-Fallouji - Des Applications Plus Intelligentes 25
32. OpenCalais Rachat par Reuters de ClearForest en 2007 Reuters a démarré OpenCalais en Janvier 2008 Fonctionnalités principales Catégorisation Extraction d’entité, faits et événements Langues supportées : Anglais, Français (Espagnol) Quota : 50,000 transactions / jour, 4 transactions par seconde Bashar Al-Fallouji - Des Applications Plus Intelligentes 26
34. AlchemyAPI Produit de Orchestr8 (2005) Fonctionnalités principales Concept / Keywords Extractions Categorization Entity Languagedetection MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing Quota : 30,000 API appel / jour Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois) Plugins Wordpress AlchemySEO : Tagging Automatique (SEO) basé sur les microformats Bashar Al-Fallouji - Des Applications Plus Intelligentes 28
35. OpenAmplify Web service développé par Hapax Fonctionnalités principales Catégorisation Extraction d’entité Analyse du Sentiment Format de sortie supporté : DART, OAS, RDF, RDFa, HTML 1000 transactions / jour Source : www.openAmplify.com Bashar Al-Fallouji - Des Applications Plus Intelligentes 29
36. Yahoo Term Extraction Fonctionnalités principales Extraction d’entité 5000 transactions / jour et IP (utilisation non-commerciale) Seule l’anglais est supportée Output : JSON / PHP Bashar Al-Fallouji - Des Applications Plus Intelligentes 30
37. NaCTeM National Center for TextMining NaCTeMoffredifférentes solutions TerMine : Reconnaissance automatique de termesdans un document AcroMine : Recherched’acronyme (biomédical) Medie : Engin de rechercheSémantique (Biomédical) Facta+ : Engin de recherched’association entre concept (biomédical) KLEIO : Recherchesémantique par facette (biomédical) Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes Bashar Al-Fallouji - Des Applications Plus Intelligentes 31
40. Intégration du Text-Mining dans des applications open source OpenCalais Drupalhttp://drupal.org/project/opencalais Wordpresshttp://tagaroo.opencalais.com/ Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999 Bashar Al-Fallouji - Des Applications Plus Intelligentes 34
41. Intégration du Text-Mining dans des applications open source AlchemyAPI PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi AlchemySEO Automatic tagging for SEO using MicroFormats Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/ Exemple (tags générés automatiquement) Bashar Al-Fallouji - Des Applications Plus Intelligentes 35
42. Intégration du Text-Mining dans des applications open source OpenAmplify Drupalhttp://drupal.org/project/amplify Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx Bashar Al-Fallouji - Des Applications Plus Intelligentes 36
44. Autres exemples : Zemanta Zemanta analyses des donnéesgénérées par les utilisateurs (UGC) pour suggérer des photos, tags et liens pertinents. Disponible pour Firefox, Explorer et Google Chrome Zemantasuggère du contenuprovenant de Wikipedia, Youtube, IMDB, Amazon.com, Crunchbase, Flickr, ITIS, Musicbrainz, Mybloglog, Myspace, NCBI, Rottentomatoes, Twitter, Facebook, Snooth et Wikinvest. Source : Wikipedia Bashar Al-Fallouji - Des Applications Plus Intelligentes 38
45. Autres exemples : Zemanta Bashar Al-Fallouji - Des Applications Plus Intelligentes 39
46. Conclusion - Le Text-Mining dansvos applications ? Système d’annotation / tagging automatisée Amélioration de la recherche Regroupement automatisée de contenu A des fins d’analyses Rapport (Statistique sur le contenu, Aggrégation, etc) Offrir plus de liens sur un site Web Bashar Al-Fallouji - Des Applications Plus Intelligentes 40
47. Merci pour votre attention ! Bashar Al-Fallouji - Des Applications Plus Intelligentes 41
48. Liens & Références SemanticSearchEngine http://wortschatz.uni-leipzig.de/ NaCTeM http://www.nactem.ac.uk/ OpenCalais http://www.opencalais.com OpenAmplify http://www.openamplify.com AlchemyAPI http://www.alchemyapi.com Bashar Al-Fallouji - Des Applications Plus Intelligentes 42
49. Liens & Références Text Mining: Finding Nuggets in Mountains of Textual DataJochen Dijrre, Peter Gerstl, Roland Seiffert http://www.cs.uvm.edu/~xwu/kdd/TextMining-09.ppt Natural Language ProcessingJF Allen http://portal.acm.org/citation.cfm?id=1074630 Bashar Al-Fallouji - Des Applications Plus Intelligentes 43
Notas do Editor
80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)