Avec ce talk, je vous parle d'un cas d'utilisation un peu atypique d'Elasticsearch : la classification de courriers postaux pour déterminer le service destinataire.
On parlera classification par moteur de règles, classification par apprentissage supervisé, structure de document "nested", et chaîne d'analyse pour détecter le code postal de l'émetteur.
Enfin, je terminerai avec quelques stats montrant la performance de l'ensemble... avec Kibana bien sûr :)
5. Besoin
Dématérialisation des courriers postaux et de leur traitement
Numérisation automatisée des courriers
Classification automatisée des courriers
Distribution automatisée et sécurisée des courriers
Généralisation à tout type de courrier (fax, mail, formulaire web)
7. Zoom sur Elastic Stack
Stockage des courriers en tant que documents Elasticsearch
Chaîne d’analyse pour retrouver le code postal de l’expéditeur
Recherche du service destinataire dans le courrier
Par moteur de règles
Par apprentissage supervisé
Statistiques de performance de de la solution avec Kibana
8. Structure des documents dans Elasticsearch
Courrier Document 1
Page 1
Page N
Document N
Page 1
Page N
12. Classification par moteur de règles
Utilisation du mécanisme de percolator d’Elasticsearch
« Donnes-moi un document,
je te dirai à quelle requête il correspond »
Stockage d’un document-requête par service destinataire
« Indique les mots-clés et les codes postaux
associés au service destinataire »
Requête à partir d’un courrier et récupération du service destinataire
15. Classification par apprentissage supervisé
Utilisation du mécanisme de more-like-this d’Elasticsearch
« Donnes-moi un document,
je te dirai à quel document déjà classifié
il ressemble le plus »
Stockage d’un jeu de courriers de référence déjà classifiés
Enrichissement continu du jeu de courriers de référence