SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
Voix & Machines
Christophe Villeneuve
@hellosct1
@hellosct1@mamot.fr
Very Important Party 2019
Christophe Villeneuve ?
●
Consultant
●
Dresseur animaux Free Software
@hellosct1 - Very Important Party 2019
Aujourd’hui
●
Assistants vocaux
●
Construire son Assistant
●
Avec une communauté, c’est mieux
Assistants vocaux
Construire son Assistant
Avec une communauté,
c’est mieux
@hellosct1 - Very Important Party 2019
Assistant numérique : au service de l’utilisateur
●
Smartphone
●
Enceinte connectée
●
Mixed Reality
Souvent utilisé dans des
contextes où la voix est plus
efficace pour communiquer
@hellosct1 - Very Important Party 2019
Matériels
@hellosct1 - Very Important Party 2019
Traitement de la voix
●
Obligation d’un réseau
– Connecter aux internets
●
Accès aux services cloud pour pouvoir fonctionner
– Entrainement et transcription gourmands en calculs
●
Contraintes
– Souvent laissé à des services tiers en-ligne
– Nécessite beaucoup de données audio avec texte associé
– Voix personnelle, mais enregistrement parfois constant
@hellosct1 - Very Important Party 2019
Fonctionnement
Assistant vocaux
Requêtes
Résultat
Traitement
@hellosct1 - Very Important Party 2019
L’utilisation de la recherche vocale aujourd’hui
2016 2020
2016 2020
@hellosct1 - Very Important Party 2019
Aujourd’hui : Un constat
●
Des gros acteurs (4-5)
– Dominé par les géants du Web d’aujourd’hui
●
Difficile d’accès pour les petits acteurs
– Développeurs logiciels
– Langues et marchés « minoritaires »
●
Alternative pour outiller la communauté
– Emergence d’outils vocaux
→ Projet Common Voice de Mozilla
Verrous de
l’écosystème vocal
Verrous de
l’écosystème vocal
@hellosct1 - Very Important Party 2019
Alternative
●
Raspberry PI
– Respeaker 2 – Mics PI Hat
●
Arduino
– Movi d’Audème
– Grasp.io
– Voice Recognition
●
Briques pour Les assistants vocaux
– Common Voice – DeepSpeech de Mozilla
@hellosct1 - Very Important Party 2019
Ingrédients
Assistants vocaux
Construire son Assistant
Avec une communauté,
c’est mieux
Construire son assistant
Projet Common voice
@hellosct1 - Very Important Party 2019
Objectifs (1/2)
●
Cassons les barrières de la voix
– Accès : peu de gros jeux de données publiquement
accessibles
– Coût : ticket d’entrée important pour les jeux de
données commerciaux, avec des complexités
légales
– Biais : seuls certains marchés sont bien pourvus
@hellosct1 - Very Important Party 2019
Objectifs (2/2)
●
Collecte de données ouvertes pour l’apprentissage machine
●
Données : audio et texte correspondant
●
Diversité
– Langues
– Accents
– Ages
– Genres
– Qualité sonore
●
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
@hellosct1 - Very Important Party 2019
Voice.mozilla.org → Parler
https://voice.mozilla.org/speak
@hellosct1 - Very Important Party 2019
Voice.mozilla.org → Ecouter
https://voice.mozilla.org/listen
@hellosct1 - Very Important Party 2019
Proposer et valider de nouvelles phrases
●
Posséder un compte sur Common Voice.
●
Identifiez-vous sur le Collecteur de phrases
– Avec vos identifiants de Common Voice.
Validation des phrases
Page
→ page de validation.
Ajouter de nouvelle phrases
Page
→ Ajouter une nouvelle phrase
@hellosct1 - Very Important Party 2019
Collecteur de phrases : Ajouter
https://common-voice.github.io/sentence-collector/
@hellosct1 - Very Important Party 2019
Collecteur de phrases : Valider
https://common-voice.github.io/sentence-collector/
Construire son assistant
Projet Deep Speech
@hellosct1 - Very Important Party 2019
DeepSpeech
●
Speech To Text
– Voix vers le texte
●
Text To Speech
– Texte vers la Voix
@hellosct1 - Very Important Party 2019
Données ouvertes
●
Décentraliser les données : plus de pouvoir aux
utilisateurs et contributeurs
– Facile à obtenir, exploiter
– Partage des données
– Intégration dans d’autres
jeux de données
– Outiller les communautés
https://voice.mozilla.org/fr/datasets
@hellosct1 - Very Important Party 2019
Ingrédients
●
Modèles
– https://github.com/mozilla/deepspeech
●
Languages
– Python / Rust / NodeJS / .Net
●
Projets locals
– Pas de dépendance aux réseaux
●
Compatilibité Navigateurs
– Firefox et les autres
@hellosct1 - Very Important Party 2019
Projets disponible
●
Assistants numériques
– Mycroft
– Snips
– Université de Bangor (Pays de Galles)
●
Assistant personnel
– Leon
●
Transcription des messages
– FusionPBX
Assistants vocaux
Construire son Assistant
Avec une communauté,
c’est mieux
@hellosct1 - Very Important Party 2019
Construire une communauté
Mozilla ne serait rien sans sa communauté
@hellosct1 - Very Important Party 2019
Accompagner la communauté
●
Qui est un contributeur ?
– Tout le monde !
●
Sociétés et startups
●
Institutions et chercheurs
●
Hobbyistes individuels
●
Utiliser c’est déjà contribuer : télémétrie dans Firefox
Commencer à contribuer est un jeu d’enfants :
Enregistrez votre voix et écoutez celles des autres.
Commencer à contribuer est un jeu d’enfants :
Enregistrez votre voix et écoutez celles des autres.
@hellosct1 - Very Important Party 2019
Exemple
●
Le cas du kabyle
– Région d’Algérie, avec sa propre langue
≈ 5M locuteurs localement (≈ 25 − 30M dans le monde)
– Forte culture locale
– Déjà des contributeurs qui traduisent Firefox
– Implication forte :
≈ 300 contributeurs, et plus de 95 heures déjà collectées
●
Chercheurs et institutions
– Contributions de gouvernements pour leur langue
– Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires
– Benchmark non biaisé : Speech Advisory Group
@hellosct1 - Very Important Party 2019
Contributions par les faits
●
Plus de 30 langues actives, dont l’anglais, l’allemand, le kabyle, le français
et le catalan, le breton et le basque
●
En chiffre :
– 2018 (novembre) : 1200 heures validées
– 2019 (juin) 
●
2100 heures validées
●
2700 heures enregistrées
●
112 pays.
●
Plus de 110000 contributeurs individuels ont enregistré et/ou validé.
●
Plus de 200 développeurs ont participé.
●
Jeu de données téléchargé des centaines de fois tous les mois.
@hellosct1 - Very Important Party 2019
Répartitions
Accent
64% Français de France
3% Français de Belgique
2% Français de Suisse
1% Français du Canada
Âge
< 19 : 4 %
19 - 29 : 24 %
30 - 39 : 21 %
40 - 49 : 17 %
50 - 59 : 5 %
60 - 69 : 6 %
Genre
70 % Masculin
9 % Féminin
●
Jeux de données vocales disponible
– Contenu officiel https://voice.mozilla.org/fr/datasets
@hellosct1 - Very Important Party 2019
Comment pouvez-vous aider ?
●
Parlez-en : partagez votre voix et validez des échantillons
●
Utilisez le jeu de données, et donnez nous votre point de vue
●
Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile
●
Construisez des outils innovants avec Common Voice et Deep Speech
– un assistant numérique local ?
– de l’identification de locuteur ?
– de la domotique avec contrôle vocal 100% local ?
@hellosct1 - Very Important Party 2019
Allez plus loin !
●
Site officiel Common Voice
– https://voice.mozilla.org/
●
Dépôt Github Francophone Common Voice – DeepSpeech
– https://github.com/Common-Voice/commonvoice-fr
●
Nous contacter
– Forum Discourse Francophone
●
https://discourse.mozilla.org/c/voice/fr
@hellosct1 - Very Important Party 2019
Merci
Christophe Villeneuve
@hellosct1
@hellosct1@mamot.fr

Mais conteúdo relacionado

Semelhante a Voix et machines

Contribuer à Mozilla avec ou sans connaissance technique
Contribuer à Mozilla avec ou sans connaissance techniqueContribuer à Mozilla avec ou sans connaissance technique
Contribuer à Mozilla avec ou sans connaissance techniqueChristophe Villeneuve
 
Le numérique en médiathèque : premiers pas
Le numérique en médiathèque : premiers pasLe numérique en médiathèque : premiers pas
Le numérique en médiathèque : premiers pascspirin
 
Ouvrez votre logiciel au monde
Ouvrez votre logiciel au mondeOuvrez votre logiciel au monde
Ouvrez votre logiciel au mondePascal Fouque
 
Pinpin Team - Le Gaming sur le Web avec Flash
Pinpin Team - Le Gaming sur le Web avec FlashPinpin Team - Le Gaming sur le Web avec Flash
Pinpin Team - Le Gaming sur le Web avec FlashFlorian Brochard
 
Présentation les-podcast-geeksleague
Présentation les-podcast-geeksleaguePrésentation les-podcast-geeksleague
Présentation les-podcast-geeksleagueCafé Numérique Arlon
 
Groupe revue fiduciaire nuxeo tour 2014
Groupe revue fiduciaire   nuxeo tour 2014Groupe revue fiduciaire   nuxeo tour 2014
Groupe revue fiduciaire nuxeo tour 2014Nuxeo
 
Webcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieWebcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieFrédéric Neau
 
Utiliser les outils numériques créatifs pour valoriser sa médiathèque
Utiliser les outils numériques créatifs pour valoriser sa médiathèqueUtiliser les outils numériques créatifs pour valoriser sa médiathèque
Utiliser les outils numériques créatifs pour valoriser sa médiathèquecspirin
 
PréSentation Google Apps Version Google
PréSentation Google Apps Version GooglePréSentation Google Apps Version Google
PréSentation Google Apps Version GoogleVincent Pereira
 
La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3cspirin
 
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...aOS Community
 
Soirée des techniciens du numérique
Soirée des techniciens du numériqueSoirée des techniciens du numérique
Soirée des techniciens du numériqueAquinum
 
DevFest 2019 - Retour sur 3 années à developper des bots !
DevFest 2019 - Retour sur 3 années à developper des bots !DevFest 2019 - Retour sur 3 années à developper des bots !
DevFest 2019 - Retour sur 3 années à developper des bots !Alexandre Nicol
 
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019Maëlle Fouquenet
 

Semelhante a Voix et machines (20)

Contribuer à Mozilla avec ou sans connaissance technique
Contribuer à Mozilla avec ou sans connaissance techniqueContribuer à Mozilla avec ou sans connaissance technique
Contribuer à Mozilla avec ou sans connaissance technique
 
Le numérique en médiathèque : premiers pas
Le numérique en médiathèque : premiers pasLe numérique en médiathèque : premiers pas
Le numérique en médiathèque : premiers pas
 
Ouvrez votre logiciel au monde
Ouvrez votre logiciel au mondeOuvrez votre logiciel au monde
Ouvrez votre logiciel au monde
 
Pinpin Team - Le Gaming sur le Web avec Flash
Pinpin Team - Le Gaming sur le Web avec FlashPinpin Team - Le Gaming sur le Web avec Flash
Pinpin Team - Le Gaming sur le Web avec Flash
 
Présentation les-podcast-geeksleague
Présentation les-podcast-geeksleaguePrésentation les-podcast-geeksleague
Présentation les-podcast-geeksleague
 
Groupe revue fiduciaire nuxeo tour 2014
Groupe revue fiduciaire   nuxeo tour 2014Groupe revue fiduciaire   nuxeo tour 2014
Groupe revue fiduciaire nuxeo tour 2014
 
Webcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieWebcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe Ecologie
 
Utiliser les outils numériques créatifs pour valoriser sa médiathèque
Utiliser les outils numériques créatifs pour valoriser sa médiathèqueUtiliser les outils numériques créatifs pour valoriser sa médiathèque
Utiliser les outils numériques créatifs pour valoriser sa médiathèque
 
Flutter Rennes - #1
Flutter Rennes - #1Flutter Rennes - #1
Flutter Rennes - #1
 
PréSentation Google Apps Version Google
PréSentation Google Apps Version GooglePréSentation Google Apps Version Google
PréSentation Google Apps Version Google
 
La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3
 
A os aix marseille 2019 eudo
A os aix marseille 2019 eudoA os aix marseille 2019 eudo
A os aix marseille 2019 eudo
 
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...
2019-06-12 aOS Aix Marseille - A4 suis-je passé à Teams pour ma communication...
 
Controler vos donnees dans le web
Controler vos donnees dans le webControler vos donnees dans le web
Controler vos donnees dans le web
 
Présentation skype
Présentation skypePrésentation skype
Présentation skype
 
Soirée des techniciens du numérique
Soirée des techniciens du numériqueSoirée des techniciens du numérique
Soirée des techniciens du numérique
 
DevFest 2019 - Retour sur 3 années à developper des bots !
DevFest 2019 - Retour sur 3 années à developper des bots !DevFest 2019 - Retour sur 3 années à developper des bots !
DevFest 2019 - Retour sur 3 années à developper des bots !
 
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019
Podcasts et presse écrite, état des lieux et pistes pour réussir - mars 2019
 
Tice En Classe D Anglais
Tice En Classe D AnglaisTice En Classe D Anglais
Tice En Classe D Anglais
 
Un réseau d'échange de savoirs entre adhérents avec Steeple. Médiathèque muni...
Un réseau d'échange de savoirs entre adhérents avec Steeple. Médiathèque muni...Un réseau d'échange de savoirs entre adhérents avec Steeple. Médiathèque muni...
Un réseau d'échange de savoirs entre adhérents avec Steeple. Médiathèque muni...
 

Mais de Christophe Villeneuve

La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxChristophe Villeneuve
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webChristophe Villeneuve
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Christophe Villeneuve
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le designChristophe Villeneuve
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activitesChristophe Villeneuve
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftChristophe Villeneuve
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthnChristophe Villeneuve
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueChristophe Villeneuve
 
La réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsLa réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsChristophe Villeneuve
 
la boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsla boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsChristophe Villeneuve
 

Mais de Christophe Villeneuve (20)

MariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQLMariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQL
 
La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans Firefox
 
pister les pisteurs
pister les pisteurspister les pisteurs
pister les pisteurs
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le web
 
Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
Mariadb une base de données NewSQL
Mariadb une base de données NewSQLMariadb une base de données NewSQL
Mariadb une base de données NewSQL
 
Pentest bus pirate
Pentest bus piratePentest bus pirate
Pentest bus pirate
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le design
 
Foxfooding semaine 3
Foxfooding semaine 3Foxfooding semaine 3
Foxfooding semaine 3
 
Foxfooding
FoxfoodingFoxfooding
Foxfooding
 
Accessibilite web wcag rgaa
Accessibilite web wcag rgaaAccessibilite web wcag rgaa
Accessibilite web wcag rgaa
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activites
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et Microsoft
 
Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthn
 
Send large files with addons
Send large files with addonsSend large files with addons
Send large files with addons
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratique
 
La réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsLa réalité mélangée dans vos applications
La réalité mélangée dans vos applications
 
la boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsla boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtools
 

Voix et machines

  • 1. Voix & Machines Christophe Villeneuve @hellosct1 @hellosct1@mamot.fr Very Important Party 2019
  • 3. @hellosct1 - Very Important Party 2019 Aujourd’hui ● Assistants vocaux ● Construire son Assistant ● Avec une communauté, c’est mieux
  • 4. Assistants vocaux Construire son Assistant Avec une communauté, c’est mieux
  • 5. @hellosct1 - Very Important Party 2019 Assistant numérique : au service de l’utilisateur ● Smartphone ● Enceinte connectée ● Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer
  • 6. @hellosct1 - Very Important Party 2019 Matériels
  • 7. @hellosct1 - Very Important Party 2019 Traitement de la voix ● Obligation d’un réseau – Connecter aux internets ● Accès aux services cloud pour pouvoir fonctionner – Entrainement et transcription gourmands en calculs ● Contraintes – Souvent laissé à des services tiers en-ligne – Nécessite beaucoup de données audio avec texte associé – Voix personnelle, mais enregistrement parfois constant
  • 8. @hellosct1 - Very Important Party 2019 Fonctionnement Assistant vocaux Requêtes Résultat Traitement
  • 9. @hellosct1 - Very Important Party 2019 L’utilisation de la recherche vocale aujourd’hui 2016 2020 2016 2020
  • 10. @hellosct1 - Very Important Party 2019 Aujourd’hui : Un constat ● Des gros acteurs (4-5) – Dominé par les géants du Web d’aujourd’hui ● Difficile d’accès pour les petits acteurs – Développeurs logiciels – Langues et marchés « minoritaires » ● Alternative pour outiller la communauté – Emergence d’outils vocaux → Projet Common Voice de Mozilla Verrous de l’écosystème vocal Verrous de l’écosystème vocal
  • 11. @hellosct1 - Very Important Party 2019 Alternative ● Raspberry PI – Respeaker 2 – Mics PI Hat ● Arduino – Movi d’Audème – Grasp.io – Voice Recognition ● Briques pour Les assistants vocaux – Common Voice – DeepSpeech de Mozilla
  • 12. @hellosct1 - Very Important Party 2019 Ingrédients
  • 13. Assistants vocaux Construire son Assistant Avec une communauté, c’est mieux
  • 15. @hellosct1 - Very Important Party 2019 Objectifs (1/2) ● Cassons les barrières de la voix – Accès : peu de gros jeux de données publiquement accessibles – Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales – Biais : seuls certains marchés sont bien pourvus
  • 16. @hellosct1 - Very Important Party 2019 Objectifs (2/2) ● Collecte de données ouvertes pour l’apprentissage machine ● Données : audio et texte correspondant ● Diversité – Langues – Accents – Ages – Genres – Qualité sonore ● Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org
  • 17. @hellosct1 - Very Important Party 2019 Voice.mozilla.org → Parler https://voice.mozilla.org/speak
  • 18. @hellosct1 - Very Important Party 2019 Voice.mozilla.org → Ecouter https://voice.mozilla.org/listen
  • 19. @hellosct1 - Very Important Party 2019 Proposer et valider de nouvelles phrases ● Posséder un compte sur Common Voice. ● Identifiez-vous sur le Collecteur de phrases – Avec vos identifiants de Common Voice. Validation des phrases Page → page de validation. Ajouter de nouvelle phrases Page → Ajouter une nouvelle phrase
  • 20. @hellosct1 - Very Important Party 2019 Collecteur de phrases : Ajouter https://common-voice.github.io/sentence-collector/
  • 21. @hellosct1 - Very Important Party 2019 Collecteur de phrases : Valider https://common-voice.github.io/sentence-collector/
  • 23. @hellosct1 - Very Important Party 2019 DeepSpeech ● Speech To Text – Voix vers le texte ● Text To Speech – Texte vers la Voix
  • 24. @hellosct1 - Very Important Party 2019 Données ouvertes ● Décentraliser les données : plus de pouvoir aux utilisateurs et contributeurs – Facile à obtenir, exploiter – Partage des données – Intégration dans d’autres jeux de données – Outiller les communautés https://voice.mozilla.org/fr/datasets
  • 25. @hellosct1 - Very Important Party 2019 Ingrédients ● Modèles – https://github.com/mozilla/deepspeech ● Languages – Python / Rust / NodeJS / .Net ● Projets locals – Pas de dépendance aux réseaux ● Compatilibité Navigateurs – Firefox et les autres
  • 26. @hellosct1 - Very Important Party 2019 Projets disponible ● Assistants numériques – Mycroft – Snips – Université de Bangor (Pays de Galles) ● Assistant personnel – Leon ● Transcription des messages – FusionPBX
  • 27. Assistants vocaux Construire son Assistant Avec une communauté, c’est mieux
  • 28. @hellosct1 - Very Important Party 2019 Construire une communauté Mozilla ne serait rien sans sa communauté
  • 29. @hellosct1 - Very Important Party 2019 Accompagner la communauté ● Qui est un contributeur ? – Tout le monde ! ● Sociétés et startups ● Institutions et chercheurs ● Hobbyistes individuels ● Utiliser c’est déjà contribuer : télémétrie dans Firefox Commencer à contribuer est un jeu d’enfants : Enregistrez votre voix et écoutez celles des autres. Commencer à contribuer est un jeu d’enfants : Enregistrez votre voix et écoutez celles des autres.
  • 30. @hellosct1 - Very Important Party 2019 Exemple ● Le cas du kabyle – Région d’Algérie, avec sa propre langue ≈ 5M locuteurs localement (≈ 25 − 30M dans le monde) – Forte culture locale – Déjà des contributeurs qui traduisent Firefox – Implication forte : ≈ 300 contributeurs, et plus de 95 heures déjà collectées ● Chercheurs et institutions – Contributions de gouvernements pour leur langue – Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires – Benchmark non biaisé : Speech Advisory Group
  • 31. @hellosct1 - Very Important Party 2019 Contributions par les faits ● Plus de 30 langues actives, dont l’anglais, l’allemand, le kabyle, le français et le catalan, le breton et le basque ● En chiffre : – 2018 (novembre) : 1200 heures validées – 2019 (juin)  ● 2100 heures validées ● 2700 heures enregistrées ● 112 pays. ● Plus de 110000 contributeurs individuels ont enregistré et/ou validé. ● Plus de 200 développeurs ont participé. ● Jeu de données téléchargé des centaines de fois tous les mois.
  • 32. @hellosct1 - Very Important Party 2019 Répartitions Accent 64% Français de France 3% Français de Belgique 2% Français de Suisse 1% Français du Canada Âge < 19 : 4 % 19 - 29 : 24 % 30 - 39 : 21 % 40 - 49 : 17 % 50 - 59 : 5 % 60 - 69 : 6 % Genre 70 % Masculin 9 % Féminin ● Jeux de données vocales disponible – Contenu officiel https://voice.mozilla.org/fr/datasets
  • 33. @hellosct1 - Very Important Party 2019 Comment pouvez-vous aider ? ● Parlez-en : partagez votre voix et validez des échantillons ● Utilisez le jeu de données, et donnez nous votre point de vue ● Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile ● Construisez des outils innovants avec Common Voice et Deep Speech – un assistant numérique local ? – de l’identification de locuteur ? – de la domotique avec contrôle vocal 100% local ?
  • 34. @hellosct1 - Very Important Party 2019 Allez plus loin ! ● Site officiel Common Voice – https://voice.mozilla.org/ ● Dépôt Github Francophone Common Voice – DeepSpeech – https://github.com/Common-Voice/commonvoice-fr ● Nous contacter – Forum Discourse Francophone ● https://discourse.mozilla.org/c/voice/fr
  • 35. @hellosct1 - Very Important Party 2019 Merci Christophe Villeneuve @hellosct1 @hellosct1@mamot.fr