SlideShare uma empresa Scribd logo
1 de 62
Baixar para ler offline
Développement de ressources en
swahili pour un système de RAP

Hadrien Gelas1,2, Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France
2LIG, CNRS - Université Joseph Fourier Grenoble, France
Introduction                  Résultats
 du Swahili                  du système


     1             2            3
               Ressources
               pour la RAP
Swahili ?


1
Grande
partie
d’Afrique
de l’Est


                  9	
  
Parlée dans plus de   pays	
  
Grande
partie
d’Afrique
de l’Est


Langue officielle de   5	
  
                          nations	
  
Grande
partie
d’Afrique
de l’Est


  Langue
  swahili
2% seulement de locuteurs natifs
(entre 800k et 5M)




              98% sont
             non-natifs


 entre 40M et 100M de locuteurs
Services numériques
en swahili
Services numériques
en swahili
Services numériques
en swahili
Services numériques
en swahili
Services numériques
en swahili
Services numériques
Services numériques
Services numériques
Services numériques
Services numériques
Services numériques




Mais pas encore
Famille
Bantu



333
Swahili et RAP


 Ressources          Non tonale
 Morphologie riche   Orthographe
 Classes nominales
 système d’accord
 verbes complexes
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




 2                                                  J   Sorties
                                                         texte
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




          Nécessite un corpus
          de texte                                  J   Sorties
                                                         texte
Corpus texte (M mots)
                                                        28




                                         12



                      5
     2
 Sawa corpus   [Getao and Miriti]   Helsinki corpus   Our corpus
Corpus texte (M mots)
                                                        28
  Collecté depuis 16
  sites de news

                                         12



                      5
     2
 Sawa corpus   [Getao and Miriti]   Helsinki corpus   Our corpus
Morphologie Riche
en swahili
Morphologie Riche
en swahili
English   They will not tell you
Morphologie Riche
en swahili
English   They will not tell you

Swahili   hawatakuambieni
Morphologie Riche
en swahili
English   They will not tell you

Swahili   hawatakuambieni

Segm.     ha-wa-ta-ku-ambi-e-ni

Gloss     NEG-SM2-FUT-OM2-tell-FIN-PL
Morphologie Riche
et RAP [Creutz et al., 2007]
Morphologie riche
en RAP (Type OOV %)
  19.17
                                    OOV % élevé	
  


             12.46
                         10.28




 Word-65k   Word-200k   Word-400k
Morphologie riche
en RAP (Type OOV %)
                                    Afin d’obtenir une
  19.17                             couverture lexicale
                                    plus large, nous
                                    avons utilisé une
             12.46                  approche non-
                         10.28      supervisée
                                    (Morfessor) pour
                                    segmenter les
                                    mots en unités
                                    sub-lexicales	
  
 Word-65k   Word-200k   Word-400k
Morphologie riche
en RAP (Type OOV %)
  19.17



             12.46
                         10.28      11.36


                                                1.61
 Word-65k   Word-200k   Word-400k   Morf-65k   Morf-200k
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




 Nécessite la prononciation
 des unités
                                                    J   Sorties
                                                         texte
Dictionnaire de
prononciation
65k unités les plus fréquentes
+
Un script Grapheme-to-phoneme tirant
bénéfice de la regularité de l’orthographe swahili
Dictionnaire de
prononciation
65k unités les plus fréquentes
+
Un script Grapheme-to-phoneme tirant
bénéfice de la regularité de l’orthographe swahili
                  MAIS…
Problèmes avec tout les mots anglais, noms
propres et acronymes !
Dictionnaire de
prononciation

Près de 9% des unités dans le
lexique de 65k mots apparaissent
dans le dictionnaire anglais du CMU
Dictionnaire de
prononciation
Mots dans dict. 65k	
     Mots dans dict. CMU
                          	
  
…                         …
games    g a m e s        games    G EY M Z
…                         …
Dictionnaire de
prononciation
Mots dans dict. 65k	
               Mots dans dict. CMU
                                    	
  
…                1                  …
                        Mot identique
games    g a m e s                  games    G EY M Z
…                                   …
Dictionnaire de
prononciation
Mots dans dict. 65k	
               Mots dans dict. CMU
                                    	
  
…                1                  …
                        Mot identique
games    g a m e s                  games    G EY M Z
…                                   …



                         2   Conversion vers les phones
                             du swahili
Dictionnaire de
prononciation
Mots dans dict. 65k	
               Mots dans dict. CMU
                                    	
  
…                1                  …
                        Mot identique
games    g a m e s                  games    G EY M Z
games(2) g e y m z                  …
…
     Ajout
 3   comme
     variante            2   Conversion vers les phones
                             du swahili
Ressources en RAP
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




Nécessite des données audio
ainsi que les transcriptions
correspondantes
                                                    J   Sorties
                                                         texte
Corpus Audio


Contrainte principale pour nous !
Une tâche longue et coûteuse.
Corpus de parole
lue (1ère solution)

Transcriptions directement disponibles et
tâche simple à préparer
Corpus de parole
lue (1ère solution)

Transcriptions directement disponibles et
tâche simple à préparer
                  MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs
Corpus de parole
lue (1ère solution)

Transcriptions directement disponibles et
tâche simple à préparer
                  MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs

          3h30 collectées
Transcriptions via
Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Transcriptions via
Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.


Qualité assez bonne       Durée bien plus longue
pour des modèles          que pour l’anglais
acoustiques               Problèmes éthiques
Possibilité de trouver
des transcripteurs
Transcriptions via
Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.


Qualité assez bonne       Durée bien plus longue
pour des modèles          que pour l’anglais
acoustiques               Problèmes éthiques
Possibilité de trouver
des transcripteurs
              Seulement un test,
         1h30 de parole lue transcrite
Transcription
collaborative (3ème solution)

Corpus à transcrire : web broadcast news
(disponible en ligne avec une qualité suffisante)

Collaboration avec un institut kenyan :
	
  
Transcription
collaborative (3ème solution)
             Un 1er model acoustique
             (MA) est appris à partir
             du corpus de parole lue

MA 1er set
Transcription
collaborative (3ème solution)
             Préparation
             Set de 2h
                           Un set de 2h est
                           segmenté et filtré
MA 1er set                 automatiquement
Transcription
collaborative (3ème solution)
                  Préparation
                  Set de 2h


                                          Set de 2h
MA 1er set                                transcrit


             Le set de 2h est transcrit
             avec notre 1er MA
Transcription
collaborative (3ème solution)
                  Préparation
                  Set de 2h


                                       Set de 2h
MA 1er set   Le set de 2h est envoyé   transcrit
             au Ta ji Institute pour
             correction

                  Set de 2h
                  corrigé
Transcription
collaborative (3ème solution)
                 Préparation
                 Set de 2h
              Après correction, les
              données sont
                                      Set de 2h
MA 2ème set   a joutées au corpus
                                      transcrit
              d’entrainement et un
              nouveau MA est
              appris
                 Set de 2h
                 corrigé
Transcription
collaborative (3ème solution)
             Préparation
             Set de 2h


            12h sont ainsi   Set de 2h
MA 6ème set                  transcrit
            transcrites

             Set de 2h
             corrigé
Transcription collaborative
                               1er set
                          40
                          40

                          35




Temps
     Time Spent (hours)

                          30




(heures)                                       3ème set
                                                          5ème set
                          25   2ème set
                          25




                                                4ème set
                          20




                                                                          6ème set
                          15
                          15




                               60
                               60         65       70
                                                   70         75     80      85
                                                                             85

                                    Caractères corrects (%)
                                        Character Accuracy Rate (%)
Résultats (WER)
"
                        Dictionnaire
      Modèles
                   r   prononciation   r    Modèles
     acoustiques
                   l                   l   de langage




 3                                                  J   Sorties
                                                         texte
Asante! (Merci!)

    hadrien.gelas@univ-lyon2.fr

    laurent.besacier@imag.fr

    francois.pellegrino@univ-lyon2.fr
Taux de pénétration
d’Internet (%)                                                     78.6

                                                        67.5
                                              61.3



                                   39.5
                          35.6
                32.7
         26.2

13.5

Africa   Asia    World Middle East Latin      Europe   Oceania /    North
                Average           America /            Australia   America
                                  Caribbean
Internet – croissance de
          la population (%)
   2988.4   2244.8
                   2000-2011
                                    1205.1

          789.6
                  528.1
                                                376.4
                                                           214       152.6

 Africa    Asia    World Middle East Latin      Europe   Oceania /    North
                  Average           America /            Australia   America
                                    Caribbean
Ressources en ligne

Mais conteúdo relacionado

Destaque

KUJJUK - Solution globale de présentation de produits - fiches produits confé...
KUJJUK - Solution globale de présentation de produits - fiches produits confé...KUJJUK - Solution globale de présentation de produits - fiches produits confé...
KUJJUK - Solution globale de présentation de produits - fiches produits confé...Léo Ginailhac
 
El ascensor
El ascensorEl ascensor
El ascensorzzzzpaff
 
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...Degrémont Industry
 
Células y tejidos
Células y tejidosCélulas y tejidos
Células y tejidos1125Lu
 
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...yann le gigan
 
Press book Carré Rive Gauche 2014
Press book Carré Rive Gauche 2014Press book Carré Rive Gauche 2014
Press book Carré Rive Gauche 2014Agence Colonnes
 
EL SEÑOR DE LOS MILAGROS
EL SEÑOR DE LOS MILAGROSEL SEÑOR DE LOS MILAGROS
EL SEÑOR DE LOS MILAGROSJersson LR
 

Destaque (15)

KUJJUK - Solution globale de présentation de produits - fiches produits confé...
KUJJUK - Solution globale de présentation de produits - fiches produits confé...KUJJUK - Solution globale de présentation de produits - fiches produits confé...
KUJJUK - Solution globale de présentation de produits - fiches produits confé...
 
El ascensor
El ascensorEl ascensor
El ascensor
 
Le desert
Le desertLe desert
Le desert
 
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...
FR - Oleasing, une solution de traitement d'eau adaptée aux capacités d'inves...
 
Présentation des ateliers
Présentation des ateliersPrésentation des ateliers
Présentation des ateliers
 
Italie questionnaire sante
Italie questionnaire santeItalie questionnaire sante
Italie questionnaire sante
 
Clavier
ClavierClavier
Clavier
 
Core Values
Core ValuesCore Values
Core Values
 
Células y tejidos
Células y tejidosCélulas y tejidos
Células y tejidos
 
Meteo Bovio Italie
Meteo Bovio ItalieMeteo Bovio Italie
Meteo Bovio Italie
 
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...
«Quelles perspectives pour le e-commerce en 2015 ?» baromètre Fevad/CSA 27.01...
 
Web ecoelectric
Web ecoelectricWeb ecoelectric
Web ecoelectric
 
Press book Carré Rive Gauche 2014
Press book Carré Rive Gauche 2014Press book Carré Rive Gauche 2014
Press book Carré Rive Gauche 2014
 
My sql
My sqlMy sql
My sql
 
EL SEÑOR DE LOS MILAGROS
EL SEÑOR DE LOS MILAGROSEL SEÑOR DE LOS MILAGROS
EL SEÑOR DE LOS MILAGROS
 

Semelhante a Jep 2012 Swahili

Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : NgrammesJaouad Dabounou
 
Base lexicale ESF SFP Bordeaux 12 sept 2008
Base lexicale ESF SFP Bordeaux 12 sept 2008Base lexicale ESF SFP Bordeaux 12 sept 2008
Base lexicale ESF SFP Bordeaux 12 sept 2008Jean-Marc Lavaur
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Stefane Fermigier
 
Synthese vocale
Synthese vocaleSynthese vocale
Synthese vocalelucyalexa
 
Fonctionnement de la mémoire sémantique bilingue SFP Montpellier 020912
Fonctionnement de la mémoire sémantique bilingue  SFP Montpellier 020912Fonctionnement de la mémoire sémantique bilingue  SFP Montpellier 020912
Fonctionnement de la mémoire sémantique bilingue SFP Montpellier 020912Jean-Marc Lavaur
 

Semelhante a Jep 2012 Swahili (6)

Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
Base lexicale ESF SFP Bordeaux 12 sept 2008
Base lexicale ESF SFP Bordeaux 12 sept 2008Base lexicale ESF SFP Bordeaux 12 sept 2008
Base lexicale ESF SFP Bordeaux 12 sept 2008
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010
 
Synthese vocale
Synthese vocaleSynthese vocale
Synthese vocale
 
Soutenance.final
Soutenance.finalSoutenance.final
Soutenance.final
 
Fonctionnement de la mémoire sémantique bilingue SFP Montpellier 020912
Fonctionnement de la mémoire sémantique bilingue  SFP Montpellier 020912Fonctionnement de la mémoire sémantique bilingue  SFP Montpellier 020912
Fonctionnement de la mémoire sémantique bilingue SFP Montpellier 020912
 

Jep 2012 Swahili