SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Encoder l'oral en TEI :
démarches, avantages, défis

 Lou Burnard (Meet, TGE Adonis)



           mai 2012




                                  1/55
Encoder l'oral
Cela veut dire :
     saisie d'un signal sonore
     sa transcription
     sa contextualisation
La saisie de telles ressources est :
     techniquement complexe
     conceptuellement difficile
    coûteuse
.
Pour ces raisons (entre autres) elle devrait se faire en respectant des .
normes
.
..                                                                    .




                                                                        .
                                                                            2/55
C'est quoi l'Oral ?



expériences d'élicitation linguistique, sous conditions
contrôlées
interviews documentaires
émissions radiophoniques, quasi-scénarisées
enregistrements plus ou moins informels, voire avec
microphone caché




                                                          3/55
L'Oral : quelques défis



Par rapport aux textes écrits, les textes oraux
     se produisent dans le temps
     n'ont pas de format normalisé
     sont incompréhensibles hors de leur contexte
Cf. manuscrits, images




                                                    4/55
La transcription


    nécessite un acte interprétatif, pas susceptible
    d'automatisation
    implique des décisions difficiles sur l'orthographe, la
    tokenisation, la sélection même des phénomenes à transcrire
    implique souvent une réécriture totale du point de vue
    temporel
.
La plupart des systèmes de transcriptions donnent la priorité à la .
lisibilité (humaine) plutôt qu'au traitement
.
..                                                                .




                                                                   .
                                                                       5/55
Exemple de transcription orale ... factice ?

.
<div>                                                                                  .
  <u who="#DP"> Une minute de réponse s'il vous plaît et on passe vraiment à autre
chose.</u>
  <u who="#NS">Je ne crois pas que monsieur Berlusconi soit mon ami puisqu'il a
semblé souhaiter votre élection.</u>
  <u who="#FH">Il est en tout cas de votre parti au niveau européen.</u>
  <u who="#NS">Non, ça n'est pas exact.</u>
  <u who="#FH">Ne dites pas une contre-vérité. Il est du PPE ou pas ?</u>
  <u who="#NS">Monsieur Berlusconi est berlusconiesque.</u>
  <u who="#FH">Non. Est-ce qu'il est du PPE ou non ? Répondez à ma question.</u>
  <u who="#NS">Je ne suis pas votre élève. J'y répondrai après vous avoir dit ce que
j'ai à vous dire.</u>
  <u who="#FH">Donc, monsieur Berlusconi est au PPE dans le même parti que le
vôtre.</u>
  <u who="#NS">Monsieur Berlusconi n'est pas dans mon parti ni de près ni de loin.</u>
  <u who="#FH">Il l'est au niveau européen.</u>
.
</div>
..                                                                                   .




                                                                                           .
                                                                                               6/55
Macro-structure d'une transcription

On peut identifier un continuum du plus au moins structuré :
     les débats, les interviews, les interventions ...
     les interactions transactionnelles (par exemple, l'achat)
     la discussion autour d'une action
     la conversation générale
Il y a des controverses sur l'identification des unités de l'oral :
     les "turns" : privilègient un seul type de discours en
     obscurcissant par exemple les discours coopératifs
     les "back-channel"
     les "actes" constitutifs de l'analyse de discours



                                                                     7/55
Les objectifs d'une transcription



Distinguo
    la transciption lisible
    la transcription en vue d'un traitement
avec emphase respectivement sur
    le message ... analyse historique ou sociale...
    le medium ... analyse linguistique




                                                      8/55
Combien de formats standardisés faut-il dans le monde ?




     WKWBFY un seul : solution centralisée
    NWEUMP aucun : solution anarchiste
          FTH autant qu'il en arrive : solution laissez-faire




                                                                9/55
Les normes ne s'imposent pas dans la vie intellectuelle




     soit elles émergent d'un besoin de le communauté
     soit leur usage dérive de la nécessité d'utiliser une technologie
     particulière
     mais on ne renonce pas volontièrement à son indépendance !




                                                                         10/55
Standards : un paysage complexe

Agences officielles de standardisation nationales : AFNOR, ANSI,
            BSI, DIN ; internationales : ISO, IEC, W3C, OASIS, TEI ...
Regroupements des Personnes Interessées Plusieurs... par exemple

                   LISA (Localisation Industry Standards
                   Association)
                   MPEG (Moving Pictures Expert Group)
Projets ayant des enjeux pré-normatifs En Europe seul, on peut
              noter EAGLES, Multext, MATE, ISLE...
Infrastructures de recherche Internationales : Bamboo, DARIAH,
              CLARIN ; Françaises : Corpus-IR, Adonis



                                                                         11/55
Standards : on peut s'en passer?


Pour les scientifiques, les standards pourraient constituer un
inconvénient :
    ils figent un état de la connaissance
    leur production est chronophage
    ... et nécessite des compétences sociales
.
quand même il y a des "plus" qu'il faut souligner
.                                                                   .
..                                                              .




                                                                    .
                                                                        12/55
Quelques besoins scientifiques


 ...
  1    Comment sur le web identifier et retrouver des ressources
       numériques ayant un intérêt linguistique ?
 ...
  2    Comment valider les résultats scientifiques obtenus par
       d'autres personnes ?
 ...
  3    Comment enrichir ou intégrer les ressources existantes avec
       ses propres idées ?
 ...
  4    Comment séparer les ressources des outils qui les
       gèrent/analysent ?
.
Pour tout cela, les standards restent essentiels
.                                                                        .
..                                                                   .




                                                                         .
                                                                             13/55
Quelques besoins techniques



 ...
  1    possibilité de recombiner ou de réutiliser les systèmes existants
 ...
  2    évolution modulaire des logiciels
 ...
  3    réduction des coûts de formation
 ...
  4    existence de ‘frequently answered questions’ — des solutions
       qui s'appliquent dans plusieurs domaines
.
Les standards offrent ces possibilités !
.                                                                          .
..                                                                    .




                                                                          .
                                                                               14/55
Est-ce qu'on peut arriver à normaliser la transcription ?

 ‘No transcript is completely theory-neutral or without bias.’
 (Edwards, 1991)
 — Mais elle parle plutôt de la manière de visualiser la transcription,
 non pas de sa structuration.
      To code morphology and syntax, dozens of coding systems
      have been devised and none has yet emerged as standard,
      since the underlying theory in these areas continues to
      change. Similarly, in areas such as speech act analysis or
      intentional analysis, there are many detailed systems for
      coding, but no single standard.

 (MacWhinney, 2001)



                                                                          15/55
Est-ce qu'on peut arriver à normaliser la transcription ?



     ... there is, to date, no widely dominant method, let alone a
     real standard, for doing spoken language transcription.
     However, with the advent of digital research infrastructures,
     in which corpora from different sources can be combined
     and processed together, the need for such a standard
     becomes more and more obvious.

 (Schmidt 2011)




                                                                     16/55
Influence des outils sur la modélisation de l'oral

Outils de transcription les plus répandus :
     Anvil, CHAT, ELAN, EXMARaLDa, FOLKER, Praat, Transcriber...
Schmidt (2011) note que tous ces systèmes proposent un modèle
commun, une simplification d'une annotation graph (Bird &
Liberman, 2002)
     l'oral existe dans le temps : donc chaque morceau transcrit est
     associé à un point de départ et à une fin
     ces triplets sont regroupables en ‘tiers’ (couches)
     une couche peut être associée à un locuteur, et/ou à un type




                                                                       17/55
EXMARaLDA, par exemple




EXMARaLDA: “Extensible Markup Language for Discourse
Annotation” http://www.exmaralda.org/                  18/55
Format interne EXMARaLDA


.
<common-timeline>                                                              .
  <tli id="T0" time="0.0"/>
  <tli id="T1" time="1.309974117691172"/>
  <tli id="T2" time="1.899962460773455"/>
  <tli id="T3" time="2.3399537674788866"/> ....
</common-timeline>
<tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="PRE
[v]">
  <event start="T2" end="T3">Good evening. </event>
  <event start="T5" end="T6">I have with me tonight Ann Elk Mistress Ann
Elk.
  </event>
.
</tier>
..                                                                         .




                                                                               .
                                                                                   19/55
Voices of the Holocaust
.
<div xml:lang="de">                                                        .
  <u who="#boderD" start="127.732" end="x">[In German] Also, sagen Sie
mir,
    wie lautet Ihr Name, Frau Button?</u>
  <u who="#buttonE" start="132.669" end="x">Deutsch sprechen?</u>
  <u who="#boderD" start="135.403" end="x">Auf Deutsch.</u>
  <u who="#buttonE" start="137.122" end="x">Ich heiße Eda Button. Ich war
    deportiert von Athen im, äh, April '44.</u>
  <u who="#boderD" start="137.122" end="x">Und nach wo wurden sie
    deportiert?</u>
  <u who="#buttonE" start="146.903" end="x">Ich war deportiert in äh
    Bergen-Belsen.</u>
  <u who="#boderD" start="149.496" end="x">Ja. Also, sagen Sie mal, äh, wo
ist
    Ihr Mann?</u>
  <u who="#buttonE" start="153.090" end="x">Mein Mann ist, äh, weggelau-
war,
    äh, in, äh, Palästina, in Tel Aviv.</u>
.
</div>
..                                                                       .




                                                                             .
                                                                                 20/55
IFA Dialog Video corpus


.
<TIME_ORDER>                                                            .
  <TIME_SLOT TIME_SLOT_ID="ts1" TIME_VALUE="0"/>
  <TIME_SLOT TIME_SLOT_ID="ts2" TIME_VALUE="10"/>
  <TIME_SLOT TIME_SLOT_ID="ts3" TIME_VALUE="462"/>
  <TIME_SLOT TIME_SLOT_ID="ts4" TIME_VALUE="840"/> ...
</TIME_ORDER>
<ANNOTATION>
  <ALIGNABLE_ANNOTATION ANNOTA-
TION_ID="a1" TIME_SLOT_REF1="ts4" TIME_SLOT_REF2="ts7">
   <ANNOTATION_VALUE>beginnen we weer opnieuw?</ANNOTATION_VALUE>
  </ALIGNABLE_ANNOTATION>
.
</ANNOTATION>
..                                                                  .




                                                                        .
                                                                            21/55
Transcriber




.
<Turn speaker="spk2" startTime="0.557" endTime="5.851">                     .
  <Sync time="0.557"/> so what do you know of your family ’s
<Sync time="2.255"/> history like <Sync time="3.410"/> do you know when and
why they came to Oxford
.
</Turn>
..                                                                        .




                                                                              .
                                                                                  22/55
Au niveau de la transcription...


Même jeu: plusieurs conventions de transcription pour les objets
communs :
  HIAT   ((coughs)) You must/ you (should) let • it be. ((laughs)) Pleease!
  GAT    ((coughs)) you must- you (should/could) let (-) it be;
         ((laughs)) plea:se-
  CHAT   &=coughs you must... you should let # it be. &=laughs please!
  DT1    (COUGH) you must-- you <X should X> let .. it be. @@ please?
  cGAT   ((coughs)) you must you (should/could) let (-) it be ((laughs))
         please



(Table from Schmidt 2011)




                                                                              23/55
Une version TEI XML



.
<u>                                                  .
  <kinesic>
   <desc>coughs</desc>
  </kinesic>
you must you should let <pause/> it be <vocal>
   <desc>laughs</desc>
  </vocal>
please
.
</u>
..                                               .




                                                     .
                                                         24/55
Une autre version TEI XML
.
<u who="#locuteur" sync="#T234">                 .
  <seg type="interrupted">
   <kinesic>
     <desc>coughs</desc>
   </kinesic>
   <w>you</w>
   <w>must</w>
  </seg>
  <seg type="declarative">
   <w>you</w>
   <w>should</w>
   <w>let</w>
   <pause dur="short"/>
   <w>it</w>
   <w>be</w>
  </seg>
  <seg type="emphatic">
   <vocal>
     <desc>laughs</desc>
   </vocal>
   <w>please</w>
  </seg>
.
</u>
..                                           .




                                                 .
                                                     25/55
Le modèle TEI de l'oral
Ce modèle reconnaît plusieurs phénomènes de discours :
     des énoncés (utterances) de point de vue lexical
     des pauses
     des phénomènes vocalisés mais pas lexicalisés, par exemple la
     toux, des quasi-mots comme "hein", "uh" etc.
     des phénomènes kinésiques (non vocalisés, non lexicaux, mais
     servant à communiquer) notamment les gestes
     des événements entièrement non linguistiques, mais ayant un
     effet sur le discours, par exemple un camion qui passe etc.
     des événements écrits par exemple des titres ou des
     diapositives affichés pendant une communication
     des changements dans la qualité de la voix, par exemple le
     volume
.
.. contrairement aux textes écrits, un texte oral est organisé dans le .
temps
.
..                                                                   .




                                                                       .
                                                                           26/55
En résumé...




               27/55
A complèter avec




structuration et segmentation des énoncés
mécanismes d'alignement temporaire
représentation et intégration des métadonnées




                                                28/55
Propositions du module spoken



Des éléments pour la transcription de l’oral <incident>, <kinesic>,
            <pause>,<shift>, <u>, <vocal>, <writing>
Des mécanismes pour représenter le déroulement dans le temps
            <timeLine>, @dur @start @end @sync
Des éléments supplémentaires dans l’en-tête <broadcast>,
            <equipment>, <recording>, <recordingStmt>,
            <scriptStmt>




                                                                      29/55
.
                          Par exemple...
<u who="#Jan">mmm delicieux</u>                         .
<incident>
  <desc>téléphone sonne</desc>
</incident>
<u who="#Kim">j’y vais</u>
<u who="#Tom">ya longtemps <vocal>
   <desc>tousse</desc>
  </vocal> jne
fume plus</u>
<u who="#Bob">
  <vocal>
   <desc>sniffs</desc>
  </vocal>il se croit dur
</u>
<vocal who="#Ann">
  <desc>grognement</desc>
</vocal>
<u who="#Tom">oueh <kinesic>
   <desc> fait un geste avec le doigt </desc>
  </kinesic>
</u>
<u who="#Bob">donc j’aurais dû <vocal who="#Ann">
   <desc>faisant tss-tss</desc>
. </vocal> faire quoi</u>
..                                                  .




                                                        .
                                                            30/55
Le concept d’"énoncé"



    une séquence de discours d’un seul locuteur
    peut être regroupé dans des sections <div>
    peut être fragmenté dans des segments <seg> ou <s>
    l’attribut @who sert à indiquer le locuteur
.
Chevauchement des énoncés ... pour plus tard ...
.                                                            .
..                                                       .




                                                             .
                                                                 31/55
On peut profiter de l'existence d’autres éléments
                  pertinents de la TEI
Notamment :
    <emph> for linguistic emphasis ...
.
<u who="#mar">no <emph>mine</emph> isnt old                                  .
mine is just um a little dirty</u>
.
..                                                                      .




                                                                             .
       <foreign> for language shift ...
.
<u>eh ben peu à peu il devient <foreign xml:lang="de">eine Sache</foreign>   .
.
</u>
..                                                                      .




                                                                             .
       <sic>, <corr>, <reg> pour les gestes éditoriaux...
.
<u who="#mar">how <reg>about</reg> your cat <pause/>                         .
</u>
<u who="#mar">how <sic>bout</sic> your cat <pause/>
.
</u>
..                                                                      .




                                                                             .
                                                                                 32/55
... (contd)
     <unclear> pour les incertitudes
.
ressemble aux disques <unclear>skeuzi</unclear>
.                                                     .
..                                                .




                                                      .
     <gap> pour les lacunes
.
<u>ensuite il disait <gap type="non-transcrit">       .
   <desc>longue déclaration en basque</desc>
  </gap>
</u>
<u>merci beaucoup <gap type="non-enregistre">
   <desc>l'invité joue du piano</desc>
  </gap>
.
</u>
..                                                .




                                                      .
     <choice> pour les choix
.
... you <choice>                                      .
 <seg>should</seg>
 <seg>could</seg>
</choice> let ...
.
..                                                .




                                                      .
(et bien sûr pour les métadonnées...)
                                                          33/55
Changements de voix (1)

On peut se servir de la balise <shift>, une espèce de <milestone>,
pour indiquer les frontières...
.
<u who="#LB">                                                            .
 <shift feature="volume" new="f"/>Elizabeth
</u>
<u who="#EB">Yes</u>
<u who="#LB">
 <shift feature="volume"/>Come and try this <pause/>
 <shift feature="volume" new="ff"/>come on
<shift feature="code" new="fr-mru"/> 'tin va!

</u>
.
<!-- ... -->
..                                                                   .




                                                                         .
                                                                             34/55
Changements de voix (2)
On peut également se servir d'éléments plus spécifiques, ou de
<seg> typés :
.
<u who="#LB">                                                       .
  <seg type="loud" subtype="f">Elizabeth</seg>
</u>
<u who="#EB">Yes</u>
<u who="#LB">Come and try this <pause/>
  <seg type="loud" subtype="ff">come on
  <foreign xml:lang="fr-mru">tin va</foreign>
  </seg>
</u>
<listPerson type="speakers">
  <person xml:id="LB">
<!-- description de la personne LB -->
  </person>
  <person xml:id="EB">
<!-- description de la personne EB -->
  </person>
.
</listPerson>
..                                                              .




                                                                    .
                                                                        35/55
Liste non exhaustive de caractéristiques prosodiques en
                         prose

  (basée sur Boase, Survey of English Usage, 1990)
     tempo        rapide, lent, de plus en plus rapide, de plus en plus lent, etc.
     volume       fort, faible, de plus en plus fort, de plus en plus faible
     hauteur      aigu, grave,...
     tension      lié, tendu, staccato, legato...
     rythme       régulier, irrégulier...
     qualité de   murmures, voix enrouée, voix de fausset, gloussements, san-
     la voix      glots, bâillements, soupirs...


  .
  Les chercheurs ont besoin de définir/choisir leur propre                                .
  terminologie selon les besoins de leur projet
  .
  ..                                                                                 .




                                                                                         .
                                                                                             36/55
Mélange de l'oral et de l'écrit


.
<u who="#a">écoutez <shift new="reading"/>Matignon se déclare       .
confiant que les problèmes financiers actuels seront
entièrement maîtrisés fin juin<shift/> mon cul</u>
.
..                                                              .




                                                                    .
Ou bien :
.
<u who="#a">écoutez                                                 .
<incident>
   <desc>lit à haute voix du journal</desc>
. </incident>mon cul</u>
..                                                              .




                                                                    .
                                                                        37/55
<writing> exemple



.
<u who="#a">regardez ceci</u>                                               .
<writing who="#a" type="newspaper" gradual="false">
Matignon se déclare
<soCalled>confiant de maîtriser</soCalled> les problèmes financiers actuels
</writing>
. who="#a">mon cul!</u>
<u
..                                                                        .




                                                                              .
                                                                                  38/55
Questions relatives à la temporalité




pour les pauses : élément <pause>
pour la durée : attribut @dur
synchronisation : attribut @synch
chevauchement : attribut @trans




                                             39/55
<pause> : exemple




.
<u>Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre              .
<pause dur="PT50S"/> avec <pause dur="PT20S"/> um <pause dur="PT145S"/>
on
. voit un arbre okay?</u>
..                                                                        .




                                                                              .
                                                                                  40/55
Chevauchement

Approche minimale :

Jules: vous avez entendu les - -
Jim: les résultats?
Jules: quel désastre !
Jim: (en même temps) quel miracle!



.
<u   who="#jules">vous avez entendu les</u>              .
<u   trans="latching" who="#jim">les résultats</u>
<u   who="#jules">quel désastre</u>
<u
.    who="#jim" trans="overlap">quel miracle </u>
..                                                   .




                                                         .
                                                             41/55
Synchronisation 1


L'attribut @synch indique un point ou un empan synchronisé avec
l'élément qui le porte :
.
<u   who="#jules">vous avez entendu <anchor xml:id="T1"/>les</u>            .
<u   synch="#T1" who="#jim">les résultats</u>
<u   who="#jules" xml:id="T2">quel désastre</u>
<u
.    who="#jim" synch="#T2">quel miracle </u>
..                                                                     .




                                                                            .
Les attributs @start et @end permettent un peu plus de précision :
.
<u who="#jules" end="#T2">vous avez entendu <anchor xml:id="T1"/> les</u>   .
<u start="#T1" who="#jim">les <anchor xml:id="T2"/> résultats</u>
.
..                                                                     .




                                                                            .
                                                                                42/55
Alignement
Le cas typique : un enregistrement identifié par un flux temporel,
avec lequel on veut aligner une (ou plusieurs) transcriptions.
L'élément <timeline> représente un flux temporel, regroupant
plusieurs <when>, un pour chaque moment identifiable.
Un <when> peut être absolu :
.
<timeline corresp="fichier.wav" units="ms">                            .
  <when xml:id="t0" absolute="00001728281"/>
  <when xml:id="t1" absolute="00001728285"/>
  <when xml:id="t2" absolute="00001728302"/>
.
</timeline>
..                                                                 .




                                                                       .
ou relatif :
.
<timeline xml:id="TL01" unit="ms">                                     .
  <when xml:id="TL-w0" absolute="11:30:00"/>
  <when xml:id="TL-w1" interval="unknown" since="#TL-w0"/>
  <when xml:id="TL-w2" interval="100" since="#TL-w1"/>
  <when xml:id="TL-w3" interval="200" since="#TL-w2"/>
<!-- ... -->
.
</timeline>
..                                                                 .




                                                                       .
                                                                           43/55
Usage de <timeline>

Cela permet l'alignement de plusieurs moments synchronisés :
.
<timeline unit="s" origin="#TS-P1">                                .
 <when xml:id="TS-P1" absolute="12:20:01"/>
 <when xml:id="TS-P2" interval="4:05" since="#TS-P1"/>
 <when xml:id="TS-P3" absolute="12:20:10"/>
</timeline>
<!-- ... -->
<u who="#jules" xml:id="TS-U1" start="#TS-P1" end="#TS-P3">
vous avez entendu <anchor sync="#TS-P2"/> les</u>
<u
. who="#jim" start="#TS-P2">les résultats</u>
..                                                             .




                                                                   .
.
NB un <when> représente un instant, et non pas un empan
.                                                                  .
..                                                             .




                                                                   .
                                                                       44/55
Description des participants


Peut être purement documentaire et informelle :
.
<particDesc>                                                                   .
 <listPerson>
   <person xml:id="P-1234" sex="2" age="mid">
    <p>informateur, sexe féminin, bonne éducation, née à Shropshire
          UK, 12 Jan 1950, commerçante parle français couramment. Statut
          socio-économique (SSE) : commerçante.</p>
   </person>
 </listPerson>
</particDesc>
<!-- ... -->
. who="#P-1234"> Et avec cela? </u>
<u
..                                                                         .




                                                                               .
                                                                                   45/55
Ou bien ...


Pour les entités nommés (personnes, lieux, organisations), on
dispose d'une large gamme d'éléments spécifiques et
génériques représentant les états, traits, évenements, et
relations entre ces entités.
Toutes ces informations sont datables, exactement ou
approximativement, au moyen de leurs attributs.
La liaison entre ces descriptions et les énoncés (typiquement
l'identifiant du locuteur) permet de rechercher les énoncés
regroupés par attributs du locuteur, par exemple : sexe, classe
sociale, etc.




                                                                  46/55
Description des participants
.
<listPerson>                                                                  .
  <person xml:id="jules" sex="1">
   <persName>Jules</persName>
   <age value="4"/>
   <birth when="1970-02-12"/>
   <nationality key="FR">French</nationality>
   <residence notBefore="2000-10-01">
     <country>France</country>
     <settlement>Lyon</settlement>
   </residence>
   <langKnowledge>
     <langKnown level="first" tag="fr">French mother tongue</langKnown>
     <langKnown level="other" tag="en">Fluent English</langKnown>
   </langKnowledge>
   <occupation ref="http://classement.fr/#xyz">cheminot</occupation>
   <education level="superior">DEA Ingenerie</education>
  </person>
.
</listPerson>
..                                                                        .




                                                                              .
                                                                                  47/55
Description des enregistrements 1

Plusieurs possibilités...
.
<recordingStmt>                                                            .
  <recording type="audio" dur="P10M" corresp="fichier.wav">
   <equipment>
     <p>Enregistreur numérique avec connexion USB et 512 Mo de mémoire
intégrée</p>
   </equipment>
  </recording>
  <recording type="video" dur="P7M" corresp="http://youtube.com/fichier"/>
</recordingStmt>
.
..                                                                       .




                                                                             .
Des éléments plus spécifiques, membres de la classe
model.recordingPart, sont également disponibles...




                                                                                 48/55
Description des enregistrements 2
Par exemple...
.
<recordingStmt>                                                             .
 <recording>
   <broadcast>
    <bibl>
      <title>Questions sur la souffrance et la santé au travail :
pénibilité, stress, dépression, harcèlement, maladies et
accidents...</title>
      <author>France Inter</author>
      <respStmt>
       <resp>Présentateur</resp>
       <name>Alain Bédouet</name>
      </respStmt>
      <respStmt>
       <resp>Personne interrogée</resp>
       <name> Marie Pezé</name>
      </respStmt>
      <note>Marie Pesé est Docteur en psychologie, psychanalyste, expert
judiciaire ; dirige la consultation « souffrance et travail » à l’Hôpital
de Nanterre (92), auteure de <title>ils ne mourraient pas tous mais tous
étaient frappés</title>, Editions Pearson.</note>
      <series>
       <title>Le Téléphone sonne</title>
      </series>
      <note>Première diffusion le <date when="2008-09-24">mercredi 24           49/55
... et pour le contexte




.
<setting xml:id="KDFSE002" n="063505" who="#PS0M6">       .
  <name type="place">Lancashire: Morecambe </name>
  <locale> at home </locale>
  <activity> watching television </activity>
</setting>
.
..                                                    .




                                                          .
                                                              50/55
En résumé ...


démarche La TEI met à disposition une gamme de propositions
         pour l'encodage de la transcription de l'oral, sa
         structuration et sa description
avantages La TEI propose également des outils aisément
          accessibles et génériques, dans un cadre modifiable,
          souple, et complet ; de plus c'est un standard
          pluridisciplinaire et issu de la communauté
     défis besoins très spécialisés requérant des outils
          spécialisés ; lacunes éventuelles dans le modèle TEI




                                                                 51/55
Pourquoi s'intéresser toujours à la TEI ?




Deux raisons pour lesquelles les standards échouent :
    ils sont basés sur une théorie pas encore assez mûre
    "not invented here": la communauté envisagée est trop
    diverse ou fragmentée




                                                            52/55
Comment faire mûrir une théorie?

Dans son TEI ODD, on peut :
    limiter les valeurs possibles d'un attribut plus ou moins
    strictement
    proposer des règles "schematron" sur le contenu
    enlever quelques éléments facultatifs
    ajouter de nouveaux éléments, labellisés dans son propre
    espace de noms
.
Donc on peut évoluer et tester sa théorie, en restant toujours       .
"TEI-conforme".
.
..                                                               .




                                                                     .
                                                                         53/55
L'évolution darwinienne, ça marche...



faites vos modifications dans votre espace de noms
documentez-les dans un ODD
faites discuter vos propositions sur la liste TEI-L, ou dans un SIG
à l'issue de cette discussion, proposez des modifications au
Conseil Scientifique de la TEI, en faisant un "feature request"
sur sourceforge
il y a une nouvelle version de TEI P5 deux fois par an...




                                                                      54/55
Pour en savoir plus

    http://www.tei-c.org
    http://tei.sf.net
    http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1=
    tei-l&A=1

Plus, quelques références francophones :
    tei-fr@cru.fr
    http://meet.tge-adonis.fr
    http://lespetitescases.net/index102/
    http://www.culture.gouv.fr/culture/dglf/riofi/tei.htm
    http://artist.inist.fr/article.php3?id_article=122"/>



                                                            55/55

Mais conteúdo relacionado

Destaque

les zones d'intérêts biologiques aux lacs de l'eau d'heure
les zones d'intérêts biologiques aux lacs de l'eau d'heureles zones d'intérêts biologiques aux lacs de l'eau d'heure
les zones d'intérêts biologiques aux lacs de l'eau d'heureJean philippe Body
 
La magie de noel(enigme)
La magie de noel(enigme)La magie de noel(enigme)
La magie de noel(enigme)Helen
 
Dea segalen
Dea segalenDea segalen
Dea segalenCSegalen
 
Sportwettenrecht120 final
Sportwettenrecht120 finalSportwettenrecht120 final
Sportwettenrecht120 finalMartin Arendts
 
1基督教和回教的差異
1基督教和回教的差異1基督教和回教的差異
1基督教和回教的差異Jaing Lai
 
Presentaciones sesion7
Presentaciones sesion7Presentaciones sesion7
Presentaciones sesion7Alejandro Caro
 
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...Minnovarc
 
2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordinationtrESS Network
 
Avant de-partir-en-vacances
Avant de-partir-en-vacancesAvant de-partir-en-vacances
Avant de-partir-en-vacancesAbdelaziz Ali
 
Synthèse énergie solaire
Synthèse énergie solaireSynthèse énergie solaire
Synthèse énergie solairearleuein
 
Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtLe 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtJean philippe Body
 

Destaque (20)

Tolerancia
ToleranciaTolerancia
Tolerancia
 
31 juillet 2011
31 juillet 201131 juillet 2011
31 juillet 2011
 
les zones d'intérêts biologiques aux lacs de l'eau d'heure
les zones d'intérêts biologiques aux lacs de l'eau d'heureles zones d'intérêts biologiques aux lacs de l'eau d'heure
les zones d'intérêts biologiques aux lacs de l'eau d'heure
 
La magie de noel(enigme)
La magie de noel(enigme)La magie de noel(enigme)
La magie de noel(enigme)
 
Dea segalen
Dea segalenDea segalen
Dea segalen
 
Sportwettenrecht120 final
Sportwettenrecht120 finalSportwettenrecht120 final
Sportwettenrecht120 final
 
26 février 2012
26 février 201226 février 2012
26 février 2012
 
1基督教和回教的差異
1基督教和回教的差異1基督教和回教的差異
1基督教和回教的差異
 
Presentaciones sesion7
Presentaciones sesion7Presentaciones sesion7
Presentaciones sesion7
 
Critères de qualité
Critères de qualitéCritères de qualité
Critères de qualité
 
Gpr dans l'apm
Gpr dans l'apmGpr dans l'apm
Gpr dans l'apm
 
thomas
thomasthomas
thomas
 
Sesión quinta
Sesión quintaSesión quinta
Sesión quinta
 
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...
Projet AAL - scénario « Corridors de ressources enrichis pour les personnes à...
 
2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination
 
Politica2.0 propuesta
Politica2.0 propuestaPolitica2.0 propuesta
Politica2.0 propuesta
 
Avant de-partir-en-vacances
Avant de-partir-en-vacancesAvant de-partir-en-vacances
Avant de-partir-en-vacances
 
Synthèse énergie solaire
Synthèse énergie solaireSynthèse énergie solaire
Synthèse énergie solaire
 
Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtLe 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
 
+ Portafolio
+ Portafolio+ Portafolio
+ Portafolio
 

Semelhante a Encoder l'oral en TEI : démarches, avantages, défis

Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessible
Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessibleIsabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessible
Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessibleFFFOD
 
Presentation uved 2012 06-28-strasbourg
Presentation uved 2012 06-28-strasbourgPresentation uved 2012 06-28-strasbourg
Presentation uved 2012 06-28-strasbourgfondation_uved
 
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...Flupa
 
Iwebyou - plaquette produit - e-learning
Iwebyou - plaquette produit - e-learningIwebyou - plaquette produit - e-learning
Iwebyou - plaquette produit - e-learningAlexandre Bouvard
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoHusson Anne-Marie
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoHusson Anne-Marie
 
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée Arpège
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée ArpègeAdvene : Annotate Digital Vidéo, Echange on the NEt - Journée Arpège
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée ArpègeYannick Prié
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotInria
 
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2laboratoridalbasso
 
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Thierry Vanoffe
 
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - Rétrospective
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - RétrospectiveAtelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - Rétrospective
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - RétrospectiveRoux Michel
 
Intervention du 22 novembre 2013 copie
Intervention du 22 novembre 2013 copieIntervention du 22 novembre 2013 copie
Intervention du 22 novembre 2013 copiemap8slide
 
3e Congres Chennai FIPF/CAP
3e Congres Chennai FIPF/CAP3e Congres Chennai FIPF/CAP
3e Congres Chennai FIPF/CAPCinemaTICE
 
Formation à l'eportfolio rennes 21/11/11
Formation à l'eportfolio rennes 21/11/11Formation à l'eportfolio rennes 21/11/11
Formation à l'eportfolio rennes 21/11/11Dominique-Alain JAN
 
Gestion deprojets textile produit
Gestion deprojets textile produitGestion deprojets textile produit
Gestion deprojets textile produitmoutaouakilamine
 
Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Jeff Van de Poël
 
Formation à mahara (Strasbourg) 26-06-12
Formation à mahara (Strasbourg) 26-06-12Formation à mahara (Strasbourg) 26-06-12
Formation à mahara (Strasbourg) 26-06-12Dominique-Alain JAN
 

Semelhante a Encoder l'oral en TEI : démarches, avantages, défis (20)

Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessible
Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessibleIsabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessible
Isabelle Dubois-Mejia (Thales) : témoignage sur un module e-learning accessible
 
Mooc master1 2014
Mooc master1 2014Mooc master1 2014
Mooc master1 2014
 
Presentation uved 2012 06-28-strasbourg
Presentation uved 2012 06-28-strasbourgPresentation uved 2012 06-28-strasbourg
Presentation uved 2012 06-28-strasbourg
 
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...
Le Web & les troubles cognitifs : immersion dans des handicaps invisibles_WUD...
 
Iwebyou - plaquette produit - e-learning
Iwebyou - plaquette produit - e-learningIwebyou - plaquette produit - e-learning
Iwebyou - plaquette produit - e-learning
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
 
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée Arpège
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée ArpègeAdvene : Annotate Digital Vidéo, Echange on the NEt - Journée Arpège
Advene : Annotate Digital Vidéo, Echange on the NEt - Journée Arpège
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale Sébillot
 
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2
Ldb Ri-scosse_Marie-Pierre Escoubas Beneviste - Intercomprensione linguistica 2
 
Spe Langues
Spe LanguesSpe Langues
Spe Langues
 
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
 
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - Rétrospective
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - RétrospectiveAtelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - Rétrospective
Atelier Mazedia Multitouch SITEM 2011 Expérience Fontevraud - Rétrospective
 
Cenel04 mai zineddine
Cenel04 mai zineddineCenel04 mai zineddine
Cenel04 mai zineddine
 
Intervention du 22 novembre 2013 copie
Intervention du 22 novembre 2013 copieIntervention du 22 novembre 2013 copie
Intervention du 22 novembre 2013 copie
 
3e Congres Chennai FIPF/CAP
3e Congres Chennai FIPF/CAP3e Congres Chennai FIPF/CAP
3e Congres Chennai FIPF/CAP
 
Formation à l'eportfolio rennes 21/11/11
Formation à l'eportfolio rennes 21/11/11Formation à l'eportfolio rennes 21/11/11
Formation à l'eportfolio rennes 21/11/11
 
Gestion deprojets textile produit
Gestion deprojets textile produitGestion deprojets textile produit
Gestion deprojets textile produit
 
Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC
 
Formation à mahara (Strasbourg) 26-06-12
Formation à mahara (Strasbourg) 26-06-12Formation à mahara (Strasbourg) 26-06-12
Formation à mahara (Strasbourg) 26-06-12
 

Mais de Lou Burnard

Ceci n'est pas une pipe
Ceci n'est pas une pipeCeci n'est pas une pipe
Ceci n'est pas une pipeLou Burnard
 
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...Lou Burnard
 
Mais enfin, pourquoi faire un “corpus de référence” en 2012?
Mais enfin, pourquoi faire un “corpus de référence” en 2012?Mais enfin, pourquoi faire un “corpus de référence” en 2012?
Mais enfin, pourquoi faire un “corpus de référence” en 2012?Lou Burnard
 
Thetalk fra-version
Thetalk fra-versionThetalk fra-version
Thetalk fra-versionLou Burnard
 
Data versus Text: 30 years of confrontation
Data versus Text: 30 years of confrontationData versus Text: 30 years of confrontation
Data versus Text: 30 years of confrontationLou Burnard
 

Mais de Lou Burnard (6)

Ceci n'est pas une pipe
Ceci n'est pas une pipeCeci n'est pas une pipe
Ceci n'est pas une pipe
 
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
 
Mais enfin, pourquoi faire un “corpus de référence” en 2012?
Mais enfin, pourquoi faire un “corpus de référence” en 2012?Mais enfin, pourquoi faire un “corpus de référence” en 2012?
Mais enfin, pourquoi faire un “corpus de référence” en 2012?
 
Corpref
CorprefCorpref
Corpref
 
Thetalk fra-version
Thetalk fra-versionThetalk fra-version
Thetalk fra-version
 
Data versus Text: 30 years of confrontation
Data versus Text: 30 years of confrontationData versus Text: 30 years of confrontation
Data versus Text: 30 years of confrontation
 

Encoder l'oral en TEI : démarches, avantages, défis

  • 1. Encoder l'oral en TEI : démarches, avantages, défis Lou Burnard (Meet, TGE Adonis) mai 2012 1/55
  • 2. Encoder l'oral Cela veut dire : saisie d'un signal sonore sa transcription sa contextualisation La saisie de telles ressources est : techniquement complexe conceptuellement difficile coûteuse . Pour ces raisons (entre autres) elle devrait se faire en respectant des . normes . .. . . 2/55
  • 3. C'est quoi l'Oral ? expériences d'élicitation linguistique, sous conditions contrôlées interviews documentaires émissions radiophoniques, quasi-scénarisées enregistrements plus ou moins informels, voire avec microphone caché 3/55
  • 4. L'Oral : quelques défis Par rapport aux textes écrits, les textes oraux se produisent dans le temps n'ont pas de format normalisé sont incompréhensibles hors de leur contexte Cf. manuscrits, images 4/55
  • 5. La transcription nécessite un acte interprétatif, pas susceptible d'automatisation implique des décisions difficiles sur l'orthographe, la tokenisation, la sélection même des phénomenes à transcrire implique souvent une réécriture totale du point de vue temporel . La plupart des systèmes de transcriptions donnent la priorité à la . lisibilité (humaine) plutôt qu'au traitement . .. . . 5/55
  • 6. Exemple de transcription orale ... factice ? . <div> . <u who="#DP"> Une minute de réponse s'il vous plaît et on passe vraiment à autre chose.</u> <u who="#NS">Je ne crois pas que monsieur Berlusconi soit mon ami puisqu'il a semblé souhaiter votre élection.</u> <u who="#FH">Il est en tout cas de votre parti au niveau européen.</u> <u who="#NS">Non, ça n'est pas exact.</u> <u who="#FH">Ne dites pas une contre-vérité. Il est du PPE ou pas ?</u> <u who="#NS">Monsieur Berlusconi est berlusconiesque.</u> <u who="#FH">Non. Est-ce qu'il est du PPE ou non ? Répondez à ma question.</u> <u who="#NS">Je ne suis pas votre élève. J'y répondrai après vous avoir dit ce que j'ai à vous dire.</u> <u who="#FH">Donc, monsieur Berlusconi est au PPE dans le même parti que le vôtre.</u> <u who="#NS">Monsieur Berlusconi n'est pas dans mon parti ni de près ni de loin.</u> <u who="#FH">Il l'est au niveau européen.</u> . </div> .. . . 6/55
  • 7. Macro-structure d'une transcription On peut identifier un continuum du plus au moins structuré : les débats, les interviews, les interventions ... les interactions transactionnelles (par exemple, l'achat) la discussion autour d'une action la conversation générale Il y a des controverses sur l'identification des unités de l'oral : les "turns" : privilègient un seul type de discours en obscurcissant par exemple les discours coopératifs les "back-channel" les "actes" constitutifs de l'analyse de discours 7/55
  • 8. Les objectifs d'une transcription Distinguo la transciption lisible la transcription en vue d'un traitement avec emphase respectivement sur le message ... analyse historique ou sociale... le medium ... analyse linguistique 8/55
  • 9. Combien de formats standardisés faut-il dans le monde ? WKWBFY un seul : solution centralisée NWEUMP aucun : solution anarchiste FTH autant qu'il en arrive : solution laissez-faire 9/55
  • 10. Les normes ne s'imposent pas dans la vie intellectuelle soit elles émergent d'un besoin de le communauté soit leur usage dérive de la nécessité d'utiliser une technologie particulière mais on ne renonce pas volontièrement à son indépendance ! 10/55
  • 11. Standards : un paysage complexe Agences officielles de standardisation nationales : AFNOR, ANSI, BSI, DIN ; internationales : ISO, IEC, W3C, OASIS, TEI ... Regroupements des Personnes Interessées Plusieurs... par exemple LISA (Localisation Industry Standards Association) MPEG (Moving Pictures Expert Group) Projets ayant des enjeux pré-normatifs En Europe seul, on peut noter EAGLES, Multext, MATE, ISLE... Infrastructures de recherche Internationales : Bamboo, DARIAH, CLARIN ; Françaises : Corpus-IR, Adonis 11/55
  • 12. Standards : on peut s'en passer? Pour les scientifiques, les standards pourraient constituer un inconvénient : ils figent un état de la connaissance leur production est chronophage ... et nécessite des compétences sociales . quand même il y a des "plus" qu'il faut souligner . . .. . . 12/55
  • 13. Quelques besoins scientifiques ... 1 Comment sur le web identifier et retrouver des ressources numériques ayant un intérêt linguistique ? ... 2 Comment valider les résultats scientifiques obtenus par d'autres personnes ? ... 3 Comment enrichir ou intégrer les ressources existantes avec ses propres idées ? ... 4 Comment séparer les ressources des outils qui les gèrent/analysent ? . Pour tout cela, les standards restent essentiels . . .. . . 13/55
  • 14. Quelques besoins techniques ... 1 possibilité de recombiner ou de réutiliser les systèmes existants ... 2 évolution modulaire des logiciels ... 3 réduction des coûts de formation ... 4 existence de ‘frequently answered questions’ — des solutions qui s'appliquent dans plusieurs domaines . Les standards offrent ces possibilités ! . . .. . . 14/55
  • 15. Est-ce qu'on peut arriver à normaliser la transcription ? ‘No transcript is completely theory-neutral or without bias.’ (Edwards, 1991) — Mais elle parle plutôt de la manière de visualiser la transcription, non pas de sa structuration. To code morphology and syntax, dozens of coding systems have been devised and none has yet emerged as standard, since the underlying theory in these areas continues to change. Similarly, in areas such as speech act analysis or intentional analysis, there are many detailed systems for coding, but no single standard. (MacWhinney, 2001) 15/55
  • 16. Est-ce qu'on peut arriver à normaliser la transcription ? ... there is, to date, no widely dominant method, let alone a real standard, for doing spoken language transcription. However, with the advent of digital research infrastructures, in which corpora from different sources can be combined and processed together, the need for such a standard becomes more and more obvious. (Schmidt 2011) 16/55
  • 17. Influence des outils sur la modélisation de l'oral Outils de transcription les plus répandus : Anvil, CHAT, ELAN, EXMARaLDa, FOLKER, Praat, Transcriber... Schmidt (2011) note que tous ces systèmes proposent un modèle commun, une simplification d'une annotation graph (Bird & Liberman, 2002) l'oral existe dans le temps : donc chaque morceau transcrit est associé à un point de départ et à une fin ces triplets sont regroupables en ‘tiers’ (couches) une couche peut être associée à un locuteur, et/ou à un type 17/55
  • 18. EXMARaLDA, par exemple EXMARaLDA: “Extensible Markup Language for Discourse Annotation” http://www.exmaralda.org/ 18/55
  • 19. Format interne EXMARaLDA . <common-timeline> . <tli id="T0" time="0.0"/> <tli id="T1" time="1.309974117691172"/> <tli id="T2" time="1.899962460773455"/> <tli id="T3" time="2.3399537674788866"/> .... </common-timeline> <tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="PRE [v]"> <event start="T2" end="T3">Good evening. </event> <event start="T5" end="T6">I have with me tonight Ann Elk Mistress Ann Elk. </event> . </tier> .. . . 19/55
  • 20. Voices of the Holocaust . <div xml:lang="de"> . <u who="#boderD" start="127.732" end="x">[In German] Also, sagen Sie mir, wie lautet Ihr Name, Frau Button?</u> <u who="#buttonE" start="132.669" end="x">Deutsch sprechen?</u> <u who="#boderD" start="135.403" end="x">Auf Deutsch.</u> <u who="#buttonE" start="137.122" end="x">Ich heiße Eda Button. Ich war deportiert von Athen im, äh, April '44.</u> <u who="#boderD" start="137.122" end="x">Und nach wo wurden sie deportiert?</u> <u who="#buttonE" start="146.903" end="x">Ich war deportiert in äh Bergen-Belsen.</u> <u who="#boderD" start="149.496" end="x">Ja. Also, sagen Sie mal, äh, wo ist Ihr Mann?</u> <u who="#buttonE" start="153.090" end="x">Mein Mann ist, äh, weggelau- war, äh, in, äh, Palästina, in Tel Aviv.</u> . </div> .. . . 20/55
  • 21. IFA Dialog Video corpus . <TIME_ORDER> . <TIME_SLOT TIME_SLOT_ID="ts1" TIME_VALUE="0"/> <TIME_SLOT TIME_SLOT_ID="ts2" TIME_VALUE="10"/> <TIME_SLOT TIME_SLOT_ID="ts3" TIME_VALUE="462"/> <TIME_SLOT TIME_SLOT_ID="ts4" TIME_VALUE="840"/> ... </TIME_ORDER> <ANNOTATION> <ALIGNABLE_ANNOTATION ANNOTA- TION_ID="a1" TIME_SLOT_REF1="ts4" TIME_SLOT_REF2="ts7"> <ANNOTATION_VALUE>beginnen we weer opnieuw?</ANNOTATION_VALUE> </ALIGNABLE_ANNOTATION> . </ANNOTATION> .. . . 21/55
  • 22. Transcriber . <Turn speaker="spk2" startTime="0.557" endTime="5.851"> . <Sync time="0.557"/> so what do you know of your family ’s <Sync time="2.255"/> history like <Sync time="3.410"/> do you know when and why they came to Oxford . </Turn> .. . . 22/55
  • 23. Au niveau de la transcription... Même jeu: plusieurs conventions de transcription pour les objets communs : HIAT ((coughs)) You must/ you (should) let • it be. ((laughs)) Pleease! GAT ((coughs)) you must- you (should/could) let (-) it be; ((laughs)) plea:se- CHAT &=coughs you must... you should let # it be. &=laughs please! DT1 (COUGH) you must-- you <X should X> let .. it be. @@ please? cGAT ((coughs)) you must you (should/could) let (-) it be ((laughs)) please (Table from Schmidt 2011) 23/55
  • 24. Une version TEI XML . <u> . <kinesic> <desc>coughs</desc> </kinesic> you must you should let <pause/> it be <vocal> <desc>laughs</desc> </vocal> please . </u> .. . . 24/55
  • 25. Une autre version TEI XML . <u who="#locuteur" sync="#T234"> . <seg type="interrupted"> <kinesic> <desc>coughs</desc> </kinesic> <w>you</w> <w>must</w> </seg> <seg type="declarative"> <w>you</w> <w>should</w> <w>let</w> <pause dur="short"/> <w>it</w> <w>be</w> </seg> <seg type="emphatic"> <vocal> <desc>laughs</desc> </vocal> <w>please</w> </seg> . </u> .. . . 25/55
  • 26. Le modèle TEI de l'oral Ce modèle reconnaît plusieurs phénomènes de discours : des énoncés (utterances) de point de vue lexical des pauses des phénomènes vocalisés mais pas lexicalisés, par exemple la toux, des quasi-mots comme "hein", "uh" etc. des phénomènes kinésiques (non vocalisés, non lexicaux, mais servant à communiquer) notamment les gestes des événements entièrement non linguistiques, mais ayant un effet sur le discours, par exemple un camion qui passe etc. des événements écrits par exemple des titres ou des diapositives affichés pendant une communication des changements dans la qualité de la voix, par exemple le volume . .. contrairement aux textes écrits, un texte oral est organisé dans le . temps . .. . . 26/55
  • 27. En résumé... 27/55
  • 28. A complèter avec structuration et segmentation des énoncés mécanismes d'alignement temporaire représentation et intégration des métadonnées 28/55
  • 29. Propositions du module spoken Des éléments pour la transcription de l’oral <incident>, <kinesic>, <pause>,<shift>, <u>, <vocal>, <writing> Des mécanismes pour représenter le déroulement dans le temps <timeLine>, @dur @start @end @sync Des éléments supplémentaires dans l’en-tête <broadcast>, <equipment>, <recording>, <recordingStmt>, <scriptStmt> 29/55
  • 30. . Par exemple... <u who="#Jan">mmm delicieux</u> . <incident> <desc>téléphone sonne</desc> </incident> <u who="#Kim">j’y vais</u> <u who="#Tom">ya longtemps <vocal> <desc>tousse</desc> </vocal> jne fume plus</u> <u who="#Bob"> <vocal> <desc>sniffs</desc> </vocal>il se croit dur </u> <vocal who="#Ann"> <desc>grognement</desc> </vocal> <u who="#Tom">oueh <kinesic> <desc> fait un geste avec le doigt </desc> </kinesic> </u> <u who="#Bob">donc j’aurais dû <vocal who="#Ann"> <desc>faisant tss-tss</desc> . </vocal> faire quoi</u> .. . . 30/55
  • 31. Le concept d’"énoncé" une séquence de discours d’un seul locuteur peut être regroupé dans des sections <div> peut être fragmenté dans des segments <seg> ou <s> l’attribut @who sert à indiquer le locuteur . Chevauchement des énoncés ... pour plus tard ... . . .. . . 31/55
  • 32. On peut profiter de l'existence d’autres éléments pertinents de la TEI Notamment : <emph> for linguistic emphasis ... . <u who="#mar">no <emph>mine</emph> isnt old . mine is just um a little dirty</u> . .. . . <foreign> for language shift ... . <u>eh ben peu à peu il devient <foreign xml:lang="de">eine Sache</foreign> . . </u> .. . . <sic>, <corr>, <reg> pour les gestes éditoriaux... . <u who="#mar">how <reg>about</reg> your cat <pause/> . </u> <u who="#mar">how <sic>bout</sic> your cat <pause/> . </u> .. . . 32/55
  • 33. ... (contd) <unclear> pour les incertitudes . ressemble aux disques <unclear>skeuzi</unclear> . . .. . . <gap> pour les lacunes . <u>ensuite il disait <gap type="non-transcrit"> . <desc>longue déclaration en basque</desc> </gap> </u> <u>merci beaucoup <gap type="non-enregistre"> <desc>l'invité joue du piano</desc> </gap> . </u> .. . . <choice> pour les choix . ... you <choice> . <seg>should</seg> <seg>could</seg> </choice> let ... . .. . . (et bien sûr pour les métadonnées...) 33/55
  • 34. Changements de voix (1) On peut se servir de la balise <shift>, une espèce de <milestone>, pour indiquer les frontières... . <u who="#LB"> . <shift feature="volume" new="f"/>Elizabeth </u> <u who="#EB">Yes</u> <u who="#LB"> <shift feature="volume"/>Come and try this <pause/> <shift feature="volume" new="ff"/>come on <shift feature="code" new="fr-mru"/> 'tin va! </u> . <!-- ... --> .. . . 34/55
  • 35. Changements de voix (2) On peut également se servir d'éléments plus spécifiques, ou de <seg> typés : . <u who="#LB"> . <seg type="loud" subtype="f">Elizabeth</seg> </u> <u who="#EB">Yes</u> <u who="#LB">Come and try this <pause/> <seg type="loud" subtype="ff">come on <foreign xml:lang="fr-mru">tin va</foreign> </seg> </u> <listPerson type="speakers"> <person xml:id="LB"> <!-- description de la personne LB --> </person> <person xml:id="EB"> <!-- description de la personne EB --> </person> . </listPerson> .. . . 35/55
  • 36. Liste non exhaustive de caractéristiques prosodiques en prose (basée sur Boase, Survey of English Usage, 1990) tempo rapide, lent, de plus en plus rapide, de plus en plus lent, etc. volume fort, faible, de plus en plus fort, de plus en plus faible hauteur aigu, grave,... tension lié, tendu, staccato, legato... rythme régulier, irrégulier... qualité de murmures, voix enrouée, voix de fausset, gloussements, san- la voix glots, bâillements, soupirs... . Les chercheurs ont besoin de définir/choisir leur propre . terminologie selon les besoins de leur projet . .. . . 36/55
  • 37. Mélange de l'oral et de l'écrit . <u who="#a">écoutez <shift new="reading"/>Matignon se déclare . confiant que les problèmes financiers actuels seront entièrement maîtrisés fin juin<shift/> mon cul</u> . .. . . Ou bien : . <u who="#a">écoutez . <incident> <desc>lit à haute voix du journal</desc> . </incident>mon cul</u> .. . . 37/55
  • 38. <writing> exemple . <u who="#a">regardez ceci</u> . <writing who="#a" type="newspaper" gradual="false"> Matignon se déclare <soCalled>confiant de maîtriser</soCalled> les problèmes financiers actuels </writing> . who="#a">mon cul!</u> <u .. . . 38/55
  • 39. Questions relatives à la temporalité pour les pauses : élément <pause> pour la durée : attribut @dur synchronisation : attribut @synch chevauchement : attribut @trans 39/55
  • 40. <pause> : exemple . <u>Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre . <pause dur="PT50S"/> avec <pause dur="PT20S"/> um <pause dur="PT145S"/> on . voit un arbre okay?</u> .. . . 40/55
  • 41. Chevauchement Approche minimale : Jules: vous avez entendu les - - Jim: les résultats? Jules: quel désastre ! Jim: (en même temps) quel miracle! . <u who="#jules">vous avez entendu les</u> . <u trans="latching" who="#jim">les résultats</u> <u who="#jules">quel désastre</u> <u . who="#jim" trans="overlap">quel miracle </u> .. . . 41/55
  • 42. Synchronisation 1 L'attribut @synch indique un point ou un empan synchronisé avec l'élément qui le porte : . <u who="#jules">vous avez entendu <anchor xml:id="T1"/>les</u> . <u synch="#T1" who="#jim">les résultats</u> <u who="#jules" xml:id="T2">quel désastre</u> <u . who="#jim" synch="#T2">quel miracle </u> .. . . Les attributs @start et @end permettent un peu plus de précision : . <u who="#jules" end="#T2">vous avez entendu <anchor xml:id="T1"/> les</u> . <u start="#T1" who="#jim">les <anchor xml:id="T2"/> résultats</u> . .. . . 42/55
  • 43. Alignement Le cas typique : un enregistrement identifié par un flux temporel, avec lequel on veut aligner une (ou plusieurs) transcriptions. L'élément <timeline> représente un flux temporel, regroupant plusieurs <when>, un pour chaque moment identifiable. Un <when> peut être absolu : . <timeline corresp="fichier.wav" units="ms"> . <when xml:id="t0" absolute="00001728281"/> <when xml:id="t1" absolute="00001728285"/> <when xml:id="t2" absolute="00001728302"/> . </timeline> .. . . ou relatif : . <timeline xml:id="TL01" unit="ms"> . <when xml:id="TL-w0" absolute="11:30:00"/> <when xml:id="TL-w1" interval="unknown" since="#TL-w0"/> <when xml:id="TL-w2" interval="100" since="#TL-w1"/> <when xml:id="TL-w3" interval="200" since="#TL-w2"/> <!-- ... --> . </timeline> .. . . 43/55
  • 44. Usage de <timeline> Cela permet l'alignement de plusieurs moments synchronisés : . <timeline unit="s" origin="#TS-P1"> . <when xml:id="TS-P1" absolute="12:20:01"/> <when xml:id="TS-P2" interval="4:05" since="#TS-P1"/> <when xml:id="TS-P3" absolute="12:20:10"/> </timeline> <!-- ... --> <u who="#jules" xml:id="TS-U1" start="#TS-P1" end="#TS-P3"> vous avez entendu <anchor sync="#TS-P2"/> les</u> <u . who="#jim" start="#TS-P2">les résultats</u> .. . . . NB un <when> représente un instant, et non pas un empan . . .. . . 44/55
  • 45. Description des participants Peut être purement documentaire et informelle : . <particDesc> . <listPerson> <person xml:id="P-1234" sex="2" age="mid"> <p>informateur, sexe féminin, bonne éducation, née à Shropshire UK, 12 Jan 1950, commerçante parle français couramment. Statut socio-économique (SSE) : commerçante.</p> </person> </listPerson> </particDesc> <!-- ... --> . who="#P-1234"> Et avec cela? </u> <u .. . . 45/55
  • 46. Ou bien ... Pour les entités nommés (personnes, lieux, organisations), on dispose d'une large gamme d'éléments spécifiques et génériques représentant les états, traits, évenements, et relations entre ces entités. Toutes ces informations sont datables, exactement ou approximativement, au moyen de leurs attributs. La liaison entre ces descriptions et les énoncés (typiquement l'identifiant du locuteur) permet de rechercher les énoncés regroupés par attributs du locuteur, par exemple : sexe, classe sociale, etc. 46/55
  • 47. Description des participants . <listPerson> . <person xml:id="jules" sex="1"> <persName>Jules</persName> <age value="4"/> <birth when="1970-02-12"/> <nationality key="FR">French</nationality> <residence notBefore="2000-10-01"> <country>France</country> <settlement>Lyon</settlement> </residence> <langKnowledge> <langKnown level="first" tag="fr">French mother tongue</langKnown> <langKnown level="other" tag="en">Fluent English</langKnown> </langKnowledge> <occupation ref="http://classement.fr/#xyz">cheminot</occupation> <education level="superior">DEA Ingenerie</education> </person> . </listPerson> .. . . 47/55
  • 48. Description des enregistrements 1 Plusieurs possibilités... . <recordingStmt> . <recording type="audio" dur="P10M" corresp="fichier.wav"> <equipment> <p>Enregistreur numérique avec connexion USB et 512 Mo de mémoire intégrée</p> </equipment> </recording> <recording type="video" dur="P7M" corresp="http://youtube.com/fichier"/> </recordingStmt> . .. . . Des éléments plus spécifiques, membres de la classe model.recordingPart, sont également disponibles... 48/55
  • 49. Description des enregistrements 2 Par exemple... . <recordingStmt> . <recording> <broadcast> <bibl> <title>Questions sur la souffrance et la santé au travail : pénibilité, stress, dépression, harcèlement, maladies et accidents...</title> <author>France Inter</author> <respStmt> <resp>Présentateur</resp> <name>Alain Bédouet</name> </respStmt> <respStmt> <resp>Personne interrogée</resp> <name> Marie Pezé</name> </respStmt> <note>Marie Pesé est Docteur en psychologie, psychanalyste, expert judiciaire ; dirige la consultation « souffrance et travail » à l’Hôpital de Nanterre (92), auteure de <title>ils ne mourraient pas tous mais tous étaient frappés</title>, Editions Pearson.</note> <series> <title>Le Téléphone sonne</title> </series> <note>Première diffusion le <date when="2008-09-24">mercredi 24 49/55
  • 50. ... et pour le contexte . <setting xml:id="KDFSE002" n="063505" who="#PS0M6"> . <name type="place">Lancashire: Morecambe </name> <locale> at home </locale> <activity> watching television </activity> </setting> . .. . . 50/55
  • 51. En résumé ... démarche La TEI met à disposition une gamme de propositions pour l'encodage de la transcription de l'oral, sa structuration et sa description avantages La TEI propose également des outils aisément accessibles et génériques, dans un cadre modifiable, souple, et complet ; de plus c'est un standard pluridisciplinaire et issu de la communauté défis besoins très spécialisés requérant des outils spécialisés ; lacunes éventuelles dans le modèle TEI 51/55
  • 52. Pourquoi s'intéresser toujours à la TEI ? Deux raisons pour lesquelles les standards échouent : ils sont basés sur une théorie pas encore assez mûre "not invented here": la communauté envisagée est trop diverse ou fragmentée 52/55
  • 53. Comment faire mûrir une théorie? Dans son TEI ODD, on peut : limiter les valeurs possibles d'un attribut plus ou moins strictement proposer des règles "schematron" sur le contenu enlever quelques éléments facultatifs ajouter de nouveaux éléments, labellisés dans son propre espace de noms . Donc on peut évoluer et tester sa théorie, en restant toujours . "TEI-conforme". . .. . . 53/55
  • 54. L'évolution darwinienne, ça marche... faites vos modifications dans votre espace de noms documentez-les dans un ODD faites discuter vos propositions sur la liste TEI-L, ou dans un SIG à l'issue de cette discussion, proposez des modifications au Conseil Scientifique de la TEI, en faisant un "feature request" sur sourceforge il y a une nouvelle version de TEI P5 deux fois par an... 54/55
  • 55. Pour en savoir plus http://www.tei-c.org http://tei.sf.net http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1= tei-l&A=1 Plus, quelques références francophones : tei-fr@cru.fr http://meet.tge-adonis.fr http://lespetitescases.net/index102/ http://www.culture.gouv.fr/culture/dglf/riofi/tei.htm http://artist.inist.fr/article.php3?id_article=122"/> 55/55