Accolé – Plateforme pour l’édition collaborative d’erreurs
Porteurs du projet : Emmanuelle ESPERANÇA-RODIER (MC-UGA) et Francis BRUNET-MANQUAT (MC-UGA)
Financement : projet EMERGENCE – LIG
Thèmes de recherche : analyse d’erreurs de traduction, outil collaboratif
Licence : Creative Commons BY-NC-SA
Voir les publications associées
La plateforme Accolé propose une palette de services innovants permettant de répondre aux besoins modernes d’analyse d’erreurs. Notre plateforme permettra à terme d’analyser les erreurs de traductions sur différents corpus, en collaboration avec différentes personnes, linguistes ou non, informaticiennes ou non, et aussi bien des enseignants de langues, que des traducteurs. Elle proposera également d’autres services innovants : visualisation et édition graphique d’erreurs pour corpus alignés, appel automatique à des analyseurs morphosyntaxiques externes, recherche de modèle (patron morphosyntaxique) dans les annotations.
Ci-dessous une démonstration de note outil en vidéo (audio disponible sous peu) :
1. Présentation
L’objectif initial qui a guidé le développement d’ACCOLÉ, est l’annotation manuelle des erreurs de traduction selon des critères linguistiques. L’idée sous-jacente est de pouvoir fournir à un utilisateur une aide dans le choix d’un système de TA à utiliser selon le contexte (compétences linguistiques et informatiques de l’utilisateur, connaissance du domaine du document source à traduire et la tâche pour laquelle il a besoin de traduire le document source.) Pour ce faire, ACCOLÉ doit permettre de détecter quels sont les phénomènes linguistiques qui ne sont pas traités correctement par le système de TA étudié.
Nous proposons sur la même plateforme une palette de services innovants permettant de répondre aux besoins modernes d’analyse d’erreurs de traduction. Ainsi, les principales fonctionnalités de la plateforme ACCOLÉ sont la gestion simplifiée des corpus, des typologies d’erreurs, des annotateurs, etc. ; l’annotation d’erreurs efficace ; la collaboration et/ou supervision lors de l’annotation ; la recherche de modèle d’erreurs (patron morphosyntaxique dans un premier temps) dans les annotations.
La tâche d’analyse d’erreurs étant déjà fastidieuse, il est important que les personnes la réalisant aient un accès simple à l’outil ainsi qu’au corpus qu’ils souhaitent analyser. La plateforme est donc disponible en ligne sur un navigateur et ne nécessite aucune installation spécifique.
2. Gestion des projets d’annotations
Une tâche d’annotation est décrite sur la plateforme par la notion de projet. Un projet étant un couple constitué d’un corpus et d’une typologie d’erreurs (ou modèle d’erreurs). Ainsi, un corpus pourra être associé à plusieurs typologies d’erreurs sous forme de plusieurs projets d’annotations (le corpus ne sera alors chargé qu’une fois sur la plateforme). Le responsable d’un projet fournira également la liste des annotateurs et des superviseurs.
La gestion des typologies d’erreurs est réalisée par les responsables de la plateforme (voir figure Typologie d’erreurs). Un type d’erreur sera composé d’un nom, d’une catégorie (facultatif), d’une sous-catégorie (facultatif) et d’un code (raccourci clavier pouvant être utilisé lors de l’annotation).
3. Annotation d’erreurs
La plateforme ACCOLÉ propose de visualiser et d’annoter efficacement les erreurs d’un couple de phrases source/cible. La figure ci-dessous « Annotations d’erreurs en cours » présente l’interface proposée à l’annotateur. L’annotation se fait en deux étapes. La première étape consiste à sélectionner, à l’aide de la souris, des mots dans la phrase source, et de leur équivalent dans la phrase cible, présentant une erreur de traduction. La seconde étape consiste à choisir le type d’erreur soit à l’aide de la souris, soit à l’aide des raccourcis clavier, à associer au couple des mots sources/cibles préalablement sélectionnés.
4. Annotation d’erreurs multi-cibles
Pour l’analyse de la qualité de systèmes de Traduction Automatique Neuronale en traduction simultanée ou après complétion de la phrase entière – online & offline NMT – (Elbayad et al., 2020), ACCOLÉ s’est étoffée de l’annotation de plusieurs hypothèses de traduction correspondant à une seule phrase source et de l’intégrer d’une phrase de référence.
L’annotation d’erreurs sur un corpus multi-cibles se déroule de la même façon que pour un corpus mono-cible. L’annotateur sélectionne à l’aide de la souris le couple d’occurrence source/cible 1 source/cible 2, source /cible 3… présentant une erreur de traduction. La seconde étape consiste à choisir le type d’erreurs soit à l’aide de la souris, soit à l’aide des raccourcis clavier, à associer au couple des mots sources/cibles préalablement sélectionnés. En plus de la source, l’annotateur a accès à une traduction de référence, comme le montre la Figure ci-dessous.
5. Annotation d’Expressions Polylexicales
Nous avons adapté ACCOLÉ pour l’annotation d’Expressions Polylexicales (EPL) comme l’illustre la Figure ci-dessous. La typologie de types d’EPL intégrée à notre plateforme est composée de 9 types : Collocations, Mots Fonctionnels, Formules de Routine, Entités nommées, Phrasèmes complets, Pragmatèmes, Proverbes, Collocations fortes et enfin Termes Complexes. Chaque EPL est également annotée en partie du discours.
Nous avons envisagé que le corpus annoté soit monolingue ou bien bilingue. Toutefois, nous préférons la possibilité d’annoter la source en EPL de manière monolingue, de même que la cible. Si le corpus possède une traduction alignée du texte, alors il est possible d’annoter, à la fois dans la source et dans la cible, l’erreur repérée entre une EPL et sa traduction, afin de faire correspondre et comparer les annotations faites en première étape monolingue
Afin de faciliter la tâche d’annotation, un dictionnaire monolingue français d’EPL a été ajouté à ACCOLÉ, ainsi qu’un pré-traitement basé sur l’analyse syntaxique (Coavoux et Crabbé, 2017). Ainsi, ACCOLÉ permet d’annoter des EPL soit manuellement, en sélectionnant des mots à l’aide de la souris et en leur assignant un type, soit sur proposition de l’interface utilisant de manière automatique le dictionnaire et le pré-traitement, proposition qui sera à valider par l’annotateur.
6. Supervision
En plus de sa simplicité d’usage, ACCOLÉ propose deux mécanismes pour aider l’annotateur dans sa tâche : un mécanisme de supervision permettant à un responsable de contrôler l’avancée de la tâche, ce mécanisme encourage surtout la communication entre superviseur et annotateur par la possibilité de créer des fils de discussion pour un couple de phrase source/cible précis (demander des précisions sur un type d’erreur, pointer une erreur d’annotation, etc.); et un mécanisme collaboratif permettant aux annotateurs de s’entraider ou de discuter autour d’un couple phrase source/cible précis (ce mécanisme est une option à activer dans le projet, bientôt disponible sur la plateforme).
7. En développement
Recherche de modèle (patron morphosyntaxique), etc.
8. Publications
COLING 2020 – 28th International Conference on Computational Linguistics, Dec 2020, Virtual, Spain. pp.5047-5058. 2èmes journées scientifiques du Groupement de Recherche Linguistique Informatique Formelle et de Terrain (LIFT), 2020, Montrouge, France. pp.1-8.3 – « ACCOLÉ : Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs » Emmanuelle Esperança-Rodier, Francis Brunet-Manquat. GDR LIFT LIFT2019, Nov 2019, Orléans, France. ⟨hal-02386413⟩
2 – « ACCOLÉ: A Collaborative Platform of Error Annotation for Aligned Corpora » <hal-02363208>
Translating and the computer 41, Nov 2019, Londres, United Kingdom1 – « ACCOLÉ : Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs ». Francis Brunet-Manquat, Emmanuelle Esperança-Rodier. DÉMONSTRATION, TALN18, Rennes. <hal-02001261>