2023
Projet Corpus FR-ZH EPL et erreurs de TA –
Emergence – 7,5K (porteuse du projet)
CerCog@UGA – 3,3K (porteuse du projet)
Création de corpus annotés en expressions polylexicales et en erreurs de traduction automatique neuronale pour le couple français-chinois
Projet OCTAV – Institut Cognition – 6,2K (porteuse du projet)
Expérimentation préliminaire pour valider l’intégration de l’oculométrie dans la plateforme ACCOLÉ d’annotation d’erreurs de traduction – OCTAV
Projet LOLITA : Lire la pOlysémie verbale avec La Traduction – CerCog@UGA – 3,5K
Évaluation des moteurs de TA afin de savoir s’ils sont capables de proposer des sorties où les verbes polysémiques espagnols comme « quedar » sont traduits correctement selon le contexte.
2022
Projet ExtRA – Emergence – 9,8K
Expliquer la traduction automatique neuronale : comment former des utilisateurs avertis ?
Projet ACCOLÉ – Emergence – 7,5K (porteuse du projet)
Aide à la détection et l’annotation semi-automatique des EPLs par repérage dans le corpus à partir d’un dictionnaire, avec adaptation de l’interface de présentation des corpus bilingues et multilingues en mettant en place une métrique d’accord inter annotateur ainsi que d’accord intra-annotateur.
2021
Projet ACCOLÉ – Emergence – 7,7K€ (porteuse du projet)
Apprentissage par réseau de neurones d’annotation d’erreurs
Projet ACCOLÉ – NeuroCoG – 1,2K€ (porteuse du projet)
Traitement des expressions polylexicales en traduction automatique, étude du français vers le polonais
Projet ACCOLÉ – Institut Cognition – 3,3K€ (porteuse du projet)
Création Semi-Automatique de corpus annotés en Expressions Polylexicales
Projet ANR CREMA – 220K€ (responsable du WP3 : Évaluation de modèles de traduction neuronale sensibles au phénomènes discursifs- porté par Marco Dinarelli)
Les objectifs principaux du projet CREMA (Coreference REsolution into MAchine translation) sont : 1) l’étude de modèles neuronaux pour la résolution de coréférences ; 2) l’intégration d’un module de résolution de coréférences dans un modèle de traduction automatique neuronal au niveau du document (Document-Level NMT) pour une prise en compte dynamique du contexte pour la traduction, et ce grâce aux informations des coréférences ; 3) la conception d’une nouvelle test suite ad hoc pour l’évaluation de modèles de traduction neuronal au niveau du document.
2020
Projet ACCOLÉ – NeuroCoG 1,3K€ (porteuse du projet)
Adaptation de la plateforme ACCOLÉ pour l’annotation d’Expressions Poly-lexicales (EPL)
Ajout d’une typologie d’EPL, et d’une annotation semi-automatique des EPLs.
Projet ANR PROPICTO – 800K€ (responsable du WP6 : Protocoles d’évaluation et participante du WP5 : Constitution de ressources ouvertes et partagées – porté par Benjamin Lecouteux)
https://www.propicto.unige.ch
PROPICTO vise à développer un axe de recherche autour de la communication alternative et augmentée, en se focalisant sur la transcription automatique de la parole française sous forme pictographique. Il répond ainsi à de nombreux besoins sociétaux dans le domaine du handicap (communiquer avec des personnes ayant des problèmes cognitifs) et médical (communiquer avec des patients qui n’ont pas la même langue que le praticien). Il répond aussi aux exigences légales adoptées en Suisse (loi fédérale sur l’élimination des inégalités frappant les personnes handicapées de 2002, ainsi que la Convention de l’ONU relative aux droits des personnes handicapées, ratifiée par la Suisse en 2014) et en France (loi du 2 janvier 2002, renforcée par la loi du 11 février 2005).
2019
Projet ACCOLÉ – Emergence 5,5K€ (porteuse du projet)
https://lig-membres.imag.fr/fbrunet
Ajout d’annotations par un nouvel annotateur sur les corpus déjà annotés
Ajout d’une typologie d’erreurs
Ajout de corpus et projets
2018
Projet Usages et perception de la traduction automatique : cycle de séminaires transversaux – PGC 0,5K€ (porteuse du projet)
Pour poursuivre le travail engagé dans le cadre de l’étude collaborative « Evaluer la traduction automatique », financée par le Pôle Grenoble Cognition l’année dernière, nous souhaitons proposer une série de rencontres qui permettront de préparer une conférence internationale. Les travaux réalisés par l’équipe jusqu’ici sont recensés sur le blog du projet : https://evaluerlata.hypotheses.org/
Projet Usages de la traduction automatique : étude comparative de l’impact des systèmes statistiques et neuronaux pour le traducteur – PGC – 2,7K€
Dans un contexte où les approches statistiques et neuronales ont permis une amélioration extrêmement rapide de la qualité de la traduction automatique, nous proposons une approche interdisciplinaire permettant d’évaluer l’impact des systèmes de TA issus des deux approches pour le poste de travail du traducteur. Le projet comprend : 1/ le montage d’une simulation expérimentale et le recueil de données issues du travail d’étudiants dans le Master de Traduction Spécialisée Multilingue de l’UGA ainsi que de quelques traducteurs grenoblois ; 2/ la comparaison de ces usages et perceptions à l’architecture, au fonctionnement et aux potentialités effectives des systèmes. L’accès au terrain est garanti du fait de l’implication des membres du projet dans le Master de Traduction Spécialisée Multilingue de l’UGA, qui forme des traducteurs et dispose d’un réseau de traducteurs indépendants grenoblois.
2017
Projet ACCOLÉ – Emergence 5,2K€ (porteuse du projet)
L’idée est de proposer sur la même plateforme une palette de services innovants permettant de répondre aux besoins modernes d’analyse d’erreurs. Notre plateforme permettra à terme d’analyser les erreurs de traductions sur différents corpus, en collaboration avec différentes personnes, linguistes ou non, informaticiennes ou non, et aussi bien des enseignants de langues, que des traducteurs. La tâche d’analyse d’erreurs étant déjà fastidieuse, il est important que les personnes la réalisant aient un accès simple à l’outil ainsi qu’au corpus qu’ils souhaitent analyser. La plateforme sera donc accessible en ligne et il sera possible soit de télécharger les éléments suivants : corpus, typologie d’erreurs, résultats d’analyseurs morphosyntaxiques ; soit d’utiliser ceux présents sur la plateforme.
En plus des aspects collaboratifs et accessibles, la plateforme ACCOLÉ proposera d’autres services innovants : visualisation et édition graphique d’erreurs pour corpus alignés, appel automatique à des analyseurs morphosyntaxiques externes, recherche de modèle (patron morphosyntaxique) dans les annotations.
PROJET Évaluer la traduction automatique : étude des usages et perceptions – Pôle Grenoble Cognition (PGC) 2,5K€
Dans un contexte où les approches statistiques et neuronales ont permis une amélioration extrêmement rapide de la qualité de la traduction automatique, nous proposons une approche interdisciplinaire liant Traductologie, Traitement automatique des langues et Philosophie de la connaissance qui poursuit trois objectifs : 1/ dégager les usages et les perceptions des systèmes de TA statistique/neuronale chez des traducteurs professionnels et des apprentis traducteurs ; 2/ comparer ces usages et perceptions à l’architecture, au fonctionnement et aux potentialités effectives des systèmes ; 3/ Mettre en perspective ces comparaisons avec les conceptions de l’action humaine et les conceptions de la cognition sous-tendant la TA statistique/neuronale. L’accès au terrain est garanti du fait de l’implication des membres du projet dans le Master de Traduction Spécialisée Multilingue de l’UGA et grâce à un accord préalable avec le service de traduction de la Commission Européenne (DGT).
2016
Projet AIM-WEST
Ce projet vise à rechercher des techniques, ressources et protocoles pour l’évaluation et l’intégration de modèles de traitement des expressions poly-lexicales (EPL) dans les systèmes de traduction automatique et de traitement de la parole. Les EPLs tout comme les groupes nominaux (apprentissage automatique, armes de destruction massive) et les constructions verbales à particule (break down, clear up) représentent un challenge pour les technologies des langues actuelles. Ils nécessitent souvent d’une connaissance supplémentaire pour une interprétation informatique correcte due à leur sémantique opaque et idiomatique. Par exemple, ne pas reconnaitre que l’EPL « kick the bucket » doit être interprétée comme une seule unité (to die) peut entrainer une traduction erronée.
Le projet AIMWEST s’adresse au traitement automatique des EPLs mettant l’emphase sur le portugais, l’anglais et le français, ainsi que sur les couples portugais↔anglais, français↔anglais et portugais↔français. La principale contribution de ce projet est le développement d’interfaces homme-machine multilingues prenant en compte ce phénomène complexe que sont les EPLs. Je travaille sur la création d’un corpus annoté d’EPL, ainsi que sur l’analyse d’erreurs de traduction des EPLs pour le couples français↔anglais.
Projet ANR EIIDA
L’objectif du projet est de comparer le discours scientifique écrit et le discours scientifique oral, et d’interroger l’impact de la transmission directe sur le discours scientifique. Le projet consiste à croiser analyses quantitatives et qualitatives sur des productions orales scientifiques (conférences, cours) portant sur des domaines de sciences humaines ou de sciences dures et à comparer ces productions aux productions écrites des mêmes domaines. Dans ce cadre, j’analyse les différences portant sur l’utilisation de certains mots du lexique, sélectionnés car leur utilisation pose problème aux étudiants de sciences de niveau B1 en anglais, entre les productions orales et écrites du domaine des sciences dures.
2015
Projet CAMELEON (Collaborative and Automatic Methods for the Multilingualisation of Lexica and Ontologies)
Dans un projet visant à la multilinguisation de lexique et de l’accès à des ontologies, je travaille sur l’évaluation de la méthodologie et des outils résultats des travaux de recherche. L’évaluation se base sur les compétences des futurs utilisateurs de ces lexiques et ontologies, ainsi que sur les tâches qui requièrent leur utilisation.
2011
Projet de Traduction Automatique Probabiliste du LIG
Avec pour objectif, l’étude d’une méthode pour enrichir et améliorer un système de traduction automatique probabiliste, au fur et à mesure de ses interactions avec l’utilisateur (humain dans la boucle), je travaille sur l‘analyse linguistique de post-éditions humaines relativement aux hypothèses de traduction, fournies par le système, et à leur source, afin d’établir des règles d’apprentissage pour un post-éditeur probabiliste, et de catégoriser les erreurs du système de traduction automatique probabiliste, à partir d’un corpus de 311 phrases sources avec leur hypothèses de traduction et leur post-éditions.
2009
Projet SurviTra II (ARCUS/CIFLI).
Étude linguistique pour l’enconversion et la déconversion en « Universal Networking Language » (UNL) des phrases en anglais de SurviTra.
Évaluation IWSLT-09
Évaluation subjective (fluidité et adéquation) du logiciel de TAO Systran – 5400 énoncés.
Évaluation subjective des forces et des faiblesses des systèmes de traduction Reverso et Systran pour France Télécom (TRANSAT) .
Co-analyse d’un corpus de 2224 énoncés extraits du corpus BTEC, traduits par reverso dans le domaine médical. Aide à l’énumération des problèmes pour chaque énoncé.
Compilation de la liste des différents problèmes suivant l’indice des énoncés où ils apparaissent.
Co-rédaction du rapport.
2006
Évaluation IWSLT-06
Évaluation subjective (fluidité et adéquation) du logiciel de TAO Systran – 5400 énoncés.
2005
Projet LexALP (http://lexalp.free.fr/).
Participation à l’élaboration et à la réalisation du corpus. Sélection de mots-clés en regard de la Convention sur la protection des Alpes (Convention alpine). Recherche de textes législatifs français en fonction de ces mots-clés. Intégration de ces textes dans la base de données de l’équipe.[:]