38041 Grenoble Cedex 09, France
UNIVERSITÉ
DE GRENOBLE
N°
attribué par la
bibliothèque
/__/__/__/__/__/__/__/__/__/
THÈSE
pour obtenir le
grade de
DOCTEUR ÈS
SCIENCES
délivré par
l'UNIVERSITÉ DE GRENOBLE
Spécialité
: “INFORMATIQUE”
Thèse préparée
au laboratoire GETALP-LIG (CNRS-INPG-UJF) dans
le cadre de
l’École Doctorale “Mathématiques, Sciences et
Technologies de l’Information, l’informatique”
présentée et
soutenue publiquement
par
Lingxiao WANG
Le
14 décembre 2015
Outils et environnements pour l'amélioration incrémentale, la post-édition
contributive et l'évaluation continue de systèmes de TA. Application à la TA
français-chinois.
JURY
Mme. Catherine
BERRUT Président
M. Xiaodong
SHI (Xiamen) Rapporteur
M. Eric
Wehrli (Unige) Rapporteur
M. François
BROWN DE COLSTOUN (L&M) Invité
M. Jean-Pierre
CHEVALLET Invité
M. Hong-Thai
NGUYEN Invité
M. Christian
BOITET Directeur
de thèse
Mme Valérie
BELLYNCK Codirecteur
de thèse
Cette thèse, effectuée dans
le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR
Traouiero, aborde d'abord la production, l'extension et l'amélioration de
corpus multilingues par traduction automatique (TA) et post-édition
contributive (PE). Des améliorations fonctionnelles et techniques ont
été apportées aux logiciels SECTra_w et iMAG, et on
a progressé vers une définition générique de la structure d'un corpus
multilingue, multi-annoté et multimédia, pouvant contenir des documents
classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été
validée par la création de bons corpus bilingues français-chinois, l'un d'eux
résultant de la toute première application à la traduction littéraire .
Une seconde partie,
initialement motivée par un besoin industriel, a consisté à construire des systèmes
de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans
le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un
projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu
démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous
certaines conditions, grâce à une expérience qui s'est étalée sur toute la
thèse.
La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-IP 2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés , et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA.
This thesis, conducted as part of a CIFRE grant, and extending one of
the aspects of the ANR project Traouiero, first addresses the production,
extension and improvement of multilingual corpora by machine translation (MT)
and contributory post-editing (PE). Functional and technical improvements have
been made to the SECTra and iMAG software produced in previous PhD theses (P.C.
Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of
the structure of a multilingual, annotated and multi-media corpus that may
contain usual documents as well as pseudo-documents
(such as Web pages) and meta-segments.
This part has been validated by the creation of good French-Chinese bilingual
corpora, one of them resulting from the first application to literary
translation (a Jules Verne novel).
A second part, initially motivated by an industrial need, has consisted
in building MT systems of Moses type, specialized to sub-languages, for
french↔chinese, and to study how to improve them in the context of a continuous
use with the possibility of PE. As part of an internal project on the LIG
website and of a project (TABE-FC) in cooperation with Xiamen University, it
has been possible to demonstrate the value of incremental learning in
statistical MT, under certain conditions, through an experiment that spread
over the whole thesis.
The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.
Résumé 2
Abstract 2
Remerciements 3
Résumé en chinois.......................................................................................................................... 3
Table des matières.......................................................................................................................... 4
Table des figures........................................................................................................................... 7
Table des tableaux......................................................................................................................... 9
Glossaire et abréviations............................................................................................................... 11
Introduction 13
Partie A Production,
extension et amélioration de corpus multilingues par TA et PE contributive.... 16
Résumé 16
Chapitre I Amélioration
d’aspects fonctionnels et techniques de SECTra et du logiciel iMAG pour les
passerelles d'accès multilingue 16
I.1 Situation et état de l'art au début de la thèse............................................................... 16
I.1.1 Modélisation
et exploitation de corpus de traductions : SECTra_w...................................... 16
I.1.2 Accès multilingue à des sites Web : le logiciel
iMAG.......................................................... 26
I.1.3 Travaux
comparables et idées directrices pour le futur....................................................... 33
I.2 Améliorations
de SECTra_w dans le cadre du projet Traouiero..................................... 37
I.2.1 Extension
de fonctions existantes.................................................................................... 37
I.2.2 Aspects
de génie logiciel................................................................................................ 39
I.2.3 Travail de spécification................................................................................................. 41
I.3 Améliorations
des iMAG dans le cadre du projet Traouiero............................................ 42
I.3.1 Paramétrisation........................................................................................................... 42
I.3.2 Travail
de spécification................................................................................................. 43
Chapitre II Travail
sur des aspects plus conceptuels et définition de nouvelles fonctionnalités......... 45
II.1 Modélisation
de corpus de traductions variés............................................................... 45
II.1.1 Variété
des corpus de traductions et esquisse d'une méthode de formalisation....................... 45
II.1.2 Esquisse
d'une méthode de modélisation des corpus de traductions...................................... 51
II.1.3 Validation
au niveau des métadonnées............................................................................ 53
II.2 Conception
de nouvelles fonctionnalités et développements en cours........................... 62
II.2.1 Nouvelles
fonctionnalités............................................................................................. 62
II.2.2 Programmabilité........................................................................................................ 64
II.2.3 Modularité................................................................................................................ 65
Chapitre III Variété
des iMAG et de leurs usages : de l’accès multilingue à la création de bons
corpus bilingues et à la traduction littéraire contributive de qualité 67
III.1 Liste (avec les MT associées)......................................................................................... 67
III.2 Commentaires
sur les utilisations actuelles................................................................ 69
III.2.1 Accès
à des sites Web d'organismes ou de sociétés........................................................... 69
III.2.2 Aide à
la traduction de documents : rapports, de parties de thèse, manuels…...................... 69
III.2.3 Accès
multilingue à des documents pédagogiques : MACAU.............................................. 70
III.2.4 Évaluation................................................................................................................ 71
III.3 Utilisations
plus novatrices : production de bons corpus parallèles, et post-édition de
textes littéraires pour l'auto-apprentissage ou pour la traduction contributive............................................................................................. 72
III.3.1 Production
de « corpus parallèles » de qualité............................................................... 72
III.3.2 « Voyage au centre de la terre » de Jules
Verne............................................................... 74
III.3.3 « The Book of Me » de Powers..................................................................................... 75
III.3.4 « IITB :
Monastery, Sanctuary, Laboratory » de Rohit Manchanda.................................... 76
Partie B Construction
de systèmes de TA spécialisés à des sous-langages en français ↔ chinois........ 79
Chapitre IV Revue
des systèmes TA français ↔ chinois en
contexte industriel................................ 80
IV.1 Demande
de grosses sociétés......................................................................................... 80
IV.2 État
de l'art de la TA du chinois.................................................................................. 81
IV.2.1 Historique................................................................................................................ 81
IV.2.2 Expérimentations....................................................................................................... 83
IV.3 Construction de systèmes de TA pour le chinois basés
sur Moses en contexte industriel 87
IV.3.1 Choix
du sous-langage et des couples à traiter................................................................ 87
IV.3.2 Recherche
infructueuse de corpus parallèles adaptés........................................................ 88
IV.3.3 Production
de corpus par PE de résultats de Google........................................................ 90
IV.3.4 Construction
de systèmes français→chinois.................................................................... 91
IV.3.5 Évaluations
et perspectives.......................................................................................... 93
Chapitre V Construction
de systèmes de TA pour le chinois avec Moses en contexte de recherche : le
projet TABE-FC 96
V.1 Buts
du projet TABE-FC................................................................................................. 96
V.1.1 Buts
théoriques........................................................................................................... 96
V.1.2 Buts
pratiques............................................................................................................ 97
V.1.3 Définition
du projet..................................................................................................... 97
V.2 Constitution
des corpus d'apprentissage........................................................................ 98
V.2.1 Recherche
de sites et collecte de pages Web monolingues et bilingues................................... 98
V.2.2 Nettoyage
et filtrage.................................................................................................... 98
V.2.3 TA par
GT, puis PE (production d'un corpus parallèle)................................................... 100
V.3 Construction
de systèmes de TA................................................................................... 102
V.3.1 Construction
de systèmes Moses "ligne de base"............................................................. 102
V.3.2 Avancement
de l'expérimentation.................................................................................. 103
V.3.3 Résultats
provisoires.................................................................................................. 103
Chapitre VI Démonstration
de l'intérêt de l'apprentissage incrémental en TA statistique................ 105
VI.1 Contexte.................................................................................................................... 105
VI.1.1 Motivations............................................................................................................. 105
VI.1.2 Expérience
sur le site du LIG...................................................................................... 106
VI.2 Expérimentation......................................................................................................... 107
VI.2.1 Phase
1 (2-6/2013)................................................................................................... 107
VI.2.2 Phase
2 (7-9/2013)................................................................................................... 110
VI.2.3 Phase
3 (9-12/14 et 7-11/15)...................................................................................... 113
VI.3 Analyse des résultats................................................................................................. 116
Partie C Contribution
d’outils et de ressources........................................................................... 117
Chapitre VII Construction
de systèmes de TA et support à la RI multilingue pour MUMIA............ 118
VII.1 Contexte
et motivations........................................................................................... 118
VII.1.1 Description
du projet MUMIA et du WG2................................................................... 118
VII.1.2 PerFedPat
et Khresmoi............................................................................................ 119
VII.1.3 Objectif
poursuivi................................................................................................... 120
VII.2 Construction
de MT et de STA à partir des corpus CLEF-IP 2011................................. 120
VII.2.1 Description
du corpus CLEF-IP................................................................................ 120
VII.2.2 Extraction
de MT à partir de CLEF-IP 2011............................................................... 122
VII.2.3 Construction
des systèmes de TA............................................................................... 125
VII.3 Expérimentation
et élargissement à d'autres langues................................................ 125
VII.3.1 Reconstruction
de trois sites Web de brevets monolingues.............................................. 125
VII.3.2 Accès
multilingue en utilisant les systèmes de TA créés.................................................. 127
VII.3.3 Accès multilingue utilisant d'autres systèmes et pour
d'autres langues.............................. 127
Chapitre VIII Mise à
disposition de ressources.............................................................................. 130
VIII.1 Contribution
de ressources statiques sous forme de MT............................................. 130
VIII.1.1 Formats
choisis..................................................................................................... 130
VIII.1.2 Méthode de création............................................................................................... 132
VIII.1.3 Résultats.............................................................................................................. 132
VIII.2 Contribution
sous forme de système de TA................................................................. 135
VIII.2.1 Systèmes
de TA téléchargeables................................................................................ 135
VIII.2.2 Systèmes
de TA utilisables comme des service Web....................................................... 135
VIII.3 Passerelles
iMAG vers des sites Web statiques ou dynamiques.................................... 135
VIII.3.1 Passerelles
iMAG pour des sites statiques.................................................................. 135
VIII.3.2 Passerelles
iMAG pour des sites dynamiques.............................................................. 136
VIII.3.3 Structure
d'une contribution « dynamique »
par iMAG................................................. 137
VIII.3.4 Remarques
sur la création de certains des sites « contribués »....................................... 138
Chapitre IX Vers
une plate-forme de construction, déploiement et évaluation de systèmes de TA:
JianDan-eval 140
IX.1 Buts
du système JianDan-eval......................................................................................... 140
IX.2 Architecture
logicielle.............................................................................................. 141
Conclusions et perspectives.......................................................................................................... 143
Bibliographie 145
Table des définitions.................................................................................................................. 150
Annexes 154
Annexe 1 : Corpus de la
campagne d’évaluation de TA du projet TRANSAT........................... 154
Annexe 2 : Protocole
d’évaluation pour le projet TRANSAT................................................ 156
Annexe 3 : Un exemple du corpus
B@bel................................................................................. 157
Annexe 4 : Corpus EOLSS....................................................................................................... 158
Annexe 5 : Un exemple de la
graphe UNL avec correction...................................................... 159
Annexe 6 : Document de brevet
du corpus CLEF-IP 2011 (EP-0000007-B2.xml)........................... 161
Annexe 7 : Structure des
données de minidictionaires........................................................... 164
Annexe 8 : 50 segments en « Vue SECTra/Post-édition »........................................................... 165
Annexe 9 : Exemple du corpus
parallèle français-chinois créé pour L&M dans le domaine de l'énergie 172
Annexe 10 : Script de filtrage
de corpus................................................................................. 199
Annexe 11 : Source de programme
pour calculer ............................................................ 202
Annexe 12 : 100 bisegments
anglais-français extraits de CLEF-IP 2011.................................... 205
Annexe 13 : 20 bisegments
anglais-français en format TMX................................................... 213
Figure 1 :
Architecture générale d’une iMAG pour un site élu...................................................... 29
Figure 2 : Capture
d'écran de l’iMAG LIG-LAB en chinois.......................................................... 30
Figure 3 : Architecture par agents SECTra_w, iMAG, PIVAX
(Nguyen, 2010)........................... 31
Figure 4 : Interface
de « Translate Corpus »............................................................................... 38
Figure 5 : Interface de Tradoh..................................................................................................... 39
Figure 6 : Options de la fonction "export"................................................................................. 40
Figure 7 : Interface de sélection paramétrable dans SECTra_w.................................................... 40
Figure 8 : Structure logique d'une base de données de corpus
multilingues..................................... 42
Figure 9 : Fichier HTML et fichier compagnon .unl................................................................... 49
Figure 10 : Document 2 traduit de l’anglais vers le
français (GROUND AND SOIL WATER CHARACTERISTICS) 49
Figure 11 : Exemple de structure et de description d'un
dialogue du corpus ERIM........................ 50
Figure 12 : Exemple du fichier french.wpl et vietnamese.wpl...................................................... 50
Figure 13 :
Capture d'écran de panneau de dictionnaires ajouté à SECTra_w................................ 63
Figure 14 : Interface de SECTra_w intégrant les boutons « Delete », « Clean » et « Get ».......... 63
Figure 15 : Traduction des segments sélectionnés et ajout à la
MT............................................. 64
Figure 16 : Exemple de l'API « Call Tradoh »............................................................................ 64
Figure 17 : Post-édition d’un document français accédé en
anglais (résumé de la thèse de Lingxiao
WANG) 70
Figure 18 : Extraction of a "good" TM from a TM
produced by "natural" post-edition.............. 72
Figure 19 : Export of a « good » part of a TM........................................................................... 73
Figure 20 : Capture d'écran de iMAG français→chinois pour « Voyage au
centre de la terre »..... 74
Figure 21 : Exemple de post-édition d’un chapitre de « Monastery, Sanctuary, Laboratory: 50
Years of IIT-Bombay » de Rohit Manchanda 77
Figure 22 : Architecture à 3 niveaux et 7 « missions » du projet TABE-FC (Chen,
Wang et al., 2014) 97
Figure 23 : Exemple de page Web économique parallèle............................................................. 98
Figure 24 : Exemple d’une page Web du site de "Bourse de
Hong Kong" en format html............ 99
Figure 25 : Exemple de segments chinois-anglais extraits à
partir de pages Web....................... 100
Figure 26 : Capture d'écran de l'iMAG "Bourse de
Paris" en chinois.......................................... 101
Figure 27 : Comparaison de la traduction de GT et de la
post-édition humaine.......................... 102
Figure 28 : Site du LIG vu en chinois à travers une iMAG......................................................... 107
Figure 29 : Diminution de temps moyen de PE (par page standard)
avec AI dans la phase 1 de
l'expérience 109
Figure 30 : Capture d'écran de l'iMAG « Corpus par
jour »........................................................ 111
Figure 31 : Capture d'écran de Chamilo affichant le lien AXiMAG............................................ 112
Figure 32 : Diminution du temps moyen de PE (par page) avec AI
dans la phase 3 de l'expérience 115
Figure 33 : Architecture
de PerFedPat...................................................................................... 119
Figure 34 : KHRESMOI............................................................................................................ 120
Figure 35 : Exemple de
fichier XML Dans CLEF-IP................................................................. 122
Figure 36 : Exemple de champ <claims> contenant 6 sous-champs <claim> dans EP-0260000-B1.xml 122
Figure 37 : Exemple
d'un champ <invention-title> avec 3 attributs de langue différents
et les contenus correspondants en 3
langues différentes 123
Figure 38 : Un
champ <patent-document> avec attribut lang = "EN"....................................... 123
Figure 39 : Exemple de fichier XML monolingue..................................................................... 126
Figure 40 : Exemple de revendication dans le fichier
EP0203923B1.xml................................. 126
Figure 41 : Exemple de fichier HTML décoré........................................................................... 127
Figure 44 : PE en mode avancé, avec pseudo-trace montrant les
différences entre les sorties de TA, la post-édition (utilisée comme
référence), et la MT................................................................................................................................ 128
Figure 45 : Retraduction des segments du français vers le
chinois pour DOC6 avec le système de TA français→chinois
MosesLIG 129
Figure 46 : Exemple des données en format TXT (MT CLEF-IP
anglais-français)................... 131
Figure 47 : Exemple des données en format TMX (MT CLEF-IP
anglais-français)................... 131
Figure 48 : Extraction d'une "bonne" MT de la MT produite
par post-édition "naturelle"......... 132
Figure 49 : Segments post-édités pour la ressource énergie........................................................ 134
Figure 50 : Exemple de contribution au format HTML (Chapitre
1 : Voyage au centre de la Terre) 137
Figure 51 : Capture d'écran du site Web monolingue de CLEF-IP.............................................. 138
Figure 52 : Capture d'écran de l'iMAG dédiée CLEF-IP............................................................. 139
Figure 53 : Architecture initiale de gestion de travaux.............................................................. 142
Tableau 1 : Sites Web
élus des iMAG dédiées disponibles en 2010............................................... 17
Tableau 2 : Données statistiques sur les segments post-édités
dans SECTra_w depuis 2010.......... 18
Tableau 3 : Liste des iMAG à MT dédiée construites depuis 2010................................................. 28
Tableau 4 : Exemples de sites Web de partage de corpus
parallèles.............................................. 33
Tableau 5 : Comparaison de l’organisations logiques, physiques,
et interne de quelque corpus...... 51
Tableau 6 : Métadonnées du corpus BTEC (les segments extraits).............................................. 53
Tableau 7 : Métadonnées des données d’évaluation à la TRANSAT............................................ 54
Tableau 8 : Métadonnées du corpus UNESCO-B@bel.................................................................. 55
Tableau 9 : Métadonnées du corpus EOLSS au niveau de la
macrostructure................................. 56
Tableau 10 : Métadonnées d’un fichier HTML au niveau de la
microstructure............................ 57
Tableau 11 : Métadonnées d’un fichier UNL au niveau de la
microstructure................................ 57
Tableau 12 : Métadonnées d’un corpus EOLSS au niveau de la
mésostructure.............................. 58
Tableau 13 : Métadonnées d’un corpus ERIM au niveau de la
macrostructure............................. 58
Tableau 14 : Métadonnées de la séance dans le corpus ERIM a au
niveau de la microstructure.... 59
Tableau 15 : Métadonnées d’un corpus ERIM au niveau de la
mésostructure............................... 59
Tableau 16 : Métadonnées du corpus CLEF-IP 2011.................................................................. 60
Tableau 17 : Métadonnées d’un document de brevet................................................................... 61
Tableau 18 : 10 paramètres de l'API de CREATDICO................................................................ 62
Tableau 19 : Exemple de fichier de configuration de CREATDICO............................................ 62
Tableau 20 : Exemple d’un lien pour l'utilisation de l'API de
CREATDICO................................ 62
Tableau 21 : iMAG pour les sites Web de laboratoires et
d'universités......................................... 67
Tableau 22 : iMAG pour les sites Web d’organismes et de
sociétés.............................................. 68
Tableau 23 : iMAG pour des projets et des expérimentations...................................................... 68
Tableau 24 : Nombre de langue du projet MACAU (06/2013)..................................................... 71
Tableau 25 : Statistiques de documents dans MACAU
(06/2013)................................................ 71
Tableau 26 : Statistique sur 21 chapitres de « Voyage au
centre de la terre »............................... 74
Tableau 27 : Corpus source, cible traduite et cible corrigée.......................................................... 75
Tableau 28 : Statistique sur les données....................................................................................... 83
Tableau 29 : Formule d’évaluation de l’automaticité et de la qualité d’un système de TA........... 84
Tableau 30 : Exemple de traduction de GT................................................................................. 84
Tableau 31 : Paramètres de configuration de Joshua................................................................... 85
Tableau 32 : Comparaison d'exemples de traductions obtenues par
TA et d'une référence........... 86
Tableau 33 : Exemple de résultat d'évaluation............................................................................ 87
Tableau 34 : Corpus collectés en cherchant des corpus pour
français→chinois............................ 89
Tableau 35 : Exemples de bisegments français→chinois parmi les 9000
collectés ou produits..... 90
Tableau 36 : Comparaison des temps d’entraînement de Moses.................................................. 91
Tableau 37 : Configuration de la machine................................................................................... 91
Tableau 38 : Scores BLEU pour différentes tailles du corpus
d'entraînement............................... 92
Tableau 39 : Statistiques sur le corpus MultiUN.......................................................................... 92
Tableau 40 : Exemple de données de test.................................................................................... 93
Tableau 41 : Statistiques des données de test............................................................................... 94
Tableau 42 : Score BLEU et exemples de sorties de systèmes de
TA........................................... 94
Tableau 43 : Statistiques des pages Web collectées...................................................................... 99
Tableau 44 : Exemple de conversion des caractères chinois du
traditionnel vers le simplifié....... 99
Tableau 45 : Statistiques sur la ressource économique et
boursière............................................. 102
Tableau 46 : Statistiques sur les données d'entraînement de la
phase 1....................................... 107
Tableau 47 : Évaluation du temps de post-édition (2-6/2013)................................................... 109
Tableau 48 : Évaluations basées sur des références (BLEU, NIST,
TER)................................... 110
Tableau 49 : Statistiques de post-édition sur 21 articles
français 4/7-13/9/2013........................ 111
Tableau 50 : Statistiques de post-édition sur les supports de
cours............................................. 112
Tableau 51 : Résultat
de l’expérimentation (en français-chinois).............................................. 113
Tableau 52 : Nombre de segments dans chaque MT.................................................................. 113
Tableau 53 : Statistiques sur les données pour l'AI (phase 3 de
l’expérience)............................. 114
Tableau 54 : Évaluation du temps de post-édition (9-12/2014)................................................. 115
Tableau 55 : Données de test et scores BLEU........................................................................... 116
Tableau 56 : Nombre de segments extraits comme source et cible
après l'alignement de segments dans les champs <title> et <claims> 124
Tableau 57 : Scores
BLEU des systèmes de TA tirés de CLEF-IP.............................................. 125
Tableau 58 : Segments post-édités dans SECTra_w à partir de 3
langues source......................... 133
Tableau 59 : Segments parallèles obtenus à partir des MT (mêmes remarques)......................... 133
Tableau 61 :
Statistique des données pour la ressource énergie................................................... 134
Tableau 62 : Systèmes de TA téléchargeables........................................................................... 135
Tableau 63 : Systèmes de TA utilisables comme des services Web............................................. 135
Tableau 64 : Passerelles iMAG pour des sites statiques.............................................................. 136
Tableau 65 : iMAG pour des sites dynamiques........................................................................... 136
AI |
Apprentissage incrémentale |
API |
Application Programming Interface |
Ariane-G5 |
Environnement de développement et d’exécution de systèmes (linguiciels) de traduction automatique |
CLEF-IP |
Conference and Labs of the Evaluation Forum, formerly known as Cross-Language Evaluation Forum - Intellectual Property |
CLIPS |
Communication Langagière et Interaction Personne Système |
CNRS |
Centre national de la recherche scientifique |
DC |
Dublin core |
DSR |
Digital Silk Road |
EDF |
Électricité de France |
EOLSS |
Encyclopedia of Life Support Systems |
FC |
Français-Chinois |
GETA |
Groupe d'Etude pour la Traduction Automatique |
GETALP |
Groupe d'Étude pour la Traduction/le Traitement Automatique des Langues et de la Parole |
GI |
Génie informatique |
GT |
Google Translate |
HQ |
Haute Qualité |
iMAG |
Passerelle interactive d'accès multilingue (interactive
Multilingual Access Gateway) |
ISCC |
Institut des sciences de la communication |
L&M |
SAS Lingua et Machina |
LIG |
Laboratoire d'Informatique de Grenoble |
LSPL |
Langage Spécialisé pour la Programmation Linguistique |
MACAU |
Multilingual Access & Contributive Appropriation for Universities |
MT |
Mémoire de Traductions |
MUMIA |
Multilingual and multifaceted interactive information access |
OMNIA |
Outils et Méthodes Numériques pour l'Interrogation et l'Analyse des textes médiolatins |
ONU |
Organisation des Nations Unies |
PAHO |
Pan American Health Organization |
PCT |
Patent Cooperation Treaty |
PE |
Post-Édition |
PIVAX |
Base lexicale à pivot par acceptions (monolingues et
interlingues) |
QCM |
Question à choix multiples |
RI |
Recherche d’Information |
SaaS |
Software as a Service |
SECTra_w |
Système d'Exploitation de Corpus de Traductions sur le Web |
SECTra/Eval |
Première version de SECTra, développée pour le projet
TRANSAT d'Orange Labs |
SECTra/Trad |
Deuxième version de SECTra, développée pour le projet EOLSS/UNL++ |
SECTra/Web |
Troisème version de SECTra, développée pour le projet iMAG |
SegDoc |
Segmentation de documents XML |
TA |
Traduction Automatique |
TH |
Traduction Humaine |
TMX |
Translation Memory eXchange |
TRADOH |
Un outil permet d'obtenir une traduction dans sa langue, par mise en œuvre automatique d'un ou plusieurs systèmes de TA disponibles en local ou à distance, avec composition éventuelle. |
TRANSAT |
Projet de TA de parole d’Orange 2004~2007 |
TXT |
Texte brut |
Unesco/B@bel |
Partie du site Web de l'Unesco consacrée à la communication
multilingue |
UNL |
Universal Networking Language (projet lancé par l'UNU (fin
1995) et langage "anglosémantique" d'hypergraphes associables aux
énoncés en langue naturelle |
XLIFF |
XML Localisation Interchange File Format |
XRCE |
Xerox Research Center Europe |
Cette thèse a été effectuée dans l'équipe GETALP du LIG, et dans le cadre d'une bourse CIFRE avec Lingua et Machina, une jeune société qui vise à "prendre en charge la communication multilingue de l'entreprise". Le sujet initialement défini était centré sur l'amélioration de plusieurs aspects de génie logiciel du logiciel SECTra_w/iMAG, réalisé par Cong Phap HUYNH dans le cadre de sa thèse (Huynh, 2010). Le point principal concernait la transformation de la partie SECTra_w (Service web d'Exploitation de Corpus de Traductions) en un système programmable et extensible. On visait à pouvoir l'utiliser comme un "serveur corporal" gérant des suites de test ainsi que des corpus de développement pour le compte de systèmes de TA (traduction automatique) munis d'un environnement de développement complet, comme Ariane-G5 et son successeur, en cours d'implémentation, Ariane-Y. Un autre objectif était de pouvoir non seulement exploiter des corpus parallèles existants, pour les évaluer et/ou les améliorer par post-édition collaborative en ligne, mais aussi de pouvoir les étendre à de nouvelles langues par appel à des serveurs de TA, suivi de post-édition. Un dernier thème était la recherche d'une méthode de spécification formelle implémentable des "vrais" corpus multilingues, c'est-à-dire pas seulement des listes de "segments" multilingues, comme le BTEC (Boitet et al., 2007), qui ne sont en fait que de grandes "mémoires de traduction", même si on les appelle "corpus parallèles". On souhaitait s'attaquer à la complexité des "vrais corpus", et passer à l'échelle, de façon, par exemple, à pouvoir traiter des corpus fortement structurés et de très grande taille comme ceux des brevets. Dans un corpus complexe, un document est formé d'un document maître (en XML par exemple) ou d'une hiérarchie de tels documents, accompagné d'une collection de fichiers "satellites" (images, vidéos…) et éventuellement d'annotations contenues dans des fichiers "compagnons".
On visait aussi à résoudre un certain nombre de problèmes liés à l'interaction entre SECTra_w et le logiciel iMAG (interactive Multilingual Access Gateways) qui utilise SECTra_w comme un "dorsal" et permet d'accéder à des sites Web "élus" dans un grand nombre de langues, avec possibilité d'améliorer les "prétraductions" produites par des serveurs de TA en les corrigeant ("post-éditant") directement sur la page Web, ou dans l'interface de SECTra_w dédiée à la post-édition.
Ces objectifs ont évolué à cause des besoins de l'entreprise, qui désirait d'abord construire des systèmes de TA "maison" français↔chinois en utilisant l'environnement Moses. Pour cela, il faut disposer de grands corpus parallèles de bonne qualité, dans le bon sens, et représentatifs des sous-langages des clients potentiels, en l'occurrence EDF, Renault, etc. Cela a d'abord mené à l'étude, l'expérimentation et l'évaluation d'aligneurs divers, de segmenteurs du chinois, et de divers systèmes de TA existants. Dans un deuxième temps, le travail s'est plus orienté vers la TA proprement dite. Il s'est d'abord agi de construire un environnement de préparation et d'exploitation de systèmes Moses, intégré aux outils de L&M (Libellex, Myriam) ou utilisés par L&M (Metricc, Xelda…). L'obstacle majeur à surmonter était l'absence de corpus parallèles français-chinois. Nous avons alors construit un corpus de 9000 segments, d'abord par post-édition de résultats de Google Translate (GT), puis par post-édition de résultats d'une première version d'un système Moses-L&M-FC. À peu près à la même période, L&M nous a demandé d'étudier la nouvelle possibilité offerte par Moses de faire de l'apprentissage incrémental (AI). Nous l'avons fait, ainsi que quelques essais préliminaires, puis L&M m'a dirigé sur autre chose, jugeant l'approche peu prometteuse. Il est vrai que les améliorations constatées étaient faibles. Pourtant, les gains de temps étaient considérables (environ 1h pour l'AI sur quelques dizaines ou centaines de nouveaux segments au lieu de 20h pour un réapprentissage complet). Notre intuition était que, dans le cas de sous-langages, on devait arriver, en faisant quelques dizaines d'itérations d'AI, à produire des prétraductions meilleures que celles de GT, Bing, Systran ou NiuTrans, au moins en ce qui concerne la qualité d'usage pour la tâche de post-édition, et peut-être aussi pour la tâche de compréhension. Encouragé par mes directeurs de thèse, j'ai alors orienté ma recherche dans cette direction, pendant plusieurs mois. Au terme d'une expérience sur le sous-langage du site Web du LIG, nous avons pu publier (à COLING 2012) des résultats encourageants : notre courbe de "temps de post-édition" descendait assez régulièrement, et, au bout d'une vingtaine d'itérations avec un réapprentissage total au milieu, n'était plus qu'un petit peu au-dessus de la "ligne de base" correspondant à la PE des résultats de GT (environ 10 mn/page). Depuis, j'ai préparé et mené une troisième expérience, en améliorant l'automatisation du processus et des mesures associées, et j'ai pu démontrer que, au moins dans le cas d'un sous-langage comme celui du site du LIG, et du français-chinois, la combinaison de l'apprentissage incrémental par périodes, et spécialisé à un sous-langage, pouvait donner des résultats nettement meilleurs que ceux des systèmes de TA généralistes.
Ma recherche s'est ensuite trouvée orientée vers le passage à l'échelle, la TA de brevets, et la construction de grandes ressources de bonne qualité, dans le cadre du projet COST "MUMIA" de l'UE. . Mon directeur de thèse était en effet VP de MUMIA et en charge du WG2. Dans le WG2 auquel j'ai participé, il s'agissait d'étudier et de prototyper des "infrastructures" matérielles et logicielles pour la recherche d'information dans un cadre multilingue, multimodal et multi-facette. J'ai été amené à traiter la collection CLEF-2012 (la même que CLEF-2011), constituée à partir de 1,5 millions de brevets partiellement traduits par des professionnels. Une bonne proportion des "segments", initialement rédigés en français, allemand ou anglais, a été traduite dans une deux des autres langues. Il ne s'agit pas de collections parallèles : il y a un fichier par brevet, en XML, où chaque segment contient sa version originale et éventuellement une ou des versions dans d'autres langues. À partir de cette collection, j'ai détecté la langue source de chaque segment, et construit 3 mémoires de (très bonnes) traductions, une pour chaque langue source. Je les ai aussi utilisées comme base pour l'apprentissage de 3 systèmes Moses (de-fr, fr-de, fr-en). Enfin, avec l'aide d'un étudiant de M1 en TER (Huanan SUN), j'ai construit 3 collections de brevets monolingues, chacun étant seulement dans sa langue source. Grâce à 3 iMAG, il est possible d'y accéder dans diverses langues. Les traductions sont évidemment très bonnes pour les langues initiales (en tout cas, sur les parties du corpus réservées pour les tests), mais il est aussi possible d'y accéder dans d'autres langues, par exemple en chinois, d'améliorer les résultats de TA par PE, et de recycler les "bonnes traductions" pour construire un système spécialisé s'améliorant au fur et à mesure de l'usage.
Durant la dernière partie de ma thèse, je suis revenu au thème de la TA français-chinois, en participant à deux projets, MACAU-OFI et TABE-FC. MACAU-OFI est un projet défini par R. Kalitvianski et Ch. Boitet en 2012, visant à mettre à disposition des étudiants étrangers des notes de cours dans leur langue, en utilisant une passerelle iMAG dédiée, et en demandant aux étudiants eux-mêmes de "post-éditer". Durant l'été 2013, j'ai ainsi participé à l'encadrement de deux stages d'été d'étudiants chinois (en master informatique à l'UJF), qui ont post-édité environ 520 pages standard (130K mots) dans le domaine des outils formels pour l'informatique. En 2013-2014, j'ai aussi participé de façon très active à la définition et au début de la réalisation du projet TABE-FC monté avec l'université de Xiamen, dans le cadre d'une année sabbatique passée à Grenoble par le Dr Yidong CHEN. Il s'agit de construire des systèmes de TA permettant à des Chinois d'avoir un accès en chinois de bonne qualité (et surtout bien plus fiable et fidèle que les systèmes généralistes) aux "brèves" des bourses francophones, « flash reports » en anglais, un tel système, ALTFLASH, a été déployé pour le Nikkei à partir de 2001, et plus généralement aux sites Web économiques en français, et inversement pour des Français désireux d'intervenir sur les bourses de Shanghai, Shenzhen et Hong Kong. Cela m'a fait revenir aux thèmes plus liés au génie logiciel.
Au total, mon apport se situe dans quatre domaines principaux : (1) le génie logiciel des systèmes d'exploitation et maintenant de création et de gestion de "vrais" corpus multilingues, (2) la TA, avec des contributions portant sur l'apprentissage incrémental, la TA français-chinois, ainsi que les environnements de construction et de déploiement de systèmes de TA de type Moses ou similaire, (3) la mise à disposition de ressources (mémoires de traductions, systèmes de TA associés), et (4) la spécification et l'implémentation en cours d'une infrastructure pour l'évaluation, la plate-forme JianDan-eval, qui permettra les évaluations classiques, ainsi que l'évaluation comparative et "en usage" de systèmes de TA de toutes les architectures existantes.
La première partie de ce mémoire concerne la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont aussi été apportées aux logiciels SECTra_w et iMAG produits lors des thèses de C.P. HUYNH et H.T. NGUYEN. Nous avons progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents (comme des pages Web) et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire (un roman de Jules Verne), projet personnel mené pour progresser en français.
La seconde partie est centrée sur nos travaux en TA proprement dite. Initialement motivée par un besoin industriel, cette partie de notre recherche a consisté à étudier comment construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de post-édition (PE) contributive en ligne. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC[1]) en coopération avec l'université de Xiamen, nous avons pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.
Dans la troisième
partie de ce mémoire, nous présentons nos contributions en termes de mise à
disposition de supports informatiques et de ressources. Les principales se
placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la
collection CLEF-2011
de 1,5 M brevets partiellement multilingues. De grosses mémoires de traductions
en ont été extraites (17,5 M segments), trois systèmes de TA en ont été tirés (allemand→français,
anglais→français, français→allemand), et un site Web de support à la
RI multilingue sur les brevets a été construit. Avant de conclure, nous
terminons en décrivant aussi la spécification et la réalisation en cours de JianDan-eval, une
plate-forme de construction, déploiement et évaluation de systèmes de TA.
Partie A Production,
extension et amélioration de corpus multilingues par TA et PE contributive
La partie A présente l’amélioration d’aspects fonctionnels et techniques de SECTra_w et du logiciel iMAG pour les passerelles d'accès multilingue. Cette partie comporte aussi des aspects plus conceptuels, et la définition de nouvelles fonctionnalités. Nous montrons enfin la variété des iMAG et de leurs usages, de l’accès multilingue à la création de bons corpus bilingues et à la traduction littéraire contributive de qualité.
Partie
B Construction de systèmes de TA spécialisés
à des sous-langages en français ↔ chinois
Introduction
Pour construire des
systèmes de TA fr-zh adaptés aux besoins potentiels des clients de L&M (surtout EDF et Renault), nous avons
d’abord cherché une mémoire de traductions pour au moins un des sous-langages
envisagés, mais il n’y en avait aucune. Nous avons alors produit (par
post-édition de TA produites par GT) une MT de bonne qualité de 9000 segments,
à partir de laquelle nous avons construit un système initial de TA fr-zh,
meilleur que GT sur ce sous-langage.
En contexte de recherche, nous avons d’autre part construit trois systèmes de TA dans le cadre du projet TABE-FC. Les données d’entraînement contiennent deux parties. Une partie a été extraite de segments parallèles trouvés à partir de sites boursiers, l’autre partie a été obtenue via la post-édition, par deux étudiantes chinoises, des prétraductions (produites par GT) de pages de sites boursiers publiés en français ou en anglais. Nous avons alors construit des systèmes de TA pour les couples où nous avons assez de données (français-chinois, fr-en, en-zh), et nous les utilisons pour accéder en chinois aux pages Web de ces sites via la plate-forme SECTra_w/iMAG. Nous avons également créé des systèmes chinois-français à partir de MT utilisées « à l’envers », car nous n’avions personne capable de post-éditer du chinois→français. Les résultats, comme on peut s’y attendre dans ce cas de figure, sont très mauvais pour la tâche de compréhension, et tout juste utilisables pour la post-édition par des francophones comprenant très bien le chinois.
Enfin, nous avons étudié les conditions dans lesquelles on peut utiliser avec profit la technique d’apprentissage incrémental proposée dans Moses (Koehn et al., 2007). Pour des sites Web comme celui du LIG, il semble qu’il faille partir d’environ 30000 segments déjà post-édités (600K mots, ou 2400 pages), avec des incréments des 200 à 300 bisegments, et des « étapes » de 20 incréments.
Dans le 0, nous passons revue système de TA français↔chinois en contexte industriel, et décisions nos efforts pour en construction un pour L&M. Dans le 0, nous présentons le suite de cette action, mimée cette fois-ici en contexte de recherche en coopération avec l’université de Xiamen. Enfin, dans le 0, nous mettrons que la technique d’apprentissage incrémentale (AI) de Moses utilisée avec profit, au moins dans certains conditions.
Partie
C Contribution d’outils et de
ressources
Introduction
Pendant ma thèse, j’ai participé au projet MUMIA[2] (Multilingual and Multifaceted Interactive Information Access). Tout d’abord, j’ai travaillé sur le corpus de brevets CLEF-IP 2011[3]. J’ai construit les mémoires de traductions à partir de ce corpus pour les paires des langues allemand↔anglais, anglais↔français, et français↔allemand. Ensuite, j’ai construit plusieurs systèmes de TA avec ces mémoires de traductions. Enfin, j’ai extrait les segments monolingues dans ce corpus. Avec l’aide de Huanan SUN, étudiant de M1, j’ai utilisé les iMAG dédiées à trois sites Web pour post-éditer ces segments monolingues à l’aide de nos systèmes de TA.
Dans le cadre de ce projet, on a demandé de mettre à disposition des participants à MUMIA, dont une bonne partie travaille sur la RI translingue sur les brevets.
Ce travail m’a montré l’intérêt de telles mises à
disposition, non seulement pour leurs utilisateurs potentiels, mais aussi du
point de vue de l’ingénierie linguistique. J’ai donc essayé de mettre à
disposition le plus possible d’outils et de ressources dérivables de mon
travail de thèse. Ce faisant, j’ai pu dégager un certain nombre de problèmes
liés à ce type de tâche, et leur trouver des solutions assez génériques. Ce
dernière partie est consacrée à cet aspect.
[1] TA pour les sites boursiers et économiques appliquée au français-chinois. En anglais: MTSE-FC.
[2]
http://www.mumia-network.eu/index.php/the-action/objectives et http://www.cost.eu/COST_Actions/ict/
Actions/IC1002
[3] http://ifs.tuwien.ac.at/~clef-ip/