Modélisation et système d’exploitation et de gestion de corpus de traductions

r vCB_These_2015 Document interne

Date: 27/10/2015

GETALP-LIG

385 rue de la Bibliothèque, BP 53
38041 Grenoble Cedex 09, France

http://getalp.imag.fr

Date	Version	Auteurs	Diffusion	Description	Commentaire
17/02/15		LXW	CB
19/03/15		LXW	CB
08/04/15		LXW
16/04/15		LXW
21/04/15		LX		P4-Résumé
29/04/15		LX
30/04/15
30/04/15
08/05/15		LX+CB	CB
15/05/15		LX	CB
24/08/15		CB	LX	Corrections
27/08/15	17	LX	CB, VB	Rédaction totale pour discussion
28/08/15	17rv	CB, VB, LX	—	Revue
03/09/15		LX	CB	Compléter ch1-3
09/09/15	18	17rvCB
10/09/15	18-rvCB
13/09/15	19-rvCB
14/09/15	20-LX	CB VB		Fusion
18/09/15	20-rvCB	CB		Suite relecture
21/09/15	21-LX	CB VB		Fusion et avance
25/09/15	21-LX	CB VB		Avance
01/10/15	21-rvCB	LX VB		Avance
08/10/15	22-rvCB	CB	LX VB	Relecture
16/10/15	LX	CB	CB VB	Fusion

Téléchargement en PDF :

Thèse Annexe

UNIVERSITÉ DE GRENOBLE

N^° attribué par la bibliothèque

/__/__/__/__/__/__/__/__/__/

THÈSE

pour obtenir le grade de

DOCTEUR ÈS SCIENCES

délivré par l'UNIVERSITÉ DE GRENOBLE

Spécialité : “INFORMATIQUE”

Thèse préparée au laboratoire GETALP-LIG (CNRS-INPG-UJF) dans le cadre de

l’École Doctorale “Mathématiques, Sciences et Technologies de l’Information, l’informatique”

présentée et soutenue publiquement

par

Lingxiao WANG

Le 14 décembre 2015

Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois.

JURY

Mme. Catherine BERRUT Président

M. Xiaodong SHI (Xiamen) Rapporteur

M. Eric Wehrli (Unige) Rapporteur

M. François BROWN DE COLSTOUN (L&M) Invité

M. Jean-Pierre CHEVALLET Invité

M. Hong-Thai NGUYEN Invité

M. Christian BOITET Directeur de thèse

Mme Valérie BELLYNCK Codirecteur de thèse

Résumé (au verso) en français

Cette thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra_w et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents (comme des pages Web) et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire (un roman de Jules Verne).

Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.

La troisième partie de la thèse est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-IP 2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés (de-fr, en-fr, fr-de), et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA.

Abstract

This thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).

A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.

The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.

Remerciements

En fr

En zh

Résumé en chinois

Table des matières

Résumé 2

Abstract 2

Remerciements 3

Résumé en chinois.......................................................................................................................... 3

Table des matières.......................................................................................................................... 4

Table des figures........................................................................................................................... 7

Table des tableaux......................................................................................................................... 9

Glossaire et abréviations............................................................................................................... 11

Introduction 13

Partie A Production, extension et amélioration de corpus multilingues par TA et PE contributive.... 16

Résumé 16

Chapitre I Amélioration d’aspects fonctionnels et techniques de SECTra et du logiciel iMAG pour les passerelles d'accès multilingue 16

I.1 Situation et état de l'art au début de la thèse............................................................... 16

I.1.1 Modélisation et exploitation de corpus de traductions : SECTra_w...................................... 16

I.1.2 Accès multilingue à des sites Web : le logiciel iMAG.......................................................... 26

I.1.3 Travaux comparables et idées directrices pour le futur....................................................... 33

I.2 Améliorations de SECTra_w dans le cadre du projet Traouiero..................................... 37

I.2.1 Extension de fonctions existantes.................................................................................... 37

I.2.2 Aspects de génie logiciel................................................................................................ 39

I.2.3 Travail de spécification................................................................................................. 41

I.3 Améliorations des iMAG dans le cadre du projet Traouiero............................................ 42

I.3.1 Paramétrisation........................................................................................................... 42

I.3.2 Travail de spécification................................................................................................. 43

Chapitre II Travail sur des aspects plus conceptuels et définition de nouvelles fonctionnalités......... 45

II.1 Modélisation de corpus de traductions variés............................................................... 45

II.1.1 Variété des corpus de traductions et esquisse d'une méthode de formalisation....................... 45

II.1.2 Esquisse d'une méthode de modélisation des corpus de traductions...................................... 51

II.1.3 Validation au niveau des métadonnées............................................................................ 53

II.2 Conception de nouvelles fonctionnalités et développements en cours........................... 62

II.2.1 Nouvelles fonctionnalités............................................................................................. 62

II.2.2 Programmabilité........................................................................................................ 64

II.2.3 Modularité................................................................................................................ 65

Chapitre III Variété des iMAG et de leurs usages : de l’accès multilingue à la création de bons corpus bilingues et à la traduction littéraire contributive de qualité 67

III.1 Liste (avec les MT associées)......................................................................................... 67

III.2 Commentaires sur les utilisations actuelles................................................................ 69

III.2.1 Accès à des sites Web d'organismes ou de sociétés........................................................... 69

III.2.2 Aide à la traduction de documents : rapports, de parties de thèse, manuels…...................... 69

III.2.3 Accès multilingue à des documents pédagogiques : MACAU.............................................. 70

III.2.4 Évaluation................................................................................................................ 71

III.3 Utilisations plus novatrices : production de bons corpus parallèles, et post-édition de textes littéraires pour l'auto-apprentissage ou pour la traduction contributive............................................................................................. 72

III.3.1 Production de « corpus parallèles » de qualité............................................................... 72

III.3.2 « Voyage au centre de la terre » de Jules Verne............................................................... 74

III.3.3 « The Book of Me » de Powers..................................................................................... 75

III.3.4 « IITB : Monastery, Sanctuary, Laboratory » de Rohit Manchanda.................................... 76

Partie B Construction de systèmes de TA spécialisés à des sous-langages en français ↔ chinois........ 79

Chapitre IV Revue des systèmes TA français ↔ chinois en contexte industriel................................ 80

IV.1 Demande de grosses sociétés......................................................................................... 80

IV.2 État de l'art de la TA du chinois.................................................................................. 81

IV.2.1 Historique................................................................................................................ 81

IV.2.2 Expérimentations....................................................................................................... 83

IV.3 Construction de systèmes de TA pour le chinois basés sur Moses en contexte industriel 87

IV.3.1 Choix du sous-langage et des couples à traiter................................................................ 87

IV.3.2 Recherche infructueuse de corpus parallèles adaptés........................................................ 88

IV.3.3 Production de corpus par PE de résultats de Google........................................................ 90

IV.3.4 Construction de systèmes français→chinois.................................................................... 91

IV.3.5 Évaluations et perspectives.......................................................................................... 93

Chapitre V Construction de systèmes de TA pour le chinois avec Moses en contexte de recherche : le projet TABE-FC 96

V.1 Buts du projet TABE-FC................................................................................................. 96

V.1.1 Buts théoriques........................................................................................................... 96

V.1.2 Buts pratiques............................................................................................................ 97

V.1.3 Définition du projet..................................................................................................... 97

V.2 Constitution des corpus d'apprentissage........................................................................ 98

V.2.1 Recherche de sites et collecte de pages Web monolingues et bilingues................................... 98

V.2.2 Nettoyage et filtrage.................................................................................................... 98

V.2.3 TA par GT, puis PE (production d'un corpus parallèle)................................................... 100

V.3 Construction de systèmes de TA................................................................................... 102

V.3.1 Construction de systèmes Moses "ligne de base"............................................................. 102

V.3.2 Avancement de l'expérimentation.................................................................................. 103

V.3.3 Résultats provisoires.................................................................................................. 103

Chapitre VI Démonstration de l'intérêt de l'apprentissage incrémental en TA statistique................ 105

VI.1 Contexte.................................................................................................................... 105

VI.1.1 Motivations............................................................................................................. 105

VI.1.2 Expérience sur le site du LIG...................................................................................... 106

VI.2 Expérimentation......................................................................................................... 107

VI.2.1 Phase 1 (2-6/2013)................................................................................................... 107

VI.2.2 Phase 2 (7-9/2013)................................................................................................... 110

VI.2.3 Phase 3 (9-12/14 et 7-11/15)...................................................................................... 113

VI.3 Analyse des résultats................................................................................................. 116

Partie C Contribution d’outils et de ressources........................................................................... 117

Chapitre VII Construction de systèmes de TA et support à la RI multilingue pour MUMIA............ 118

VII.1 Contexte et motivations........................................................................................... 118

VII.1.1 Description du projet MUMIA et du WG2................................................................... 118

VII.1.2 PerFedPat et Khresmoi............................................................................................ 119

VII.1.3 Objectif poursuivi................................................................................................... 120

VII.2 Construction de MT et de STA à partir des corpus CLEF-IP 2011................................. 120

VII.2.1 Description du corpus CLEF-IP................................................................................ 120

VII.2.2 Extraction de MT à partir de CLEF-IP 2011............................................................... 122

VII.2.3 Construction des systèmes de TA............................................................................... 125

VII.3 Expérimentation et élargissement à d'autres langues................................................ 125

VII.3.1 Reconstruction de trois sites Web de brevets monolingues.............................................. 125

VII.3.2 Accès multilingue en utilisant les systèmes de TA créés.................................................. 127

VII.3.3 Accès multilingue utilisant d'autres systèmes et pour d'autres langues.............................. 127

Chapitre VIII Mise à disposition de ressources.............................................................................. 130

VIII.1 Contribution de ressources statiques sous forme de MT............................................. 130

VIII.1.1 Formats choisis..................................................................................................... 130

VIII.1.2 Méthode de création............................................................................................... 132

VIII.1.3 Résultats.............................................................................................................. 132

VIII.2 Contribution sous forme de système de TA................................................................. 135

VIII.2.1 Systèmes de TA téléchargeables................................................................................ 135

VIII.2.2 Systèmes de TA utilisables comme des service Web....................................................... 135

VIII.3 Passerelles iMAG vers des sites Web statiques ou dynamiques.................................... 135

VIII.3.1 Passerelles iMAG pour des sites statiques.................................................................. 135

VIII.3.2 Passerelles iMAG pour des sites dynamiques.............................................................. 136

VIII.3.3 Structure d'une contribution « dynamique » par iMAG................................................. 137

VIII.3.4 Remarques sur la création de certains des sites « contribués »....................................... 138

Chapitre IX Vers une plate-forme de construction, déploiement et évaluation de systèmes de TA: JianDan-eval 140

IX.1 Buts du système JianDan-eval......................................................................................... 140

IX.2 Architecture logicielle.............................................................................................. 141

Conclusions et perspectives.......................................................................................................... 143

Bibliographie 145

Table des définitions.................................................................................................................. 150

Annexes 154

Annexe 1 : Corpus de la campagne d’évaluation de TA du projet TRANSAT........................... 154

Annexe 2 : Protocole d’évaluation pour le projet TRANSAT................................................ 156

Annexe 3 : Un exemple du corpus B@bel................................................................................. 157

Annexe 4 : Corpus EOLSS....................................................................................................... 158

Annexe 5 : Un exemple de la graphe UNL avec correction...................................................... 159

Annexe 6 : Document de brevet du corpus CLEF-IP 2011 (EP-0000007-B2.xml)........................... 161

Annexe 7 : Structure des données de minidictionaires........................................................... 164

Annexe 8 : 50 segments en « Vue SECTra/Post-édition »........................................................... 165

Annexe 9 : Exemple du corpus parallèle français-chinois créé pour L&M dans le domaine de l'énergie 172

Annexe 10 : Script de filtrage de corpus................................................................................. 199

Annexe 11 : Source de programme pour calculer ............................................................ 202

Annexe 12 : 100 bisegments anglais-français extraits de CLEF-IP 2011.................................... 205

Annexe 13 : 20 bisegments anglais-français en format TMX................................................... 213

Table des figures

Figure 1 : Architecture générale d’une iMAG pour un site élu...................................................... 29

Figure 2 : Capture d'écran de l’iMAG LIG-LAB en chinois.......................................................... 30

Figure 3 : Architecture par agents SECTra_w, iMAG, PIVAX (Nguyen, 2010)........................... 31

Figure 4 : Interface de « Translate Corpus »............................................................................... 38

Figure 5 : Interface de Tradoh..................................................................................................... 39

Figure 6 : Options de la fonction "export"................................................................................. 40

Figure 7 : Interface de sélection paramétrable dans SECTra_w.................................................... 40

Figure 8 : Structure logique d'une base de données de corpus multilingues..................................... 42

Figure 9 : Fichier HTML et fichier compagnon .unl................................................................... 49

Figure 10 : Document 2 traduit de l’anglais vers le français (GROUND AND SOIL WATER CHARACTERISTICS) 49

Figure 11 : Exemple de structure et de description d'un dialogue du corpus ERIM........................ 50

Figure 12 : Exemple du fichier french.wpl et vietnamese.wpl...................................................... 50

Figure 13 : Capture d'écran de panneau de dictionnaires ajouté à SECTra_w................................ 63

Figure 14 : Interface de SECTra_w intégrant les boutons « Delete », « Clean » et « Get ».......... 63

Figure 15 : Traduction des segments sélectionnés et ajout à la MT............................................. 64

Figure 16 : Exemple de l'API « Call Tradoh »............................................................................ 64

Figure 17 : Post-édition d’un document français accédé en anglais (résumé de la thèse de Lingxiao WANG) 70

Figure 18 : Extraction of a "good" TM from a TM produced by "natural" post-edition.............. 72

Figure 19 : Export of a « good » part of a TM........................................................................... 73

Figure 20 : Capture d'écran de iMAG français→chinois pour « Voyage au centre de la terre »..... 74

Figure 21 : Exemple de post-édition d’un chapitre de « Monastery, Sanctuary, Laboratory: 50 Years of IIT-Bombay » de Rohit Manchanda 77

Figure 22 : Architecture à 3 niveaux et 7 « missions » du projet TABE-FC (Chen, Wang et al., 2014) 97

Figure 23 : Exemple de page Web économique parallèle............................................................. 98

Figure 24 : Exemple d’une page Web du site de "Bourse de Hong Kong" en format html............ 99

Figure 25 : Exemple de segments chinois-anglais extraits à partir de pages Web....................... 100

Figure 26 : Capture d'écran de l'iMAG "Bourse de Paris" en chinois.......................................... 101

Figure 27 : Comparaison de la traduction de GT et de la post-édition humaine.......................... 102

Figure 28 : Site du LIG vu en chinois à travers une iMAG......................................................... 107

Figure 29 : Diminution de temps moyen de PE (par page standard) avec AI dans la phase 1 de l'expérience 109

Figure 30 : Capture d'écran de l'iMAG « Corpus par jour »........................................................ 111

Figure 31 : Capture d'écran de Chamilo affichant le lien AXiMAG............................................ 112

Figure 32 : Diminution du temps moyen de PE (par page) avec AI dans la phase 3 de l'expérience 115

Figure 33 : Architecture de PerFedPat...................................................................................... 119

Figure 34 : KHRESMOI............................................................................................................ 120

Figure 35 : Exemple de fichier XML Dans CLEF-IP................................................................. 122

Figure 36 : Exemple de champ <claims> contenant 6 sous-champs <claim> dans EP-0260000-B1.xml 122

Figure 37 : Exemple d'un champ <invention-title> avec 3 attributs de langue différents et les contenus correspondants en 3 langues différentes 123

Figure 38 : Un champ <patent-document> avec attribut lang = "EN"....................................... 123

Figure 39 : Exemple de fichier XML monolingue..................................................................... 126

Figure 40 : Exemple de revendication dans le fichier EP0203923B1.xml................................. 126

Figure 41 : Exemple de fichier HTML décoré........................................................................... 127

Figure 44 : PE en mode avancé, avec pseudo-trace montrant les différences entre les sorties de TA, la post-édition (utilisée comme référence), et la MT................................................................................................................................ 128

Figure 45 : Retraduction des segments du français vers le chinois pour DOC6 avec le système de TA français→chinois MosesLIG 129

Figure 46 : Exemple des données en format TXT (MT CLEF-IP anglais-français)................... 131

Figure 47 : Exemple des données en format TMX (MT CLEF-IP anglais-français)................... 131

Figure 48 : Extraction d'une "bonne" MT de la MT produite par post-édition "naturelle"......... 132

Figure 49 : Segments post-édités pour la ressource énergie........................................................ 134

Figure 50 : Exemple de contribution au format HTML (Chapitre 1 : Voyage au centre de la Terre) 137

Figure 51 : Capture d'écran du site Web monolingue de CLEF-IP.............................................. 138

Figure 52 : Capture d'écran de l'iMAG dédiée CLEF-IP............................................................. 139

Figure 53 : Architecture initiale de gestion de travaux.............................................................. 142

Table des tableaux

Tableau 1 : Sites Web élus des iMAG dédiées disponibles en 2010............................................... 17

Tableau 2 : Données statistiques sur les segments post-édités dans SECTra_w depuis 2010.......... 18

Tableau 3 : Liste des iMAG à MT dédiée construites depuis 2010................................................. 28

Tableau 4 : Exemples de sites Web de partage de corpus parallèles.............................................. 33

Tableau 5 : Comparaison de l’organisations logiques, physiques, et interne de quelque corpus...... 51

Tableau 6 : Métadonnées du corpus BTEC (les segments extraits).............................................. 53

Tableau 7 : Métadonnées des données d’évaluation à la TRANSAT............................................ 54

Tableau 8 : Métadonnées du corpus UNESCO-B@bel.................................................................. 55

Tableau 9 : Métadonnées du corpus EOLSS au niveau de la macrostructure................................. 56

Tableau 10 : Métadonnées d’un fichier HTML au niveau de la microstructure............................ 57

Tableau 11 : Métadonnées d’un fichier UNL au niveau de la microstructure................................ 57

Tableau 12 : Métadonnées d’un corpus EOLSS au niveau de la mésostructure.............................. 58

Tableau 13 : Métadonnées d’un corpus ERIM au niveau de la macrostructure............................. 58

Tableau 14 : Métadonnées de la séance dans le corpus ERIM a au niveau de la microstructure.... 59

Tableau 15 : Métadonnées d’un corpus ERIM au niveau de la mésostructure............................... 59

Tableau 16 : Métadonnées du corpus CLEF-IP 2011.................................................................. 60

Tableau 17 : Métadonnées d’un document de brevet................................................................... 61

Tableau 18 : 10 paramètres de l'API de CREATDICO................................................................ 62

Tableau 19 : Exemple de fichier de configuration de CREATDICO............................................ 62

Tableau 20 : Exemple d’un lien pour l'utilisation de l'API de CREATDICO................................ 62

Tableau 21 : iMAG pour les sites Web de laboratoires et d'universités......................................... 67

Tableau 22 : iMAG pour les sites Web d’organismes et de sociétés.............................................. 68

Tableau 23 : iMAG pour des projets et des expérimentations...................................................... 68

Tableau 24 : Nombre de langue du projet MACAU (06/2013)..................................................... 71

Tableau 25 : Statistiques de documents dans MACAU (06/2013)................................................ 71

Tableau 26 : Statistique sur 21 chapitres de « Voyage au centre de la terre »............................... 74

Tableau 27 : Corpus source, cible traduite et cible corrigée.......................................................... 75

Tableau 28 : Statistique sur les données....................................................................................... 83

Tableau 29 : Formule d’évaluation de l’automaticité et de la qualité d’un système de TA........... 84

Tableau 30 : Exemple de traduction de GT................................................................................. 84

Tableau 31 : Paramètres de configuration de Joshua................................................................... 85

Tableau 32 : Comparaison d'exemples de traductions obtenues par TA et d'une référence........... 86

Tableau 33 : Exemple de résultat d'évaluation............................................................................ 87

Tableau 34 : Corpus collectés en cherchant des corpus pour français→chinois............................ 89

Tableau 35 : Exemples de bisegments français→chinois parmi les 9000 collectés ou produits..... 90

Tableau 36 : Comparaison des temps d’entraînement de Moses.................................................. 91

Tableau 37 : Configuration de la machine................................................................................... 91

Tableau 38 : Scores BLEU pour différentes tailles du corpus d'entraînement............................... 92

Tableau 39 : Statistiques sur le corpus MultiUN.......................................................................... 92

Tableau 40 : Exemple de données de test.................................................................................... 93

Tableau 41 : Statistiques des données de test............................................................................... 94

Tableau 42 : Score BLEU et exemples de sorties de systèmes de TA........................................... 94

Tableau 43 : Statistiques des pages Web collectées...................................................................... 99

Tableau 44 : Exemple de conversion des caractères chinois du traditionnel vers le simplifié....... 99

Tableau 45 : Statistiques sur la ressource économique et boursière............................................. 102

Tableau 46 : Statistiques sur les données d'entraînement de la phase 1....................................... 107

Tableau 47 : Évaluation du temps de post-édition (2-6/2013)................................................... 109

Tableau 48 : Évaluations basées sur des références (BLEU, NIST, TER)................................... 110

Tableau 49 : Statistiques de post-édition sur 21 articles français 4/7-13/9/2013........................ 111

Tableau 50 : Statistiques de post-édition sur les supports de cours............................................. 112

Tableau 51 : Résultat de l’expérimentation (en français-chinois).............................................. 113

Tableau 52 : Nombre de segments dans chaque MT.................................................................. 113

Tableau 53 : Statistiques sur les données pour l'AI (phase 3 de l’expérience)............................. 114

Tableau 54 : Évaluation du temps de post-édition (9-12/2014)................................................. 115

Tableau 55 : Données de test et scores BLEU........................................................................... 116

Tableau 56 : Nombre de segments extraits comme source et cible après l'alignement de segments dans les champs <title> et <claims> 124

Tableau 57 : Scores BLEU des systèmes de TA tirés de CLEF-IP.............................................. 125

Tableau 58 : Segments post-édités dans SECTra_w à partir de 3 langues source......................... 133

Tableau 59 : Segments parallèles obtenus à partir des MT (mêmes remarques)......................... 133

Tableau 61 : Statistique des données pour la ressource énergie................................................... 134

Tableau 62 : Systèmes de TA téléchargeables........................................................................... 135

Tableau 63 : Systèmes de TA utilisables comme des services Web............................................. 135

Tableau 64 : Passerelles iMAG pour des sites statiques.............................................................. 136

Tableau 65 : iMAG pour des sites dynamiques........................................................................... 136

Glossaire et abréviations

AI	Apprentissage incrémentale
API	Application Programming Interface
Ariane-G5	Environnement de développement et d’exécution de systèmes (linguiciels) de traduction automatique
CLEF-IP	Conference and Labs of the Evaluation Forum, formerly known as Cross-Language Evaluation Forum - Intellectual Property
CLIPS	Communication Langagière et Interaction Personne Système
CNRS	Centre national de la recherche scientifique
DC	Dublin core
DSR	Digital Silk Road
EDF	Électricité de France
EOLSS	Encyclopedia of Life Support Systems
FC	Français-Chinois
GETA	Groupe d'Etude pour la Traduction Automatique
GETALP	Groupe d'Étude pour la Traduction/le Traitement Automatique des Langues et de la Parole
GI	Génie informatique
GT	Google Translate
HQ	Haute Qualité
iMAG	Passerelle interactive d'accès multilingue (interactive Multilingual Access Gateway)
ISCC	Institut des sciences de la communication
L&M	SAS Lingua et Machina
LIG	Laboratoire d'Informatique de Grenoble
LSPL	Langage Spécialisé pour la Programmation Linguistique
MACAU	Multilingual Access & Contributive Appropriation for Universities
MT	Mémoire de Traductions
MUMIA	Multilingual and multifaceted interactive information access
OMNIA	Outils et Méthodes Numériques pour l'Interrogation et l'Analyse des textes médiolatins
ONU	Organisation des Nations Unies
PAHO	Pan American Health Organization
PCT	Patent Cooperation Treaty
PE	Post-Édition
PIVAX	Base lexicale à pivot par acceptions (monolingues et interlingues)
QCM	Question à choix multiples
RI	Recherche d’Information
SaaS	Software as a Service
SECTra_w	Système d'Exploitation de Corpus de Traductions sur le Web
SECTra/Eval	Première version de SECTra, développée pour le projet TRANSAT d'Orange Labs
SECTra/Trad	Deuxième version de SECTra, développée pour le projet EOLSS/UNL++
SECTra/Web	Troisème version de SECTra, développée pour le projet iMAG
SegDoc	Segmentation de documents XML
TA	Traduction Automatique
TH	Traduction Humaine
TMX	Translation Memory eXchange
TRADOH	Un outil permet d'obtenir une traduction dans sa langue, par mise en œuvre automatique d'un ou plusieurs systèmes de TA disponibles en local ou à distance, avec composition éventuelle.
TRANSAT	Projet de TA de parole d’Orange 2004~2007
TXT	Texte brut
Unesco/B@bel	Partie du site Web de l'Unesco consacrée à la communication multilingue
UNL	Universal Networking Language (projet lancé par l'UNU (fin 1995) et langage "anglosémantique" d'hypergraphes associables aux énoncés en langue naturelle
XLIFF	XML Localisation Interchange File Format
XRCE	Xerox Research Center Europe

Introduction

Situation

Cette thèse a été effectuée dans l'équipe GETALP du LIG, et dans le cadre d'une bourse CIFRE avec Lingua et Machina, une jeune société qui vise à "prendre en charge la communication multilingue de l'entreprise". Le sujet initialement défini était centré sur l'amélioration de plusieurs aspects de génie logiciel du logiciel SECTra_w/iMAG, réalisé par Cong Phap HUYNH dans le cadre de sa thèse (Huynh, 2010). Le point principal concernait la transformation de la partie SECTra_w (Service web d'Exploitation de Corpus de Traductions) en un système programmable et extensible. On visait à pouvoir l'utiliser comme un "serveur corporal" gérant des suites de test ainsi que des corpus de développement pour le compte de systèmes de TA (traduction automatique) munis d'un environnement de développement complet, comme Ariane-G5 et son successeur, en cours d'implémentation, Ariane-Y. Un autre objectif était de pouvoir non seulement exploiter des corpus parallèles existants, pour les évaluer et/ou les améliorer par post-édition collaborative en ligne, mais aussi de pouvoir les étendre à de nouvelles langues par appel à des serveurs de TA, suivi de post-édition. Un dernier thème était la recherche d'une méthode de spécification formelle implémentable des "vrais" corpus multilingues, c'est-à-dire pas seulement des listes de "segments" multilingues, comme le BTEC (Boitet et al., 2007), qui ne sont en fait que de grandes "mémoires de traduction", même si on les appelle "corpus parallèles". On souhaitait s'attaquer à la complexité des "vrais corpus", et passer à l'échelle, de façon, par exemple, à pouvoir traiter des corpus fortement structurés et de très grande taille comme ceux des brevets. Dans un corpus complexe, un document est formé d'un document maître (en XML par exemple) ou d'une hiérarchie de tels documents, accompagné d'une collection de fichiers "satellites" (images, vidéos…) et éventuellement d'annotations contenues dans des fichiers "compagnons".

On visait aussi à résoudre un certain nombre de problèmes liés à l'interaction entre SECTra_w et le logiciel iMAG (interactive Multilingual Access Gateways) qui utilise SECTra_w comme un "dorsal" et permet d'accéder à des sites Web "élus" dans un grand nombre de langues, avec possibilité d'améliorer les "prétraductions" produites par des serveurs de TA en les corrigeant ("post-éditant") directement sur la page Web, ou dans l'interface de SECTra_w dédiée à la post-édition.

Ces objectifs ont évolué à cause des besoins de l'entreprise, qui désirait d'abord construire des systèmes de TA "maison" français↔chinois en utilisant l'environnement Moses. Pour cela, il faut disposer de grands corpus parallèles de bonne qualité, dans le bon sens, et représentatifs des sous-langages des clients potentiels, en l'occurrence EDF, Renault, etc. Cela a d'abord mené à l'étude, l'expérimentation et l'évaluation d'aligneurs divers, de segmenteurs du chinois, et de divers systèmes de TA existants. Dans un deuxième temps, le travail s'est plus orienté vers la TA proprement dite. Il s'est d'abord agi de construire un environnement de préparation et d'exploitation de systèmes Moses, intégré aux outils de L&M (Libellex, Myriam) ou utilisés par L&M (Metricc, Xelda…). L'obstacle majeur à surmonter était l'absence de corpus parallèles français-chinois. Nous avons alors construit un corpus de 9000 segments, d'abord par post-édition de résultats de Google Translate (GT), puis par post-édition de résultats d'une première version d'un système Moses-L&M-FC. À peu près à la même période, L&M nous a demandé d'étudier la nouvelle possibilité offerte par Moses de faire de l'apprentissage incrémental (AI). Nous l'avons fait, ainsi que quelques essais préliminaires, puis L&M m'a dirigé sur autre chose, jugeant l'approche peu prometteuse. Il est vrai que les améliorations constatées étaient faibles. Pourtant, les gains de temps étaient considérables (environ 1h pour l'AI sur quelques dizaines ou centaines de nouveaux segments au lieu de 20h pour un réapprentissage complet). Notre intuition était que, dans le cas de sous-langages, on devait arriver, en faisant quelques dizaines d'itérations d'AI, à produire des prétraductions meilleures que celles de GT, Bing, Systran ou NiuTrans, au moins en ce qui concerne la qualité d'usage pour la tâche de post-édition, et peut-être aussi pour la tâche de compréhension. Encouragé par mes directeurs de thèse, j'ai alors orienté ma recherche dans cette direction, pendant plusieurs mois. Au terme d'une expérience sur le sous-langage du site Web du LIG, nous avons pu publier (à COLING 2012) des résultats encourageants : notre courbe de "temps de post-édition" descendait assez régulièrement, et, au bout d'une vingtaine d'itérations avec un réapprentissage total au milieu, n'était plus qu'un petit peu au-dessus de la "ligne de base" correspondant à la PE des résultats de GT (environ 10 mn/page). Depuis, j'ai préparé et mené une troisième expérience, en améliorant l'automatisation du processus et des mesures associées, et j'ai pu démontrer que, au moins dans le cas d'un sous-langage comme celui du site du LIG, et du français-chinois, la combinaison de l'apprentissage incrémental par périodes, et spécialisé à un sous-langage, pouvait donner des résultats nettement meilleurs que ceux des systèmes de TA généralistes.

Ma recherche s'est ensuite trouvée orientée vers le passage à l'échelle, la TA de brevets, et la construction de grandes ressources de bonne qualité, dans le cadre du projet COST "MUMIA" de l'UE. . Mon directeur de thèse était en effet VP de MUMIA et en charge du WG2. Dans le WG2 auquel j'ai participé, il s'agissait d'étudier et de prototyper des "infrastructures" matérielles et logicielles pour la recherche d'information dans un cadre multilingue, multimodal et multi-facette. J'ai été amené à traiter la collection CLEF-2012 (la même que CLEF-2011), constituée à partir de 1,5 millions de brevets partiellement traduits par des professionnels. Une bonne proportion des "segments", initialement rédigés en français, allemand ou anglais, a été traduite dans une deux des autres langues. Il ne s'agit pas de collections parallèles : il y a un fichier par brevet, en XML, où chaque segment contient sa version originale et éventuellement une ou des versions dans d'autres langues. À partir de cette collection, j'ai détecté la langue source de chaque segment, et construit 3 mémoires de (très bonnes) traductions, une pour chaque langue source. Je les ai aussi utilisées comme base pour l'apprentissage de 3 systèmes Moses (de-fr, fr-de, fr-en). Enfin, avec l'aide d'un étudiant de M1 en TER (Huanan SUN), j'ai construit 3 collections de brevets monolingues, chacun étant seulement dans sa langue source. Grâce à 3 iMAG, il est possible d'y accéder dans diverses langues. Les traductions sont évidemment très bonnes pour les langues initiales (en tout cas, sur les parties du corpus réservées pour les tests), mais il est aussi possible d'y accéder dans d'autres langues, par exemple en chinois, d'améliorer les résultats de TA par PE, et de recycler les "bonnes traductions" pour construire un système spécialisé s'améliorant au fur et à mesure de l'usage.

Durant la dernière partie de ma thèse, je suis revenu au thème de la TA français-chinois, en participant à deux projets, MACAU-OFI et TABE-FC. MACAU-OFI est un projet défini par R. Kalitvianski et Ch. Boitet en 2012, visant à mettre à disposition des étudiants étrangers des notes de cours dans leur langue, en utilisant une passerelle iMAG dédiée, et en demandant aux étudiants eux-mêmes de "post-éditer". Durant l'été 2013, j'ai ainsi participé à l'encadrement de deux stages d'été d'étudiants chinois (en master informatique à l'UJF), qui ont post-édité environ 520 pages standard (130K mots) dans le domaine des outils formels pour l'informatique. En 2013-2014, j'ai aussi participé de façon très active à la définition et au début de la réalisation du projet TABE-FC monté avec l'université de Xiamen, dans le cadre d'une année sabbatique passée à Grenoble par le Dr Yidong CHEN. Il s'agit de construire des systèmes de TA permettant à des Chinois d'avoir un accès en chinois de bonne qualité (et surtout bien plus fiable et fidèle que les systèmes généralistes) aux "brèves" des bourses francophones, « flash reports » en anglais, un tel système, ALTFLASH, a été déployé pour le Nikkei à partir de 2001, et plus généralement aux sites Web économiques en français, et inversement pour des Français désireux d'intervenir sur les bourses de Shanghai, Shenzhen et Hong Kong. Cela m'a fait revenir aux thèmes plus liés au génie logiciel.

Intérêt

Au total, mon apport se situe dans quatre domaines principaux : (1) le génie logiciel des systèmes d'exploitation et maintenant de création et de gestion de "vrais" corpus multilingues, (2) la TA, avec des contributions portant sur l'apprentissage incrémental, la TA français-chinois, ainsi que les environnements de construction et de déploiement de systèmes de TA de type Moses ou similaire, (3) la mise à disposition de ressources (mémoires de traductions, systèmes de TA associés), et (4) la spécification et l'implémentation en cours d'une infrastructure pour l'évaluation, la plate-forme JianDan-eval, qui permettra les évaluations classiques, ainsi que l'évaluation comparative et "en usage" de systèmes de TA de toutes les architectures existantes.

Annonce du plan

La première partie de ce mémoire concerne la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont aussi été apportées aux logiciels SECTra_w et iMAG produits lors des thèses de C.P. HUYNH et H.T. NGUYEN. Nous avons progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents (comme des pages Web) et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire (un roman de Jules Verne), projet personnel mené pour progresser en français.

La seconde partie est centrée sur nos travaux en TA proprement dite. Initialement motivée par un besoin industriel, cette partie de notre recherche a consisté à étudier comment construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de post-édition (PE) contributive en ligne. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC[1]) en coopération avec l'université de Xiamen, nous avons pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.

Dans la troisième partie de ce mémoire, nous présentons nos contributions en termes de mise à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), trois systèmes de TA en ont été tirés (allemand→français, anglais→français, français→allemand), et un site Web de support à la RI multilingue sur les brevets a été construit. Avant de conclure, nous terminons en décrivant aussi la spécification et la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA.

Partie A Production, extension et amélioration de corpus multilingues par TA et PE contributive

Résumé

La partie A présente l’amélioration d’aspects fonctionnels et techniques de SECTra_w et du logiciel iMAG pour les passerelles d'accès multilingue. Cette partie comporte aussi des aspects plus conceptuels, et la définition de nouvelles fonctionnalités. Nous montrons enfin la variété des iMAG et de leurs usages, de l’accès multilingue à la création de bons corpus bilingues et à la traduction littéraire contributive de qualité.

[1] TA pour les sites boursiers et économiques appliquée au français-chinois. En anglais: MTSE-FC.