Chapitre III          Variété des iMAG et de leurs usages : de l’accès multilingue à la création de bons corpus bilingues et à la traduction littéraire contributive de qualité

Introduction

Nous faisons ici le point sur l’ensemble des passerelles iMAG créées depuis 2009, et décrions leurs différents usages. En ce qui nous concerne, nous en avons créé une instance, essentiellement destinées à la création de bons corpus bilingues pour la TA français-chinois, à des expérimentations sur d’apprentissage incrémentale, et à un projet personnel de traduction littérature.

III.1      Liste (avec les MT associées)

Une passerelle iMAG peut être utilisée pour supporter non seulement la post-édition des sites Web et des documents, mais aussi l’expérimentation, la traduction, l’évaluation, et le support d’accès multilingue aux sites Web commerciaux.

Depuis 2009, nous avons créé 213 iMAG sur 20 MT, et notre plate-forme supporte plus de 8 langues source et 30 langues cible. Il y a plusieurs types de sites Web "élus" (accédés en multilingue), qui couvrent de nombreux domaines. Dans cette section, on montre des exemples (par liste) d'iMAG des différents types.  

Laboratoire/Université. Nous avons créé des iMAG pour les sites Web de laboratoires et d’universités, semblable à celui de notre laboratoire (LIG), ISCC, LICIA[1], NICT[2], etc. et pour les sites Web d’universités sont comme l’Université Joseph Fourier (UJF), IITB, etc. (Tableau 21).   

Tableau 21 : iMAG pour les sites Web de laboratoires et d'universités

ID

Nom de site

Lien

Langues source

Langues Cible

TA

MT

LIG-Lab

Laboratoire d'Informatique de Grenoble

http://www.liglab.fr

French

Chinese  ,|English ,|French ,|……

Moses+ Google

liglab

IPPI-IITP

Институт проблем передачи информации (Institute for Information Transmission Problems)

http://iitp.ru

Russian

Chinese  ,|English ,|French ,|……

Google

demo

ISCC

Institut des sciences de la communication CNRS / Paris-Sorbonne / UPMC

 http://www.iscc.cnrs.fr

French

Arabic ,|Bulgarian ,|Chinese ,|Croatian ,|Czech ,|Danish ,|Dutch  ,|English ,|……

Systran

demo

UJF

Université Joseph Fourier

http://www.ujf-grenoble.fr

French

Arabic ,|Belarusian ,|Bulgarian ,|Catalan ,|Chinese ,|Czech,|…

Google

demo2

IITB

Indian Institute of Technology BomBay

http://www.iitb.ac.in

English

…,|Hungarian ,|Icelandic,|Japanese ,|Korean ,| …

Google

demo2

Sociétés. Le site aximag.fr[3] supporte des iMAG dédiées aux sites Web d’organismes et de sociétés (commerciales ou non), comme AcXys, AMIES, IDB, etc. Ce type d’iMAG dédié aux sites contient souvent une MT spécifique pour un site Web.

Tableau 22 : iMAG pour les sites Web d’organismes et de sociétés

ID

Nom de site

Lien

Langues source

Langues Cible

TA

MT

AcXys

AcXys

http://www.acxys.com/

English

Arabic ,|Chinese ,|Dutch ,|French ,|German ,|Greek ,|Hungarian ,|Italian ,|Japanese ,|Korean ,|Malay ,|Polish ,|Portuguese ,|Russian ,|Spanish ,|Thai ,|Turkish ,|Vietnamese

Google

mt_acxys

iMAG-AMIES-privee

AMIES

http://www.agence-maths-entreprises.fr/

French

Chinese ,|English ,|German ,|Japanese ,|Portuguese ,|Russian ,|Spanish

Google

mt_amies

IDB

Islamic Development Bank

http://www.isdb.org

English

Arabic ,|Chinese ,|French ,|German ,|Portuguese ,|Russian ,|Spanish ,|Swahili

Google+Systran

demo

Bio-Clean

Bio-Clean

http://projet-bioclean.3beesonline.com

French

Arabic ,|Chinese ,|German ,|Portuguese,|……

Google

demo2

Projets et expérimentations. Le site aximag .fr peut aussi être utilisé comme une plate-forme pour la partie de post-édition ou d’évaluation de support multilingues d’un projet, ou pour des expériences de recherche. Les iMAG de projet sont EOLSS, Akenou, homerica, etc., et les iMAG d’expérimentation sont Powers, BEMBOOK, etc.

Tableau 23 : iMAG pour des projets et des expérimentations

ID

Nom de site

Lien

Langue source

Langues cible

TA

MT

EOLSS

EOLSS

http://www-clips.imag.fr/geta/User/christian.boitet/iMAGs-tests/EOLSS

English

Chinese ,|French ,|Japanese ,|Russian ,|Spanish

Google

demo2+

eolss

Powers

The book of me

http://www-clips.imag.fr/geod/User/laurent.besacier/TRANSLATION-EXP/The_Book_of_Me.html

English

French ,|Romanian

Moses

mt_powers

BEMBOOK

BEMBOOK

http://www.kenrico.com/media/bembook/21/21.htm

English

Arabic ,|Bengali ,|Bulgarian ,|Chinese ,|French ,|German ,|Hindi ,|Hungarian ,|Italian ,|Japanese ,|Malay ,|Marathi ,|Polish ,|Portuguese ,|Russian ,|Spanish

Google+Systran

demo1

III.2      Commentaires sur les utilisations actuelles

III.2.1      Accès à des sites Web d'organismes ou de sociétés

Plusieurs sites Web de sociétés, de laboratoires, ou d’universités n’offrent pas d’accès multilingue, ou supportent un ou deux langues étrangères. Mais au laboratoire ou à l’université, il y a beaucoup de chercheurs ou étudiants étrangers, et le site Web devrait distribuer l’information à tous. Il y a une vraie demande pour des sites Web multilingues. Le serveur aximag.fr supporte plusieurs sites Web de sociétés, de laboratoires, ou d’universités. Par exemple, en 2011, nous avons créé une iMAG (iMAG-LIG-LAB) pour le site Web de notre laboratoire, en lui attachant une MT dédiée (liglab). Au départ de iMAG-LIG-LAB, nous avions environ 10K segments source en français. Nous avons fait la post-édition du français vers le chinois. Après première passe de post-édition, nous avons obtenu environ 2K segments post-édités en chinois, et les pages Web principales du laboratoire ont été bien présentées en chinois (en juin 2013)[4].

Pour aider les étudiants étrangers à accéder aux sites Web d’universités, nous avons expérimenté la technique iMAG pour traduire les sites Web de l’UJF. Les étudiants étrangers parlant (ou comprenant) le français ont aidé à post-éditer les pages Web du français vers leurs langues maternelles.   

Des iMAG ont été créées non seulement pour des organismes d’enseignement (comme LIG, ISCC, ANRT, etc) et les universités, mais aussi pour les sites Web commerciaux. Pour les sites Web comme AcXys, nous traduisons les segments source de l’anglais vers 18 langues étrangères. Le site Web AcXys contient les segments traduits en français, allemand, russe, et polonais. Nous les ajoutons dans la MT dédiée (mt_acxys) pour la cohérence entre le site officiel et l’iMAG.   

L’iMAG a aussi un cas particulier. Depuis mai 2010, la Métro propose l'intégralité de son site web en version chinoise et anglaise, les deux langues les plus parlées au monde. Nous avons créé une iMAG dédiée, et une mémoire dédiée (lametro) pour le site Web de La Métro, permettant d'obtenir des textes traduits en constante amélioration. Son atout majeur réside dans une mémoire spécifique au site : conservant les segments post-édités, celle-ci les réutilise ensuite en tenant compte du type de vocabulaire et des termes utilisés sur le site. La qualité de traduction est ainsi en constante amélioration.

III.2.2      Aide à la traduction de documents : rapports, de parties de thèse, manuels…

Le but essentiel d’une iMAG est d’offrir un bon support pour l’accès multilingue à un site Web. Mais cette technique peut aussi nous aider à la traduction de documents, si on fournit le document au format html. Nous avons travaillé sur la post-édition des rapports, de parties de thèse, manuels, etc.

Beaucoup d'universités publient leurs matériels éducatifs gratuitement, mais ils ne sont généralement pas disponibles dans plus d’une ou deux langues, ou disponibles moyennant un supplément. L’approche iMAG offre une alternative rapide, pratique et de très faible coût pour obtenir des versions multilingues de matériel éducatif, comme les manuels scolaires qui sont convertis dans un format compatible iMAG. Un bon exemple est l’iMAG de démonstration pour le livre « Bioelectromagnetism » de Jaakko Malmivuo et Robert Plonsey, visitable à http://service.aximag.fr//xwiki/bin/view/imag/BEMBOOK.

Un autre exemple, est l’iMAG xan-fr[5], utilisée pour traduire des documents du français vers l’anglais. Le dernier travail est la post-édition du résumé de ma thèse (voir Figure 17). On a utilisé GT pour prétraduire le texte, puis fait la post-édition sur le texte anglais.

Description : Mavericks:Users:lingxiaowang:Desktop:Capture d’écran 2015-09-09 à 15.25.04.png

Figure 17 : Post-édition d’un document français accédé en anglais
(résumé de la thèse de Lingxiao WANG)

III.2.3      Accès multilingue à des documents pédagogiques : MACAU

R. Kalitvianski et C. Boitet (Kalitvianski et al., 2012) ont lancé le projet MACAU (Multilingual Access & Contributive Appropriation for Universities) pour permettre aux étudiants étrangers de l’UJF d’accéder dans leur langue aux supports pédagogiques, par amélioration contributive des "prétraductions" par TA. Pour l'accès multilingue dans MACAU-OFI, nous avons créé une iMAG « dédiée » à ce projet.

L’idée de base est de ne pas chercher à construire différentes versions, une en chaque langue, mais de garder l’unicité de la version « originale », et de la « reconstruire » dans différentes langues en choisissant une « meilleure traduction » (ou suggestion de traduction) pour chaque segment dans une MT (mémoire de traductions) associée. Pour l’instant, nous supposons que la version originale de chaque document est dans une seule langue, mais, dans le futur, on utilisera un détecteur de langue, et il pourra y avoir des segments écrits en différentes langues dans le document original.

Le projet MACAU-OFI consiste à essayer d’approfondir cette idée en allant dans deux directions : d’abord, permettre aux étudiants de participer en contribuant par des fragments de notes de cours ou d’exercices, et ensuite en enrichissant l’outil par l’intégration de ce que nous appellerons une « ontologie du domaine », permettant en particulier, dans le cas d’OFI, de viser à l’autoformation par utilisation d’outils de simulation d’automates, grammaires, et graphes.

Au cours des deux dernières années universitaires, nous avons encouragé les étudiants de Master 1 d'informatique de l'UJF à produire des documents de cours sur la complexité calculatoire. Chacun a eu un compte sur aximag.fr. Certains ont beaucoup contribué, d’autre moins. Voici les nombres d’étudiants concernés, par langue maternelle.

Tableau 24 : Nombre de langue du projet MACAU (06/2013)

Langue

Nombre

Chinois

7

Arabe

2

Russe

1

Anglais

2

Les fichiers reçus étaient dans les formats doc, odt, pdf, tex, html. Certains étaient des cours complets, d'autres ne contenaient que quelques chapitres.

Tableau 25 : Statistiques de documents dans MACAU (06/2013)

 

tex

doc, docx

odt

pdf

html

Nombre de fichiers

16

5

5

19

7

Cours complets

2

1

0

0

0

Chapitres disponibles (hors cours complets)

1-8

1-8

4, 7

1-7

-

Autres

-

1 corrigé d'un quick, 1 fichier de notes explicatives

-

-

Site avec notes sur Pseudo-Pascal, RAM, 2SAT et exercices

III.2.4      Évaluation

Depuis 2007, les fonctionnalités de SECTra ont évolué pour l’adapter à des usages différents.

Le premier usage de SECTra_w  a été la « campagne d’évaluation » du projet TRANSAT. Il a été utilisé avec succès, fin 2007, dans le cadre du projet TRANSAT de FT R&D. Avec SECTra_w, après avoir importé un corpus source, et éventuellement les traductions de référence, on peut appeler plusieurs systèmes de TA, stocker leurs résultats, et demander à des juges d’effectuer l’évaluation subjective (fluidité, adéquation). SECTra_w fournit plusieurs méthodes d’évaluation objective (NIST, BLEU, etc.), et permet aussi d’effectuer l’évaluation objective liée à la tâche, en permettant à des participants de post-éditer les résultats de systèmes de TA, et en mesurant un distance d’édition (et/ou le temps de post-édition). Les résultats post-édités peuvent être ajoutés à l’ensemble des traductions de référence, ou le constituer s'il n'y a pas de références.

Le deuxième usage est l’évaluation pour améliorer des systèmes (AI). Nous avons utilisé SECTra_w/iMAG pour évaluer les résultats des systèmes de TA, puis nous faisons la post-édition pour créer une MT de bonne qualité. Nous avons utilisé cette méthode pour la construction des ressources français-chinois, comme la MT sur l’énergie et la MT du LIG-LAB. Notre système de TA a été amélioré par AI (Voir 0 et 0).

Enfin, SECTra_w/iMAG a utilisé pour supporter l’expérimentation et la recherche d’une formule de prédiction de choix optimal par Haozhou WANG (Wang, 2015).

III.3      Utilisations plus novatrices : production de bons corpus parallèles, et post-édition de textes littéraires pour l'auto-apprentissage ou pour la traduction contributive

III.3.1      Production de « corpus parallèles » de qualité

Thanks to SECTra_w in-built system of annotation of each translation or post-edition of a segment by a reliability level (from * to *****) and a quality score (0..20), one can extract from the TM associated to a website S a subset verifying any predicate based on levels and scores.

To implement that, we have introduced and implemented into SECTra_w the notion of selection. A selection is defined intentionally (by a predicate) or extensionally (by an explicit list), and can be named, for later recall.

Take for example the TM of the website of Greater Grenoble (La Métro) that contains 2500 web pages, or about 30000 segments. More than half have been pre-translated and post-edited into Chinese for the Shanghai Expo in 2010. We may select a “quite good part” of this TM by creating the selection:

TM-lametro-extract-good = TM_select (lametro, [level=3 & score >=13 | level=4 & score >=12 | level=5 & score >=11]).

The following example shows an even simpler extraction, from the French-Chinese part of the Demo2 TM associated with iMAG-Doc_Par_jour shown on. The predicate is simply [level=3 & score >=13], and its parameters can be directly chosen through the GUI.

Figure 18 : Extraction of a "good" TM from a TM produced by "natural" post-edition

The selection obtained can then be exported, as 2 parallel files (source and post-edition) in a simple XML format (Figure 19). SECTra_w also provides additional information (TM, Last updated, Duration of post-editing, post-editor, etc.), and other available download formats (TMX, TXT, and CSV). These data can be used later to “feed” an empirical Moses-based MT system that will become specialized to that website[6].

Figure 19 : Export of a « good » part of a TM

That possibility is very interesting in the current context. It has been proven that MT systems can be specialized to sublanguages and produce outputs of very high usage value (Chandioux, 1988) (Isabelle, 1987). That means that the outputs are quite readable, and very cheap to post-edit to produce professional quality output.

In recent experiments with a Paris-based multilingual content processing firm, a Moses instance built from a high proportion of a 300K bi-segment TM mixed with a standard parallel corpus extracted from EuroParl (Koehn, 2005) got a BLEU (Papineni et al., 2002) score of about 70%. At this high level, BLEU correlates with usage value: it takes typically 10-15 minutes only to post-edit the equivalent of 1 standard page (250 words, or 400 kanjis), instead of 1 hour to produce a draft translation. But that method works only if a parallel corpus specialized to the sublanguage at hand is available, and that is quite rare in practice.[7]

The situation is similar if the considered MT system is built by an “expert” method (as TAUM-METEO and then METEO).

For example, there is no available parallel Chinese«French corpus for e-mails, chats, and short technical notes. Building a parallel corpus from scratch is not an option because of the cost of the operation and the scarcity of translators knowing both languages and the technical terms.

Using an iMAG offers a graceful way to solve that difficulty. Whatever MT systems are available, one can begin without any delay to start the bilingual service needed (a web-based chat, for example), routing messages and documents through web pages, and using iMAGs to make them accessible (and improvable) in the desired languages. After a while, the TM-S dedicated to the (empirically defined) sublanguage of S will contain enough “good” bi-segments to extract them and use them to build a specialized instance of an MT system (for example, a specialized Moses-S system[8]).

An important point here is that, in order to encourage end users to post-edit, post-editing should be made very simple and user-friendly. One should refrain from transforming it into a debugging environment for some MT systems. That would also go against the principle to be open to as many MT systems as possible.

III.3.2      « Voyage au centre de la terre » de Jules Verne  

 

Nous avons post-édité 21 chapitres du roman « Voyage au centre de la terre » de Jules Verne du français vers le chinois. Dans la Figure 20, nous présentons une capture d’écran de post-édition de ce roman.

Description : Mavericks:Users:lingxiaowang:Desktop:Capture d’écran 2015-08-28 à 14.25.28.png

Figure 20 : Capture d'écran de iMAG françaischinois pour « Voyage au centre de la terre »

Tableau 26 montre la statistique de la post-édition des 21 chapitres.

Tableau 26 : Statistique sur 21 chapitres de « Voyage au centre de la terre »

Chapitre

Segments

Mots

Mots/Seg (moyenne)

Page_std
(250 mots)

Temps SECTra
(secondes)

Temps/page_std

en minutes.

CH1

76

1377

18,12

5,51

1009

3,10

CH2

104

1391

13,38

5,56

1565

4,69

CH3

44

592

13,45

2,37

742

5,22

CH4

106

1362

12,85

5,45

1477

4,52

CH 5-6

279

4160

14,91

16,64

3536

3,54

CH 7-9

399

6213

15,57

24,85

3534

2,37

CH 10-12

319

5154

16,16

20,62

4941

4,01

CH 13-15

254

5407

21,29

21,63

3190

2,46

CH16-18

333

4890

14,68

19,56

3252

2,77

CH19-21

202

2932

14,51

11,73

1942

2,76

Au total

2116

33478

15,49

133,91

27188

39,71

 

III.3.3      « The Book of Me » de Powers

L’expérimentation de post-édition de « The Books of Me » de Richard Powers sur iMAG est pilotée par Laurent Besacier en 2014. Dans cette section, Nous montons la statistique, le résultat et l’évaluation. Citons ici (Besacier, 2014).

Corpus et statistiques de post-édition

L’œuvre, composée de 545 segments et 10731 mots est divisée en trois blocs identiques. Le Tableau 27 résume le nombre de mots des données source et cible (TA ou PE[9]). Sans surprises, un ratio supérieur à 1,2 est observé entre cible française (TA) et source anglaise. On constate cependant que ce ratio tend à diminuer après post-édition de la sortie française.

Tableau 27 : Corpus source, cible traduite et cible corrigée

Itération
(nb. seg)

Anglais
(nb. mots)

TA Français
(nb. mots)

PE Français
(nb. mots)

It.1 (184)

3593

4295

4013

It.2 (185)

3729

4593

4202

It.3 (176)

3409

4429

3912

Total (545)

10731

13317

12127

Le point de vue des lecteurs sur la traduction post-éditée

Neuf lecteurs ont accepté de lire l’œuvre traduite et ont répondu à un questionnaire, toujours ouvert sur fluidsurveys.com[10]. La version pdf de l’essai traduit ainsi que le fichier tableur rassemblant les résultats du sondage sont également rendus disponibles dans github. Après trois questions permettant de mieux cerner le profil du lecteur, une première partie (5 questions) interroge les lecteurs sur la lisibilité et la qualité du texte littéraire traduit. Une seconde partie (7 questions) vérifie que certaines subtilités du texte ont été bien comprises.

Le point de vue du traducteur de R. Powers

Pour finir cette étude pilote, un dixième lecteur a été sollicité : le traducteur français de l’auteur, J-Y Pellegrin, enseignant chercheur à Paris-Sorbonne. Son avis est résumé ici sous la forme de questions-réponses. Le manque de place ne nous permet pas de commenter ces remarques mais nous pensons qu’elles sont assez explicites pour être délivrées en l’état.

Lisibilité ?

"Le texte auquel vous êtes parvenu restitue une image fidèle du contenu de l’article de Powers. Le pari de la lisibilité est gagné et certains passages (notamment ceux qui portent sur les aspects scientifiques de l’expérience décrite) sont très convaincants."

Imperfections ?

"Il reste bien sûr des imperfections, des lourdeurs, voire des erreurs ponctuelles, qui appellent une correction"

Principales erreurs ?

"Le défaut le plus répétitif, celui dont souffre d’ailleurs le travail de tout traducteur débutant, est le calque syntaxique, là où le français structure différemment la phrase .../... On comprend, mais ça ne sonne pas vraiment français" 


"Autre défaut assez fréquent, la perte des idiomatismes du français au profit d’anglicismes. Parfois ces anglicismes peuvent être plus dérangeants lorsqu’ils flirtent avec le franglais comme dans « connaissances actionnables » (p. 18) au lieu de « connaissances pratiques / utilisables ». " 


"Un troisième défaut tient à la non prise en compte de certains repères culturels.../...Par exemple, Powers fait plusieurs références à la topographie de Boston qui donnent lieu à des inexactitudes dans la traduction : « la rivière Charles » par exemple (p. 12) qui n’est pas une rivière mais plutôt un fleuve ; c’est pourquoi on traduira par « la Charles River » ou simplement « la Charles »"


Ce texte pourrait-il servir de base de départ à un traducteur littéraire professionnel ?"

"Instinctivement, je serais tenté de répondre non pour l’instant, parce que, dès son premier jet, le traducteur possède des réflexes qui lui permettent de produire un texte plus « propre » que celui auquel vous êtes parvenu .../... Cependant, ce traducteur passera plus de 25 heures à produire les 42 feuillets de 1500 signes correspondant au texte de Powers. À raison de 7 feuillets par jour en moyenne, il faut 6 journées de 8h pour venir à bout du texte .../... Si, en revanche, je pouvais ne travailler que sur votre texte, en oubliant complètement celui de Powers parce que j’aurais la garantie que votre traduction ne comporte aucune erreur, ni oubli, ni aplatissement par rapport à l’original, mais qu’elle demande simplement à être améliorée, rendue plus fluide, dans un français plus authentique, les choses seraient différentes et le gain de temps sans doute considérable.". 


III.3.4      « IITB : Monastery, Sanctuary, Laboratory » de Rohit Manchanda

Le livre retraçant cinq premières décennies de l'IIT-Bombay, « Monastery, Sanctuary, Laboratory », a été terminé et annoncé le 5 septembre 2008. Rédigé par Rohit Manchanda, et publié par Macmillan Inde, le livre retrace le parcours de l'IIT-Bombay depuis ses débuts jusqu’à présent sous la forme d'un récit historique.

EN 2012, à l’occasion d’un séjour à l’IIT Bombai professeur invité, C. Boitet a créé une iMAG pour traduire ce livre vers le hindi à l’aide de volontaires. Dans la Figure 21, on  montre un chapitre étant traduit de l'anglais en hindi.

Description : Mavericks:Users:lingxiaowang:Desktop:Capture d’écran 2015-09-09 à 17.25.23.png

Figure 21 : Exemple de post-édition d’un chapitre de
« Monastery, Sanctuary, Laboratory: 50 Years of IIT-Bombay »
de Rohit Manchanda

 

Conclusion

Antériorité (1er WS là-dessus au NACL-2015).

Grand potentiel

À intégrer dans les "bibliothèques électroniques"

 


 



[1] http://licia-lab.imag.fr/index.php/fr-FR

[2] http://www.nict.go.jp/

[3] http://service.aximag.fr/xwiki/bin/view/home/imag

[4] Tout le travail s'effectue sur une MT dédiée (liglab). Après juillet 2014, on a créé une autre iMAG pour le site du LIG, utilisant la MT générique (partagée) demo2. 

[5] http://service.aximag.fr/xwiki/bin/view/imag/xan-fr

[6] We are running such an experiment but cannot describe it here for lack of space.

[7] Remember: in 2001, Language Weaver (LW) claimed « to be able to produce an MT system overnight » from a large enough parallel corpus. While that was undoubtedly true, LW produced actually only 4 MT systems in 4 years… because parallel corpora corresponding to the translation needs of solvable clients were and are hard to find.

[8] We have built a French-Chinese Moses system for iMAG-LIG, based on 12000 already post-edited segments.

[9] La post-édition utilisée ici est obtenue après chaque itération du processus; la dernière étape de révision n’est donc pas prise en compte à ce stade.

[10] https://fluidsurveys.com/surveys/manuela-cristina/un-livre-sur-moi-qualite-de-la-traduction/?TEST_DATA=