Conclusions et perspectives

XXXXX

Conclusions

Reprendre le résumé, en l'étoffant.

Perspectives

==== On verra ====

Dans le cadre de cette thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, nous avons d’abord abordé la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Nous avons apporté des améliorations fonctionnelles et techniques aux logiciels SECTra_w et iMAG produits lors de thèses antérieures (P.C. Huynh, H.T. Nguyen), et nous pensons avoir progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents (comme des pages Web) et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire (un roman de Jules Verne que nous avons traduit en chinois pour améliorer notre connaissance du français).

La seconde partie de cette thèse a initialement été motivée par un besoin industriel. Elle a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, nous avons pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse. Lors de la deuxième phase de cette expérience, nous n’avons pas pu faire d’apprentissage incrémental, à cause de l’indisponibilité d’un serveur, et n’avons « recompilé » le système de TA qu’à la fin. Cependant, cette phase a permis de démontrer le gain de qualité obtenable par spécialisation à un sous-langage. La troisième phase, toujours en cours, démontre vraiment l’apport de lAI, toutes choses égales par ailleurs.

La troisième partie de la thèse a été consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Cet aspect n’est pas seulement intéressant par ses résultats, mais aussi parce que la spécification et surtout l’implémentation de ressources et outils aussi variés et de grande taille pose des problèmes spécifiques, auxquels nous avons trouvé des solutions assez génériques et efficaces.

Nos principales contributions se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-IP 2011 de 1,5M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés (de-fr, en-fr, fr-de), et un site Web de support à la RI multilingue sur les brevets a été construit.

Enfin, nous avons construit en 2015 deux iMAG utilisées par des doctorants pour construire des MT de bonne qualité en français-somali et français-comorien par post-édition de journaux de Djibouti et des Comores, et ensuite en dériver des systèmes de TA spécialisés aux sous-langages de ces journaux, en extraire du vocabulaire bilingue, etc.

Dans le tout dernier chapitre, nous avons décrit la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA. Ce travail s’est révélé plus lourd que nous ne le pensions initialement, et n’est pas achevé au moment où nous rédigeons. Nous espérons cependant qu’il le sera avant 2016. Il faut dire aussi qu’une version α a déjà été utilisée depuis début 2015 par H. Wang pour son M2R IdL sur l’estimation a priori (QE) de la qualité (d’usage) des résultats de systèmes de TA variés, toujours en fr-zh.

Les perspectives de cette recherche sont multiples. D’abord, nous voulons terminer l’implémentation de JianDan-eval, le mettre à disposition de la communauté, et l’évaluer.

Ensuite, nous voudrions continuer notre travail sur la modélisation des corpus de traductions, et arriver à une nouvelle implémentation de SECTra dans laquelle on pourrait définir un corpus en s’appuyant sur la description de sa structure (macrostructure, microstructure et mésostructure), écrite dans un langage qui reste encore à définir (sans doute par une DTD XML, puisque nous avons déjà décrit toutes les métadonnées de nos différents corpus en XML).

Enfin, nous souhaitons trouver un cadre approprié pour valoriser notre expertise en TA françaischinois, et pour développer aussi des systèmes chinoisfrançais. Un cadre approprié pourrait être celui de l’accès (de HQ) à des sites boursiers et économiques en français par des sinophones, puis à des sites de même type en chinois par des francophones.