Chapitre IV Revue des systèmes TA français ↔ chinois en contexte industriel

Résumé

Ce chapitre présente une revue des systèmes de TA, directs ou passant par l'anglais, permettant de traduire entre chinois et français, ainsi que certains besoins dont nous avons eu connaissance à l'occasion de notre activité dans L&M.

Introduction

Beaucoup d’entreprises ont besoin de systèmes de TA français↔chinois pour aider à traduire des documents français ou des documents chinois. Elles demandent que le système de TA soit privé, et que la traduction soit vraiment fiable (pour leur sous-langages), même si la fluidité n’est pas parfaite. Pour pouvoir arriver à cela, nous avons commencé par passer en revue l'histoire du développement des systèmes de TA concernant le chinois, depuis les tout premiers travaux en Chine (dès 1957). Nous avons ensuite comparé 4 systèmes de TA opérationnels et disponibles sur le Web ou sur des serveurs privés sur la paire de langues français↔chinois. Aucun de ces systèmes n’est satisfaisant dans ces contextes, car (1) ou bien l’information « sort » de l’entreprise, (2) ou bien les licences en intranet sont trop chères, et (3) de toutes façons, la qualité des TA brutes est jugée insuffisante, et il n’y a pas moyen de l’améliorer en spécialisant le système au sous-langage concerné.

Après avoir présenté la demande de grosses sociétés et un état de l'art des systèmes actuels dont on peut penser qu'ils pourraient être utilisés par ce type de société (ou d'organisme) de façon opérationnelle, nous décrivons les travaux réalisés à L&M pour construire des systèmes de TA pour le chinois basés sur Moses, utilisables à terme par des clients potentiels.

IV.1 Demande de grosses sociétés

Lingua et Machina édite une application Web de gestion des contenus multilingues en entreprise appelée Libellex[1]. Cette plate-forme intègre divers outils d'aide à la traduction (concordances bilingues, outils d’extraction et de gestion de terminologies, mémoires de traductions, systèmes de traduction automatique et outils de gestion de projets de traduction).

Les entreprises clientes de L&M, comme EDF et Renault, ont des filiales en Chine. Il y a beaucoup d’échanges internes aux entreprises entre la France et la Chine, comme les courriers électroniques, les comptes rendus, et les rapports. Ces textes doivent être traduits (en français ou en chinois), et pas en anglais, langue dans laquelle ni les uns ni les autres ne sont à l’aise.

Ces textes, et en particulière les rapports, contiennent généralement beaucoup de termes spécialisés. Dans de tels contextes, recourir à des traducteurs humains n’est pas une option, même si on avait de très bonnes mémoires de traductions. Il faudrait en effet qu’ils soient excellents et compétents dans la terminologie des domaines concernés, et donc très chers. Mais, de toutes façons, on n’arriverait pas à satisfaire la demande de « temps réel », et on n’a en réalité pas besoin de traductions de qualité professionnelle. Il suffit qu’elles soient assez compréhensibles et fiables, et surtout qu’on puisse améliorer « en ligne » celles qui contiennent des contresens et de faux termes.

Pour certains textes quotidiens comme les courriers électroniques et les réunions à distance, on a simplement besoin d’une traduction « compréhensible » et en temps réel, mais pas d’une traduction parfaite.

Les entreprises clientes ont besoin d’une solution moins chère, plus rapide, et donc automatisée, mais les systèmes existants ne sont pas satisfaisants. Tout d’abord, l’information privilégiée de l’entreprise est considérée comme secrète, confidentielle. On ne peut donc pas utiliser les systèmes publics comme GT, parce que l’entreprise ne veut pas divulguer des informations propriétaires. Ensuite, un système de TA français-chinois commercial, comme Systran Enterprise Server, est très coûteux (15000€[2] pour déployer une instance de Systran Enterprise Server 7 chez un client). Enfin, la qualité de traduction pour la paire de langues français↔chinois n’est pas suffisante. Le résultat de la TA est souvent incompréhensible.

Pour obtenir un système de TA dont le résultat brut (non post-édité) est jugé comme « suffisant » par une entreprise cliente potentielle de L&M, la seule solution est de « personnaliser » son système de TA français-chinois, et cela quel que soit le paradigme de TA utilisé. En ce qui concerne L&M, le choix s’est porté vers le paradigme de la TA statistique, et sur le développement à l’aide de l’outil Moses.

IV.2 État de l'art de la TA du chinois

La recherche sur la TA du chinois a commencé depuis la deuxième moitié des années 1950. Les chercheurs se sont concentrés principalement sur les 4 paires de langues chinois↔anglais et chinois↔russe, mais il n’y pas eu alors de recherches sur les 2 paires français↔chinois. La première expérience concernant à la fois le français et le chinois a été faite par le professeur Feng Zhiwei en 1981-82 sur une maquette chinois→français/anglais/allemand/japonais en Ariane-78 (Feng, 1981).

Les éditeurs de systèmes de TA qui proposent le couple français↔chinois utilisent l’approche dite du « pivote textuel », c’est-à-dire qu’ils appliquent successivement les « paires » français↔anglais et anglais↔chinois, en utilisant l'anglais comme "pivot textuel". Mais les résultats sont bien pires que ceux déjà jugés très peu satisfaisants obtenus avec l’anglais.

La section IV.2.1 propose un rapide historique de la recherche sur la TA du chinois, et dans la section IV.2.2, nous testons quatre systèmes de TA qui proposent la paire de langues français↔chinois.  

IV.2.1 Historique

La Chine est le quatrième pays qui s’est lancé dans la traduction automatique (TA), à la suite des Etats-Unis (en 1951), du Royaume-Uni (1955), du Canada (Booth à Saskatoon, venant d'Angleterre) et de l'Union soviétique (1954, Lyapunov et Bagrinovskaya, Novosibirsk). En 1959, des chercheurs de l'Institut de technologie de l'informatique et de l'Institut de linguistique de l'Académie Chinoise des Sciences (ACS, 中国科学院, Chinese Academy of Sciences) menèrent la première expérience de traduction automatique en russe→chinois.

Le plus important des projets de TA chinois→anglais a commencé à l'Université d'État de l'Ohio en juillet 1961. C’était un projet de recherche mis en place avec le soutien de la « National Science Foundation » (NSF) sous la direction de William S. Y. Wang. Au milieu des années 1960, Wang rejoignit le groupe de Berkeley et continua sa recherche dans le cadre du projet POLA, toujours sur la TA chinois→anglais.

En même temps, le centre de recherche d'IBM à Yorktown travaillait sur un système chinois→anglais, fonctionnant sur les mêmes principes que le système russe→anglais, et utilisant aussi le tout nouveau et très fameux disque photoscopique (King and Chang, 1963).

En 1972, l’Université chinoise de Hong-Kong (香港中文大学, Chinese University of Hong Kong) proposa le système CULT (Loh and Kong, 1979), développé pour traduire des textes mathématiques du chinois vers l’anglais. Les résultats étaient très bons, grâce à une importante pré-édition manuelle.

Au début des années 1980, de nombreux instituts et universités ont été impliqués dans des recherches sur la TA. L’Institut de Technologie de Harbin (ITH, 哈尔滨工业大学, Harbin Institute of Technology) et l'Université du Nord-Est (UNE, 东北大学, Northeastern University) ont commencé leur recherches sur des systèmes de TA chinois↔anglais au milieu des années 1980. De plus, l'Université de Nankin (南京大学, Nanjing University) a commencé une recherche sur la TA japonais↔chinois durant cette période.

Pendant les années 1980, il y a eu une très grand activité commerciale au Japon, et au moins 30 sociétés informatiques (comme Fujitsu, Hitachi, NEC, Sharp, Toshiba, etc.) ont développé des logiciels de TA pour japonais↔anglais. Certains, notablement Fujitsu (avec ATLAS-II dû à H. Uchida), ont développé de gros prototypes pour d’autres langues, dont le chinois, mais ne les ont pas commercialisés à l’époque, car seul le couple anglais-japonais semblait pouvoir apporter un ROI[3] réel.

En 1987-93, beaucoup d’instituts et d’universités chinois ont aussi participé au projet « Joint study for Multilingual Machine Translation », qui a été financé par le gouvernement japonais[4], et visait à un objectif ambitieux : produire un système de TA à « pivot » sémantique de haute qualité sur le modèle d’ATLAS-II pour cinq langues asiatiques (japonais, chinois, thaï, malais et indonésien) et l'anglais.

Durant la période 1980-2005, tous les systèmes de TA adoptèrent approche "experte" à base de règles, tandis que certains d'entre eux utilisaient aussi une approche à base d’exemples comme complément.

Il y a trois systèmes très connus : (1) MT-IR-EC, un système de TA anglais→chinois pour traduire les titres et les catalogues des journaux, développé par le Research Institute of Post and Telecommunication Science, (2) KY-1, un système de TA anglais→chinois développé par l'académie des sciences militaires, qui est aussi le cœur du premier système commercial de TA, TranStar (Dong, 1990), et (3) Huajian, un système de TA chinois→anglais développé par Huajian Co. Ltd.

De 1995 à 2005, beaucoup d’équipes de recherche et d’entreprises ont publié des systèmes de TA, comme GaoLi (GaoLi Co. Ltd), CCID (CCID Group), et Kingsoft Quick Translation (Kingsoft Co. Ltd).

La recherche sur la TA statistique a commencé en Chine à partir de 2004-2005. En 2006, cinq équipes de recherche (l'Institut de technologie de l'informatique de l’ACS, l'institut d’Automatique de l’ACS, l’Institut du logiciel de l’ACS, l’Université de Xiamen et ITH) ont publié un système de TA statistique en source ouvert, Silk Road (Silkroad, 2006). En 2011, UNE a publié un nouveau système de traduction automatique en source ouvert, NiuTrans (Xiao et al., 2012).

Aujourd'hui, beaucoup de systèmes de TA proposent le couple français↔chinois, comme GT, Systran, Reverso, Bing, etc., mais il est difficile de trouver un système de TA français↔chinois de qualité d’usage correcte, sans doute car ils passent presque tous par l'anglais (« pivot textuel »).

IV.2.2 Expérimentations

IV.2.2.1 Systèmes étudiés

Nous avons fait des expériences sur quatre systèmes de TA français→chinois pour évaluer la qualité de TA. Nous avons d'abord testé GT, puis trois systèmes de TA statistique entraînés par les boîtes à outils disponibles en source ouvert (Moses v2.0, Joshua v5.0, NiuTrans v1.3).

Pour la construction des 3 systèmes de TA statistique, nous avons utilisé les mêmes données d’entraînement et les mêmes données de test. Ces données ont été extraites du corpus MultiUN[5] (Eisele and Chen, 2010). Nous avons pris 1M de bisegments fr-zh comme données d’entraînement, 1K comme données de développement (Tuning), et aussi 1K comme données de test. Tous les textes chinois ont été segmentés par le segmenteur Stanford[6] (Chang et al., 2008), et nous avons utilisé le segmenteur de Moses (un script perl tokenizer.perl) pour segmenter le texte français.

Tableau 28 : Statistique sur les données

	Nb de Segments	Nb de mots français	Nb de caractères français	Nb de caractère chinois
Données d’apprentissage	1M	28 951 255	199 486 574	35 109 257
Données de développement	1K	21 758	151 369	32 165
Données d’évaluation	1K	25 251	176 492	31 752

Notre expérimentation contient 2 étapes. Dans première, nous évaluons les systèmes de TA, par rapport avec le score BLEU. Dans la deuxième, nous utilisons SECTra_w pour nous aider à évaluer les TA à la qualité d’usage du résultat et au degré d'automaticité.

La qualité d'usage et le degré d'automaticité sont obtenus à partir des temps de post-édition en utilisant les formules proposées par C. Boitet dans ses cours au NII (Boitet, 2009).

Tableau 29 : Formule d’évaluation de l’automaticité et de la qualité d’un système de TA

1. Automaticity (MT module only): (taken from NII lecture notes by Boitet, 2009)

Ex : A = 83,3% if first draft takes 1h per standard page (of 250 words or 1550 characters) and human interaction takes 10 mn/page (minutes per page).

2. Quality (wrt HT) in %

Ex :

est le temps moyen de traduction humain par page, estimé dans la tâche en cours. Sans plus d’information, on l’évalue à 60 mn.

IV.2.2.2 Expérimentation avec GT

Depuis 2007, GT fournit un service de traduction français↔chinois. Dans cette expérience, nous avons traduit un texte du français vers le chinois en utilisant GT. Le texte en entrée source contient 1K phrases françaises du corpus MultiUN. Dans le Tableau 30, nous montrons 3 phrases extraites de ces 1K. Les références ont été produites par nous (par PE).

Tableau 30 : Exemple de traduction de GT

ID	Segment	Traduction de GT	Référence	Trace
1	Le Secrétaire général souhaite vivement que le plan-cadre d'équipement soit achevé d'ici à la mi-2014 et le nécessaire sera fait pour atteindre cet objectif, en contrôlant bien la portée du projet, en effectuant rapidement les réinstallations et en suivant de très près chaque activité de sorte qu'elle soit réalisée dans les délais prescrits.	秘书长真诚希望，基本建设总计划通过 2014 年中期完成，必要的工作将实现这一目标，控制项目的良好范围，迅速进行搬迁及以下非常接近每个活动，使其上进行的时间。	秘书长的坚定目标是，到 2014 年年中完成基本建设总计划，并将通过控制规模、加快搬迁和加紧监测每项活动的时间表，全力实现这一目标。	秘书长的秘书长坚定真诚目标希望是， ~~基本建~~设到总 2014 计划年年通过中 ~~2014~~ 完成年基本建设中期总完成计划，必要并的工作将实现通过这一目标，控制项目规模的、良好加快范围搬迁，和迅速加紧进行监测搬迁每及项以下活动非常的接近时间表每个活动，使全力其实现上这进行一的目标时间。
2	Au cours des six dernières années, la Commission s'est engagée dans des négociations complexes concernant ce projet, qui ne sera réalisé au mieux et dans les limites du budget imparti que si le financement est rapide.	在过去的六年里，该委员会已从事有关项目复杂的谈判，这将是最好的实现，并在规定的预算范围内，如果资金是快速的。	过去六年来，本委员会就该项目进行了复杂的谈判。这个项目必须及时获得资金，才能有效运作不超出预算。	过去的六年里来，该本委员会已就从事该有关项目进行了复杂的谈判，。这这个将项目是必须最及时好获得的资金实现，并才在能规定有效的运作预算不范围超出内预算，如果资金是快速的。
3	Afin de garantir que la Commission réponde aux attentes et marque une réelle différence au Burundi, tous ceux qui sont impliqués doivent examiner la meilleure façon de soutenir la mise en œuvre des engagements identifiés en tenant compte des différences dans les capacités et l'expertise.	为确保满足委员会的期望，并在布隆迪的一个真正的区别，所有参与应考虑如何最好地支持确定的承诺的执行情况，同时考虑到在能力和专业知识的差异。	为了确保委员会不负众望，给布隆迪带来切实的变化，所有相关方都必须考虑如何才能最好地支助承诺的执行，并且铭记各方在能力和专门知识方面的差异。	为了为确保满足委员会的不负众望期望，并给在布隆迪的带来一个切实真正的区别变化，所有参与相关应方都必须考虑如何才能最好地地支支持助确定的承诺的执行情况，同时并且考虑铭记到各方在能力和专业专门知识方面的差异。

Le score BLEU de GT est 38.25%.

IV.2.2.3 Expérimentation avec Moses

Moses (Koehn, Hoang et al., 2007) propose l’ensemble des outils nécessaires à la construction d’un modèle de traduction. Un décodeur permet aussi d’utiliser ces outils afin de produire la traduction d’un texte source. C'est un outil sous licence libre.

Tout d’abord, nous calculons des alignements de mots en utilisant GIZA++ (Och, 2003), qui implémente les algorithmes des modèles IBM 1-5 (Brown et al., 1993) et HMM (Vogel et al., 1996). On utilise les alignements pour construire la table de traductions. Enfin, un modèle de réordonnancement est construit, contenant les informations sur les positions dans les phrases des mots traduits par rapport aux mots traduits précédemment. Le modèle de langue est construit à l’aide de l’outil IRSTLM (Federico et al., 2008).

La construction de le système de TA Moses a pris 15 heurs (15h 32mn) pour finir la procédure d’entraînement (du prétraitement jusqu'à l’évaluation BLEU), Le score BLEU est 36,72%.

IV.2.2.4 Expérimentation avec Joshua

Joshua (Li et al., 2009) est un décodeur développé d’abord pour utiliser le modèle hiérarchique. Il est accompagné de l’ensemble des outils nécessaires à son fonctionnement : alignement (avec GIZA++), construction de la table de traductions, décodage, optimisation des poids, minimisation d’erreur, et calcul du modèle de langue cible. Depuis la version 6, il supporte le modèle à fragments (chunks). Il intègre un segmenteur du chinois, et on utilise donc son script pipeline.pl[7] pour entraîner le système de TA. Joshua demande d’écrire les paramètres dans un fichier de configuration. Les paramètres sont dans Tableau 31.

Tableau 31 : Paramètres de configuration de Joshua

$JOSHUA/scripts/training/pipeline.pl // le script de pipeline

--rundir 1M //le répertoire de travail

--source fr // langue source

--target zh // langue cible

--corpus 1M/train/train // données d’entrainement

--tune 1M/tune/tune // données de développement

--test 1M/test/test // données de test

--lm-order 5

--aligner giza

La construction du système Joshua a pris 18 heures (18 h 12mn) pour la procédure d’entrainement (du prétraitement jusqu'à l’évaluation de BLEU). Le score BLEU est 32,18%.

IV.2.2.5 Expérimentation avec NiuTrans

NiuTrans (Xiao, Zhu et al., 2012) est une boîte à outils en source ouvert permettant d’entrainer un système de TA statistique. Il est développé en C++ par l’UNE (东北大学). Actuellement, NiuTrans supporte déjà le modèle syntagmatique (PBMT) et le modèle hiérarchique.

Pour adapter des données à NiuTrans, tout d’abord, on doit prétraiter les données. Nos données sont d’abord segmentées en mots (tokenisation) par le segmenteur Stanford. Ensuite, on utilise les scripts perl, fournis par NiuTrans, pour normaliser les segments[8]. Enfin on produit le fichier aligment.txt[9].

Après la préparation des données, nous avons pris 10 heures (10 h 37 mn, sans compte le temps d’alignement) pour entraîner le système. Nous avons obtenu un score BLEU de 33,19%.

IV.2.2.6 Description du résultat

Pour la comparaison de la qualité de traduction des systèmes de TA, nous avons entraîné les systèmes de TA dans ces mêmes conditions (les outils, les données et le matériel, sauf pour GT). Nous prenons en compte le temps d’entrainement, et le score BLEU. Le système de TA construit avec Moses a la meilleure qualité de traduction parmi les systèmes de TA. C’est sans doute, grâce au corpus d’entrainement adapté au même domaine qu’il est un peu mieux que GT.

Le score BLEU n’est en pratique pas bien corrélé à la qualité d’usage de la TA. Pour l’évaluer, nous ajoutons les segments source et les résultats de TA dans SECTra_w, puis nous post-éditons et calculons la distance de post-édition. Dans le Tableau 32, nous montrons un exemple de résultat de TA, et nous pouvons voir la « Trace » du calcul de distance entre la référence et le résultat de TA.

Tableau 32 : Comparaison d'exemples de traductions obtenues par TA et d'une référence

Source	le Secrétaire général souhaite vivement que le plan - cadre d ' équipement soit achevé d ' ici à la mi - 2014 et le nécessaire sera fait pour atteindre cet objectif , en contrôlant bien la portée du projet , en effectuant rapidement les réinstallations et en suivant de très près chaque activité de sorte qu ' elle soit réalisée dans les délais prescrits .
Reference	秘书长的坚定目标是，到 2014 年年中完成基本建设总计划，并将通过控制规模、加快搬迁和加紧监测每项活动的时间表，全力实现这一目标。
Google	秘书长真诚希望，基本建设总计划通过 2014 年中期完成，必要的工作将实现这一目标，控制项目的良好范围，迅速进行搬迁及以下非常接近每个活动，使其上进行的时间。
Trace (PE vers la référence)	秘书长的秘书长坚定真诚目标希望是， ~~基本建~~设到总计划通过 2014 年中期年中完成，基本建设必要总的计划工作，并将实现通过这一目标，控制项目规模的、良好加快范围搬迁，和迅速加紧进行监测搬迁每及项以下活动非常的接近时间表每个活动，使全力其实现上这进行一的目标时间
Moses	秘书长真诚希望这项框架计划的将于 Mi- 2014年完成, 并将采取步骤实现这一目标 , 通过控制的项目的范围 , 迅速重新安置或采取行动 , 不影响的每项具体活动进行规定时限内提出。
Trace (PE vers la référence)	秘书长真诚的希望坚定这项目标框架是计划，的将到于 2014 ~~Mi-~~ 年 ~~2014年~~ 年 ~~完成,~~ 中并完成将基本建设采取总步骤计划实现，这并一将目标 , 通过控制的规模项、目的加快范围搬迁 , 和迅速加紧重新监测安置每或项采取活动行动 , 不影响的每时间表项，具体全力活动实现进行这规定一时限目标内提出。
Joshua	秘书长真诚希望这项框架计划设备完成在这里 , mi 2014 年之后、和必要的工作将为实现这一目标 , 在控制两个项目的范围、执行快速的重新安置 , 通过密切关注每个活动 , 在规定时限内提出。
Trace (PE vers la référence)	秘书长真诚的希望这项框架坚定计划目标设备是完成，在到这里 , mi 2014 年之后年、中和完成必要基本建设的总工作计划将，为并实现将这通过一目标 , 在控制两规模个项目的范围、执行加快快速搬迁的和重新加紧安置监测 , 每项通过活动密切的关注时间表每个，活动全力 , 实现在这规定一时限目标内提出。
NiuTrans	秘书长强烈希望计划框架的设备或已完成的在 2014 年 Mi 必须将实现这一目标 , 通过检查影响控制两个项目的范围、执行的快速的重新安装又密切注视活动 , 实现的规定时限。
Trace (PE vers la référence)	秘书长强烈希望计划框架的设备坚定或目标已是完成，的到在 2014 年 Mi 年必须中将完成实现基本建设这总一计划目标， , 并将通过检查控制 ~~影响控制~~ 规模两、个加快项目搬迁的和范围、执行加紧的监测快速每的项重新活动安装的又时间表密切，注视全力活动 , 实现的这规定一时限目标。

Dans l’Annexe 8, on donne 50 segments en « vue SECTra/Post-édition », montrant pour chaque segment le texte source, la PE, et les TA en mode « Trace ». Voici un exemple de résultat d’évaluation sur le segment présenté dans le Tableau 33.

Tableau 33 : Exemple de résultat d'évaluation

Mots	TA	TPE	TPE/p.std	DistPE (α=0,2 ; ß=0,8)	Q
53	Google	127s	16,0 mn	Dc: 112 ; Dw: 60 ; D= 70,4.	68%
	Moses	123s	15,5 mn	Dc: 126 ; Dw: 66 ; D= 78	69%
	Joshua	153s	19,2 mn	Dc: 137 Dw: 68 ; D= 81,8	61,6%
	NiuTrans	142s	17,8 mn	Dc: 117 Dw: 64 ; D= 70	64,4%

Conclusion

Nous avons comparé les 3 systèmes de TA et GT sur le BLEU et la qualité d’usage. Nous avons choisi le “meilleur” système, et il peut traduire les phrases français vers le chinois. Mais la qualité de traduction n’est pas satisfaisante. La qualité est limitée par la taille de corpus, le domaine de traduction, le lexique, etc. Comment construire un système de TA français-chinois en haute qualité ? Pour nous, c’est un vrai défi.

IV.3 Construction de systèmes de TA pour le chinois basés sur Moses en contexte industriel

L'étude précédente nous a montré qu'il n'y avait pas pour l'instant de système français↔chinois pouvant être utilisé tel quel, ou adapté rapidement, pour satisfaire les besoins des grandes sociétés en général, et des clients potentiels de L&M en particulier.

Nous avons donc essayé de construire nous-même un système français-chinois à partir d’une MT correspondant aux besoins d’au moins un client potentiel de L&M. Malheureusement, aucun n'avait de telle MT. Nous en avons donc construit une, mais, faute de ressources (en post-éditeurs), nous n’avons pas pu dépasser 9000 bisegments (dans ce cas, 112500 mots ou 450 pages standard). Les résultats ont été encore pires qu’avec les 4 systèmes étudiés plus haut. Notre hypothèse est qu’il aurait fallu disposer d’une MT d'au moins 30000 à 50000 segments.

IV.3.1 Choix du sous-langage et des couples à traiter

Comme le client potentiel le plus prometteur pour L&M était EDF, nous avons cherché à construire un système pour EDF. C'est une très grosse entreprise spécialisée dans le domaine de l'énergie électrique, qu'elle soit produite dans des centrales nucléaires, hydrauliques, à charbon, à gaz, éoliennes, ou photovoltaïques.

Depuis une quarantaine d'années, EDF est implantée en Chine, où elle a construit des centrales nucléaires, et travaillé avec d'innombrables cadres, ouvriers et ingénieurs chinois. Beaucoup de documents ont été traduits, dans les deux sens, et nous espérions avoir accès à des documents parallèles, ou au moins à de grosses mémoires de traductions, en supposant que des outils comme SDL Trados ou Déjà Vu avaient été utilisés pour produire ces traductions.

Nous comptions bien sûr choisir comme sous-langage objet du système de TA à construire celui correspondant à la MT la meilleure en qualité et la plus grande en volume. Malheureusement, nous n'avons rien pu obtenir du tout. Peut-être ces textes parallèles ou ces MT existent-ils et sont-ils cachés, peut-être n'ont-ils jamais été créés, nous n'en savons rien. Sachant que la traduction n'est presque jamais consolidée dans les comptes des entreprises, et est le plus souvent sous-traitée de manière opportuniste, il est possible que la seconde hypothèse soit la bonne.

Quoi qu'il en soit, en 2013, L&M n'avait pas pu avoir accès à un corpus parallèle ou à une MT d'EDF français→chinois permettant de développer un système de TA, qu'il s'agisse d'un système Moses (il aurait fallu entre 20K et 30K "bons" bisegments) ou d'un système Ariane (à règles et dictionnaires), pour lequel il aurait fallu des corpus parallèles ou comparables de 2K à 3K segments (pour l'étude typologique) et un dictionnaire bilingue de 10K à 20K entrées.

Nous avons alors décidé d'essayer de construire un système Moses à partir d'un corpus parallèle que nous construirions nous-même à partir d'un corpus bilingue le plus "adapté" ou "vraisemblable" possible, puis, s'il était trop petit, à partir d'un corpus monolingue complémentaire que nous traduirions.

Nous savions que les besoins d'EDF étaient dans les deux sens (français↔chinois). Nous nous sommes concentré sur le sens français→chinois, car nous savions que nous pourrions nous-même évaluer et post-éditer les résultats, alors que nous n'avions personne dans notre environnement qui comprenne bien le chinois technique et soit de langue maternelle française.

Cependant, nous avons aussi fait quelques essais en chinois→français, "pour voir", en nous disant que, si les résultats étaient encourageants, nous pourrions peut-être écrire des parties de cette thèse en chinois, les faire traduire par GT ou par notre système, et les faire ensuite réviser par des chercheurs du laboratoire, compensant leur ignorance du chinois par leur connaissance du domaine. Comme on pouvait s'y attendre, cet espoir a été totalement déçu, et nous ne nous étendrons pas sur cet essai.

IV.3.2 Recherche infructueuse de corpus parallèles adaptés

Notre première idée a été d'essayer d'extraire un corpus bilingue français→chinois concernant un des domaines d'EDF à partir des corpus parallèles librement disponibles sur le Web.

La performance d’un système de traduction automatique statistique (TAS) dépend fortement de la taille et de la qualité du corpus parallèle utilisé pour l’entraînement. Les ressources actuelles en corpus parallèles bilingues ou multilingues libres de droits proviennent généralement d’institutions internationales. C’est le cas du corpus « Europarl » (Koehn, 2005) extrait des délibérations du Parlement européen, du corpus « Canadian Hansards », contenant les transcriptions en français et en anglais des débats du Parlement canadien, et du corpus JRC-Acquis qui fournit une quantité comparable de textes législatifs européens en 22 langues (Steinberger et al., 2006). En ce qui concerne le chinois, il y a beaucoup de corpus parallèles anglais→chinois et chinois→anglais, notamment celui du journal Xinhua News (Graff et al., 2003), mais très peu de corpus français→chinois.

Or, pour construire un système de TAS français→chinois, il faut disposer d’un corpus parallèle français→chinois (dans le bon sens) pour entraîner les modèles. Nous nous sommes tourné vers le corpus parallèle MultiUN français-chinois, qui a été construit par extraction du site Web des Nations-Unies, puis nettoyé et converti au format XML par Andreas Eisele et Yu Chen (Eisele and Chen, 2010) en 2010. En février 2013, la version alignée de ce corpus a été publiée sur le site Web OPUS[10] (Tiedemann, 2012). Voici les corpus que nous avions pu collecter à ce point (Tableau 34).

Tableau 34 : Corpus collectés en cherchant des corpus pour français→chinois

Nom	Direction	Nb segments	Nb mots source	Mots fr / segment	caractères zh / segment	Mots fr / caractères zh
MultiUN	en-zh	8,8M	220,4M	24,97	71,31	285,54%
MultiUN	fr-zh	8,7M	243,8M	27,94	71,94	257,33%

Que pouvait-on en espérer ? A priori, peu, car, quand on entraîne un système de TAS avec un tel corpus "généraliste" pour la traduction dans un domaine précis, par exemple l’énergie, on obtient d'habitude de mauvais résultats. Nous avons fait l'expérience, qui a confirmé cette crainte.

Nous en avons conclu qu'un système de TA français-chinois entraîné seulement avec le corpus MultiUN ne pourrait pas répondre aux besoins des entreprises clientes de L&M. En nous inspirant de publications mentionnant la possibilité de mélanger un petit corpus spécialisé à un grand corpus généraliste, nous avons alors décidé d'essayer cela, et de construire un corpus parallèle français-chinois spécialisé au sous-langage des notes techniques et des courriels concernant le domaine de l'énergie.

Pour cela, nous sommes parti des sites Web d'EDF en France et en Chine, car nous avons remarqué qu'ils contiennent beaucoup de segments français et chinois presque parallèles.

Nous avons extrait des textes français et chinois à partir de ces sites Web à l’aide de l'outil Boilerpipe (Kohlschütter et al., 2010). Mais ces textes ne peuvent pas être utilisés tels quels pour entraîner un système de TA, il faut d’abord les segmenter, les nettoyer, les aligner, et enfin extraire des bisegments réellement parallèles (en relation de traduction).

Tout d’abord, nous avons débruité les textes, en supprimant les segments inutiles comme les liens (par exemple, http://…), les chiffres, les dates, etc.

Ensuite, nous avons normalisé l'encodage des caractères en transformant tout en UTF-8 (certains textes français étaient en codage ASCII Mac ou Windows, et les textes chinois étaient le plus souvent en GB-2312-80).

Après avoir nettoyé le "bruit", nous avons procédé à l’alignement au niveau des segments (phrases ou titres) en utilisant l’outil LF Aligner[11]. Nous avons finalement obtenu un corpus parallèle d'environ 3K bisegments. Un extrait en est donné à l’Annexe 9.

Cette petite quantité de données n'est pas suffisante pour entraîner un système Moses, mais, mélangée à ce que nous avions extrait de MultiUN, elle a suffi pour améliorer un peu le système de TA, en lui faisant apprendre des termes comme « le noyau des atomes », « l'hydraulique », « le charbon propre », etc.

IV.3.3 Production de corpus par PE de résultats de Google

Pour augmenter la quantité des données d’entrainement, nous avons construit une MT par post-édition des sorties de la 1^ère version de notre système. C’est un bon moyen de produire des MT de bonne qualité (Wang and Boitet, 2013).

Pour post-éditer plus vite et mieux, nous avons utilisé la plate-forme SECTra_w/iMAG. Nous avons divisé notre MT en domaines, comme les nouvelles, les reportages et les pages Web de Wikipédia. Nous avons transformé tous les textes monolingues en des fichiers html, nous les avons placés dans une hiérarchie de fichiers mise sur le serveur du laboratoire, et nous avons créé une iMAG dédiée à ces fichiers.

Les prétraductions ont été fournies par GT. Après la post-édition, nous avons sélectionné, pour construire notre MT, les bisegments que nous estimions adaptés à notre besoin. Cette sélection était basée sur le niveau de fiabilité (d'une étoile "☆" à cinq étoiles "☆☆☆☆☆") et sur la note de qualité (de 0 à 20) associés à chaque segment et à chaque langue cible dans la MT. Le prédicat de sélection était:

(fiab = 3 && score ≥ 12) || (fiab = 4 && score ≥ 11) || (fiab = 5 && score ≥ 10)

Nous avons finalement obtenu 6000 segments parallèles. En les ajoutant aux 3000 segments parallèles extraits à partir des sites Web d’EDF, nous avons au total collecté 9000 bisegments (environ 450 pages standard) de qualité suffisante pour construire un système. Cependant, nous n'avons pas de garantie que ce "noyau" représente bien le sous-langage, qui pour nous reste inconnu et inconnaissable, des notes techniques d'EDF sur l'énergie (Tableau 35).

Tableau 35 : Exemples de bisegments français→chinois parmi les 9000 collectés ou produits

Français	Chinois
Charbon propre	清洁煤发电
EDF Asie	EDF 亚洲
Activités	业务概览
Charbon propre	洁净煤
En Chine, le charbon représente près de 80% de la production d'électricité et devrait continuer d'occuper une place majoritaire dans l'avenir (plus de 60 % à l'horizon 2020).	中国煤电约占全国总发电量的 80%，今后还会继续占有主导地位（预计2020年占60%以上）。
Pour limiter les impacts sur l'environnement, la Chine développe des centrales à charbon à haut rendement moins polluantes. En s'appuyant sur ses compétences d'ingénierie, EDF prend part à ces projets. Ils permettent au Groupe de consolider et de développer son expérience pour faire face aux besoins qui pourraient émerger en Europe dans l'avenir.	为了减轻煤电对环境的影响，中国致力于发展高效、低污染的燃煤电厂。法国电力集团以专业技能为依托，参与中国洁净煤火电项目。通过参与项目建设，法国电力集团将巩固和发展其火电技术，应对欧洲未来可能出现的需求。
EDF a signé plusieurs accords de coopération avec des producteurs nationaux d'électricité, portant sur le développement conjoint de projets électriques, par exemple les Groupes de Trois Gorges, Guodian, Datang, etc.	法国电力集团已与国电、三峡集团、大唐等多家国有大型电力公司签署了多项电力合作协议。
French Investment Guangxi Laibin Electric power Co (FIGLEC) - Chine est une filiale à 100 % du groupe EDF. La société est propriétaire de la centrale de Laibin B (d'une puissance de 720 MW), exploitée par SYNERGIE, aussi filiale d'EDF.	广西来宾法资发电有限公司是法国电力集团的全资子公司，拥有两台单机容量为360 兆瓦的机组，总装机容量720兆瓦。

IV.3.4 Construction de systèmes français→chinois

IV.3.4.1 Composants

Nos systèmes de TA sont construits avec Moses, qui fournit des outils optimisés pour réaliser l'entraînement, mais qui ne contient pas d’outil pour traiter le chinois. À L&M, nous disposions aussi de la boîte à outils MYRIAM, qui intègre le segmenteur du chinois de XeLDA^{^[12]} (Xerox Linguistic Development Architecture), et un programme java pour normaliser les phrases. Pour l’alignement des mots, nous avons utilisé l’outil MGIZA (Gao and Vogel, 2008), qui propose une implémentation efficace et parallèle de GIZA++.

IV.3.4.2 Paramétrisation et construction de 2 modèles de TAS

Les paramètres de ces systèmes ont été optimisés de manière usuelle avec l’outil MERT (Minimum Error Rate Training) (Och, 2003). Les traductions produites sont évaluées avec la mesure BLEU (Bilingual Evaluation Understudy) (Papineni et al., 2002), ainsi qu'avec notre « distance mixte de PE » (mTER), qui est bien corrélée à la qualité d’usage.

Nous avons ainsi défini deux modèles. L’un est un modèle générique qui est entraîné avec le corpus parallèle MultiUN, et l’autre est un modèle spécifique entraîné avec notre mémoire de bisegments post-édités. Quand on a de nouveaux segments post-édités, on n’a pas besoin de réentraîner le modèle avec toutes les données. On met seulement à jour le modèle spécifique. C'est très utile dans le cas où l’on a un très gros modèle générique qu'on souhaite utiliser dans un nouveau système, sans avoir à le réentraîner.

Tableau 36 : Comparaison des temps d’entraînement de Moses

Système de TA	Quantité de données	Temps d’entraînement	Temps du réentraînement avec 10K nouveaux bisegments
Un modèle	2M+9K bisegments	17 h 35mn	19 h 21mn
Modèle générique	2M+9K bisegments	13 h 10mn (10h30+2h40)	2 h 40mn
Modèle spécifique	2M+9K bisegments	13 h 10mn (10h30+2h40)	2 h 40mn

Nous avons ajouté 10K nouveaux bisegments, puis comparé les temps du réentraînement. Notre stratégie est de gagner 86,2% du temps sur le réentraînement avec 10K nouveaux segments. Le Tableau 37 présente les caractéristiques du serveur utilisé pour l'expérimentation.

Tableau 37 : Configuration de la machine

Nombre de processeurs	4[13]
Nombre de cœurs par processeur	2
Thread	4
Mémoire	8G

IV.3.4.3 Choix des données pour le modèle général

Le corpus MultiUN français-chinois contient 9,7 M de phrases parallèles, composé d'environ 300 millions de mots français et environ 600 millions de caractères chinois, soit environ 315M mots du dictionnaire). Ce corpus contient des segments composés de chiffres, de numéros, ou encore de dates ; ces segments ne sont pas utiles pour notre système. Nous les avons donc éliminés. À la fin, il nous restait environs 8,3 M bisegments.

Nous n’avons pas utilisé tout le corpus pour entraîner le modèle générique, parce que nous avons d'abord fait une expérience pour trouver la quantité appropriée des segments. Nous avons testé l’entraînement du système Moses français-chinois avec des quantités différentes (1M, 2M, 3M, 4M, et 5M) de bisegments, et calculé le score BLEU pour chacune de ces quantités. Les résultats sont présentés dans le tableau ci-dessous (Tableau 38). Les scores de 2M vers 5M sont égale les mêmes. On prend en compte le temps d’entrainement, et on choisit 2M bisegments pour entraîner le modèle générique.

Tableau 38 : Scores BLEU pour différentes tailles du corpus d'entraînement

Nombre de bisegments	BLEU	Temps d’entrainement
1M	49,78%	16 h
2M	52,48%	18 h
3M	52,25%	21 h
4M	54,31%	32 h
5M	55,52%	42 h

Nous avons prétraité les bisegments (le corpus MultiUN et la MT) en utilisant MYRIAM. Plus précisément,

· nous avons d'abord normalisé les segments (en convertissant les entités HTML, en séparant les ponctuations, et en ôtant la casse).

· nous avons ensuite utilisé XELDA pour marquer les segments français et chinois.

IV.3.4.4 Construction de systèmes de TA

Nous avons entraîné le modèle général construit uniquement à partir du corpus MultiUN (2M). Le tableau ci-dessous montre quelques chiffres concernant ce corpus.

Tableau 39 : Statistiques sur le corpus MultiUN

	Français	Chinois
Segment	2M
Mots	58M	50M
Caractères	398M	90M
Pages_std	38K	226K

Le modèle de traduction est entraîné sur 2M segments tirés de MultiUN. La partie cible du corpus a été utilisée pour produire un modèle de langue. Dans cette partie de l’entraînement, nous avons sauté l’étape usuelle d'optimisation des poids (tuning). Elle a été utilisée plus tard, pour construire un autre système, en association avec des modèles plus spécialisés.

Nous avons entraîné le modèle spécifique avec notre MT (9000 bisegments français-chinois), et collecté 1,7M segments monolingues chinois pour produire le modèle de langue cible.

Les paramètres utilisés ont été les mêmes que ceux utilisés pour l’entraînement du modèle général, sauf que nous avons utilisé la phase d’optimisation des poids (tuning).

Pour construire un système d'essai en chinois→français, nous avons utilisé les mêmes données à l'envers, en faisant comme si, étant donné un couple ($fr, $zh) de segments tels que $zh=trad($fr), on avait aussi $fr=trad($zh)). Nous savons pertinemment que c'est faux (la relation de traduction entre phrases n'est pas symétrique), mais… c'était "mieux que rien", puisque nous n'avions personne qui puisse post-éditer des résultats de TA zh→fr.

IV.3.5 Évaluations et perspectives

Pour évaluer la progression de notre système de TA "vers une cible" (pour chaque segment post-édité, la cible est sa post-édition), nous avons calculé le score BLEU pour chaque système de TA. Certes, BLEU ne mesure pas la "qualité" (ni au sens de qualité linguistique, ni au sens de qualité d'usage), et ne peut pas la mesurer, comme cela a été montré dans le fameux article d'Osborne, Callison-Burch et Koehn (Callison-Burch et al., 2006) "Re-evaluating the Role of BLEU in Machine Translation Research". Mais BLEU exprime bien une similarité textuelle, et peut être "raisonnablement" utilisé pour évaluer la progression d'un système vers une certaine "cible". Pour cela, il vaut d'ailleurs mieux n'avoir qu'une seule cible ("traduction de référence") par segment source, plutôt que 5, 10 ou 15 dans certaines campagnes d'évaluation. Notons que BLEU donne une mesure globale et ne donne vraiment pas d'indication fiable au niveau des segments individuels.

Nous évaluons aussi la qualité d'usage à partir du temps de post-édition (en minute par page, mn/p). Comme SECTra associe un chronomètre à chaque segment, nous disposons du temps primaire de post-édition, Tpe_1, pour chaque segment édité à travers cette interface. Nous disposons aussi du temps total de post-édition, Tpe_tot, pour des sessions de post-édition[14]. Nous pouvons en déduire, pour chaque segment, le temps total Tpe_tot ainsi que le temps secondaire de post-édition, Tpe_2, qui correspond au temps passé à chercher des équivalents dans les lexiques et bases terminologiques, ou à communiquer avec d'autres personnes pour trouver une bonne traduction d'une expression "hors dictionnaire". Typiquement, ce temps représente les 2/3 ou les 3/4 du temps total en contexte de traduction professionnelle.

Au début, nous avons post-édité 300 segments (Voir un exemple des données de test dans le Tableau 40), du français vers le chinois (à partir des prétraductions fournies par GT), et les avons utilisées comme données de test pour notre évaluation.

Tableau 40 : Exemple de données de test

ID	Segment	Traduction de Google	PE par humaine	Trace
26	Nucléaire : la Chine adopte l'EPR	核电：中国采用 EPR	核电：中国采用欧洲压水堆技术	核电：中国采用 ~~EPR~~ 欧洲压水堆技术
27	Au Laos, le projet de centrale hydraulique Nam Theun 2 (1070 MW) est porté par la société de projet Nam Theun 2 Power Company (NTPC), dont le groupe EDF est le premier actionnaire avec 40 % des parts.	在老挝，液压动力项目南屯 2 （ 1070 兆瓦）支持的项目公司南屯 2 电力公司（ NTPC ），法国电力集团与 40％的股权的第一大股东。	在老挝，中央液压草案南屯 2 号项目（ 1070 兆瓦）的支持，该项目公司南屯 2 电力公司（ NTPC ），法国电力集团是拥有 40％股权的最大股东。	在老挝，中央液压动力草案项目南屯 2 号项目（ 1070 兆瓦）的支持的，该项目公司南屯 2 电力公司（ NTPC ），法国电力集团与是拥有 40％的股权的第一最大股东。
28	D'une capacité de 715 MW, la centrale a été mise en service en février 2005. Elle bénéficie des technologies éprouvées des turbines les plus récentes, ainsi que des derniers retours d'expérience des centrales à gaz construites par EDF qui en a assuré la construction et la livraison « clé en main » et qui participe maintenant à son exploitation.	容量为 715 兆瓦，该厂已于 2005年 2月它已被证明的经验，最后返回建造的 EDF 最新的涡轮机和燃气电厂保证了技术建设和交付 “ 交钥匙 ” ，现在参与其运作。	该厂容量为 715 兆瓦， 2005 年 2 月初投入运行。这一项目的汽轮机采用了最新经过验证的技术，吸取了 EDF 燃气机组最新的反馈经验 , 以 " 交钥匙 " 模式承担工程的建设，和参与电厂的运行。	该厂容量为 715 兆瓦，该厂 2005 已年于 2 ~~2005年~~ 月初 2月投入它运行已。被这证明一项目的经验汽轮机，采用最后了返回最新建造经过验证的 ~~EDF~~ 技术最，新吸取的了涡轮机 EDF 和燃气电厂机组保证最新了的技术反馈建设经验和 , 交付以 “ " 交钥匙 ” " 模式承担工程的建设，现在和参与其电厂运作的运行。
29	Le développement de l'énergie nucléaire est un enjeu majeur pour la Chine et le reste du monde dans le cadre de la préservation de l'environnement et de la réduction de l'effet de serre.	核电的发展是中国和重大问题世界保护环境，减少温室效应的范围内。	发展核能对中国和世界都具有非常重要的意义，是保护环境和减缓温室效应重要的途径。	发展核能核电对的中国发展和是世界中国都和具有重大非常问题重要世界的意义，是保护环境，和减少减缓温室效应重要的范围途径内。

Le Tableau 41présente les statistiques des données de test. Ensuite, nous avons continué à post-éditer des résultats de TA, mais plus ceux de GT : nous avons continué à mettre dans notre MT les résultats de GT, mais nous avons post-édité les résultats de nos systèmes, puis réinjecté ces nouvelles cibles comme des « références » dans le processus d'apprentissage, etc.

Tableau 41 : Statistiques des données de test

Nb de segments	Nb de mots Par segment (source)	Nb de p.std (source)	Nb de caractères par segment (cible)	Nb de p.std (cible)	Tpe_p.std
300	26,1	31,32	28,3	21,2	6,2 mn

Nous traduisons les segments source avec 3 systèmes, GT, système de TA entrainé avec le corpus MultiUN (2M bisegments), et notre système combiné. Les segments post-édités sont utilisés comme les références. Les scores BLEU des systèmes de TA sont montrés dans le Tableau 42, et avec un exemple de traduction.

Tableau 42 : Score BLEU et exemples de sorties de systèmes de TA

Système	BLEU	Source : Être un leader du renouveau du nucléaire dans le monde Référence : 成为全世界核能复兴的领导者
GT	37.86%	Traduction	作为世界核复兴的领导者
		Trace	成为全世界作为核能世界核复兴的领导者
Système de TA (MultiUN)	21,52%	Traduction	受教育复兴和体面工作问题的一个世界核
		Trace	成为全世界受核能教育复兴和体面工作问题的领导者一个世界核
Système de TA (MultiUN+MT)	49,37%	Traduction	成为一个全球核电复兴的引领者
		Trace	成为全世界一个核能全球核电复兴的领导者引领者

Conclusion

Nous avons essayé de créer un système de TA français→chinois en utilisant le corpus MultiUN et la MT, traduisant le contenu dans le domaine de l’énergie.

Au début, nous nous sommes limité à ces ressources (très peu de corpus français-chinois, en particulier, le corpus français-chinois adapté au domaine) pour construire un système de TA statistique avec Moses. La traduction de TA est “incompréhensible”.

Ensuite, nous avons testé les systèmes existants comme GT, mais le résultat n’était pas satisfaisant. Pour construire un système ayant une qualité de traduction acceptable, nous avons commencé à construire un corpus parallèle spécialisé à notre domaine. Nous avons collecté et extrait des segments parallèles à partir de sites Web, mais la quantité de segments parallèles n’était toujours pas suffisante. Nous avons alors créé des iMAG pour des sites Web correspondant à notre sujet, et nous les avons post-édités. Les résultats de TA ont été fournis d’abord par GT, puis par notre système de TA basé sur Moses, en construction. Nous avons obtenu plusieurs milliers de segments parallèles.

Enfin, nous avons construit un système de TA français→chinois avec un corpus “mixé” (corpus extrait et MT), et la qualité de traduction s’est enfin acceptable. Notre hypothèse est que nous pourrions arriver à une qualité vraiment bonne si nous avions non pas 9000, mais entre 30000 et 50000 segments. Nous n’avons pas eu les ressources suffisantes pour la tester, et espérons trouver une situation le permettant dans le futur.

[2] http://en.wikipedia.org/wiki/Comparison_of_machine_translation_applications

[3] ROI = Return On Investment, ou "retour sur investissement"

[4] Essentiellement, par l'ODA (Overseas Development Agency) du METI.

[6] http://nlp.stanford.edu/software/segmenter.shtml

[7] http://joshua-decoder.org/6.0/pipeline.html

[8] http://www.nlplab.com/NiuPlan/NiuTrans.YourData.html

[12] http://www.xrce.xerox.com/About-XRCE/History/Historical-projects/XeLDA

[14] Quand nous et d'autres Chinois qui nous aident post-éditons, nous notons l'heure au début et à la fin d'une session, et aussi l'ensemble des segments post-édités durant la session. Nous en tirons un temps total moyen. Nous faisons l'hypothèse (qui semble vérifiée) que les temps sont proportionnels aux nombres de mots, et une simple règle de trois nous donne alors Tpe_tot pour chaque segment.