Chapitre IV          Revue des systèmes TA français ↔ chinois en contexte industriel

Résumé

Ce chapitre présente une revue des systèmes de TA, directs ou passant par l'anglais, permettant de traduire entre chinois et français, ainsi que certains besoins dont nous avons eu connaissance à l'occasion de notre activité dans L&M.

Introduction

Beaucoup d’entreprises ont besoin de systèmes de TA français↔chinois pour aider à traduire des documents français ou des documents chinois. Elles demandent que le système de TA soit privé, et que la traduction soit vraiment fiable (pour leur sous-langages), même si la fluidité n’est pas parfaite. Pour pouvoir arriver à cela, nous avons commencé par passer en revue l'histoire du développement des systèmes de TA concernant le chinois, depuis les tout premiers travaux en Chine (dès 1957). Nous avons ensuite comparé 4 systèmes de TA opérationnels et disponibles sur le Web ou sur des serveurs privés sur la paire de langues français↔chinois. Aucun de ces systèmes n’est satisfaisant dans ces contextes, car (1) ou bien l’information « sort » de l’entreprise, (2) ou bien les licences en intranet sont trop chères, et (3) de toutes façons, la qualité des TA brutes est jugée insuffisante, et il n’y a pas moyen de l’améliorer en spécialisant le système au sous-langage concerné.

Après avoir présenté la demande de grosses sociétés et un état de l'art des systèmes actuels dont on peut penser qu'ils pourraient être utilisés par ce type de société (ou d'organisme) de façon opérationnelle, nous décrivons les travaux réalisés à L&M pour construire des systèmes de TA pour le chinois basés sur Moses, utilisables à terme par des clients potentiels.

IV.1      Demande de grosses sociétés

Lingua et Machina édite une application Web de gestion des contenus multilingues en entreprise appelée Libellex[1]. Cette plate-forme intègre divers outils d'aide à la traduction (concordances bilingues, outils d’extraction et de gestion de terminologies, mémoires de traductions, systèmes de traduction automatique et outils de gestion de projets de traduction).

Les entreprises clientes de L&M, comme EDF et Renault, ont des filiales en Chine. Il y a beaucoup d’échanges internes aux entreprises entre la France et la Chine, comme les courriers électroniques, les comptes rendus, et les rapports. Ces textes doivent être traduits (en français ou en chinois), et pas en anglais, langue dans laquelle ni les uns ni les autres ne sont à l’aise.

Ces textes, et en particulière les rapports, contiennent généralement beaucoup de termes spécialisés. Dans de tels contextes, recourir à des traducteurs humains n’est pas une option, même si on avait de très bonnes mémoires de traductions. Il faudrait en effet qu’ils soient excellents et compétents dans la terminologie des domaines concernés, et donc très chers. Mais, de toutes façons, on n’arriverait pas à satisfaire la demande de « temps réel », et on n’a en réalité pas besoin de traductions de qualité professionnelle. Il suffit qu’elles soient assez compréhensibles et fiables, et surtout qu’on puisse améliorer « en ligne » celles qui contiennent des contresens et de faux termes.

Pour certains textes quotidiens comme les courriers électroniques et les réunions à distance, on a simplement besoin d’une traduction « compréhensible » et en temps réel, mais pas d’une traduction parfaite.

Les entreprises clientes ont besoin d’une solution moins chère, plus rapide, et donc automatisée, mais les systèmes existants ne sont pas satisfaisants. Tout d’abord, l’information privilégiée de l’entreprise est considérée comme secrète, confidentielle. On ne peut donc pas utiliser les systèmes publics comme GT, parce que l’entreprise ne veut pas divulguer des informations propriétaires. Ensuite, un système de TA français-chinois commercial, comme Systran Enterprise Server, est très coûteux (15000€[2] pour déployer une instance de Systran Enterprise Server 7 chez un client). Enfin, la qualité de traduction pour la paire de langues français↔chinois n’est pas suffisante. Le résultat de la TA est souvent incompréhensible.

Pour obtenir un système de TA dont le résultat brut (non post-édité) est jugé comme « suffisant » par une entreprise cliente potentielle de L&M, la seule solution est de « personnaliser » son système de TA français-chinois, et cela quel que soit le paradigme de TA utilisé. En ce qui concerne L&M, le choix s’est porté vers le paradigme de la TA statistique, et sur le développement à l’aide de l’outil Moses.

IV.2      État de l'art de la TA du chinois

La recherche sur la TA du chinois a commencé depuis la deuxième moitié des années 1950. Les chercheurs se sont concentrés principalement sur les 4 paires de langues chinois↔anglais et chinois↔russe, mais il n’y pas eu alors de recherches sur les 2 paires français↔chinois. La première expérience concernant à la fois le français et le chinois a été faite par le professeur Feng Zhiwei en 1981-82 sur une maquette chinoisfrançais/anglais/allemand/japonais en Ariane-78 (Feng, 1981).

Les éditeurs de systèmes de TA qui proposent le couple français↔chinois utilisent l’approche dite du « pivote textuel », c’est-à-dire qu’ils appliquent successivement les « paires » français↔anglais et anglais↔chinois, en utilisant l'anglais comme "pivot textuel". Mais les résultats sont bien pires que ceux déjà jugés très peu satisfaisants obtenus avec l’anglais.

La section IV.2.1 propose un rapide historique de la recherche sur la TA du chinois, et dans la section IV.2.2, nous testons quatre systèmes de TA qui proposent la paire de langues français↔chinois. 


IV.2.1      Historique  

La Chine est le quatrième pays qui s’est lancé dans la traduction automatique (TA), à la suite des Etats-Unis (en 1951), du Royaume-Uni (1955), du Canada (Booth à Saskatoon, venant d'Angleterre) et de l'Union soviétique (1954, Lyapunov et Bagrinovskaya, Novosibirsk). En 1959, des chercheurs de l'Institut de technologie de l'informatique et de l'Institut de linguistique de l'Académie Chinoise des Sciences (ACS, 中国科学院, Chinese Academy of Sciences) menèrent la première expérience de traduction automatique en russechinois.

Le plus important des projets de TA chinoisanglais a commencé à l'Université d'État de l'Ohio en juillet 1961. C’était un projet de recherche mis en place avec le soutien de la « National Science Foundation » (NSF) sous la direction de William S. Y. Wang. Au milieu des années 1960, Wang rejoignit le groupe de Berkeley et continua sa recherche dans le cadre du projet POLA, toujours sur la TA chinoisanglais.

En même temps, le centre de recherche d'IBM à Yorktown travaillait sur un système chinoisanglais, fonctionnant sur les mêmes principes que le système russeanglais, et utilisant aussi le tout nouveau et très fameux disque photoscopique (King and Chang, 1963). 

En 1972, l’Université chinoise de Hong-Kong (香港中文大学, Chinese University of Hong Kong) proposa le système CULT (Loh and Kong, 1979), développé pour traduire des textes mathématiques du chinois vers l’anglais. Les résultats étaient très bons, grâce à une importante pré-édition manuelle.

Au début des années 1980, de nombreux instituts et universités ont été impliqués dans des recherches sur la TA. L’Institut de Technologie de Harbin (ITH, 哈尔滨工业大学, Harbin Institute of Technology) et l'Université du Nord-Est (UNE, 东北大学, Northeastern University) ont commencé leur recherches sur des systèmes de TA chinois↔anglais au milieu des années 1980. De plus, l'Université de Nankin (南京大学, Nanjing University) a commencé une recherche sur la TA japonais↔chinois durant cette période.

Pendant les années 1980, il y a eu une très grand activité commerciale au Japon, et au moins 30 sociétés informatiques (comme Fujitsu, Hitachi, NEC, Sharp, Toshiba, etc.) ont développé des logiciels de TA pour japonais↔anglais. Certains, notablement Fujitsu (avec ATLAS-II dû à H. Uchida), ont développé de gros prototypes pour d’autres langues, dont le chinois, mais ne les ont pas commercialisés à l’époque, car seul le couple anglais-japonais semblait pouvoir apporter un ROI[3] réel.

En 1987-93, beaucoup d’instituts et d’universités chinois ont aussi participé au projet « Joint study for Multilingual Machine Translation », qui a été financé par le gouvernement japonais[4], et visait à un objectif ambitieux : produire un système de TA à « pivot » sémantique de haute qualité sur le modèle d’ATLAS-II pour cinq langues asiatiques (japonais, chinois, thaï, malais et indonésien) et l'anglais.

Durant la période 1980-2005, tous les systèmes de TA adoptèrent approche "experte" à base de règles, tandis que certains d'entre eux utilisaient aussi une approche à base d’exemples comme complément.

Il y a trois systèmes très connus : (1) MT-IR-EC, un système de TA anglaischinois pour traduire les titres et les catalogues des journaux, développé par le Research Institute of Post and Telecommunication Science, (2) KY-1, un système de TA anglaischinois développé par l'académie des sciences militaires, qui est aussi le cœur du premier système commercial de TA, TranStar (Dong, 1990), et (3) Huajian, un système de TA chinoisanglais développé par Huajian Co. Ltd.  

De 1995 à 2005, beaucoup d’équipes de recherche et d’entreprises ont publié des systèmes de TA, comme GaoLi (GaoLi Co. Ltd), CCID (CCID Group), et Kingsoft Quick Translation (Kingsoft Co. Ltd). 

La recherche sur la TA statistique a commencé en Chine à partir de 2004-2005. En 2006, cinq équipes de recherche (l'Institut de technologie de l'informatique de l’ACS, l'institut d’Automatique de l’ACS, l’Institut du logiciel de l’ACS, l’Université de Xiamen et ITH) ont publié un système de TA statistique en source ouvert, Silk Road (Silkroad, 2006). En 2011, UNE a publié un nouveau système de traduction automatique en source ouvert, NiuTrans (Xiao et al., 2012).

Aujourd'hui, beaucoup de systèmes de TA proposent le couple français↔chinois, comme GT, Systran, Reverso, Bing, etc., mais il est difficile de trouver un système de TA français↔chinois de qualité d’usage correcte, sans doute car ils passent presque tous par l'anglais (« pivot textuel »).

IV.2.2      Expérimentations

IV.2.2.1      Systèmes étudiés

Nous avons fait des expériences sur quatre systèmes de TA françaischinois pour évaluer la qualité de TA. Nous avons d'abord testé GT, puis trois systèmes de TA statistique entraînés par les boîtes à outils disponibles en source ouvert (Moses v2.0, Joshua v5.0, NiuTrans v1.3).

Pour la construction des 3 systèmes de TA statistique, nous avons utilisé les mêmes données d’entraînement et les mêmes données de test. Ces données ont été extraites du corpus MultiUN[5] (Eisele and Chen, 2010). Nous avons pris 1M de bisegments fr-zh comme données d’entraînement, 1K comme données de développement (Tuning), et aussi 1K comme données de test. Tous les textes chinois ont été segmentés par le segmenteur Stanford[6] (Chang et al., 2008), et nous avons utilisé le segmenteur de Moses (un script perl tokenizer.perl) pour segmenter le texte français.

Tableau 28 : Statistique sur les données

 

Nb de Segments

Nb de mots français

Nb de caractères français

Nb de caractère chinois

Données d’apprentissage

1M

28 951 255

199 486 574

35 109 257

Données de développement

1K

21 758

151 369

32 165

Données d’évaluation

1K

25 251

176 492

31 752

Notre expérimentation contient 2 étapes. Dans première, nous évaluons les systèmes de TA, par rapport avec le score BLEU. Dans la deuxième, nous utilisons SECTra_w pour nous aider à évaluer les TA à la qualité d’usage du résultat et au degré d'automaticité.

La qualité d'usage et le degré d'automaticité sont obtenus à partir des temps de post-édition en utilisant les formules proposées par C. Boitet dans ses cours au NII (Boitet, 2009).

Tableau 29 : Formule d’évaluation de l’automaticité  et de la qualité d’un système de TA

1. Automaticity (MT module only): (taken from NII lecture notes by Boitet, 2009)

A=

Ex : A = 83,3% if first draft takes 1h per standard page (of 250 words or 1550 characters) and human interaction takes 10 mn/page (minutes per page).

2. Quality (wrt HT) in %

Ex :

est le temps moyen de traduction humain  par page, estimé dans la tâche en cours. Sans plus d’information, on l’évalue à 60 mn.

IV.2.2.2      Expérimentation avec GT

Depuis 2007, GT fournit un service de traduction français↔chinois. Dans cette expérience, nous avons traduit un texte du français vers le chinois en utilisant GT. Le texte en entrée source contient 1K phrases françaises du corpus MultiUN. Dans le Tableau 30, nous montrons 3 phrases extraites de ces 1K. Les références ont été produites par nous (par PE).

Tableau 30 : Exemple de traduction de GT

ID

Segment

Traduction de GT

Référence

Trace

1

Le Secrétaire général souhaite vivement que le plan-cadre d'équipement soit achevé d'ici à la mi-2014 et le nécessaire sera fait pour atteindre cet objectif, en contrôlant bien la portée du projet, en effectuant rapidement les réinstallations et en suivant de très près chaque activité de sorte qu'elle soit réalisée dans les délais prescrits.

秘书长 真诚 希望 , 基本建设 总 计划 通过 2014 年 中期 完成 , 必要 的 工作 将 实现 这 一 目标 , 控制 项目 的 良好 范围 , 迅速 进行 搬迁 及 以下 非常 接近 每个 活动 , 使 其 上 进行 的 时间 。

秘书长 的 坚定 目标 是 , 到 2014 年年 中 完成 基本建设 总 计划 , 并 将 通过 控制 规模 、 加快 搬迁 和 加紧 监测 每 项 活动 的 时间表 , 全力 实现 这 一 目标 。

 

 

书长 书长 希望 基本建 2014 年年 2014 完成 基本建 中期 完成 必要 工作实现 控制 良好 加快 搬迁 迅速 监测 搬迁 以下 非常 接近 时间 每个 使 全力 实现 时间

2

Au cours des six dernières années, la Commission s'est engagée dans des négociations complexes concernant ce projet, qui ne sera réalisé au mieux et dans les limites du budget imparti que si le financement est rapide.

在 过去 的 六 年 里 , 该 委员会 已 从事 有关 项目 复杂 的 谈判 , 这 将 是 最 好 的 实现 , 并 在 规定 的 预算 范围 内 , 如果 资金 是 快速 的 。

过去 六 年 来 , 本 委员会 就 该 项目 进行 了 复杂 的 谈判 。 这个 项目 必须 及时 获得 资金 , 才 能 有效 运作 不 超出 预算 。

六 年 从事 有关 实现 有效 运作 超出 如果 快速

3

Afin de garantir que la Commission réponde aux attentes et marque une réelle différence au Burundi, tous ceux qui sont impliqués doivent examiner la meilleure façon de soutenir la mise en œuvre des engagements identifiés en tenant compte des différences dans les capacités et l'expertise.

为 确保 满足 委员会 的 期望 , 并 在 布隆迪 的 一个 真正 的 区别 , 所有 参与 应 考虑 如何 最 好 地 支持 确定 的 承诺 的 执行 情况 , 同时 考虑 到 在 能力 和 专业 知识 的 差异 。

为了 确保 委员会 不负众望 , 给 布隆迪 带来 切实 的 变化 , 所有 相关 方 都 必须 考虑 如何 才 能 最 好 地支 助 承诺 的 执行 , 并且 铭记 各方 在 能力 和 专门 知识 方面 的 差异 。

确保 众望 期望 布隆迪 一个 真正 , 所有 参与 相关 如何 最 好 地支 支持 确定 情况 并且 铭记 各方 在 能力 和 专业 专门 方面 的 差异 。

Le score BLEU de GT est 38.25%.

IV.2.2.3      Expérimentation avec Moses

Moses (Koehn, Hoang et al., 2007) propose l’ensemble des outils nécessaires à la construction d’un modèle de traduction. Un décodeur permet aussi d’utiliser ces outils afin de produire la traduction d’un texte source. C'est un outil sous licence libre.

Tout d’abord, nous calculons des alignements de mots en utilisant GIZA++ (Och, 2003), qui implémente les algorithmes des modèles IBM 1-5 (Brown et al., 1993) et HMM (Vogel et al., 1996). On utilise les alignements pour construire la table de traductions. Enfin, un modèle de réordonnancement est construit, contenant les informations sur les positions dans les phrases des mots traduits par rapport aux mots traduits précédemment. Le modèle de langue est construit à l’aide de l’outil IRSTLM (Federico et al., 2008).

La construction de le système de TA Moses a pris 15 heurs (15h 32mn) pour finir la procédure d’entraînement (du prétraitement jusqu'à l’évaluation BLEU), Le score BLEU est 36,72%.

IV.2.2.4      Expérimentation avec Joshua

Joshua (Li et al., 2009) est un décodeur développé d’abord pour utiliser le modèle hiérarchique. Il est accompagné de l’ensemble des outils nécessaires à son fonctionnement : alignement (avec GIZA++), construction de la table de traductions, décodage, optimisation des poids, minimisation d’erreur, et calcul du modèle de langue cible. Depuis la version 6, il supporte le modèle à fragments (chunks). Il intègre un segmenteur du chinois, et on utilise donc son script pipeline.pl[7] pour entraîner le système de TA. Joshua demande d’écrire les paramètres dans un fichier de configuration. Les paramètres sont dans Tableau 31.

Tableau 31 : Paramètres de configuration de Joshua

$JOSHUA/scripts/training/pipeline.pl    // le script de pipeline

--rundir 1M    //le répertoire de travail

--source fr    // langue source

--target zh    // langue cible

--corpus 1M/train/train  // données d’entrainement

--tune 1M/tune/tune // données de développement

--test 1M/test/test // données de test

--lm-order 5 

--aligner giza

La construction du système Joshua a pris 18 heures (18 h 12mn) pour la procédure d’entrainement (du prétraitement jusqu'à l’évaluation de BLEU). Le score BLEU est 32,18%.

IV.2.2.5      Expérimentation avec NiuTrans

NiuTrans (Xiao, Zhu et al., 2012) est une boîte à outils en source ouvert permettant d’entrainer un système de TA statistique. Il est développé en C++ par l’UNE (东北大学). Actuellement, NiuTrans supporte déjà le modèle syntagmatique (PBMT) et le modèle hiérarchique.

Pour adapter des données à NiuTrans, tout d’abord, on doit prétraiter les données. Nos données sont d’abord segmentées en mots (tokenisation) par le segmenteur Stanford. Ensuite, on utilise les scripts perl, fournis par NiuTrans, pour normaliser les segments[8]. Enfin on produit le fichier aligment.txt[9].

Après la préparation des données, nous avons pris 10 heures (10 h 37 mn, sans compte le temps d’alignement) pour entraîner le système. Nous avons obtenu un score BLEU de 33,19%.

IV.2.2.6      Description du résultat

Pour la comparaison de la qualité de traduction des systèmes de TA, nous avons entraîné les systèmes de TA dans ces mêmes conditions (les outils, les données et le matériel, sauf pour GT). Nous prenons en compte le temps d’entrainement, et le score BLEU. Le système de TA construit avec Moses a la meilleure qualité de traduction parmi les systèmes de TA. C’est sans doute, grâce au corpus d’entrainement adapté au même domaine qu’il est un peu mieux que GT.

Le score BLEU n’est en pratique pas bien corrélé à la qualité d’usage de la TA. Pour l’évaluer, nous ajoutons les segments source et les résultats de TA dans SECTra_w, puis nous post-éditons et calculons la distance de post-édition. Dans le Tableau 32, nous montrons un exemple de résultat de TA, et nous pouvons voir la « Trace » du calcul de distance entre la référence et le résultat de TA.

Tableau 32 : Comparaison d'exemples de traductions obtenues par TA et d'une référence

Source

le Secrétaire général souhaite vivement que le plan - cadre d ' équipement soit achevé d ' ici à la mi - 2014 et le nécessaire sera fait pour atteindre cet objectif , en contrôlant bien la portée du projet , en effectuant rapidement les réinstallations et en suivant de très près chaque activité de sorte qu ' elle soit réalisée dans les délais prescrits .

Reference

秘书长 的 坚定 目标 是 , 到 2014 年 年 中 完成 基本建设 总 计划 , 并 将 通过 控制 规模 、 加快 搬迁 和 加紧 监测 每 项 活动 的 时间表 , 全力 实现 这 一 目标 。

Google

秘书长 真诚 希望 , 基本建设 总 计划 通过 2014 年 中期 完成 , 必要 的 工作 将 实现 这 一 目标 , 控制 项目 的 良好 范围 , 迅速 进行 搬迁 及 以下 非常 接近 每个 活动 , 使 其 上 进行 的 时间 。

Trace (PE vers la référence)

书长 书长 希望 基本建 2014 年 中期 完成 基本建 必要 工作 实现 控制 良好 加快 搬迁 迅速 监测 搬迁 以下 非常 接近 时间 每个 使 全力 实现 时间

Moses

秘书长 真诚 希望 这项 框架 计划 的将 于 Mi- 2014年 完成, 并 将 采取 步骤 实现 这 一 目标 , 通过 控制 的 项 目的 范围 , 迅速 重新 安置 或 采取 行动 , 不 影响 的 每 项 具体 活动 进行 规定 时限 内 提出 。

Trace (PE vers la référence)

书长 希望 这项 框架 的将 2014 Mi- 2014年 完成, 完成 基本建 采取 实现 , 控制 目的 加快 搬迁 , 迅速 重新 监测 安置 采取 , 影响 时间 具体 全力 实现 提出

Joshua

秘书长 真诚 希望这项框架 计划 设备 完成 在 这里 , mi 2014 年 之后 、 和 必要 的 工作 将 为 实现 这 一 目标 , 在 控制 两 个 项目 的 范围 、 执行 快速 的 重新 安置 ,  通过 密切 关注 每个 活动 , 在 规定 时限 内 提出

Trace (PE vers la référence)

书长 希望这项框架 设备 完成 , mi 2014 之后 完成 必要 基本建 工作 实现 , 控制 加快 快速 搬迁 重新 安置 监测 , 密切 关注 时间 每个 全力 , 实现 提出

NiuTrans

秘书长 强烈 希望 计划 框架 的 设备 或 已 完成 的 在 2014 年 Mi 必须 将 实现 这 一 目标 , 通过 检查 影响控制 两 个 项目 的 范围、执行 的 快速 的 重新 安装 密切 注视 活动 , 实现 的 规定 时限 。

Trace (PE vers la référence)

书长 希望 框架设备 完成 2014 年 Mi 完成 实现 基本建 , 检查 控制 影响控制 加快 搬迁 监测 快速 重新 安装 时间 密切 全力 , 实现

Dans l’Annexe 8, on donne 50 segments en « vue SECTra/Post-édition », montrant pour chaque segment le texte source, la PE, et les TA en mode « Trace ». Voici un exemple de résultat d’évaluation sur le segment présenté dans le Tableau 33.

Tableau 33 : Exemple de résultat d'évaluation

Mots

TA

TPE

TPE/p.std

DistPE (α=0,2 ; ß=0,8)

Q

53

Google

127s

16,0 mn

Dc: 112 ; Dw: 60 ; D= 70,4.

68%

Moses

123s

15,5 mn

Dc: 126 ; Dw: 66 ; D= 78

69%

Joshua

153s

19,2 mn

Dc: 137  Dw: 68 ; D= 81,8

61,6%

NiuTrans

142s

17,8 mn

Dc: 117  Dw: 64 ; D= 70

64,4%

Conclusion

Nous avons comparé les 3 systèmes de TA et GT sur le BLEU et la qualité d’usage. Nous avons choisi le “meilleur” système, et il peut traduire les phrases français vers le chinois. Mais la qualité de traduction n’est pas satisfaisante. La qualité est limitée par la taille de corpus, le domaine de traduction, le lexique, etc. Comment construire un système de TA français-chinois en haute qualité ? Pour nous, c’est un vrai défi.

IV.3      Construction de systèmes de TA pour le chinois basés sur Moses en contexte industriel

L'étude précédente nous a montré qu'il n'y avait pas pour l'instant de système français↔chinois pouvant être utilisé tel quel, ou adapté rapidement, pour satisfaire les besoins des grandes sociétés en général, et des clients potentiels de L&M en particulier.

Nous avons donc essayé de construire nous-même un système français-chinois à partir d’une MT correspondant aux besoins d’au moins un client potentiel de L&M. Malheureusement, aucun n'avait de telle MT. Nous en avons donc construit une, mais, faute de ressources (en post-éditeurs), nous n’avons pas pu dépasser 9000 bisegments (dans ce cas, 112500 mots ou 450 pages standard). Les résultats ont été encore pires qu’avec les 4 systèmes étudiés plus haut. Notre hypothèse est qu’il aurait fallu disposer d’une MT d'au moins 30000 à 50000 segments.

IV.3.1      Choix du sous-langage et des couples à traiter

Comme le client potentiel le plus prometteur pour L&M était EDF, nous avons cherché à construire un système pour EDF. C'est une très grosse entreprise spécialisée dans le domaine de l'énergie électrique, qu'elle soit produite dans des centrales nucléaires, hydrauliques, à charbon, à gaz, éoliennes, ou photovoltaïques.

Depuis une quarantaine d'années, EDF est implantée en Chine, où elle a construit des centrales nucléaires, et travaillé avec d'innombrables cadres, ouvriers et ingénieurs chinois. Beaucoup de documents ont été traduits, dans les deux sens, et nous espérions avoir accès à des documents parallèles, ou au moins à de grosses mémoires de traductions, en supposant que des outils comme SDL Trados ou Déjà Vu avaient été utilisés pour produire ces traductions.

Nous comptions bien sûr choisir comme sous-langage objet du système de TA à construire celui correspondant à la MT la meilleure en qualité et la plus grande en volume. Malheureusement, nous n'avons rien pu obtenir du tout. Peut-être ces textes parallèles ou ces MT existent-ils et sont-ils cachés, peut-être n'ont-ils jamais été créés, nous n'en savons rien. Sachant que la traduction n'est presque jamais consolidée dans les comptes des entreprises, et est le plus souvent sous-traitée de manière opportuniste, il est possible que la seconde hypothèse soit la bonne.

Quoi qu'il en soit, en 2013, L&M n'avait pas pu avoir accès à un corpus parallèle ou à une MT d'EDF françaischinois permettant de développer un système de TA, qu'il s'agisse d'un système Moses (il aurait fallu entre 20K et 30K "bons" bisegments) ou d'un système Ariane (à règles et dictionnaires), pour lequel il aurait fallu des corpus parallèles ou comparables de 2K à 3K segments (pour l'étude typologique) et un dictionnaire bilingue de 10K à 20K entrées.

Nous avons alors décidé d'essayer de construire un système Moses à partir d'un corpus parallèle que nous construirions nous-même à partir d'un corpus bilingue le plus "adapté" ou "vraisemblable" possible, puis, s'il était trop petit, à partir d'un corpus monolingue complémentaire que nous traduirions.

Nous savions que les besoins d'EDF étaient dans les deux sens (français↔chinois). Nous nous sommes concentré sur le sens françaischinois, car nous savions que nous pourrions nous-même évaluer et post-éditer les résultats, alors que nous n'avions personne dans notre environnement qui comprenne bien le chinois technique et soit de langue maternelle française.

Cependant, nous avons aussi fait quelques essais en chinoisfrançais, "pour voir", en nous disant que, si les résultats étaient encourageants, nous pourrions peut-être écrire des parties de cette thèse en chinois, les faire traduire par GT ou par notre système, et les faire ensuite réviser par des chercheurs du laboratoire, compensant leur ignorance du chinois par leur connaissance du domaine. Comme on pouvait s'y attendre, cet espoir a été totalement déçu, et nous ne nous étendrons pas sur cet essai.

IV.3.2      Recherche infructueuse de corpus parallèles adaptés

Notre première idée a été d'essayer d'extraire un corpus bilingue françaischinois concernant un des domaines d'EDF à partir des corpus parallèles librement disponibles sur le Web.

La performance d’un système de traduction automatique statistique (TAS) dépend fortement de la taille et de la qualité du corpus parallèle utilisé pour l’entraînement. Les ressources actuelles en corpus parallèles bilingues ou multilingues libres de droits proviennent généralement d’institutions internationales. C’est le cas du corpus « Europarl » (Koehn, 2005) extrait des délibérations du Parlement européen, du corpus « Canadian Hansards », contenant les transcriptions en français et en anglais des débats du Parlement canadien, et du corpus JRC-Acquis qui fournit une quantité comparable de textes législatifs européens en 22 langues (Steinberger et al., 2006). En ce qui concerne le chinois, il y a beaucoup de corpus parallèles anglaischinois et chinoisanglais, notamment celui du journal Xinhua News (Graff et al., 2003), mais très peu de corpus françaischinois.

Or, pour construire un système de TAS françaischinois, il faut disposer d’un corpus parallèle françaischinois (dans le bon sens) pour entraîner les modèles. Nous nous sommes tourné vers le corpus parallèle MultiUN français-chinois, qui a été construit par extraction du site Web des Nations-Unies, puis nettoyé et converti au format XML par Andreas Eisele et Yu Chen (Eisele and Chen, 2010) en 2010. En février 2013, la version alignée de ce corpus a été publiée sur le site Web OPUS[10] (Tiedemann, 2012). Voici les corpus que nous avions pu collecter à ce point (Tableau 34).

Tableau 34 : Corpus collectés en cherchant des corpus pour françaischinois

Nom

Direction

Nb segments

Nb mots
source

Mots fr /
segment

caractères zh /
segment

Mots fr /
caractères zh

MultiUN

en-zh

8,8M

220,4M

24,97

71,31

285,54%

MultiUN

fr-zh

8,7M

243,8M

27,94

71,94

257,33%

Que pouvait-on en espérer ? A priori, peu, car, quand on entraîne un système de TAS avec un tel corpus "généraliste" pour la traduction dans un domaine précis, par exemple l’énergie, on obtient d'habitude de mauvais résultats. Nous avons fait l'expérience, qui a confirmé cette crainte, comme le montrent les exemples de l’annexe XXX.

Nous en avons conclu qu'un système de TA français-chinois entraîné seulement avec le corpus MultiUN ne pourrait pas répondre aux besoins des entreprises clientes de L&M. En nous inspirant de publications mentionnant la possibilité de mélanger un petit corpus spécialisé à un grand corpus généraliste, nous avons alors décidé d'essayer cela, et de construire un corpus parallèle français-chinois spécialisé au sous-langage des notes techniques et des courriels concernant le domaine de l'énergie.

Pour cela, nous sommes parti des sites Web d'EDF en France et en Chine, car nous avons remarqué qu'ils contiennent beaucoup de segments français et chinois presque parallèles.

Nous avons extrait des textes français et chinois à partir de ces sites Web à l’aide de l'outil Boilerpipe (Kohlschütter et al., 2010). Mais ces textes ne peuvent pas être utilisés tels quels pour entraîner un système de TA, il faut d’abord les segmenter, les nettoyer, les aligner, et enfin extraire des bisegments réellement parallèles (en relation de traduction).

Tout d’abord, nous avons débruité les textes, en supprimant les segments inutiles comme les liens (par exemple, http://…), les chiffres, les dates, etc.

Ensuite, nous avons normalisé l'encodage des caractères en transformant tout en UTF-8 (certains textes français étaient en codage ASCII Mac ou Windows, et les textes chinois étaient le plus souvent en GB-2312-80).

Après avoir nettoyé le "bruit", nous avons procédé à l’alignement au niveau des segments (phrases ou titres) en utilisant l’outil LF Aligner[11]. Nous avons finalement obtenu un corpus parallèle d'environ 3K bisegments. Un extrait en est donné à l’Annexe 9.

Cette petite quantité de données n'est pas suffisante pour entraîner un système Moses, mais, mélangée à ce que nous avions extrait de MultiUN,  elle a suffi pour améliorer un peu le système de TA, en lui faisant apprendre des termes comme « le noyau des atomes », « l'hydraulique », « le charbon propre », etc.

IV.3.3      Production de corpus par PE de résultats de Google

Pour augmenter la quantité des données d’entrainement, nous avons construit une MT par post-édition des sorties de la 1ère version de notre système. C’est un bon moyen de produire des MT de bonne qualité (Wang and Boitet, 2013).

Pour post-éditer plus vite et mieux, nous avons utilisé la plate-forme SECTra_w/iMAG. Nous avons divisé notre MT en domaines, comme les nouvelles, les reportages et les pages Web de Wikipédia. Nous avons transformé tous les textes monolingues en des fichiers html, nous les avons placés dans une hiérarchie de fichiers mise sur le serveur du laboratoire, et nous avons créé une iMAG dédiée à ces fichiers.

Les prétraductions ont été fournies par GT. Après la post-édition, nous avons sélectionné, pour construire notre MT, les bisegments que nous estimions adaptés à notre besoin. Cette sélection était basée sur le niveau de fiabilité (d'une étoile "" à cinq étoiles "☆☆☆☆☆") et sur la note de qualité (de 0 à 20) associés à chaque segment et à chaque langue cible dans la MT. Le prédicat de sélection était:

(fiab = 3 && score ≥ 12) || (fiab = 4 && score ≥ 11) || (fiab = 5 && score ≥ 10)

Nous avons finalement obtenu 6000 segments parallèles. En les ajoutant aux 3000 segments parallèles extraits à partir des sites Web d’EDF, nous avons au total collecté 9000 bisegments (environ 450 pages standard) de qualité suffisante pour construire un système. Cependant, nous n'avons pas de garantie que ce "noyau" représente bien le sous-langage, qui pour nous reste inconnu et inconnaissable, des notes techniques d'EDF sur l'énergie (Tableau 35).

Tableau 35 : Exemples de bisegments françaischinois parmi les 9000 collectés ou produits

Français

Chinois

Charbon propre

清洁煤发电

EDF Asie

EDF 亚洲

Activités

业务概览

Charbon propre

洁净煤

En Chine, le charbon représente près de 80% de la production d'électricité et devrait continuer d'occuper une place majoritaire dans l'avenir (plus de 60 % à l'horizon 2020).

中国煤电约占全国总发电量的 80%,今后还会继续占有主导地位(预计2020年占60%以上)。

Pour limiter les impacts sur l'environnement, la Chine développe des centrales à charbon à haut rendement moins polluantes. En s'appuyant sur ses compétences d'ingénierie, EDF prend part à ces projets. Ils permettent au Groupe de consolider et de développer son expérience pour faire face aux besoins qui pourraient émerger en Europe dans l'avenir.

为了减轻煤电对环境的影响,中国致力于发展高效、低污染的燃煤电厂。法国电力集团以专业技能为依托,参与中国洁净煤火电项目。通过参与项目建设,法国电力集团将巩固和发展其火电技术,应对欧洲未来可能出现的需求。

EDF a signé plusieurs accords de coopération avec des producteurs nationaux d'électricité, portant sur le développement conjoint de projets électriques, par exemple les Groupes de Trois Gorges, Guodian, Datang, etc.

法国电力集团已与国电、三峡集团、大唐等多家国有大型电力公司签署了多项电力合作协议。

French Investment Guangxi Laibin Electric power Co (FIGLEC) - Chine est une filiale à 100 % du groupe EDF. La société est propriétaire de la centrale de Laibin B (d'une puissance de 720 MW), exploitée par SYNERGIE, aussi filiale d'EDF.

广西来宾法资发电有限公司是法国电力集团的全资子公司,拥有两台单机容量为360 兆瓦的机组,总装机容量720兆瓦。

IV.3.4      Construction de systèmes françaischinois

IV.3.4.1      Composants

Nos systèmes de TA sont construits avec Moses, qui fournit des outils optimisés pour réaliser l'entraînement, mais qui ne contient pas d’outil pour traiter le chinois. À L&M, nous disposions aussi de la boîte à outils MYRIAM, qui intègre le segmenteur du chinois de XeLDA[12] (Xerox Linguistic Development Architecture), et un programme java pour normaliser les phrases. Pour l’alignement des mots, nous avons utilisé l’outil MGIZA (Gao and Vogel, 2008), qui propose une implémentation efficace et parallèle de GIZA++.

IV.3.4.2      Paramétrisation et construction de 2 modèles de TAS

Les paramètres de ces systèmes ont été optimisés de manière usuelle avec l’outil MERT (Minimum Error Rate Training) (Och, 2003). Les traductions produites sont évaluées avec la mesure BLEU (Bilingual Evaluation Understudy) (Papineni et al., 2002), ainsi qu'avec notre « distance mixte de PE » (mTER), qui est bien corrélée à la qualité d’usage.

Nous avons ainsi défini deux modèles. L’un est un modèle générique qui est entraîné avec le corpus parallèle MultiUN, et l’autre est un modèle spécifique entraîné avec notre mémoire de bisegments post-édités. Quand on a de nouveaux segments post-édités, on n’a pas besoin de réentraîner le modèle avec toutes les données. On met seulement à jour le modèle spécifique. C'est très utile dans le cas où l’on a un très gros modèle générique qu'on souhaite utiliser dans un nouveau système, sans avoir à le réentraîner.

Tableau 36 : Comparaison des temps d’entraînement de Moses

Système de TA

Quantité de données

Temps d’entraînement

Temps du réentraînement

avec 10K nouveaux bisegments

Un modèle

2M+9K bisegments

17 h 35mn

19 h 21mn

Modèle générique

2M+9K bisegments

13 h 10mn
(10h30+2h40)

2 h 40mn

Modèle spécifique

Nous avons ajouté 10K nouveaux bisegments, puis comparé les temps du réentraînement. Notre stratégie est de gagner 86,2% du temps sur le réentraînement avec 10K nouveaux segments. Le Tableau 37 présente les caractéristiques du serveur utilisé pour l'expérimentation.   

Tableau 37 : Configuration de la machine

Nombre de processeurs

4[13]

Nombre de cœurs par processeur

2

Thread

4

Mémoire

8G

IV.3.4.3      Choix des données pour le modèle général

Le corpus MultiUN français-chinois contient 9,7 M de phrases parallèles, composé d'environ 300 millions de mots français et environ 600 millions de caractères chinois, soit environ 315M mots du dictionnaire). Ce corpus contient des segments composés de chiffres, de numéros, ou encore de dates ; ces segments ne sont pas utiles pour notre système. Nous les avons donc éliminés. À la fin, il nous restait environs 8,3 M bisegments.

Nous n’avons pas utilisé tout le corpus pour entraîner le modèle générique, parce que nous avons d'abord fait une expérience pour trouver la quantité appropriée des segments. Nous avons testé l’entraînement du système Moses français-chinois avec des quantités différentes (1M, 2M, 3M, 4M, et 5M) de bisegments, et calculé le score BLEU pour chacune de ces quantités. Les résultats sont présentés dans le tableau ci-dessous (Tableau 38). Les scores de 2M vers 5M sont égale les mêmes. On prend en compte le temps d’entrainement, et on choisit 2M bisegments pour entraîner le modèle générique.

Tableau 38 : Scores BLEU pour différentes tailles du corpus d'entraînement

Nombre de bisegments

BLEU

Temps d’entrainement

1M

49,78%

16 h

2M

52,48%

18 h

3M

52,25%

21 h

4M

54,31%

32 h

5M

55,52%

42 h

Nous avons prétraité les bisegments (le corpus MultiUN et la MT) en utilisant MYRIAM. Plus précisément,

·    nous avons d'abord normalisé les segments (en convertissant les entités HTML, en séparant les ponctuations, et en ôtant la casse).

·    nous avons ensuite utilisé XELDA pour marquer les segments français et chinois.

IV.3.4.4      Construction de systèmes de TA

Nous avons entraîné le modèle général construit uniquement à partir du corpus MultiUN (2M). Le tableau ci-dessous montre quelques chiffres concernant ce corpus.

Tableau 39 : Statistiques sur le corpus MultiUN

 

Français

Chinois

Segment

2M

Mots

58M

50M

Caractères

398M

90M

Pages_std

38K

226K

Le modèle de traduction est entraîné sur 2M segments tirés de MultiUN. La partie cible du corpus a été utilisée pour produire un modèle de langue. Dans cette partie de l’entraînement, nous avons sauté l’étape usuelle d'optimisation des poids (tuning). Elle a été utilisée plus tard, pour construire un autre système, en association avec des modèles plus spécialisés.

Nous avons entraîné le modèle spécifique avec notre MT (9000 bisegments français-chinois), et collecté 1,7M segments monolingues chinois pour produire le modèle de langue cible.

Les paramètres utilisés ont été les mêmes que ceux utilisés pour l’entraînement du modèle général, sauf que nous avons utilisé la phase d’optimisation des poids (tuning).

Pour construire un système d'essai en chinoisfrançais, nous avons utilisé les mêmes données à l'envers, en faisant comme si, étant donné un couple ($fr, $zh) de segments tels que $zh=trad($fr), on avait aussi $fr=trad($zh)). Nous savons pertinemment que c'est faux (la relation de traduction entre phrases n'est pas symétrique), mais… c'était "mieux que rien", puisque nous n'avions personne qui puisse post-éditer des résultats de TA zhfr.  

IV.3.5      Évaluations et perspectives

Pour évaluer la progression de notre système de TA "vers une cible" (pour chaque segment post-édité, la cible est sa post-édition), nous avons calculé le score BLEU pour chaque système de TA. Certes, BLEU ne mesure pas la "qualité" (ni au sens de qualité linguistique, ni au sens de qualité d'usage), et ne peut pas la mesurer, comme cela a été montré dans le fameux article d'Osborne, Callison-Burch et Koehn (Callison-Burch et al., 2006) "Re-evaluating the Role of BLEU in Machine Translation Research". Mais BLEU exprime bien une similarité textuelle, et peut être "raisonnablement" utilisé pour évaluer la progression d'un système vers une certaine "cible". Pour cela, il vaut d'ailleurs mieux n'avoir qu'une seule cible ("traduction de référence") par segment source, plutôt que 5, 10 ou 15 dans certaines campagnes d'évaluation. Notons que BLEU donne une mesure globale et ne donne vraiment pas d'indication fiable au niveau des segments individuels.

Nous évaluons aussi la qualité d'usage à partir du temps de post-édition (en minute par page, mn/p). Comme SECTra associe un chronomètre à chaque segment, nous disposons du temps primaire de post-édition, Tpe_1, pour chaque segment édité à travers cette interface. Nous disposons aussi du temps total de post-édition, Tpe_tot, pour des sessions de post-édition[14]. Nous pouvons en déduire, pour chaque segment, le temps total Tpe_tot ainsi que le temps secondaire de post-édition, Tpe_2, qui correspond au temps passé à chercher des équivalents dans les lexiques et bases terminologiques, ou à communiquer avec d'autres personnes pour trouver une bonne traduction d'une expression "hors dictionnaire". Typiquement, ce temps représente les 2/3 ou les 3/4 du temps total en contexte de traduction professionnelle.

Au début, nous avons post-édité 300 segments (Voir un exemple des données de test dans le Tableau 40), du français vers le chinois (à partir des prétraductions fournies par GT), et les avons utilisées comme données de test pour notre évaluation.

Tableau 40 : Exemple de données de test

ID

Segment

Traduction de Google

PE par humaine

                                   Trace

26

Nucléaire : la Chine adopte l'EPR

核电 : 中国 采用 EPR

核电 : 中国 采用 欧洲 压 水 堆 技术

:中国 采用 EPR 欧洲

27

Au Laos, le projet de centrale hydraulique Nam Theun 2 (1070 MW) est porté par la société de projet Nam Theun 2 Power Company (NTPC), dont le groupe EDF est le premier actionnaire avec 40 % des parts. 

在 老挝 , 液压 动力 项目 南 屯 2 ( 1070 兆瓦 ) 支持 的 项目 公司 南 屯 2 电力 公司 ( NTPC ) , 法国 电力 集团 与 40% 的 股权 的 第一 大 股东 。

在 老挝 , 中央 液压 草案 南 屯 2 号 项目 ( 1070 兆瓦 ) 的 支持 , 该 项目 公司 南 屯 2 电力 公司 ( NTPC ) , 法国 电力 集团 是 拥有 40% 股权 的 最 大 股东 。

在 老中央 草案 南 屯 2 ( 1070 兆瓦 ) 支持 目 公司 南 屯 2 力 公司 ( NTPC ) , 法国 力 集 40% 第一 大 股

28

D'une capacité de 715 MW, la centrale a été mise en service en février 2005. Elle bénéficie des technologies éprouvées des turbines les plus récentes, ainsi que des derniers retours d'expérience des centrales à gaz construites par EDF qui en a assuré la construction et la livraison « clé en main » et qui participe maintenant à son exploitation.

容量 为 715 兆瓦 , 该厂 已 于 2005年 2月 它 已 被 证明 的 经验 , 最后 返回 建造 的 EDF 最 新 的 涡轮机 和 燃气 电厂 保证 了 技术 建设 和 交付 交 钥匙 , 现在 参与 其 运作 。

该厂 容量 为 715 兆瓦 , 2005 年 2 月初 投入 运行 。 这 一 项目 的 汽轮机 采用 了 最新 经过 验证 的 技术 , 吸取 了 EDF 燃气 机组 最新 的 反馈 经验 , 以 " 交 钥匙 " 模式 承担 工程 的 建设 , 和 参与 电厂 的 运行 。

容量 715 兆瓦 , 2005 2 2005年 月初 2月 投入 运行 经验 采用 最后 返回 最新 建造 经过 验证EDF 吸取 涡轮 EDF 燃气 最新 经验 , 交付 " " 模式 承担 工程 参与 运作 运行

29

Le développement de l'énergie nucléaire est un enjeu majeur pour la Chine et le reste du monde dans le cadre de la préservation de l'environnement et de la réduction de l'effet de serre.

核电 的 发展 是 中国 和 重大 问题 世界 保护 环境 , 减少 温室 效应 的 范围 内 。

发展 核能 对 中国 和 世界 都 具有 非常 重要 的 意义 , 是 保护 环境 和 减缓 温室 效应 重要 的 途径 。

核能 中国 世界 中国 具有 重大 非常 问题 重要 世界 减少 温室 效 重要 途径

Le Tableau 41présente les statistiques des données de test. Ensuite, nous avons continué à post-éditer des résultats de TA, mais plus ceux de GT : nous avons continué à mettre dans notre MT les résultats de GT, mais nous avons post-édité les résultats de nos systèmes, puis réinjecté ces nouvelles cibles comme des « références » dans le processus d'apprentissage, etc.

Tableau 41 : Statistiques des données de test

Nb de segments

Nb de mots
Par segment (source)

Nb de p.std (source)

Nb de caractères
par segment (cible)

Nb de p.std
(cible)

Tpe_p.std

300

26,1

31,32

28,3

21,2

6,2 mn

Nous traduisons les segments source avec 3 systèmes, GT, système de TA entrainé avec le corpus MultiUN (2M bisegments), et notre système combiné. Les segments post-édités sont utilisés comme les références. Les scores BLEU des systèmes de TA sont montrés dans le Tableau 42, et avec un exemple de traduction.

 

Tableau 42 : Score BLEU et exemples de sorties de systèmes de TA

Système

BLEU

Source : Être un leader du renouveau du nucléaire dans le monde

Référence : 成为 全世界 核能 复兴 的 领导者

GT

37.86%

Traduction

作为  世界    复兴    领导者

Trace

全世界 核能 世界 领导

Système de TA
(MultiUN)

21,52%

Traduction

  教育  复兴    体面  工作  问题    一个  世界 

Trace

全世界 核能 教育 体面 工作 问题领导 一个 世界

Système de TA
(MultiUN+MT)

49,37%

Traduction

成为  一个  全球  核电  复兴    引领者

Trace

全世界 一个 核能 全球 领导

Conclusion

Nous avons essayé de créer un système de TA français→chinois en utilisant le corpus MultiUN et la MT, traduisant le contenu dans le domaine de l’énergie.

Au début, nous nous sommes limité à ces ressources (très peu de corpus français-chinois, en particulier, le corpus français-chinois adapté au domaine) pour construire un système de TA statistique avec Moses. La traduction de TA est “incompréhensible”.

Ensuite, nous avons testé les systèmes existants comme GT, mais le résultat n’était pas satisfaisant. Pour construire un système ayant une qualité de traduction acceptable, nous avons commencé à construire un corpus parallèle spécialisé à notre domaine. Nous avons collecté et extrait des segments parallèles à partir de sites Web, mais la quantité de segments parallèles n’était toujours pas suffisante. Nous avons alors créé des iMAG pour des sites Web correspondant à notre sujet, et nous les avons post-édités. Les résultats de TA ont été fournis d’abord par GT, puis par notre système de TA basé sur Moses, en construction. Nous avons obtenu plusieurs milliers de segments parallèles. 

Enfin, nous avons construit un système de TA françaischinois avec un corpus “mixé” (corpus extrait et MT), et la qualité de traduction s’est enfin acceptable. Notre hypothèse est que nous pourrions arriver à une qualité vraiment bonne si nous avions non pas 9000, mais entre 30000 et 50000 segments. Nous n’avons pas eu les ressources suffisantes pour la tester, et espérons trouver une situation le permettant dans le futur.


 


 



[1] http://www.libellex.fr/

[2] http://en.wikipedia.org/wiki/Comparison_of_machine_translation_applications

[3] ROI = Return On Investment, ou "retour sur investissement"

[4] Essentiellement, par l'ODA (Overseas Development Agency) du METI.

[5] http://opus.lingfil.uu.se/MultiUN.php

[6] http://nlp.stanford.edu/software/segmenter.shtml

[7] http://joshua-decoder.org/6.0/pipeline.html

[8] http://www.nlplab.com/NiuPlan/NiuTrans.YourData.html

[9] http://www.nlplab.cn/NiuTrans.Phrase.html

[10] http://opus.lingfil.uu.se/MultiUN.php

[11] http://sourceforge.net/projects/aligner/

[12] http://www.xrce.xerox.com/About-XRCE/History/Historical-projects/XeLDA

[13] Intel(R) Core(TM) i7-3770 CPU @ 3,40GHz

[14] Quand nous et d'autres Chinois qui nous aident post-éditons, nous notons l'heure au début et à la fin d'une session, et aussi l'ensemble des segments post-édités durant la session. Nous en tirons un temps total moyen. Nous faisons l'hypothèse (qui semble vérifiée) que les temps sont proportionnels aux nombres de mots, et une simple règle de trois nous donne alors Tpe_tot pour chaque segment.