Résumé
Ce chapitre présente une revue des systèmes de TA, directs ou passant par l'anglais, permettant de traduire entre chinois et français, ainsi que certains besoins dont nous avons eu connaissance à l'occasion de notre activité dans L&M.
Introduction
Beaucoup d’entreprises ont besoin de systèmes de TA français↔chinois
pour aider à traduire des documents français ou des documents chinois. Elles
demandent que le système de TA soit privé, et que la traduction soit vraiment fiable (pour leur sous-langages), même si la
fluidité n’est pas parfaite. Pour pouvoir arriver à cela, nous avons commencé
par passer en revue l'histoire du développement des systèmes de TA concernant
le chinois, depuis les tout premiers travaux en Chine (dès 1957). Nous avons
ensuite comparé 4 systèmes de TA opérationnels et disponibles sur le Web ou sur
des serveurs privés sur la paire de langues français↔chinois. Aucun de ces
systèmes n’est satisfaisant dans ces contextes, car (1) ou bien l’information
« sort » de l’entreprise,
(2) ou bien les licences en intranet sont trop chères, et (3) de toutes façons,
la qualité des TA brutes est jugée insuffisante, et il n’y a pas moyen de
l’améliorer en spécialisant le système au sous-langage concerné.
Après avoir
présenté la demande de grosses sociétés et un état de l'art des systèmes
actuels dont on peut penser qu'ils pourraient être utilisés par ce type de
société (ou d'organisme) de façon opérationnelle, nous décrivons les travaux
réalisés à L&M pour construire des systèmes de TA pour le chinois basés sur
Moses, utilisables à terme par des clients potentiels.
Lingua et Machina édite une application Web de gestion des contenus multilingues en entreprise appelée Libellex[1]. Cette plate-forme intègre divers outils d'aide à la traduction (concordances bilingues, outils d’extraction et de gestion de terminologies, mémoires de traductions, systèmes de traduction automatique et outils de gestion de projets de traduction).
Les entreprises clientes de L&M,
comme EDF et Renault, ont des
filiales en Chine. Il y a beaucoup
d’échanges internes aux entreprises entre la France et la Chine, comme les
courriers électroniques, les comptes rendus, et les rapports. Ces textes
doivent être traduits (en français ou en chinois), et pas en anglais, langue
dans laquelle ni les uns ni les autres ne sont à l’aise.
Ces textes, et en
particulière les rapports, contiennent généralement beaucoup de termes
spécialisés. Dans de tels contextes, recourir à des traducteurs humains n’est
pas une option, même si on avait de très bonnes mémoires de traductions. Il
faudrait en effet qu’ils soient excellents et compétents dans la
terminologie des domaines concernés, et donc très chers. Mais, de toutes façons, on n’arriverait pas à satisfaire la demande de
« temps réel », et on n’a
en réalité pas besoin de traductions de qualité professionnelle. Il suffit
qu’elles soient assez compréhensibles et fiables, et surtout qu’on puisse
améliorer « en ligne »
celles qui contiennent des contresens et de faux termes.
Pour certains textes
quotidiens comme les courriers électroniques et les réunions à distance, on a simplement
besoin d’une traduction « compréhensible » et en temps réel, mais pas
d’une traduction parfaite.
Les entreprises
clientes ont besoin d’une solution moins chère, plus rapide, et donc automatisée,
mais les systèmes existants ne sont pas satisfaisants. Tout d’abord, l’information
privilégiée de l’entreprise est considérée comme secrète, confidentielle. On ne
peut donc pas utiliser les systèmes publics comme GT, parce que l’entreprise ne
veut pas divulguer des informations propriétaires. Ensuite, un système de TA français-chinois
commercial, comme Systran Enterprise Server, est très coûteux (15000€[2] pour déployer une instance de Systran Enterprise Server 7 chez un client). Enfin, la qualité de traduction pour la paire de
langues français↔chinois n’est pas suffisante. Le résultat de la TA est souvent
incompréhensible.
Pour obtenir un
système de TA dont le résultat brut (non post-édité) est jugé comme « suffisant » par une entreprise
cliente potentielle de L&M, la seule solution est de « personnaliser » son système de TA français-chinois,
et cela quel que soit le paradigme de TA utilisé. En ce qui concerne L&M, le choix
s’est porté vers le paradigme de la TA statistique, et sur le développement à
l’aide de l’outil Moses.
La recherche sur la
TA du chinois a commencé depuis la deuxième moitié des années 1950. Les
chercheurs se sont concentrés principalement sur les 4 paires de langues chinois↔anglais
et chinois↔russe, mais il n’y pas eu alors de recherches sur les 2 paires français↔chinois.
La première expérience concernant à la fois le français et le chinois a été faite
par le professeur Feng Zhiwei en 1981-82 sur une maquette chinois→français/anglais/allemand/japonais en Ariane-78 (Feng, 1981).
Les éditeurs de
systèmes de TA qui proposent le couple français↔chinois utilisent l’approche
dite du « pivote textuel », c’est-à-dire qu’ils appliquent successivement
les « paires »
français↔anglais et anglais↔chinois, en utilisant l'anglais comme "pivot
textuel". Mais les résultats sont bien pires que ceux déjà jugés très peu
satisfaisants obtenus avec l’anglais.
La section IV.2.1 propose un rapide historique de la
recherche sur la TA du chinois, et dans la section IV.2.2, nous testons quatre systèmes de TA qui proposent
la paire de langues français↔chinois.
La Chine est le quatrième pays qui s’est lancé dans la traduction automatique (TA), à la suite des Etats-Unis (en 1951), du Royaume-Uni (1955), du Canada (Booth à Saskatoon, venant d'Angleterre) et de l'Union soviétique (1954, Lyapunov et Bagrinovskaya, Novosibirsk). En 1959, des chercheurs de l'Institut de technologie de l'informatique et de l'Institut de linguistique de l'Académie Chinoise des Sciences (ACS, 中国科学院, Chinese Academy of Sciences) menèrent la première expérience de traduction automatique en russe→chinois.
Le plus important des projets de TA chinois→anglais a commencé à l'Université d'État de l'Ohio en juillet 1961. C’était un projet de recherche mis en place avec le soutien de la « National Science Foundation » (NSF) sous la direction de William S. Y. Wang. Au milieu des années 1960, Wang rejoignit le groupe de Berkeley et continua sa recherche dans le cadre du projet POLA, toujours sur la TA chinois→anglais.
En même temps, le centre de recherche d'IBM à Yorktown travaillait sur un système chinois→anglais, fonctionnant sur les mêmes principes que le système russe→anglais, et utilisant aussi le tout nouveau et très fameux disque photoscopique (King and Chang, 1963).
En 1972, l’Université chinoise de Hong-Kong (香港中文大学, Chinese University of Hong Kong) proposa le système CULT (Loh and Kong, 1979), développé pour traduire des textes mathématiques du chinois vers l’anglais. Les résultats étaient très bons, grâce à une importante pré-édition manuelle.
Au début des années 1980, de nombreux instituts et universités ont été impliqués dans des recherches sur la TA. L’Institut de Technologie de Harbin (ITH, 哈尔滨工业大学, Harbin Institute of Technology) et l'Université du Nord-Est (UNE, 东北大学, Northeastern University) ont commencé leur recherches sur des systèmes de TA chinois↔anglais au milieu des années 1980. De plus, l'Université de Nankin (南京大学, Nanjing University) a commencé une recherche sur la TA japonais↔chinois durant cette période.
Pendant les années 1980, il y a eu une très grand activité commerciale au Japon, et au moins 30 sociétés informatiques (comme Fujitsu, Hitachi, NEC, Sharp, Toshiba, etc.) ont développé des logiciels de TA pour japonais↔anglais. Certains, notablement Fujitsu (avec ATLAS-II dû à H. Uchida), ont développé de gros prototypes pour d’autres langues, dont le chinois, mais ne les ont pas commercialisés à l’époque, car seul le couple anglais-japonais semblait pouvoir apporter un ROI[3] réel.
En 1987-93, beaucoup d’instituts et d’universités chinois
ont aussi participé au projet « Joint
study for Multilingual Machine Translation », qui a été financé par le
gouvernement japonais[4],
et visait à un objectif ambitieux : produire un système de TA à «
pivot » sémantique de haute qualité sur le modèle d’ATLAS-II
pour cinq langues asiatiques (japonais, chinois, thaï, malais et indonésien) et
l'anglais.
Durant la période
1980-2005, tous les systèmes de TA adoptèrent approche "experte" à
base de règles, tandis que certains d'entre eux utilisaient aussi une approche à
base d’exemples comme complément.
Il y a trois systèmes très
connus : (1) MT-IR-EC, un système de TA anglais→chinois pour traduire les titres et les catalogues des journaux, développé
par le Research Institute of Post and Telecommunication Science, (2) KY-1, un système de
TA anglais→chinois développé par l'académie des
sciences militaires, qui est aussi le cœur du premier système commercial de TA, TranStar
(Dong, 1990), et (3) Huajian,
un système de TA chinois→anglais développé
par Huajian Co. Ltd.
De 1995 à 2005, beaucoup d’équipes de recherche et d’entreprises ont publié des systèmes de TA, comme GaoLi (GaoLi Co. Ltd), CCID (CCID Group), et Kingsoft Quick Translation (Kingsoft Co. Ltd).
La recherche sur la TA statistique a commencé en Chine à partir de 2004-2005. En 2006, cinq équipes de recherche (l'Institut de technologie de l'informatique de l’ACS, l'institut d’Automatique de l’ACS, l’Institut du logiciel de l’ACS, l’Université de Xiamen et ITH) ont publié un système de TA statistique en source ouvert, Silk Road (Silkroad, 2006). En 2011, UNE a publié un nouveau système de traduction automatique en source ouvert, NiuTrans (Xiao et al., 2012).
Aujourd'hui, beaucoup de systèmes de TA proposent le couple français↔chinois, comme GT, Systran, Reverso,
Bing, etc.,
mais il est difficile de trouver un système de TA français↔chinois de qualité d’usage correcte, sans doute car
ils passent presque tous par l'anglais (« pivot textuel »).
Nous avons fait des expériences sur quatre systèmes de TA français→chinois pour évaluer la qualité de TA. Nous avons d'abord testé GT, puis trois systèmes de TA statistique entraînés par les boîtes à outils disponibles en source ouvert (Moses v2.0, Joshua v5.0, NiuTrans v1.3).
Pour la construction des 3 systèmes de TA statistique, nous avons utilisé les mêmes données d’entraînement et les mêmes données de test. Ces données ont été extraites du corpus MultiUN[5] (Eisele and Chen, 2010). Nous avons pris 1M de bisegments fr-zh comme données d’entraînement, 1K comme données de développement (Tuning), et aussi 1K comme données de test. Tous les textes chinois ont été segmentés par le segmenteur Stanford[6] (Chang et al., 2008), et nous avons utilisé le segmenteur de Moses (un script perl tokenizer.perl) pour segmenter le texte français.
Tableau 28 : Statistique sur les données
|
Nb de Segments |
Nb de mots français |
Nb de caractères
français |
Nb de caractère
chinois |
Données d’apprentissage |
1M |
28 951 255 |
199 486 574 |
35 109 257 |
Données de développement |
1K |
21 758 |
151 369 |
32 165 |
Données d’évaluation |
1K |
25 251 |
176 492 |
31 752 |
Notre expérimentation contient 2 étapes. Dans première, nous évaluons les systèmes de TA, par rapport avec le score BLEU. Dans la deuxième, nous utilisons SECTra_w pour nous aider à évaluer les TA à la qualité d’usage du résultat et au degré d'automaticité.
La qualité d'usage et le degré d'automaticité sont obtenus à partir des temps de post-édition en utilisant les formules proposées par C. Boitet dans ses cours au NII (Boitet, 2009).
Tableau 29 : Formule d’évaluation
de l’automaticité et de la qualité d’un
système de TA
1. Automaticity (MT module only): (taken from NII lecture notes
by Boitet, 2009) A= Ex : A = 83,3% if first draft takes 1h per standard page (of 250 words or 1550 characters) and human interaction takes 10 mn/page (minutes per page). 2. Quality (wrt HT) in %
Ex :
|
est le temps moyen de traduction humain par page, estimé dans la tâche en cours. Sans plus d’information, on l’évalue à 60 mn.
Depuis 2007, GT fournit un service
de traduction français↔chinois. Dans cette expérience, nous avons traduit un
texte du français vers le chinois en utilisant GT.
Le texte en entrée source contient 1K phrases françaises du corpus MultiUN. Dans le
Tableau 30,
nous montrons 3 phrases extraites de ces 1K. Les références ont été produites
par nous (par PE).
Tableau 30 : Exemple de traduction de GT
ID |
Segment |
Traduction de GT |
Référence |
Trace |
1 |
Le Secrétaire général
souhaite vivement que le plan-cadre d'équipement soit achevé d'ici à la
mi-2014 et le nécessaire sera fait pour atteindre cet objectif, en contrôlant
bien la portée du projet, en effectuant rapidement les réinstallations et en
suivant de très près chaque activité de sorte qu'elle soit réalisée dans les
délais prescrits. |
秘书长 真诚 希望 , 基本建设
总 计划 通过 2014 年 中期 完成 , 必要 的 工作 将 实现 这 一 目标 , 控制 项目 的 良好 范围 , 迅速 进行 搬迁 及 以下 非常
接近 每个 活动 , 使 其 上 进行 的 时间 。 |
秘书长 的 坚定 目标 是
, 到 2014 年年 中 完成 基本建设 总 计划 , 并 将 通过 控制 规模 、 加快 搬迁 和 加紧 监测 每 项 活动 的 时间表 , 全力 实现
这 一 目标 。 |
秘书长 的 |
2 |
Au cours des six dernières
années, la Commission s'est engagée dans des négociations complexes
concernant ce projet, qui ne sera réalisé au mieux et dans les limites du
budget imparti que si le financement est rapide. |
在 过去 的 六 年 里
, 该 委员会 已 从事 有关 项目 复杂 的 谈判 , 这 将 是 最 好 的 实现 , 并 在 规定 的 预算 范围 内 , 如果 资金 是 快速 的
。 |
过去 六 年 来 , 本
委员会 就 该 项目 进行 了 复杂 的 谈判 。 这个 项目 必须 及时 获得 资金 , 才 能 有效 运作 不 超出 预算 。 |
过去
|
3 |
Afin
de garantir que la Commission réponde aux attentes et marque une réelle
différence au Burundi, tous ceux qui sont impliqués doivent examiner la
meilleure façon de soutenir la mise en œuvre des engagements identifiés en
tenant compte des différences dans les capacités et l'expertise. |
为 确保 满足 委员会 的 期望 , 并 在 布隆迪 的 一个 真正 的 区别 , 所有 参与 应 考虑
如何 最 好 地 支持 确定 的 承诺 的 执行 情况 , 同时 考虑 到 在 能力 和 专业 知识 的 差异 。 |
为了 确保 委员会 不负众望 , 给 布隆迪 带来 切实 的 变化 , 所有 相关 方 都 必须 考虑 如何
才 能 最 好 地支 助 承诺 的 执行 , 并且 铭记 各方 在 能力 和 专门 知识 方面 的 差异 。 |
为了
|
Le score BLEU de GT est 38.25%.
Moses (Koehn, Hoang et al., 2007) propose l’ensemble des outils nécessaires à la construction d’un modèle de traduction. Un décodeur permet aussi d’utiliser ces outils afin de produire la traduction d’un texte source. C'est un outil sous licence libre.
Tout d’abord, nous
calculons des alignements de mots en utilisant GIZA++ (Och, 2003), qui implémente les algorithmes des modèles IBM 1-5 (Brown et al., 1993) et HMM (Vogel et al., 1996). On utilise les alignements pour construire
la table de traductions. Enfin, un modèle de réordonnancement est construit,
contenant les informations sur les positions dans les phrases des mots traduits
par rapport aux mots traduits précédemment. Le modèle de langue est construit à
l’aide de l’outil IRSTLM (Federico et al., 2008).
La construction de le
système de TA Moses a pris 15 heurs (15h 32mn) pour finir la procédure d’entraînement (du
prétraitement jusqu'à l’évaluation BLEU), Le score BLEU est 36,72%.
Joshua (Li et al., 2009) est un décodeur développé d’abord pour utiliser le modèle hiérarchique. Il est accompagné de l’ensemble des outils nécessaires à son fonctionnement : alignement (avec GIZA++), construction de la table de traductions, décodage, optimisation des poids, minimisation d’erreur, et calcul du modèle de langue cible. Depuis la version 6, il supporte le modèle à fragments (chunks). Il intègre un segmenteur du chinois, et on utilise donc son script pipeline.pl[7] pour entraîner le système de TA. Joshua demande d’écrire les paramètres dans un fichier de configuration. Les paramètres sont dans Tableau 31.
Tableau 31 : Paramètres de configuration de Joshua
$JOSHUA/scripts/training/pipeline.pl // le script de pipeline --rundir 1M //le répertoire de
travail --source fr // langue source --target zh // langue cible --corpus 1M/train/train //
données d’entrainement --tune 1M/tune/tune // données de développement --test 1M/test/test // données de test --lm-order 5 --aligner giza |
La construction du système Joshua a pris 18 heures (18 h 12mn) pour la procédure d’entrainement (du prétraitement jusqu'à l’évaluation de BLEU). Le score BLEU est 32,18%.
NiuTrans (Xiao, Zhu et al., 2012) est une boîte à outils en source ouvert permettant d’entrainer un système de TA statistique. Il est développé en C++ par l’UNE (东北大学). Actuellement, NiuTrans supporte déjà le modèle syntagmatique (PBMT) et le modèle hiérarchique.
Pour adapter des données à NiuTrans, tout d’abord, on doit prétraiter les données. Nos données sont d’abord segmentées en mots (tokenisation) par le segmenteur Stanford. Ensuite, on utilise les scripts perl, fournis par NiuTrans, pour normaliser les segments[8]. Enfin on produit le fichier aligment.txt[9].
Après la préparation des données, nous avons pris 10 heures (10 h 37 mn, sans compte le temps d’alignement) pour entraîner le système. Nous avons obtenu un score BLEU de 33,19%.
Pour la comparaison
de la qualité de traduction des systèmes de TA, nous avons entraîné les
systèmes de TA dans ces mêmes conditions (les outils, les données et le
matériel, sauf pour GT). Nous prenons en compte le temps d’entrainement, et le
score BLEU. Le système de TA construit avec Moses a la meilleure qualité de traduction parmi
les systèmes de TA. C’est sans doute, grâce au corpus d’entrainement adapté au
même domaine qu’il est un peu mieux que GT.
Le score BLEU n’est en
pratique pas bien corrélé à la qualité d’usage de la TA. Pour l’évaluer, nous
ajoutons les segments source et les résultats de TA dans SECTra_w, puis nous
post-éditons et calculons la distance de post-édition. Dans le Tableau 32, nous montrons un exemple de résultat de
TA, et nous pouvons voir la « Trace »
du calcul de distance entre la référence et le résultat de TA.
Tableau 32 : Comparaison
d'exemples de traductions obtenues par TA et d'une référence
Source |
le Secrétaire général
souhaite vivement que le plan - cadre d ' équipement soit achevé d ' ici à la
mi - 2014 et le nécessaire sera fait pour atteindre cet objectif , en
contrôlant bien la portée du projet , en effectuant rapidement les
réinstallations et en suivant de très près chaque activité de sorte qu ' elle
soit réalisée dans les délais prescrits . |
Reference |
秘书长 的 坚定 目标 是 , 到 2014 年 年 中 完成 基本建设
总 计划 , 并 将 通过 控制 规模 、 加快 搬迁 和 加紧 监测 每 项 活动 的 时间表 , 全力 实现 这 一 目标 。 |
Google |
秘书长 真诚 希望 , 基本建设 总 计划 通过 2014 年 中期 完成 , 必要 的 工作 将 实现 这
一 目标 , 控制 项目 的 良好 范围 , 迅速 进行 搬迁 及 以下 非常 接近 每个 活动 , 使 其 上 进行 的 时间 。 |
Trace (PE vers la référence) |
秘书长
的 |
Moses |
秘书长 真诚 希望 这项 框架 计划 的将 于 Mi- 2014年 完成, 并 将 采取 步骤 实现 这 一
目标 , 通过 控制 的 项 目的 范围 , 迅速 重新 安置 或 采取 行动 , 不 影响 的 每 项 具体 活动
进行 规定 时限 内 提出 。 |
Trace (PE vers la référence) |
秘书长 |
Joshua |
秘书长 真诚 希望这项框架 计划 设备 完成 在 这里 , mi 2014 年 之后 、 和 必要 的 工作
将 为 实现 这 一 目标 , 在 控制 两 个 项目 的 范围 、 执行 快速 的 重新 安置 , 通过 密切 关注 每个 活动 , 在 规定 时限 内 提出 。 |
Trace (PE vers la référence) |
秘书长 |
NiuTrans |
秘书长 强烈 希望 计划 框架 的 设备 或 已 完成 的 在 2014 年 Mi 必须 将 实现 这 一
目标 , 通过 检查 影响控制 两 个 项目 的 范围、执行 的 快速 的 重新 安装 又 密切 注视 活动 , 实现 的 规定 时限 。 |
Trace (PE vers la référence) |
秘书长 |
Dans l’Annexe 8, on donne 50 segments en « vue SECTra/Post-édition », montrant pour chaque segment le texte source, la PE, et les TA en mode « Trace ». Voici un exemple de résultat d’évaluation sur le segment présenté dans le Tableau 33.
Tableau 33 : Exemple de résultat d'évaluation
Mots |
TA |
TPE |
TPE/p.std |
DistPE (α=0,2 ;
ß=0,8) |
Q |
53 |
|
127s |
16,0 mn |
Dc: 112 ; Dw: 60 ; D= 70,4. |
68% |
Moses |
123s |
15,5 mn |
Dc: 126 ; Dw: 66 ; D= 78 |
69% |
|
Joshua |
153s |
19,2 mn |
Dc: 137 Dw: 68 ; D= 81,8 |
61,6% |
|
NiuTrans |
142s |
17,8 mn |
Dc: 117 Dw: 64 ; D= 70 |
64,4% |
Conclusion
Nous avons comparé les 3 systèmes de TA et GT sur le BLEU et la qualité
d’usage. Nous avons choisi le “meilleur” système, et il peut traduire les
phrases français vers le chinois. Mais la qualité de traduction n’est pas
satisfaisante. La qualité est limitée par la taille de corpus, le domaine de
traduction, le lexique, etc. Comment construire un système de TA
français-chinois en haute qualité ? Pour nous, c’est un vrai défi.
L'étude précédente nous a montré qu'il n'y avait pas pour l'instant de système français↔chinois pouvant être utilisé tel quel, ou adapté rapidement, pour satisfaire les besoins des grandes sociétés en général, et des clients potentiels de L&M en particulier.
Nous avons donc essayé de construire nous-même un système français-chinois à partir d’une MT correspondant aux besoins d’au moins un client potentiel de L&M. Malheureusement, aucun n'avait de telle MT. Nous en avons donc construit une, mais, faute de ressources (en post-éditeurs), nous n’avons pas pu dépasser 9000 bisegments (dans ce cas, 112500 mots ou 450 pages standard). Les résultats ont été encore pires qu’avec les 4 systèmes étudiés plus haut. Notre hypothèse est qu’il aurait fallu disposer d’une MT d'au moins 30000 à 50000 segments.
Comme le client
potentiel le plus prometteur pour L&M était EDF, nous avons cherché à construire un système
pour EDF.
C'est une très grosse entreprise spécialisée dans le domaine de l'énergie
électrique, qu'elle soit produite dans des centrales nucléaires, hydrauliques, à
charbon, à gaz, éoliennes, ou photovoltaïques.
Depuis une
quarantaine d'années, EDF est implantée en Chine, où elle a construit
des centrales nucléaires, et travaillé avec d'innombrables cadres, ouvriers et
ingénieurs chinois. Beaucoup de documents ont été traduits, dans les deux sens,
et nous espérions avoir accès à des documents parallèles, ou au moins à de
grosses mémoires de traductions, en supposant que des outils comme SDL Trados ou Déjà Vu avaient
été utilisés pour produire ces traductions.
Nous comptions bien
sûr choisir comme sous-langage objet du système de TA à construire celui
correspondant à la MT la meilleure en qualité et la plus grande en volume. Malheureusement,
nous n'avons rien pu obtenir du tout. Peut-être ces textes parallèles ou ces MT
existent-ils et sont-ils cachés, peut-être n'ont-ils jamais été créés, nous
n'en savons rien. Sachant que la traduction n'est presque jamais consolidée
dans les comptes des entreprises, et est le plus souvent sous-traitée de
manière opportuniste, il est possible que la seconde hypothèse soit la bonne.
Quoi qu'il en soit, en 2013, L&M n'avait
pas pu avoir accès à un corpus parallèle ou à une MT d'EDF
français→chinois permettant de développer un
système de TA, qu'il s'agisse d'un système Moses (il
aurait fallu entre 20K et 30K "bons" bisegments) ou d'un système Ariane (à règles et dictionnaires), pour lequel il aurait
fallu des corpus parallèles ou comparables de 2K à 3K segments (pour l'étude
typologique) et un dictionnaire bilingue de 10K à 20K entrées.
Nous avons alors
décidé d'essayer de construire un système Moses à partir d'un corpus parallèle que nous construirions
nous-même à partir d'un corpus bilingue le plus "adapté" ou "vraisemblable"
possible, puis, s'il était trop petit, à partir d'un corpus monolingue
complémentaire que nous traduirions.
Nous savions que les
besoins d'EDF étaient dans les deux sens (français↔chinois). Nous nous sommes
concentré sur le sens français→chinois, car nous savions que nous pourrions
nous-même évaluer et post-éditer les résultats, alors que nous n'avions
personne dans notre environnement qui comprenne bien le chinois technique et
soit de langue maternelle française.
Cependant, nous
avons aussi fait quelques essais en chinois→français,
"pour voir", en nous disant que, si les résultats étaient
encourageants, nous pourrions peut-être écrire des parties de cette thèse en
chinois, les faire traduire par GT ou par notre système, et les faire ensuite
réviser par des chercheurs du laboratoire, compensant leur ignorance du chinois
par leur connaissance du domaine. Comme on pouvait s'y attendre, cet espoir a
été totalement déçu, et nous ne nous étendrons pas sur cet essai.
Notre première idée
a été d'essayer d'extraire un corpus bilingue français→chinois
concernant un des domaines d'EDF à partir des corpus parallèles librement
disponibles sur le Web.
La performance d’un
système de traduction automatique statistique (TAS) dépend fortement de la taille et de la
qualité du corpus parallèle utilisé pour l’entraînement. Les ressources
actuelles en corpus parallèles bilingues ou multilingues libres de droits
proviennent généralement d’institutions internationales. C’est le cas du corpus
« Europarl » (Koehn, 2005) extrait des délibérations du Parlement européen, du corpus « Canadian Hansards », contenant les transcriptions en français et en anglais des débats du
Parlement canadien, et du corpus JRC-Acquis qui fournit une quantité comparable de
textes législatifs européens en 22 langues (Steinberger et al., 2006). En ce qui concerne le chinois, il y a
beaucoup de corpus parallèles anglais→chinois et chinois→anglais, notamment celui du journal Xinhua News (Graff et al., 2003), mais très peu de corpus français→chinois.
Or, pour construire un système de TAS français→chinois,
il faut disposer d’un corpus parallèle français→chinois
(dans le bon sens) pour entraîner les modèles. Nous nous sommes tourné vers le
corpus parallèle MultiUN français-chinois, qui a été construit par extraction du site Web des
Nations-Unies, puis nettoyé et converti au format XML par Andreas Eisele et Yu
Chen (Eisele and Chen, 2010) en 2010. En février 2013, la version
alignée de ce corpus a été publiée sur le site Web OPUS[10] (Tiedemann, 2012). Voici les corpus que nous avions pu collecter à ce point (Tableau
34).
Tableau 34 :
Corpus collectés en cherchant des corpus pour français→chinois
Nom |
Direction |
Nb segments |
Nb mots |
Mots fr / |
caractères zh / |
Mots fr / |
MultiUN |
en-zh |
8,8M |
220,4M |
24,97 |
71,31 |
285,54% |
MultiUN |
fr-zh |
8,7M |
243,8M |
27,94 |
71,94 |
257,33% |
Que pouvait-on en
espérer ? A priori, peu, car,
quand on entraîne un système de TAS avec un tel corpus "généraliste" pour
la traduction dans un domaine précis, par exemple l’énergie, on obtient d'habitude
de mauvais résultats. Nous avons fait l'expérience, qui a confirmé cette
crainte
Nous en avons
conclu qu'un système de TA français-chinois entraîné seulement avec le
corpus MultiUN ne pourrait pas répondre aux besoins des entreprises clientes de L&M. En nous inspirant
de publications mentionnant la possibilité de mélanger un petit corpus
spécialisé à un grand corpus généraliste, nous avons alors décidé d'essayer
cela, et de construire un corpus parallèle français-chinois spécialisé au
sous-langage des notes techniques et des courriels concernant le domaine de
l'énergie.
Pour cela, nous
sommes parti des sites Web d'EDF en France et en Chine, car nous avons
remarqué qu'ils contiennent beaucoup de segments français et chinois presque
parallèles.
Nous avons extrait
des textes français et chinois à partir de ces sites Web à l’aide de l'outil Boilerpipe (Kohlschütter et al., 2010). Mais ces textes ne peuvent pas être
utilisés tels quels pour entraîner un système de TA, il faut d’abord les
segmenter, les nettoyer, les aligner, et enfin extraire des bisegments
réellement parallèles (en relation de traduction).
Tout d’abord, nous avons
débruité les textes, en supprimant les segments inutiles comme les liens (par
exemple, http://…), les chiffres, les dates, etc.
Ensuite, nous avons
normalisé l'encodage des caractères en transformant tout en UTF-8 (certains
textes français étaient en codage ASCII Mac ou Windows, et les textes chinois étaient le plus
souvent en GB-2312-80).
Après avoir nettoyé
le "bruit", nous avons procédé à l’alignement au niveau des segments
(phrases ou titres) en utilisant l’outil LF Aligner[11]. Nous avons finalement obtenu un corpus
parallèle d'environ 3K bisegments. Un extrait en est donné à l’Annexe 9.
Cette petite
quantité de données n'est pas suffisante pour entraîner un système Moses, mais,
mélangée à ce que nous avions extrait de MultiUN, elle
a suffi pour améliorer un peu le système de TA, en lui faisant apprendre des
termes comme « le noyau des atomes »,
« l'hydraulique », « le charbon propre », etc.
Pour augmenter la quantité des données d’entrainement, nous avons construit une MT par post-édition des sorties de la 1ère version de notre système. C’est un bon moyen de produire des MT de bonne qualité (Wang and Boitet, 2013).
Pour post-éditer plus vite et mieux, nous avons utilisé la
plate-forme SECTra_w/iMAG. Nous avons divisé notre MT
en domaines, comme les nouvelles, les reportages et les pages Web de Wikipédia.
Nous avons transformé tous les textes monolingues en des fichiers html, nous
les avons placés dans une hiérarchie de fichiers mise sur le serveur du
laboratoire, et nous avons créé une iMAG dédiée à ces fichiers.
Les prétraductions ont été fournies par GT. Après la post-édition, nous avons sélectionné, pour construire notre MT, les bisegments que nous estimions adaptés à notre besoin. Cette sélection était basée sur le niveau de fiabilité (d'une étoile "☆" à cinq étoiles "☆☆☆☆☆") et sur la note de qualité (de 0 à 20) associés à chaque segment et à chaque langue cible dans la MT. Le prédicat de sélection était:
(fiab = 3 && score ≥ 12) || (fiab = 4 && score ≥ 11) || (fiab = 5 && score ≥ 10)
Nous avons finalement obtenu 6000 segments parallèles. En les ajoutant aux 3000 segments parallèles extraits à partir des sites Web d’EDF, nous avons au total collecté 9000 bisegments (environ 450 pages standard) de qualité suffisante pour construire un système. Cependant, nous n'avons pas de garantie que ce "noyau" représente bien le sous-langage, qui pour nous reste inconnu et inconnaissable, des notes techniques d'EDF sur l'énergie (Tableau 35).
Tableau 35 : Exemples de bisegments français→chinois parmi les 9000 collectés ou produits
Français |
Chinois |
Charbon
propre |
清洁煤发电 |
EDF
Asie |
EDF 亚洲 |
Activités
|
业务概览 |
Charbon
propre |
洁净煤 |
En Chine, le charbon représente près de 80% de la
production d'électricité et devrait continuer d'occuper une place majoritaire
dans l'avenir (plus de 60 % à l'horizon 2020). |
中国煤电约占全国总发电量的 80%,今后还会继续占有主导地位(预计2020年占60%以上)。 |
Pour limiter les impacts sur l'environnement, la
Chine développe des centrales à charbon à haut rendement moins polluantes. En
s'appuyant sur ses compétences d'ingénierie, EDF prend part à ces projets.
Ils permettent au Groupe de consolider et de développer son expérience pour
faire face aux besoins qui pourraient émerger en Europe dans l'avenir. |
为了减轻煤电对环境的影响,中国致力于发展高效、低污染的燃煤电厂。法国电力集团以专业技能为依托,参与中国洁净煤火电项目。通过参与项目建设,法国电力集团将巩固和发展其火电技术,应对欧洲未来可能出现的需求。
|
EDF a signé plusieurs accords de coopération avec
des producteurs nationaux d'électricité, portant sur le développement
conjoint de projets électriques, par exemple les Groupes de Trois Gorges,
Guodian, Datang, etc. |
法国电力集团已与国电、三峡集团、大唐等多家国有大型电力公司签署了多项电力合作协议。 |
French Investment Guangxi Laibin Electric power Co
(FIGLEC) - Chine est une filiale à 100 % du groupe EDF. La société est
propriétaire de la centrale de Laibin B (d'une puissance de 720 MW),
exploitée par SYNERGIE, aussi filiale d'EDF. |
广西来宾法资发电有限公司是法国电力集团的全资子公司,拥有两台单机容量为360 兆瓦的机组,总装机容量720兆瓦。
|
Nos systèmes de TA sont construits avec Moses, qui fournit des outils optimisés pour réaliser l'entraînement, mais qui ne contient pas d’outil pour traiter le chinois. À L&M, nous disposions aussi de la boîte à outils MYRIAM, qui intègre le segmenteur du chinois de XeLDA[12] (Xerox Linguistic Development Architecture), et un programme java pour normaliser les phrases. Pour l’alignement des mots, nous avons utilisé l’outil MGIZA (Gao and Vogel, 2008), qui propose une implémentation efficace et parallèle de GIZA++.
Les paramètres de ces systèmes ont été optimisés de manière usuelle avec l’outil MERT (Minimum Error Rate Training) (Och, 2003). Les traductions produites sont évaluées avec la mesure BLEU (Bilingual Evaluation Understudy) (Papineni et al., 2002), ainsi qu'avec notre « distance mixte de PE » (mTER), qui est bien corrélée à la qualité d’usage.
Nous avons ainsi défini deux modèles. L’un est un modèle générique qui est entraîné avec le corpus parallèle MultiUN, et l’autre est un modèle spécifique entraîné avec notre mémoire de bisegments post-édités. Quand on a de nouveaux segments post-édités, on n’a pas besoin de réentraîner le modèle avec toutes les données. On met seulement à jour le modèle spécifique. C'est très utile dans le cas où l’on a un très gros modèle générique qu'on souhaite utiliser dans un nouveau système, sans avoir à le réentraîner.
Tableau 36 : Comparaison des temps d’entraînement de Moses
Système de TA |
Quantité de données |
Temps d’entraînement |
Temps du réentraînement avec 10K nouveaux bisegments |
Un modèle |
2M+9K bisegments |
17 h 35mn |
19 h 21mn |
Modèle générique |
2M+9K bisegments |
13 h 10mn |
2 h 40mn |
Modèle spécifique |
Nous avons ajouté 10K nouveaux bisegments, puis comparé les temps du réentraînement. Notre stratégie est de gagner 86,2% du temps sur le réentraînement avec 10K nouveaux segments. Le Tableau 37 présente les caractéristiques du serveur utilisé pour l'expérimentation.
Tableau 37 : Configuration de la machine
Nombre de processeurs |
4[13] |
Nombre de cœurs par processeur |
2 |
Thread |
4 |
Mémoire |
8G |
Le corpus MultiUN français-chinois contient 9,7 M de phrases parallèles, composé d'environ 300 millions de mots français et environ 600 millions de caractères chinois, soit environ 315M mots du dictionnaire). Ce corpus contient des segments composés de chiffres, de numéros, ou encore de dates ; ces segments ne sont pas utiles pour notre système. Nous les avons donc éliminés. À la fin, il nous restait environs 8,3 M bisegments.
Nous n’avons pas utilisé tout le corpus pour entraîner le modèle générique, parce que nous avons d'abord fait une expérience pour trouver la quantité appropriée des segments. Nous avons testé l’entraînement du système Moses français-chinois avec des quantités différentes (1M, 2M, 3M, 4M, et 5M) de bisegments, et calculé le score BLEU pour chacune de ces quantités. Les résultats sont présentés dans le tableau ci-dessous (Tableau 38). Les scores de 2M vers 5M sont égale les mêmes. On prend en compte le temps d’entrainement, et on choisit 2M bisegments pour entraîner le modèle générique.
Tableau 38 : Scores BLEU pour différentes tailles du corpus d'entraînement
Nombre de bisegments |
BLEU |
Temps d’entrainement |
1M |
49,78% |
16 h |
2M |
52,48% |
18 h |
3M |
52,25% |
21 h |
4M |
54,31% |
32 h |
5M |
55,52% |
42 h |
Nous avons prétraité les bisegments (le corpus MultiUN et la MT) en utilisant MYRIAM. Plus précisément,
· nous avons d'abord normalisé les segments (en convertissant les entités HTML, en séparant les ponctuations, et en ôtant la casse).
· nous avons ensuite utilisé XELDA pour marquer les segments français et chinois.
Nous avons entraîné le modèle général construit uniquement à partir du corpus MultiUN (2M). Le tableau ci-dessous montre quelques chiffres concernant ce corpus.
Tableau 39 : Statistiques sur le corpus MultiUN
|
Français |
Chinois |
Segment |
2M |
|
Mots |
58M |
50M |
Caractères |
398M |
90M |
Pages_std |
38K |
226K |
Le modèle de traduction est entraîné sur 2M segments tirés de MultiUN. La partie cible du corpus a été utilisée pour produire un modèle de langue. Dans cette partie de l’entraînement, nous avons sauté l’étape usuelle d'optimisation des poids (tuning). Elle a été utilisée plus tard, pour construire un autre système, en association avec des modèles plus spécialisés.
Nous avons entraîné le modèle spécifique avec notre MT (9000 bisegments français-chinois), et collecté 1,7M segments monolingues chinois pour produire le modèle de langue cible.
Les paramètres utilisés ont été les mêmes que ceux utilisés pour l’entraînement du modèle général, sauf que nous avons utilisé la phase d’optimisation des poids (tuning).
Pour construire un système d'essai en chinois→français, nous avons utilisé les mêmes données à l'envers, en faisant comme si, étant donné un couple ($fr, $zh) de segments tels que $zh=trad($fr), on avait aussi $fr=trad($zh)). Nous savons pertinemment que c'est faux (la relation de traduction entre phrases n'est pas symétrique), mais… c'était "mieux que rien", puisque nous n'avions personne qui puisse post-éditer des résultats de TA zh→fr.
Pour évaluer la progression de notre système de TA "vers une cible" (pour chaque segment post-édité, la cible est sa post-édition), nous avons calculé le score BLEU pour chaque système de TA. Certes, BLEU ne mesure pas la "qualité" (ni au sens de qualité linguistique, ni au sens de qualité d'usage), et ne peut pas la mesurer, comme cela a été montré dans le fameux article d'Osborne, Callison-Burch et Koehn (Callison-Burch et al., 2006) "Re-evaluating the Role of BLEU in Machine Translation Research". Mais BLEU exprime bien une similarité textuelle, et peut être "raisonnablement" utilisé pour évaluer la progression d'un système vers une certaine "cible". Pour cela, il vaut d'ailleurs mieux n'avoir qu'une seule cible ("traduction de référence") par segment source, plutôt que 5, 10 ou 15 dans certaines campagnes d'évaluation. Notons que BLEU donne une mesure globale et ne donne vraiment pas d'indication fiable au niveau des segments individuels.
Nous évaluons aussi la qualité d'usage à partir du temps de post-édition (en minute par page, mn/p). Comme SECTra associe un chronomètre à chaque segment, nous disposons du temps primaire de post-édition, Tpe_1, pour chaque segment édité à travers cette interface. Nous disposons aussi du temps total de post-édition, Tpe_tot, pour des sessions de post-édition[14]. Nous pouvons en déduire, pour chaque segment, le temps total Tpe_tot ainsi que le temps secondaire de post-édition, Tpe_2, qui correspond au temps passé à chercher des équivalents dans les lexiques et bases terminologiques, ou à communiquer avec d'autres personnes pour trouver une bonne traduction d'une expression "hors dictionnaire". Typiquement, ce temps représente les 2/3 ou les 3/4 du temps total en contexte de traduction professionnelle.
Au début, nous avons post-édité 300 segments (Voir un exemple des données de test dans le Tableau 40), du français vers le chinois (à partir des prétraductions fournies par GT), et les avons utilisées comme données de test pour notre évaluation.
Tableau 40 : Exemple de données de test
ID |
Segment |
Traduction de Google |
PE par humaine |
Trace |
26 |
Nucléaire : la Chine adopte l'EPR |
核电 : 中国 采用 EPR |
核电 : 中国 采用 欧洲 压 水 堆 技术 |
核电 :中国 采用 |
27 |
Au Laos, le projet de centrale hydraulique Nam Theun 2 (1070 MW) est
porté par la société de projet Nam Theun 2 Power Company (NTPC), dont le
groupe EDF est le premier actionnaire avec 40 % des parts. |
在 老挝 , 液压 动力 项目 南 屯 2 ( 1070 兆瓦 ) 支持 的 项目 公司 南 屯 2 电力 公司 ( NTPC ) , 法国
电力 集团 与 40% 的 股权 的 第一 大 股东 。 |
在 老挝 , 中央 液压 草案 南 屯 2 号 项目 ( 1070 兆瓦 ) 的 支持 , 该 项目 公司 南 屯 2 电力 公司 (
NTPC ) , 法国 电力 集团 是 拥有 40% 股权 的 最 大 股东 。 |
在 老挝 , 中央 液压 |
28 |
D'une capacité de 715 MW, la centrale a été mise en service en février
2005. Elle bénéficie des technologies éprouvées des turbines les plus
récentes, ainsi que des derniers retours d'expérience des centrales à gaz
construites par EDF qui en a assuré la construction et la livraison « clé en
main » et qui participe maintenant à son exploitation. |
容量 为 715 兆瓦 , 该厂 已 于 2005年 2月 它 已 被 证明 的 经验 , 最后 返回 建造 的 EDF 最 新 的 涡轮机
和 燃气 电厂 保证 了 技术 建设 和 交付 “ 交 钥匙 ” , 现在 参与 其 运作 。 |
该厂 容量 为 715 兆瓦 , 2005 年 2 月初 投入 运行 。 这 一 项目 的 汽轮机 采用 了 最新 经过 验证 的 技术 ,
吸取 了 EDF 燃气 机组 最新 的 反馈 经验 , 以 " 交 钥匙 " 模式 承担 工程 的 建设 , 和 参与 电厂 的 运行
。 |
该厂 容量 为 715 兆瓦 , |
29 |
Le développement de l'énergie nucléaire est un enjeu majeur pour la
Chine et le reste du monde dans le cadre de la préservation de
l'environnement et de la réduction de l'effet de serre. |
核电 的 发展 是 中国 和 重大 问题 世界 保护 环境 , 减少 温室 效应 的 范围 内 。 |
发展 核能 对 中国 和 世界 都 具有 非常 重要 的 意义 , 是 保护 环境 和 减缓 温室 效应 重要 的 途径 。 |
发展 核能 |
Le Tableau 41présente les statistiques des données de test. Ensuite, nous avons continué à post-éditer des résultats de TA, mais plus ceux de GT : nous avons continué à mettre dans notre MT les résultats de GT, mais nous avons post-édité les résultats de nos systèmes, puis réinjecté ces nouvelles cibles comme des « références » dans le processus d'apprentissage, etc.
Tableau 41 : Statistiques des données de test
Nb de segments |
Nb de mots |
Nb de p.std (source) |
Nb de caractères |
Nb de p.std |
Tpe_p.std |
300 |
26,1 |
31,32 |
28,3 |
21,2 |
6,2 mn |
Nous
traduisons les segments source avec 3 systèmes, GT, système de TA entrainé avec
le corpus MultiUN (2M bisegments), et notre système combiné.
Les segments post-édités sont utilisés comme les références. Les scores BLEU des
systèmes de TA sont montrés dans le Tableau
42, et avec un exemple de traduction.
Tableau 42 : Score BLEU et exemples de sorties de systèmes de TA
Système |
BLEU |
Source :
Être un leader du renouveau du nucléaire dans le monde Référence :
成为 全世界 核能 复兴 的 领导者 |
|
GT |
37.86% |
Traduction |
作为 世界 核 复兴 的 领导者 |
Trace |
成为 全世界 |
||
Système de
TA |
21,52% |
Traduction |
受 教育 复兴 和 体面 工作 问题 的 一个 世界 核 |
Trace |
成为 全世界 |
||
Système de
TA |
49,37% |
Traduction |
成为 一个 全球 核电 复兴 的 引领者 |
Trace |
成为 全世界 |
Nous avons essayé de créer un système de TA français→chinois en utilisant le corpus MultiUN et la MT, traduisant le contenu dans le domaine de l’énergie.
Au début, nous nous sommes limité à ces ressources (très peu de corpus français-chinois, en particulier, le corpus français-chinois adapté au domaine) pour construire un système de TA statistique avec Moses. La traduction de TA est “incompréhensible”.
Ensuite, nous avons testé les systèmes existants comme GT, mais le résultat n’était pas satisfaisant. Pour construire un système ayant une qualité de traduction acceptable, nous avons commencé à construire un corpus parallèle spécialisé à notre domaine. Nous avons collecté et extrait des segments parallèles à partir de sites Web, mais la quantité de segments parallèles n’était toujours pas suffisante. Nous avons alors créé des iMAG pour des sites Web correspondant à notre sujet, et nous les avons post-édités. Les résultats de TA ont été fournis d’abord par GT, puis par notre système de TA basé sur Moses, en construction. Nous avons obtenu plusieurs milliers de segments parallèles.
Enfin, nous avons construit un système de TA français→chinois avec un corpus “mixé” (corpus extrait et MT), et la qualité de traduction s’est enfin acceptable. Notre hypothèse est que nous pourrions arriver à une qualité vraiment bonne si nous avions non pas 9000, mais entre 30000 et 50000 segments. Nous n’avons pas eu les ressources suffisantes pour la tester, et espérons trouver une situation le permettant dans le futur.
[1] http://www.libellex.fr/
[2] http://en.wikipedia.org/wiki/Comparison_of_machine_translation_applications
[3] ROI = Return On Investment, ou "retour sur investissement"
[4] Essentiellement, par l'ODA (Overseas Development Agency) du METI.
[5] http://opus.lingfil.uu.se/MultiUN.php
[6] http://nlp.stanford.edu/software/segmenter.shtml
[7] http://joshua-decoder.org/6.0/pipeline.html
[8] http://www.nlplab.com/NiuPlan/NiuTrans.YourData.html
[9] http://www.nlplab.cn/NiuTrans.Phrase.html
[10] http://opus.lingfil.uu.se/MultiUN.php
[11] http://sourceforge.net/projects/aligner/
[12] http://www.xrce.xerox.com/About-XRCE/History/Historical-projects/XeLDA
[13] Intel(R) Core(TM) i7-3770 CPU @ 3,40GHz
[14] Quand nous et d'autres Chinois qui nous aident post-éditons, nous notons l'heure au début et à la fin d'une session, et aussi l'ensemble des segments post-édités durant la session. Nous en tirons un temps total moyen. Nous faisons l'hypothèse (qui semble vérifiée) que les temps sont proportionnels aux nombres de mots, et une simple règle de trois nous donne alors Tpe_tot pour chaque segment.