N°
attribué par la
bibliothèque
/__/__/__/__/__/__/__/__/__/
THÈSE
pour obtenir le
grade de
DOCTEUR ÈS
SCIENCES
délivré par l'UNIVERSITÉ
GRENOBLE ALPES
Spécialité
: “INFORMATIQUE”
Thèse préparée
au laboratoire GETALP-LIG (CNRS-INPG-UJF) dans
le cadre de
l'École Doctorale
“Mathématiques, Sciences et Technologies de l'Information, Informatique”
présentée et
soutenue publiquement
par
Ying ZHANG
Le
28/6/2016
Modèles et outils pour des bases lexicales
"métier" multilingues et contributives de grande taille, utilisables
tant en traduction automatique et automatisée que pour des services
dictionnairiques variés
JURY
M. Ahmed Lbath,
prof. UGA Président
M. Denis Maurel,
prof. Tours Rapporteur
M. Alain Polguère,
prof. Nancy Rapporteur
M. Mathieu Lafourcade, MdC Montpellier II Examinateur
M. Antoine Chalvin, prof. INaLCO Examinateur
M. François Brown De Colstoun, PDG de L&M Invité
M. Christian Boitet, prof. UGA Directeur de thèse
Mme. Valérie Bellynck, MdC G-INP Codirecteur
de thèse
M. Mathieu Mangeot-Nagata, MdC UdSavoie Codirecteur de thèse
Notre recherche se
situe en lexicographie computationnelle, et concerne non seulement le support
informatique aux ressources lexicales utiles pour la TA (traduction
automatique) et la THAM (traduction humaine aidée par la machine), mais aussi
l'architecture linguistique des bases lexicales supportant ces ressources, dans
un contexte opérationnel (thèse CIFRE avec L&M).
Nous commençons par
une étude de l'évolution des idées , depuis l'informatisation des dictionnaires classiques
jusqu'aux plates-formes de construction de vraies "bases lexicales"
comme Jibiki-1 [Mangeot, M. et al.,
2003 ; Sérasset, G., 2004] et Jibiki-2 [Zhang, Y. et al.,
2014]. Le point de départ a été le système Pivax-1 [Nguyen, H.-T. et al.,
2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à
pivot lexical supportant plusieurs volumes par "espace lexical"
naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous
avons centré notre recherche sur certains problèmes, informatiques et
lexicographiques.
Pour passer à
l'échelle, et pour profiter des nouvelles fonctionnalités permises par Jibiki-2, dont les "liens riches", nous avons
transformé Pivax-1 en Pivax-2, et réactivé le
projet GBDlex-UW++ commencé lors du projet ANR Traouiero, en réimportant toutes les données (multilingues) supportées par Pivax-1, et en les rendant disponibles sur un serveur ouvert.
Partant d'un besoin
de L&M concernant les acronymes, nous avons étendu la
"macrostructure" de Pivax en y intégrant des
volumes de "prolexèmes", comme dans Prolexbase
[Tran, M. & Maurel,
D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux
besoins, comme ceux du projet Innovalangues. Enfin, nous
avons créé un "intergiciel de lemmatisation", Lextoh, qui permet d'appeler plusieurs analyseurs
morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné
à un nouvel outil de création de dictionnaires, CreatDico, Lextoh permet de construire à la volée un "mini-dictionnaire"
correspondant à une phrase ou à un paragraphe d'un texte en cours de
"post-édition" en ligne sous iMAG/SECTra,
ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des
corpus parallèles "factorisés" pour construire des systèmes de TA en Moses.
Our research is in
computational lexicography, and concerns not only the computer support to
lexical resources useful for MT (machine translation) and MAHT (Machine Aided
Human Translation), but also the linguistic architecture of lexical databases
supporting these resources in an operational context (CIFRE thesis with
L&M).
We begin with a
study of the evolution of ideas in this area, since the computerization of
classical dictionaries to platforms for building up true "lexical
databases" such as Jibiki-1 [Mangeot, M. et al.,
2003 ; Sérasset, G., 2004] and Jibiki-2 [Zhang, Y. et al.,
2014]. The starting point was the Pivax-1 system [Nguyen, H.-T. et al.,
2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT
systems with a lexical pivot, able to support multiple volumes in each
"lexical space", be it natural or artificial (as UNL). Considering the industrial context, we
focused our research on some issues, in informatics and lexicography.
To scale up, and to
add some new features enabled by Jibiki-2,
such as the "rich links", we have transformed Pivax-1 into Pivax-2, and reactivated
the GBDlex-UW++ project that started during the ANR Traouiero project, by
re-importing all (multilingual) data supported by Pivax-1, and making them available on an open server.
Hence a need for
L&M for acronyms, we expanded the "macrostructure" of Pivax incorporating volumes of "prolexemes" as in
Prolexbase [Tran, M. & Maurel,
D., 2006]. We also show how to extend it
to meet new needs such as those of the Innovalangues project. Finally, we have
created a "lemmatisation middleware", Lextoh,
which allows calling several morphological analyzers or lemmatizers and then to
merge and filter their results. Combined
with a new dictionary creation tool, CreatDico,
Lextoh allows to build on the fly a
"mini-dictionary" corresponding to a sentence or a paragraph of a
text being "post-edited" online under iMAG/SECTra,
which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010]. It could also
be used to create parallel corpora with the aim to build Moses-based "factored MT systems".
我们的研究领域是计算词典编纂,不仅仅是只关注对MT(机器翻译)和MAHT(机助人译)等IT相关的词汇资源支持,也是在工业背景下(与L&M合作的CIFRE论文),支持其资源的词汇数据库的语言学体系的架构建模。
我们从该领域的想法的演变史开始研究,从传统字典的信息化到真正的“词汇数据库” 平台的建立, 例如Jibiki-1 [Mangeot, M. et al.,
2003 ; Sérasset, G., 2004] 和Jibiki-2 [Zhang, Y. et al.,
2014]。我们的出发点是Pivax-1系统 [Nguyen, H.-T. et al.,
2007 ; Nguyen, H. T. & Boitet, C., 2009],一个词汇数据库,服务于异质的自动翻译系统,通过中间(pivot)词汇来支持多个卷(volume)的自然的或人工的(如UNL)“词汇空间”。考虑到工业背景,我们把我们的研究集中在IT和词典编纂的某些问题上。
为了扩大规模,也为了享受到Jibiki-2支持的新功能,即“复杂链接”,我们把Pivax-1改造为Pivax-2,并且在ANR Traouiero项目中重新激活GBDlex-UW++项目,并重新导入Pivax-1中的所有(多语言)数据,并使其在开放的服务器上可用。
由于L&M的一个需求涉及到首字母缩略词,我们扩展了Pivax 的宏观结构,用于整合“代词素(prolexèmes) ”类型的卷,如Prolexbase [Tran, M. & Maurel,
D., 2006] 中所做的那样。我们也展示了如何扩展新的Pivax的宏观结构以满足新的需求,如在Innovalangues项目中。最后,我们创建了一个“词形还原中间件”,Lextoh,它允许调用多个形态分析器或词形还原器,然后整合和过滤它们的结果。与另一个新的创建字典的工具,CreatDico,相结合,Lextoh允许为iMAG/SECTra系统中,一个正在进行在线“后编辑”的句子或段落文字,在其侧创建一个相对应的“小字典”,这实现了在[Huynh, C.-P., 2010]中所预期的积极词汇辅助功能。我们也能使用该工具,用于创建适用于摩西的要素自动翻译系统所需的“要素”平行语料。
Conventions diverses
1. Les citations sont signalées en général par une référence, et toujours par l'emploi d'un style de caractères particulier (par exemple : ceci est une citation).
2. Les noms de logiciels et de systèmes ou les extensions de fichiers sont dans un autre style particulier, qui utilise de petites majuscules (par exemple : Jibiki ou Xhtml).
3. Les exemples linguistiques (comme Organisation des Nations Unies), sont également distingués par un style de caractères particulier.
4. Ce qui concerne des programmes ou des messages d’un logiciel (par exemple : TIMESLEEP = 30s) est également dans un style particulier.
5. Les acronymes ou abréviations, comme TA, THAM, GETALP, L&M ou BDLex, sont développés lors de leur première occurrence, et regroupés dans le glossaire qui suit la table des figures.
6. Des "définitions" et des "idées-guide" sont introduites au fur et à mesure de la progression de l'exposé. Elles sont reprises et regroupées après la bibliographie et la netographie.
Remerciements............................................................................................................................... 2
Résumé en français........................................................................................................................ 3
Abstract in English........................................................................................................................ 3
中文摘要 4
Table des matières.......................................................................................................................... 5
Table des figures........................................................................................................................... 9
Table des tableaux....................................................................................................................... 11
Glossaire 12
Introduction 14
Chapitre I Contexte
de la recherche et problèmes abordés............................................................. 16
Introduction.......................................................................................................................... 16
I.1 Évolution
des idées de 1980 à 2012................................................................................... 16
I.1.1 1980— :
approches visant à faire le lien entre dictionnaires pour les systèmes de TA et
pour les humains 16
I.1.1.1 "Ouverture"
des dictionnaires de TA aux traducteurs...................................................................................... 16
I.1.1.2 Intégration
des dictionnaires des traducteurs dans des aides à la traduction........................................... 17
I.1.1.3 Prototypage
de dictionnaires intégrant les deux aspects............................................................................... 18
I.1.1.4 Exemples
de "bonnes pratiques" et de "cercles vertueux"................................................................................ 18
Conclusion.................................................................................................................................................................................... 19
I.1.2 1985— :
tentatives pour unifier les informations générales et terminologiques....................... 20
I.1.3 1992— :
dictionnairique avec évolution vers les réseaux et le contributif............................... 21
I.1.3.1 1992— :
travaux sur la construction de dictionnaires informatisés............................................................ 21
I.1.3.2 1995
ou 1998 : vers la construction contributive de dictionnaires en ligne........................................... 26
I.1.4 1991—:
évolution vers des bases lexicales........................................................................ 29
I.1.4.1 Bases
lexicales permettant la symétrie.................................................................................................................. 29
I.1.4.2 Structure
générique (microstructures et macrostructures)............................................................................... 31
I.1.4.3 Ingénierie
des BDLex contributives..................................................................................................................... 32
Synthèse............................................................................................................................... 34
I.2 Situation
et problèmes en 2012........................................................................................ 34
I.2.1 Au
GETALP................................................................................................................ 35
I.2.1.1 Projets
dérivés des thèses de G. Sérasset et de M. Mangeot.......................................................................... 35
I.2.1.2 La
génération de mini-dictionnaires, une nouvelle application générique............................................... 36
I.2.1.3 Résultats
de thèses antérieures non liées à Jibiki............................................................................................... 36
I.2.2 Chez
L&M................................................................................................................. 37
I.2.2.1 Une
BDLex simple destinée aux glossaires multilingues............................................................................... 37
I.2.2.2 Problèmes
perçus........................................................................................................................................................ 38
I.2.3 Dans
la "communauté scientifique" du TAL...................................................................... 39
I.2.3.1 Extraction
de termes techniques............................................................................................................................. 39
I.2.3.2 Extraction
d'expressions polylexicales (EPL)................................................................................................... 40
I.2.3.3 Projets
de BDLex "sémantiques"............................................................................................................................ 40
I.2.3.4 Création
contributive de dictionnaires pour la TA.......................................................................................... 42
I.2.3.5 Désambiguïsation
lexicale....................................................................................................................................... 43
I.3 Thèmes
de recherche abordés.......................................................................................... 43
I.3.1 Thèmes
encore ouverts.................................................................................................. 43
I.3.1.1 Trois
thèmes "lexicographiques"............................................................................................................................ 43
I.3.1.2 Trois
thèmes concernant la conception de services lexicaux.......................................................................... 45
I.3.1.3 Deux
thèmes plus liés au GL................................................................................................................................... 46
I.3.2 Thèmes
retenus............................................................................................................ 46
I.3.2.1 Conception
d'une BDLex unifiant tous les types d'unités lexicales (générales,
terminologiques, situées et très situées) 47
I.3.2.2 Réalisation
d'un service générique de création de mini-dictionnaires pour SECTra à partir d'une BDLex en Jibiki 47
I.3.2.3 Conception
et implémentation d'un intergiciel de lemmatisation................................................................ 47
I.3.2.4 Recherche
et intégration d'un système de gestion de tâches entre serveurs ou agents à
gros grain... 47
Remarques finales......................................................................................................................................................................... 48
Chapitre II Extensions
fonctionnelles et opérationnelles : de Pivax-1 à Pivax-2.................................. 49
Introduction.......................................................................................................................... 49
II.1 Jibiki-1............................................................................................................................. 49
II.1.1 Présentation
de Jibiki-1................................................................................................. 49
II.1.2 Architecture
de Jibiki-1................................................................................................. 50
II.1.2.1 Spécification............................................................................................................................................................... 50
II.1.2.2 Implémentation.......................................................................................................................................................... 51
II.1.3 Types
de BDLex déjà développés en Jibiki-1 en 2011.......................................................... 52
II.1.3.1 Papillon......................................................................................................................................................................... 52
II.1.3.2 LexAlp............................................................................................................................................................................ 53
II.1.3.3 GDEF............................................................................................................................................................................. 53
II.1.3.4 MotÀMot....................................................................................................................................................................... 54
II.1.3.5 Pivax-1........................................................................................................................................................................... 55
II.2 Pivax-1............................................................................................................................. 55
II.2.1 Motivations............................................................................................................... 55
II.2.2 Structure
de Pivax-1..................................................................................................... 55
II.2.2.1 Macrostructure........................................................................................................................................................... 55
II.2.2.2 Microstructure........................................................................................................................................................... 56
II.2.2.3 Algorithme
de calcul des liens.............................................................................................................................. 57
II.2.2.4 Interface........................................................................................................................................................................ 58
II.2.2.5 Début
de programmabilité...................................................................................................................................... 58
II.2.3 Utilisations
de Pivax-1................................................................................................. 60
II.2.3.1 Dans OMNIA................................................................................................................................................................. 60
II.2.3.2 Dans Traouiero et GBDLex-UW++............................................................................................................................. 61
II.2.4 Qualités
et limitations................................................................................................. 61
II.3 Extensions fonctionnelles apportées par le passage à Jibiki-2........................................... 61
II.3.1 Liens riches............................................................................................................... 61
II.3.1.1 Motivations................................................................................................................................................................ 61
II.3.1.2 Implémentation.......................................................................................................................................................... 61
II.3.2 Listes non bornées...................................................................................................... 61
II.3.3 Possibilité générique de recherche avec lemmatisation....................................................... 61
II.4 Pivax-2 : opérationnalisation et extension de Pivax-1......................................................... 61
II.4.1 Algorithme générique de calcul des liens......................................................................... 61
II.4.2 Passage à l'échelle et accélération................................................................................. 61
II.4.2.1 Données
lexicales supportées par Pivax-2........................................................................................................... 61
II.4.2.2 Évaluations
comparatives des temps de réponse............................................................................................. 61
II.4.3 Support au projet GBDLex-UW++ et mise à
disposition de ressources................................... 61
II.4.3.1 Support
au projet GBDLex-UW++............................................................................................................................ 61
II.4.3.2 Mise à
disposition de l'outil et de données sur le Web................................................................................. 61
Chapitre III Une
nouvelle architecture intégrant les données lexicales générales,
terminologiques et "situées" : Pivax-3 61
Introduction.......................................................................................................................... 61
III.1 Analyse
d'un problème posé par L&M............................................................................. 61
III.1.1 Présentation
du problème rencontré par L&M................................................................ 61
III.1.1.1 Contexte..................................................................................................................................................................... 61
III.1.1.2 Extraits
de la "ressource" des clients.................................................................................................................. 61
III.1.1.3 Demande
précise de L&M..................................................................................................................................... 61
III.1.2 Analyse
des problèmes posés........................................................................................ 61
III.1.2.1 Défauts
de la ressource lexicale du client......................................................................................................... 61
III.1.2.2 Problèmes
conceptuels.......................................................................................................................................... 61
III.1.2.3 Problèmes
venant de la structure de la BDLex de Libellex........................................................................... 61
III.1.3 Étude
lexicologique et lexicographique.......................................................................... 61
III.1.3.1 Nécessité
d'un niveau conceptuel (lexies et axies)........................................................................................ 61
III.1.3.2 Nécessité
de la notion de "prolexème" pour les entités nommées............................................................... 61
III.1.3.3 Différence
entre le niveau terminologique et le niveau des prolexèmes................................................... 61
III.1.3.4 Nécessité
de distinguer les lexèmes spécifiques d'un "sous-langage"...................................................... 61
III.1.3.5 Possibilité
de se référer à la théorie de la cognition située......................................................................... 61
III.2 Éléments
d'une solution............................................................................................... 61
III.2.1 Systèmes
dont on pouvait s'inspirer............................................................................... 61
III.2.1.1 CJK.org........................................................................................................................................................................ 61
III.2.1.2 IATE.............................................................................................................................................................................. 61
III.2.1.3 EDR............................................................................................................................................................................... 61
III.2.2 Prolexbase et les prolexèmes........................................................................................ 61
III.2.2.1 Le
projet Prolex........................................................................................................................................................ 61
III.2.2.2 Concepts essentiels venant
de Coseriu............................................................................................................. 61
III.2.2.3 Aspects logiciels : Prolexbase............................................................................................................................. 61
III.2.3 Esquisse
d'une solution............................................................................................... 61
III.3 Conception
et implémentation d'une solution basée sur les "liens riches"...................... 61
III.3.1 1°
prototypage chez L&M........................................................................................... 61
III.3.1.1 Contraintes techniques.......................................................................................................................................... 61
III.3.1.2 Contraintes
industrielles...................................................................................................................................... 61
III.3.1.3 Spécification et
implémentation d'une solution ad hoc................................................................................ 61
III.3.1.4 Démonstration.......................................................................................................................................................... 61
III.3.2 Une
solution plus générale basée sur Jibiki-2 : Pivax-3....................................................... 61
III.3.2.1 Extension
de l'architecture de Pivax-2................................................................................................................ 61
III.3.2.2 Implémentation
de Pivax-3...................................................................................................................................... 61
III.3.3 Un
exemple complet de gestion des acronymes................................................................. 61
III.3.3.1 Exemple
en quatre langues pour le sens "Organisation des Nations Unies".......................................... 61
III.3.3.2 Modélisation
de cet exemple dans Pivax-3......................................................................................................... 61
III.3.3.3 Démonstrations........................................................................................................................................................ 61
III.4 Autres
extensions envisageables.................................................................................. 61
III.4.1 Vers
l'intégration général-terminologique-situé............................................................... 61
III.4.1.1 Intégration
pour l'utilisation dans un domaine linguistique spécifique................................................ 61
III.4.1.2 Intégration
pour l'utilisation des quatre dimensions du diasystème....................................................... 61
III.4.2 Autres
structures (ex: Innovalangues-LexInnova)............................................................... 61
III.4.2.1 Contexte
du projet Innovalangues-LexInnova....................................................................................................... 61
III.4.2.2 Proto-structure
du dictionnaire.......................................................................................................................... 61
III.4.2.3 Modélisation
de la macrostructure avec des exemples.................................................................................. 61
Chapitre IV Outils
génériques pour BDLex "actives"................................................................... 61
Introduction.......................................................................................................................... 61
IV.1 Gestion
des travaux par ActiveMQ................................................................................... 61
IV.1.1 Motivations :
besoins attestés et fonctionnalités désirées................................................... 61
IV.1.1.1 Besoins
attestés....................................................................................................................................................... 61
IV.1.1.2 Fonctionnalités désirées....................................................................................................................................... 61
IV.1.2 Approches
envisageables............................................................................................. 61
IV.1.2.1 Extension
de Blexisma............................................................................................................................................. 61
IV.1.2.2 Reprise
du "réseau Cash/Lidia"............................................................................................................................... 61
IV.1.2.3 Utilisation
de JobCenter........................................................................................................................................ 61
IV.1.2.4 Utilisation
de ActiveMQ......................................................................................................................................... 61
IV.1.3 Intégration
d'ActiveMQ................................................................................................ 61
IV.1.3.1 Étude
et analyse d'ActiveMQ................................................................................................................................. 61
IV.1.3.2 Implémentation......................................................................................................................................................... 61
IV.1.3.3 Expériences
et validations.................................................................................................................................... 61
IV.2 Lextoh............................................................................................................................ 61
IV.2.1 Motivations............................................................................................................... 61
IV.2.1.1 Support
de systèmes de TA de type Moses........................................................................................................ 61
IV.2.1.2 Consultation
dictionnairique avancée.............................................................................................................. 61
IV.2.1.3 Production
de mini-dictionnaires de formats variés...................................................................................... 61
IV.2.2 Conception
de Lextoh................................................................................................. 61
IV.2.2.1 Fonctionnalités
désirées....................................................................................................................................... 61
IV.2.2.2 Architecture
globale de LEXTOH......................................................................................................................... 61
IV.2.2.3 Utilisateurs
et scénarios........................................................................................................................................ 61
IV.2.3 Expérimentation
et validation....................................................................................... 61
IV.2.3.1 Interface
principale et disponibilité................................................................................................................... 61
IV.2.3.2 Test
du système........................................................................................................................................................ 61
IV.3 CreatDico....................................................................................................................... 61
IV.3.1 Motivations :
des besoins variés................................................................................... 61
IV.3.1.1 Besoins
des systèmes d'aide à la traduction.................................................................................................... 61
IV.3.1.1 Besoin
humain de lecture active.......................................................................................................................... 61
IV.3.1.2 Besoins
pour des systèmes de TA....................................................................................................................... 61
IV.3.1.3 Besoins
pour des outils spécialisés................................................................................................................... 61
IV.3.2 Conception
de CreatDico............................................................................................. 61
IV.3.2.1 Fonctionnalités
désirées....................................................................................................................................... 61
IV.3.2.2 Architecture
globale de CreatDico...................................................................................................................... 61
IV.3.2.3 Utilisateurs
et scénarios........................................................................................................................................ 61
IV.3.3 Expérimentation
et validation....................................................................................... 61
IV.3.3.1 Interface
principale et disponibilité................................................................................................................... 61
IV.3.3.2 Tests fonctionnels................................................................................................................................................... 61
Conclusions et perspectives............................................................................................................ 61
Conclusions........................................................................................................................... 61
Perspectives............................................................................................................................ 61
Bibliographie 61
Netographie 61
Table des définitions.................................................................................................................... 61
Table des
"idées-guides".............................................................................................................. 61
Annexes 61
Annexe 1 Liste
d'une partie des ressources lexicales.......................................................... 61
Annexe 2 Exemple
de diversité des UW dans le projet UNL.................................................. 61
Annexe 3 Historique
du projet Papillon................................................................................ 61
Annexe 4 Questions
et réponses sur HowNet......................................................................... 61
Annexe 5 Exemples
des microstructures de LexALP............................................................... 61
Annexe 6 Implémentation de l'affichage en colonnes dans Pivax-2....................................... 61
Annexe 7 Schéma de la base de données lexicales de Libellex............................................... 61
Annexe 8 Algorithmes
de calcul dans Pivax-3 en pseudo-code.............................................. 61
Annexe 9 Expérience
sur les appels de Tradoh par SECTra via ActiveMQ pour les
prétraductions 61
Annexe 10 Spécifications
de Lextoh....................................................................................... 61
Annexe 11 Spécifications
de CreatDico.................................................................................. 61
o