UNIVERSITÉ DE GRENOBLE

N° attribué par la bibliothèque

/__/__/__/__/__/__/__/__/__/

THÈSE

pour obtenir le grade de

DOCTEUR ÈS SCIENCES

délivré par l'UNIVERSITÉ GRENOBLE ALPES

Spécialité : “INFORMATIQUE”

Thèse préparée au laboratoire GETALP-LIG (CNRS-INPG-UJF) dans le cadre de

l'École Doctorale “Mathématiques, Sciences et Technologies de l'Information, Informatique”

 

présentée et soutenue publiquement

par

Ying ZHANG

 

Le 28/6/2016

 

Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés

 

JURY

 

     M. Ahmed Lbath, prof. UGA         Président

     M. Denis Maurel, prof. Tours         Rapporteur

     M. Alain Polguère, prof. Nancy         Rapporteur

     M. Mathieu Lafourcade, MdC Montpellier II         Examinateur

     M. Antoine Chalvin, prof. INaLCO         Examinateur

     M. François Brown De Colstoun, PDG de L&M         Invité

     M. Christian Boitet, prof. UGA         Directeur de thèse

     Mme. Valérie Bellynck, MdC G-INP         Codirecteur de thèse

     M. Mathieu Mangeot-Nagata, MdC UdSavoie         Codirecteur de thèse


Remerciements

Résumé (au verso) en français

Pas mal, mais ce n'est qu'un premier jet. À revoir

Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).

Nous commençons par une étude de l'évolution des idées dans ce domaine, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme Jibiki-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et Jibiki-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système Pivax-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.

Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par Jibiki-2, dont les "liens riches", nous avons transformé Pivax-1 en Pivax-2, et réactivé le projet GBDlex-UW++ commencé lors du projet ANR Traouiero, en réimportant toutes les données (multilingues) supportées par Pivax-1, et en les rendant disponibles sur un serveur ouvert.

Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de Pivax en y intégrant des volumes de "prolexèmes", comme dans Prolexbase [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet Innovalangues. Enfin, nous avons créé un "intergiciel de lemmatisation", Lextoh, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CreatDico, Lextoh permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous iMAG/SECTra, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en Moses.

On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en Moses.

Abstract in English

Pas mal, mais ce n'est qu'un premier jet. À revoir, puis à traduire

Our research is in computational lexicography, and concerns not only the computer support to lexical resources useful for MT (machine translation) and MAHT (Machine Aided Human Translation), but also the linguistic architecture of lexical databases supporting these resources in an operational context (CIFRE thesis with L&M). 

We begin with a study of the evolution of ideas in this area, since the computerization of classical dictionaries to platforms for building up true "lexical databases" such as Jibiki-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] and Jibiki-2 [Zhang, Y. et al., 2014].  The starting point was the Pivax-1  system [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT systems with a lexical pivot, able to support multiple volumes in each "lexical space", be it natural or artificial (as UNL).  Considering the industrial context, we focused our research on some issues, in informatics and lexicography.

To scale up, and to add some new features enabled by Jibiki-2, such as the "rich links", we have transformed Pivax-1 into Pivax-2, and reactivated the GBDlex-UW++ project that started during the ANR Traouiero project, by re-importing all (multilingual) data supported by Pivax-1, and making them available on an open server.

Hence a need for L&M for acronyms, we expanded the "macrostructure" of Pivax incorporating volumes of "prolexemes" as in Prolexbase [Tran, M. & Maurel, D., 2006].  We also show how to extend it to meet new needs such as those of the Innovalangues project.  Finally, we have created a "lemmatisation middleware", Lextoh, which allows calling several morphological analyzers or lemmatizers and then to merge and filter their results.  Combined with a new dictionary creation tool, CreatDico, Lextoh allows to build on the fly a "mini-dictionary" corresponding to a sentence or a paragraph of a text being "post-edited" online under iMAG/SECTra, which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010].  It could also be used to create parallel corpora with the aim to build Moses-based "factored MT systems".

中文摘要

的研究域是纂,不仅仅是只关注MT(机器翻)和MAHT(机助人译)等IT相关的词汇资源支持,也是在工背景下(与L&M合作的CIFRE文),支持其源的词汇数据言学体系的架构建模

我们从领域的想法的演变开始研究,从传统字典的信息化到真正的“词汇数据库 平台的建立, 例如Jibiki-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] Jibiki-2 [Zhang, Y. et al., 2014]我们的出发点是Pivax-1系统 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009],一个词汇数据库,服务于异质的自动翻译系统,通过中间(pivot)词汇来支持多个卷(volume)的自然的或人工的(如UNL)“词汇空间”。考虑到工业背景,我们把我们的研究集中在IT和词典编纂的某些问题上。

为了扩大规模,也为了享受到Jibiki-2支持的新功能,即“复杂链接”,我们把Pivax-1改造为Pivax-2,并且在ANR Traouiero项目中重新激活GBDlex-UW++项目,并重新导入Pivax-1中的所有(多语言)数据,并使其在开放的服务器上可用。

由于L&M的一个需求涉及到首字母缩略词,我们扩展了Pivax 的宏观结构,用于整合“代词素(prolexèmes) ”类型的卷,如Prolexbase [Tran, M. & Maurel, D., 2006] 中所做的那样。我们也展示了如何扩展新的Pivax的宏观结构以满足新的需求,如在Innovalangues项目中。最后,我们创建了一个“词形还原中间件”,Lextoh,它允许调用多个形态分析器或词形还原器,然后整合和过滤它们的结果。与另一个新的创建字典的工具,CreatDico,相结合,Lextoh允许为iMAG/SECTra系统中,一个正在进行在线“后编辑”的句子或段落文字,在其侧创建一个相对应的“小字典”,这实现了在[Huynh, C.-P., 2010]中所预期的积极词汇辅助功能。我们也能使用该工具,用于创建适用于摩西的要素自动翻译系统所需的“要素”平行语料。 On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en Moses.

 

 

Conventions diverses

1.     Les citations sont signalées en général par une référence, et toujours par l'emploi d'un style de caractères particulier (par exemple : ceci est une citation).

2.     Les noms de logiciels et de systèmes ou les extensions de fichiers sont dans un autre style particulier, qui utilise de petites majuscules (par exemple : Jibiki ou Xhtml).

3.     Les exemples linguistiques (comme Organisation des Nations Unies), sont également distingués par un style de caractères particulier.

4.     Ce qui concerne des programmes ou des messages d’un logiciel (par exemple : TIMESLEEP = 30s) est également dans un style particulier.

5.     Les acronymes ou abréviations, comme TA, THAM, GETALP, L&M ou BDLex, sont développés lors de leur première occurrence, et regroupés dans le glossaire qui suit la table des figures.

6.     Des "définitions" et des "idées-guide" sont introduites au fur et à mesure de la progression de l'exposé. Elles sont reprises et regroupées après la bibliographie et la netographie.

 

 

Table des matières

Remerciements............................................................................................................................... 2

Résumé en français........................................................................................................................ 3

Abstract in English........................................................................................................................ 3

中文摘要      4

Table des matières.......................................................................................................................... 5

Table des figures........................................................................................................................... 9

Table des tableaux....................................................................................................................... 11

Glossaire        12

Introduction   14

Chapitre I    Contexte de la recherche et problèmes abordés............................................................. 16

Introduction.......................................................................................................................... 16

I.1    Évolution des idées de 1980 à 2012................................................................................... 16

I.1.1    1980— : approches visant à faire le lien entre dictionnaires pour les systèmes de TA et pour les humains   16

I.1.1.1    "Ouverture" des dictionnaires de TA aux traducteurs...................................................................................... 16

I.1.1.2    Intégration des dictionnaires des traducteurs dans des aides à la traduction........................................... 17

I.1.1.3    Prototypage de dictionnaires intégrant les deux aspects............................................................................... 18

I.1.1.4    Exemples de "bonnes pratiques" et de "cercles vertueux"................................................................................ 18

Conclusion.................................................................................................................................................................................... 19

I.1.2    1985— : tentatives pour unifier les informations générales et terminologiques....................... 20

I.1.3    1992— : dictionnairique avec évolution vers les réseaux et le contributif............................... 21

I.1.3.1    1992— : travaux sur la construction de dictionnaires informatisés............................................................ 21

I.1.3.2    1995 ou 1998 : vers la construction contributive de dictionnaires en ligne........................................... 26

I.1.4    1991—: évolution vers des bases lexicales........................................................................ 29

I.1.4.1    Bases lexicales permettant la symétrie.................................................................................................................. 29

I.1.4.2    Structure générique (microstructures et macrostructures)............................................................................... 31

I.1.4.3    Ingénierie des BDLex contributives..................................................................................................................... 32

Synthèse............................................................................................................................... 34

I.2    Situation et problèmes en 2012........................................................................................ 34

I.2.1    Au GETALP................................................................................................................ 35

I.2.1.1    Projets dérivés des thèses de G. Sérasset et de M. Mangeot.......................................................................... 35

I.2.1.2    La génération de mini-dictionnaires, une nouvelle application générique............................................... 36

I.2.1.3    Résultats de thèses antérieures non liées à Jibiki............................................................................................... 36

I.2.2    Chez L&M................................................................................................................. 37

I.2.2.1    Une BDLex simple destinée aux glossaires multilingues............................................................................... 37

I.2.2.2    Problèmes perçus........................................................................................................................................................ 38

I.2.3    Dans la "communauté scientifique" du TAL...................................................................... 39

I.2.3.1    Extraction de termes techniques............................................................................................................................. 39

I.2.3.2    Extraction d'expressions polylexicales (EPL)................................................................................................... 40

I.2.3.3    Projets de BDLex "sémantiques"............................................................................................................................ 40

I.2.3.4    Création contributive de dictionnaires pour la TA.......................................................................................... 42

I.2.3.5    Désambiguïsation lexicale....................................................................................................................................... 43

I.3    Thèmes de recherche abordés.......................................................................................... 43

I.3.1    Thèmes encore ouverts.................................................................................................. 43

I.3.1.1    Trois thèmes "lexicographiques"............................................................................................................................ 43

I.3.1.2    Trois thèmes concernant la conception de services lexicaux.......................................................................... 45

I.3.1.3    Deux thèmes plus liés au GL................................................................................................................................... 46

I.3.2    Thèmes retenus............................................................................................................ 46

I.3.2.1    Conception d'une BDLex unifiant tous les types d'unités lexicales (générales, terminologiques, situées et très situées)   47

I.3.2.2    Réalisation d'un service générique de création de mini-dictionnaires pour SECTra à partir d'une BDLex en Jibiki                47

I.3.2.3    Conception et implémentation d'un intergiciel de lemmatisation................................................................ 47

I.3.2.4    Recherche et intégration d'un système de gestion de tâches entre serveurs ou agents à gros grain... 47

Remarques finales......................................................................................................................................................................... 48

Chapitre II    Extensions fonctionnelles et opérationnelles : de Pivax-1 à Pivax-2.................................. 49

Introduction.......................................................................................................................... 49

II.1    Jibiki-1............................................................................................................................. 49

II.1.1    Présentation de Jibiki-1................................................................................................. 49

II.1.2    Architecture de Jibiki-1................................................................................................. 50

II.1.2.1    Spécification............................................................................................................................................................... 50

II.1.2.2    Implémentation.......................................................................................................................................................... 51

II.1.3    Types de BDLex déjà développés en Jibiki-1 en 2011.......................................................... 52

II.1.3.1    Papillon......................................................................................................................................................................... 52

II.1.3.2    LexAlp............................................................................................................................................................................ 53

II.1.3.3    GDEF............................................................................................................................................................................. 53

II.1.3.4    MotÀMot....................................................................................................................................................................... 54

II.1.3.5    Pivax-1........................................................................................................................................................................... 55

II.2    Pivax-1............................................................................................................................. 55

II.2.1    Motivations............................................................................................................... 55

II.2.2    Structure de Pivax-1..................................................................................................... 55

II.2.2.1    Macrostructure........................................................................................................................................................... 55

II.2.2.2    Microstructure........................................................................................................................................................... 56

II.2.2.3    Algorithme de calcul des liens.............................................................................................................................. 57

II.2.2.4    Interface........................................................................................................................................................................ 58

II.2.2.5    Début de programmabilité...................................................................................................................................... 58

II.2.3    Utilisations de Pivax-1................................................................................................. 60

II.2.3.1    Dans OMNIA................................................................................................................................................................. 60

II.2.3.2    Dans Traouiero et GBDLex-UW++............................................................................................................................. 61

II.2.4    Qualités et limitations................................................................................................. 61

II.3    Extensions fonctionnelles apportées par le passage à Jibiki-2........................................... 61

II.3.1    Liens riches............................................................................................................... 61

II.3.1.1    Motivations................................................................................................................................................................ 61

II.3.1.2    Implémentation.......................................................................................................................................................... 61

II.3.2    Listes non bornées...................................................................................................... 61

II.3.3    Possibilité générique de recherche avec lemmatisation....................................................... 61

II.4    Pivax-2 : opérationnalisation et extension de Pivax-1......................................................... 61

II.4.1    Algorithme générique de calcul des liens......................................................................... 61

II.4.2    Passage à l'échelle et accélération................................................................................. 61

II.4.2.1    Données lexicales supportées par Pivax-2........................................................................................................... 61

II.4.2.2    Évaluations comparatives des temps de réponse............................................................................................. 61

II.4.3    Support au projet GBDLex-UW++ et mise à disposition de ressources................................... 61

II.4.3.1    Support au projet GBDLex-UW++............................................................................................................................ 61

II.4.3.2    Mise à disposition de l'outil et de données sur le Web................................................................................. 61

Chapitre III   Une nouvelle architecture intégrant les données lexicales générales, terminologiques et "situées" : Pivax-3    61

Introduction.......................................................................................................................... 61

III.1    Analyse d'un problème posé par L&M............................................................................. 61

III.1.1    Présentation du problème rencontré par L&M................................................................ 61

III.1.1.1    Contexte..................................................................................................................................................................... 61

III.1.1.2    Extraits de la "ressource" des clients.................................................................................................................. 61

III.1.1.3    Demande précise de L&M..................................................................................................................................... 61

III.1.2    Analyse des problèmes posés........................................................................................ 61

III.1.2.1    Défauts de la ressource lexicale du client......................................................................................................... 61

III.1.2.2    Problèmes conceptuels.......................................................................................................................................... 61

III.1.2.3    Problèmes venant de la structure de la BDLex de Libellex........................................................................... 61

III.1.3    Étude lexicologique et lexicographique.......................................................................... 61

III.1.3.1    Nécessité d'un niveau conceptuel (lexies et axies)........................................................................................ 61

III.1.3.2    Nécessité de la notion de "prolexème" pour les entités nommées............................................................... 61

III.1.3.3    Différence entre le niveau terminologique et le niveau des prolexèmes................................................... 61

III.1.3.4    Nécessité de distinguer les lexèmes spécifiques d'un "sous-langage"...................................................... 61

III.1.3.5    Possibilité de se référer à la théorie de la cognition située......................................................................... 61

III.2    Éléments d'une solution............................................................................................... 61

III.2.1    Systèmes dont on pouvait s'inspirer............................................................................... 61

III.2.1.1    CJK.org........................................................................................................................................................................ 61

III.2.1.2    IATE.............................................................................................................................................................................. 61

III.2.1.3    EDR............................................................................................................................................................................... 61

III.2.2    Prolexbase et les prolexèmes........................................................................................ 61

III.2.2.1    Le projet Prolex........................................................................................................................................................ 61

III.2.2.2    Concepts essentiels venant de Coseriu............................................................................................................. 61

III.2.2.3    Aspects logiciels : Prolexbase............................................................................................................................. 61

III.2.3    Esquisse d'une solution............................................................................................... 61

III.3    Conception et implémentation d'une solution basée sur les "liens riches"...................... 61

III.3.1    1° prototypage chez L&M........................................................................................... 61

III.3.1.1    Contraintes techniques.......................................................................................................................................... 61

III.3.1.2    Contraintes industrielles...................................................................................................................................... 61

III.3.1.3    Spécification et implémentation d'une solution ad hoc................................................................................ 61

III.3.1.4    Démonstration.......................................................................................................................................................... 61

III.3.2    Une solution plus générale basée sur Jibiki-2 : Pivax-3....................................................... 61

III.3.2.1    Extension de l'architecture de Pivax-2................................................................................................................ 61

III.3.2.2    Implémentation de Pivax-3...................................................................................................................................... 61

III.3.3    Un exemple complet de gestion des acronymes................................................................. 61

III.3.3.1    Exemple en quatre langues pour le sens "Organisation des Nations Unies".......................................... 61

III.3.3.2    Modélisation de cet exemple dans Pivax-3......................................................................................................... 61

III.3.3.3    Démonstrations........................................................................................................................................................ 61

III.4    Autres extensions envisageables.................................................................................. 61

III.4.1    Vers l'intégration général-terminologique-situé............................................................... 61

III.4.1.1    Intégration pour l'utilisation dans un domaine linguistique spécifique................................................ 61

III.4.1.2    Intégration pour l'utilisation des quatre dimensions du diasystème....................................................... 61

III.4.2    Autres structures (ex: Innovalangues-LexInnova)............................................................... 61

III.4.2.1    Contexte du projet Innovalangues-LexInnova....................................................................................................... 61

III.4.2.2    Proto-structure du dictionnaire.......................................................................................................................... 61

III.4.2.3    Modélisation de la macrostructure avec des exemples.................................................................................. 61

Chapitre IV    Outils génériques pour BDLex "actives"................................................................... 61

Introduction.......................................................................................................................... 61

IV.1    Gestion des travaux par ActiveMQ................................................................................... 61

IV.1.1    Motivations : besoins attestés et fonctionnalités désirées................................................... 61

IV.1.1.1    Besoins attestés....................................................................................................................................................... 61

IV.1.1.2    Fonctionnalités désirées....................................................................................................................................... 61

IV.1.2    Approches envisageables............................................................................................. 61

IV.1.2.1    Extension de Blexisma............................................................................................................................................. 61

IV.1.2.2    Reprise du "réseau Cash/Lidia"............................................................................................................................... 61

IV.1.2.3    Utilisation de JobCenter........................................................................................................................................ 61

IV.1.2.4    Utilisation de ActiveMQ......................................................................................................................................... 61

IV.1.3    Intégration d'ActiveMQ................................................................................................ 61

IV.1.3.1    Étude et analyse d'ActiveMQ................................................................................................................................. 61

IV.1.3.2    Implémentation......................................................................................................................................................... 61

IV.1.3.3    Expériences et validations.................................................................................................................................... 61

IV.2    Lextoh............................................................................................................................ 61

IV.2.1    Motivations............................................................................................................... 61

IV.2.1.1    Support de systèmes de TA de type Moses........................................................................................................ 61

IV.2.1.2    Consultation dictionnairique avancée.............................................................................................................. 61

IV.2.1.3    Production de mini-dictionnaires de formats variés...................................................................................... 61

IV.2.2    Conception de Lextoh................................................................................................. 61

IV.2.2.1    Fonctionnalités désirées....................................................................................................................................... 61

IV.2.2.2    Architecture globale de LEXTOH......................................................................................................................... 61

IV.2.2.3    Utilisateurs et scénarios........................................................................................................................................ 61

IV.2.3    Expérimentation et validation....................................................................................... 61

IV.2.3.1    Interface principale et disponibilité................................................................................................................... 61

IV.2.3.2    Test du système........................................................................................................................................................ 61

IV.3    CreatDico....................................................................................................................... 61

IV.3.1    Motivations : des besoins variés................................................................................... 61

IV.3.1.1    Besoins des systèmes d'aide à la traduction.................................................................................................... 61

IV.3.1.1    Besoin humain de lecture active.......................................................................................................................... 61

IV.3.1.2    Besoins pour des systèmes de TA....................................................................................................................... 61

IV.3.1.3    Besoins pour des outils spécialisés................................................................................................................... 61

IV.3.2    Conception de CreatDico............................................................................................. 61

IV.3.2.1    Fonctionnalités désirées....................................................................................................................................... 61

IV.3.2.2    Architecture globale de CreatDico...................................................................................................................... 61

IV.3.2.3    Utilisateurs et scénarios........................................................................................................................................ 61

IV.3.3    Expérimentation et validation....................................................................................... 61

IV.3.3.1    Interface principale et disponibilité................................................................................................................... 61

IV.3.3.2    Tests fonctionnels................................................................................................................................................... 61

Conclusions et perspectives............................................................................................................ 61

Conclusions........................................................................................................................... 61

Perspectives............................................................................................................................ 61

Bibliographie 61

Netographie    61

Table des définitions.................................................................................................................... 61

Table des "idées-guides".............................................................................................................. 61

Annexes         61

Annexe 1      Liste d'une partie des ressources lexicales.......................................................... 61

Annexe 2      Exemple de diversité des UW dans le projet UNL.................................................. 61

Annexe 3      Historique du projet Papillon................................................................................ 61

Annexe 4      Questions et réponses sur HowNet......................................................................... 61

Annexe 5      Exemples des microstructures de LexALP............................................................... 61

Annexe 6      Implémentation de l'affichage en colonnes dans Pivax-2....................................... 61

Annexe 7      Schéma de la base de données lexicales de Libellex............................................... 61

Annexe 8      Algorithmes de calcul dans Pivax-3 en pseudo-code.............................................. 61

Annexe 9      Expérience sur les appels de Tradoh par SECTra via ActiveMQ pour les prétraductions 61

Annexe 10    Spécifications de Lextoh....................................................................................... 61

Annexe 11    Spécifications de CreatDico.................................................................................. 61

 

 

 


Table des figures

Table des tableaux

Glossaire

Introduction

Chapitre I: Contexte de la recherche et problèmes abordés

Chapitre II: Extensions fonctionnelles et opérationnelles 

Chapitre III: Une nouvelle architecture intégrant les données lexicales générales

Chapitre IV: Outils génériques pour BDLex

Conclusions et perspectives

Bibliographie

Netographie

Table des définitions

Table des "idées-guides"

Annexes

o