Conclusions et perspectives (2 p.)

Conclusions

Dans le cadre de cette thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, notre recherche a concerné la lexicographie computationnelle, non seulement pour les services lexicaux pour les utilisations par des humains, mais aussi pour les supports informatiques des programmes.

Nous avons d'abord étudié l'évolution des idées en lexicographie computationnelle de 1980 à 2012, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de bases lexicales.

Pour nos travaux, nous sommes partie de Pivax-1, développé par H.-T. Nguyen dans le cadre de sa thèse [Nguyen, H.-T., 2009]. Ce système a été construit en utilisant la plate-forme générale Jibiki-1. Nous lui avons apporté des améliorations fonctionnelles et techniques.

D'une part, nous avons aidé M. Mangeot à améliorer la plate-forme sous-jacente Jibiki pour permettre plusieurs fonctions de façon générique, par exemple, la gestion de "liens riches", le choix de(s) volume(s) cible(s), la recherche avec lemmatisation préalable, et la présentation par une liste non bornée.

D'autre part, nous avons réimplémenté Pivax-1 sur la nouvelle version de Jibiki-2. Nous avons transformé l'algorithme de calcul des liens du "code spécifique" dans Pivax-1 vers le "code générique" dans Pivax-2. Après ces améliorations, Pivax-2 est devenu beaucoup plus rapide et plus stable que la première version. Pivax-2 a permis de mettre réellement à disposition "de la communauté" les ressources lexicales rassemblées par le projet ANR Traouiero : 270K entrées de CommonUNLDict de V. Dikonov, 9M entrées d'UWpedia de D. Rouquet, et 17K entrées d'iToldU de V. Bellynck.

La troisième partie de notre recherche a été motivée par un besoin industriel. Il s'agissait initialement de gestion des acronymes et d'autres types d'abréviations. Nous nous sommes beaucoup inspirée de la thèse de M. Tran [Tran, M. & Maurel, D., 2006] et des quatre variations du diasystème de Coseriu.

Nous avons traité non seulement les acronymes et les noms propres, mais aussi tous les types  d'unités lexicales, plus ou moins "situés". Nous avons utilisé le terme "situement", proposé par Ch. Boitet, pour décrire les différents degrés "situés". Nous avons considéré quatre degrés de situement : général, situé, très situé et terminologique. Avec la conception d'une base lexicale "métier", on peut organiser et gérer tous ces types d'unités lexicales dans une même base lexicale.

En ce qui concerne l'implémentation informatique, nous avons étendu la macrostructure de Pivax en y intégrant des volumes de "prolexèmes" et un volume de "proaxies". Nous avons utilisé une étiquette libre dans les "liens riches" pour stocker les informations supplémentaires portées par les liens. Nous avons validé notre prototype avec un exemple d'organisation des nations unies en quatre langues. Nous avons prouvé les possibilités d'intégration pour l'utilisation dans un domaine linguistique spécifique et pour l'utilisation des quatre dimensions du diasystème. Pour présenter les résultats, nous avons introduit trois niveaux de précision d'une traduction, en théorie et en affichage.

Dans le dernier chapitre, nous avons présenté des services lexicaux généraux. Nous avons d'abord décrit la solution retenue, qui utilise ActiveMQ pour réaliser la gestion des tâches et des requêtes entre plusieurs serveurs. Ensuite, nous avons présenté le premier intergiciel de lemmatisation, Lextoh, qui permet d'appeler plusieurs services de lemmatisation, puis d'unifier et de filtrer leurs résultats. Enfin, nous avons créé un intergiciel de création de "mini-dictionnaire", CreatDico, et l'avons validé en introduisant (en coopération avec L. X. Wang) dans SECTra/iMAG une première version opérationnelle de la fonction d'aide lexicale proactive.

Perspectives

Les perspectives de cette recherche sont multiples. Nous les distinguons en court terme et en long terme.

Pour le court terme, il s'agit d'apporter des améliorations à Lextoh et à CreatDico. D'une part, l'ajout du pinyin pour le chinois dans Lextoh est une demande précise par les enseignants de chinois de l'UGA dans le cadre du projet Innovalangues. Nous prévoyons d'intégrer l'analyseur du chinois HanLP [HanLP, 2016] qui permet de transformer les phrases chinoises en pinyin avec une analyse syntaxique. D'autre part, nous n'avons pas eu assez de temps pour implémenter tous les outils disponibles dans nos intergiciels. Par exemple, pour Lextoh, on peut intégrer Morphalou, LEFFF, TreeTagger, MeCab etc. Pour CreatDico, on peut également appeler plusieurs serveurs lexicaux, comme GDEF, MotÀMot, etc.

Pour le long terme, il s'agit de trois perspectives.

D'abord, c'est le passage à l'échelle de Pivax-3. Dans la base de notre prototype, il y a uniquement des exemples issus de Prolexbase et une toute petite partie des données d'acronymes protégées de Lingua et Machina. Nous prévoyons d'importer plusieurs ressources : la ressource complète de Prolexbase, la grosse base CJK, les listes d'abréviations en multilingue de wikpédia[1] (il y a plusieurs listes, par exemple : abréviations en informatique, en médecine, abréviations militaires, etc.), et les ressources de Dbnary.

Ensuite, au milieu de cette thèse, nous avions prévu de développer une plate-forme Ci-Hai serv (Ci-Hai : océan de mot, c'est le nom d'un dictionnaire chinois très connu), pour fournir des services lexicaux à des PROJETS. Nous avions prévu d'y intégrer Lextoh, CreatDico, et Extroh. Extroh est défini comme un intergiciel d'extraction et d'import de termes (en monolingue ou multilingue). Mais on n'a pas eu le temps de finir cet intergiciel, ni pour réaliser les gestions des projets, et les gestions des utilisateurs dans Ci-Hai serv.

La dernière perspective a été mentionnée au II.4.3.1. Il s'agit de remédier au manque de programmabilité dans Pivax, car c'est un vrai problème pour construire, corriger et enrichir nos ressources lexicales.  Il serait vraiment intéressant d'implémenter un outil pour manipuler les ressources lexicales en utilisant les idées de "langage narratif". 

 


 



[1] https://fr.wikipedia.org/wiki/Abréviation