Introduction

Cette thèse a été effectuée dans l'équipe GETALP du LIG, et dans le cadre d'une bourse CIFRE avec Lingua et Machina, "une jeune société qui vise à prendre en charge la communication multilingue de l'entreprise". Il y a trois axes parallèles.

D'une part, le sujet initialement défini était centré sur l'amélioration de plusieurs aspects de génie logiciel de Pivax, une base lexicale à pivot par acceptions monolingues et interlingues pour la mise en commun de ressources lexicales ouvertes et propriétaires pour la TA, réalisée par Hong Thai Nguyen dans le cadre de sa thèse [Nguyen, H.-T., 2009]. Il s'agissait principalement d'augmenter la vitesse et la sécurité, de passer à l'échelle, et surtout de transformer Pivax en un vrai serveur lexical, et pour cela de proposer et d'utiliser des méthodes de génie logiciel adaptées, permettant de produire un logiciel réellement opérationnel et maintenable.  

Pour améliorer Pivax, Mathieu Mangeot a proposé d'améliorer d'abord la plate-forme sous-jacente Jibiki. La nouvelle version Jibiki-2 a apporté plusieurs améliorations importantes, dont Pivax, adapté en Pivax-2, a tout de suite hérité. Avec Pivax-2, nous avons atteint l'objectif du passage à l'échelle. D'autre part, nous avons pu utiliser Pivax-2 pour mettre à disposition sur le Web toutes les ressources lexicales mises dans Pivax-2 par le projet ANR Traouiero.

D'autre part, au début de cette thèse, L&M rencontrait des problèmes de gestion des acronymes. Notre première recherche a été motivée par ce besoin réel. En effet, il concerne non seulement les acronymes dans la gestion de terminologies multilingues, mais aussi l'association de plusieurs termes d'une même langue à un même référent : Jean-Paul II et Karol Jozef Wojtyla en français, ou en anglais John Paul II et Karol Jozef Wojtyla. De même, certains liens évoluent avec le temps : le pape désignait Jean-Paul II en 2004 et Benoît XVI en 2012. Des pays parlant la même langue (par exemple : France et Suisse romande) peuvent également utiliser des mots différents pour le même concept. Par exemple, chien renifleur et chien drogue. Inversement, le même terme peut désigner des concepts différents : dans la province de langue allemande de Bolzano en Italie, le Landeshauptmann est le président du conseil provincial, avec des compétences beaucoup plus limitées que le Landeshauptmann autrichien, qui est à la tête de l'un des États (Länder) de la fédération autrichienne. Pour la gestion des acronymes, un terme et son acronyme peuvent par exemple désigner le même référent.

Dans un contexte multilingue, la difficulté est d'établir une correspondance entre ces termes. La notion de Prolexème [Tran, M., 2006] présente le problème des termes ayant des acronymes dans certaines langues, mais pas dans d'autres. Dans le projet Prolexbase, Mickaël Tran considère le prolexème comme le regroupement de lemmes associés aux différentes formes d'un nom propre qui apparaissent dans les différents textes d'une langue donnée. Par exemple, en français, Prolexbase regroupe dans le même prolexème organisation des nations unies, Nations unies, ONU et onusien. En anglais, Prolexbase regroupe United Nations et son acronyme UN. Quelles solutions mettre en place de façon à choisir, pour un terme donné dans une langue donnée, le meilleur équivalent dans une langue cible ?

Pour trouver une solution générique, qui permette à une base lexicale "métier" de contenir tous les types d'unités lexicales, nous avons enrichi la structure de Pivax en utilisant la notion de Prolexème et en créant de nouvelles notions, comme celle de Proaxie. Nous avons pu installer le premier prototype sur Jibiki-2 et faire des démonstrations.

Un troisième axe de recherche a été motivé par le manque de services lexicaux généraux. Il s'agit non seulement d'utilisations par des humains, mais aussi par des programmes.

L'absence d'une bonne gestion des travaux provoquait aussi beaucoup de difficultés. On ne pouvait jamais assurer le délai de temps de réponse pour un grand nombre de requêtes. C'est un besoin pratique pour presque tous nos outils. D'autre part, la conception et la réalisation de services génériques pour la lemmatisation (et autres opérations lexicales) et pour la création de mini-dictionnaires évite beaucoup de développements séparés. Sans Lextoh, par exemple, on devrait programmer un service de lemmatisation pour chaque système et chaque langue. Nous avons regroupé les aspects génie logiciel et logiciel en tant que service à la fin de ce mémoire.

Cette thèse contient quatre chapitres.

Le premier chapitre présente l'évolution des idées en lexicographie computationnelle de 1980 à 2012. Nous présentons l'état du domaine au début de cette thèse et les besoins industriels. Nous analysons les thèmes de recherche encore ouverts, et justifions le choix des thèmes sur lesquels a porté cette recherche.

Le deuxième chapitre concerne l'amélioration de Pivax. Elle a été faite à deux niveaux : l'amélioration de la plate-forme sous-jacente Jibiki, et l'extension du modèle de base lexicale Pivax. Nous présentons d'abord la plate-forme Jibiki-1. Puis, nous présentons le type de base lexicale Pivax, avec sa macrostructure et ses microstructures, ses utilisations, et ses limitations. Ensuite, nous décrivons la nouvelle plate-forme Jibiki-2, améliorée principalement par M. Mangeot. Nous terminons en présentant Pivax-2, la nouvelle version de Pivax, obtenue par adaptation de Pivax-1 à Jibiki-2.

Le troisième chapitre est centré sur la base lexicale "métier". Initialement motivée par un besoin industriel, cette partie de notre recherche a consisté à étudier comment construire une base lexicale couvrant tous les types d'unités lexicales, par exemple, générales, situées et terminologiques. Notre recherche s'est beaucoup inspirée de l'idée de Prolexème de M. Tran et de la théorie de la cognition située de E. Coseriu. Nous avons construit Pivax-3, un prototype permettant un bon traitement des acronymes, grâce à l'utilisation des "liens riches" introduits dans Jibiki-2.

Dans le quatrième chapitre, nous présentons nos contributions en termes de mise à disposition de supports pour des services lexicaux généraux. D'abord, nous avons utilisé ActiveMQ pour la gestion des travaux. Ensuite, nous avons construit l'intergiciel Lextoh pour les services généraux de lemmatisation, et l'intergiciel CreatDico pour les services généraux de création de mini-dictionnaires.