Chapitre III Une nouvelle architecture intégrant les données lexicales générales, terminologiques et "situées" : Pivax-3 (33,5 p.)

(0,5 p.)

Ce chapitre présente une contribution originale à la lexicographie computationnelle, qui a donné lieu à une publication [Zhang, Y. & Mangeot, M., 2013] à LTT en 2013. Le point de départ a été un besoin précis de L&M, à savoir la gestion d'un certain type d'abréviations, les acronymes, pour certains clients.

Les acronymes en question sont des unités lexicales souvent terminologiques, mais pas toujours. Un même "prolexème" (collection d'unités lexicales synonymes dans une certaine situation, spatio-temporelle et/ou technique et/ou entrepreneuriale) n'a pas nécessairement de réalisation de type acronyme (ou abréviation, ou apocope, ou mot-valise) dans différentes langues. Du point de vue informatique, il faut pouvoir traiter ces unités dans la même base de données que les termes techniques et que les termes généraux.

Nous avons proposé un modèle pour réaliser cette intégration de ces 3 types d'unités lexicales dans une même BDLex. Pour des raisons informatiques, L&M ne pouvait pas intégrer cette solution à sa BDLex ; la solution réalisée pour L&M n'a donc été que partielle. Par contre, au laboratoire, nous avons pu l'implémenter complétement en Pivax-3/Jibiki-2, et produire un démonstrateur.

Dans la première section, nous analysons le problème posé par L&M et sa demande précise. Dans la deuxième section, nous étudions les éléments de la solution. Ensuite, dans la troisième section, nous présentons les solutions (la solution pour L&M et la solution générale), et les démonstrations. Enfin, nous discutons les autres extensions envisageables.

I.1 Analyse d'un problème posé par L&M (4 p.)

I.1.1 Présentation du problème rencontré par L&M (1,5 p.)

I.1.1.1 Contexte (0,5 p.)

On a déjà mentionné les besoins réels de L&M au I.2.2.2.2. Vers février 2012, L&M a été confrontée au problème suivant : deux clients (EDF et Wesco) avaient à traduire des textes comportant beaucoup d'acronymes. Ces acronymes figuraient dans leurs fichiers terminologiques, qui avaient été importés dans Libellex, mais les traducteurs n'obtenaient pas le développement de ces acronymes, quand la traduction "acronymique" était absente. Ensuite, en 2013, deux autres clients (ExaleadSuggest et Louis Vuitton) ont demandé de traiter leurs terminologies monolingues avec des relations plus complexes.

L'outil de gestion de terminologie de Libellex permet l'import, l'export, la suppression, la consultation et la validation. Il y a deux interfaces pour la terminologie monolingue et pour la terminologie bilingue, qui diffèrent l'une de l'autre surtout pour la consultation et la validation. Pour l'import et l'export, on peut utiliser les formats d'échange de Metricc (TBXMetricc et TEIMetricc, voir I.2.2.1 et I.2.2.2). Mais ces formats sont dédiés au traitement automatique et sont difficiles à comprendre et à utiliser par les clients (par les humains en général).

Libellex propose un nouveau format d'échange, TSV (Tabulation-Separated Values)[1], et nous avons principalement utilisé ce format TSV pour les tâches liées à Libellex (voir les exemples dans la section suivante).

Juste au début de ma thèse, vers mi-avril 2012, Libellex a réalisé une interface graphique pour la terminologie monolingue et pour afficher les réseaux sémantiques. Cette fonction a été initialement réalisée par Mikaël Morardo. Au début, les liens sont créés entre deux termes seulement s'ils partagent des contextes similaires. Une matrice nœuds/contextes est construite dynamiquement en utilisant l'analyseur syntaxique FRMG [Villemonte de la Clergerie, É. et al., 2009]. M. Morardo a présenté sa méthode et son algorithme dans [Morardo, M. & Villemonte de La Clergerie, É., 2013].

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-02 à 13.27.49.png

Figure 33 : Interface de consultation graphique pour la terminologie monolingue dans Libellex

I.1.1.2 Extraits de la "ressource" des clients (0,75 p.)

Début 2012, les ressources importées en format TSV contenaient quatre types de fichier : (1) monolingue sans phrases d'exemples en une seule colonne : langue en ISO 639-1 (ex. fr), (2) monolingue avec phrases d'exemple en deux colonnes (ex. fr[Tab]fr_sent), (3) bilingue sans phrases d'exemples en deux colonnes (ex. fr[Tab]en) et (4) bilingue avec phrases d'exemples en quatre colonnes (ex. fr[Tab]en[Tab]fr_sent[Tab]en_sent).

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-02 à 13.55.38.png

Figure 34 : Ressource bilingue importée (avec phrases) dans la BDLex de Libellex

Voici quelques exemples de ressources transmises par les clients après mon arrivée.

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-02 à 16.38.52.png

Figure 35 : Exemple de ressource prétraitée dédiée à des acronymes[2]

Description : Macintosh HD:Users:yingzhang:Desktop:gaifcgig.png

Figure 36 : Exemple d'une ressource de Louis Vuitton prétraitée

Figure 37 : Exemple d'une ressource d'ExaleadSuggest prétraitée

Encore une image d'écran

Pb de formats? non

I.1.1.3 Demande précise de L&M

L&M m'a demandé d'étudier ce problème, de trouver une solution implémentable à l'intérieur de Libellex, et de l'implémenter. J'ai d'abord étudié et évalué la structure de la BDLex existante pour voir si elle permettait de traiter ce type de problème ou bien si on avait besoin d'installer une autre BDLex séparée (dans cette perspective, nous avons proposé un nouveau type de BDLex basé sur Jibiki).

Ensuite, j'ai travaillé sur l'import et l'export de terminologies complexes en TSV, contenant des acronymes et diverses relations. Enfin, avec M. Morardo, j'ai réalisé l'affichage et l'intégration dans les interfaces existantes, principalement dans l'interface graphique.

I.1.2 Analyse des problèmes posés (1 p.)

I.1.2.1 Défauts de la ressource lexicale du client (0,25 p.)

L&M a souvent reçu des ressources très riches mais très incomplètes. Par exemple, les ressources lexicales de Louis Vuitton contiennent principalement des entités nommées associées à des lignes de produits et à des produits. Ces ressources initiales étaient hiérarchisées en xlsx, et il fallait les mettre en format "à plat" (en TSV) tout en gardant les liens de parenté, les correspondances bilingues, les synonymes etc.

On aurait dû avoir une traduction en anglais pour chaque terme français, mais souvent il n'y en avait pas. Par exemple, un échantillon sur lequel j'ai travaillé contenait 10 857 termes français, mais seulement 2604 traductions anglaises.

On voit aussi des erreurs dans la Figure 35 : (1) l'acronyme SNCF et sa définition française ont été recopiés dans les colonnes anglaises, et (2) on indique un –s pour le pluriel d'un acronyme, toujours invariable en français (les CNAM, pas "les CNAMs").

De plus, les traductions françaises sont souvent fausses ou très mauvaises.

Mauvaise classification.

I.1.2.2 Problèmes conceptuels (0,25 p.)

Il y a des confusions entre les acronymes et les autres types d'abréviation. Plus généralement, on voit qu'il aurait fallu qu'au moins un(e) spécialiste de terminologie participe à la construction de ces ressources. D'où la nécessité d'étudier nous-même les aspects linguistiques, et plus précisément lexicologiques, liés aux différents "objets linguistiques" à traiter.

I.1.2.3 Problèmes venant de la structure de la BDLex de Libellex (0,5 p.)

On a mentionné cette structure au I.2.2.1 et au I.2.2.2. L'absence de la notion d'acception interlingue (représentée en LexAlp ou en PIVAX par une "axie") associée à un concept dans le schéma conceptuel de la base lexicale de Libellex est un problème profond. Elle rend très difficile la création des relations sémantiques.

I.1.3 Étude lexicologique et lexicographique

I.1.3.1 Nécessité d'un niveau conceptuel (lexies et axies)

Les liens entre les termes sont compliqués. Plusieurs termes différents peuvent être liés à un seul référent : Jean-Paul II et Karol Jozef Wojtyla en français, ou en anglais John Paul II et Karol Jozef Wojtyla.

Des pays parlant la même langue (ex : France et Suisse romande) peuvent également utiliser des mots différents pour le même concept. Par exemple, chien renifleur et chien drogue. Inversement, le même terme peut désigner des concepts différents : dans la province de langue allemande de Bolzano en Italie, le Landeshauptmann est le président du conseil provincial, avec des compétences beaucoup plus limitées que le Landeshauptmann autrichien, qui est à la tête de l'un des États (Länder) de la fédération autrichienne. Même chose pour principe de précaution en français (voir la Figure 13).

C'est pourquoi on a besoin de lexies (voir la Définition 10) et d'axies (voir la Définition 11).

Types d’abréviations→ pb poser dans Prolexbase

I.1.3.2 Nécessité de la notion de "prolexème" pour les entités nommées (0,25 p.)

Les notions d'axie et de lexie ne suffisent pas à représenter toutes les situations liées aux noms propres, parce qu'on a des dérivés, des alias, des types différents d'abréviation d'un même nom propre, etc. Par exemple, pour la ville de Saint-Martin-d'Hères, on peut trouver : Saint Martin d'Hères, St Martin d'Hères, Saint-Martin-d'Hères, SMDH, ou SMH.

L'association d'un prolexème (voir la Définition 17) aux noms propres de même référent a été proposée pour traiter ce type de problème dans la thèse de M. Tran [Tran, M., 2006]. Un prolexème permet de relier les différentes formes d'un nom propre qui apparaissent dans les différents textes d'une langue donnée.

Il s'agit non seulement de noms propres, mais aussi d'expressions métaphoriques, ou de groupes nominaux, par exemple, Paris et ville lumière, Obama et président des USA.

Développe!

I.1.3.3 Différence entre le niveau terminologique et le niveau des prolexèmes (0,25 p.)

Une terminologie contient des termes situés de façon relativement permanente. Un terme (nominal ou même verbal), ou un phrasème (ex: un gène "code pour" une protéine), a un sens spécifique par rapport aux énoncés relatifs à chaque domaine ou ontologie où il apparaît.

Par contraste, une entité nommée est un "désignateur", et son référent peut changer (et change fréquemment) en fonction du temps, du lieu, du contexte socio-économique et historique, etc. Un exemple très connu est Président des USA : George Bush. Oui, mais quand ? Il y a eu le père et le fils, à des périodes différentes.

I.1.3.4 Nécessité de distinguer les lexèmes spécifiques d'un "sous-langage" (0,25 p.)

On peut considérer une forme comme L8R comme un mot spécialisé pour le sens later, rencontré seulement dans le contexte des textos. Il s'agit ici non pas d'une entité nommée, mais d'un vocable du sous-langage des textos en anglais.

De même, dans le sous-langage des mels ou dans celui des textos, on trouve A+ pour À plus ou À plus tard. Dans le contexte de textos, la meilleure traduction en anglais de A+ sera donc L8R et pas later.

I.1.3.5 Possibilité de se référer à la théorie de la cognition située

Les idées présentées plus haut (au I.3.1.1.1) sont basées sur la théorie de la cognition située. Cette théorie provient initialement des travaux de Coseriu [Coseriu, E., 1998 ; Coseriu, E., 2001]. Citons ici la définition trouvée dans Wikipedia :

Situated cognition is a theory that posits that knowing is inseparable from doing [Brown, J. S. et al., 1989] by arguing that all knowledge is situated in activity bound to social, cultural and physical contexts [Greeno, J. G. & Moore, J. L., 1993].

I.2 Éléments d'une solution (6,5 p.)

I.2.1 Systèmes dont on pouvait s'inspirer (1 p.)

I.2.1.1 CJK.org

CJK.org a été brièvement mentionné au I.2.3.3. L'institut CJK, sous la direction de J. Halpern, s'est concentré sur le problème de l'extraction intelligente d'informations pour traiter les variantes d'écriture de plusieurs langues, à partir de 1996 [Halpern, J., 2002]. Par exemple, en chinois et en japonais, il y a plusieurs formes d'écriture, et beaucoup de variantes pour certains caractères ou mots.

Pour l'écriture du chinois, on distingue le "chinois simplifié" et le "chinois traditionnel". Entre 1956 et 1986[3], les nouvelles autorités de la Chine (RPC) ont mis en œuvre une réforme de l'écriture préparée depuis bien avant la révolution. Elle a consisté à remplacer 2 274 caractères par des formes simplifiées, provenant de formes calligraphiques. Ni Taiwan ni le Japon ni la Corée n'ont adopté ces formes. Depuis une dizaine d'années, les formes traditionnelles sont de nouveau utilisées et enseignées. La raison principale semble être qu'il est plus difficile de se souvenir du sens des formes simplifiées que des formes traditionnelles, qui sont plus structurées et se prêtent mieux à des méthodes mnémoniques.

Les gens non informés pensent qu'il s'agit juste de la conversion d'un codage des caractères vers un autre codage des caractères. En fait, c'est beaucoup plus compliqué.

Il y a quatre difficultés principales. Les deux premières concernent les conversions des caractères et des mots, la troisième la conversion du sens, et la quatrième les variantes.

(1) Il y a beaucoup de sinogrammes simplifiés qui correspondent à plusieurs sinogrammes traditionnels (et vice versa, mais moins fréquemment). Voici trois exemples.

Chinois Simplifié (CS)	Chinois Traditionnel (CT)	Remarque
头 (tóu)	頭 (tóu)[4]	Correspondance injective (1-1)
发 (fā ou fǎ, polyphone)	髪(fǎ) et發 (fā)	Correspondance 1-n
头发 (tóu fǎ)	頭髮 (cheveux, tóu fǎ)	頭發 est faux.

(2) Un mot écrit en chinois simplifié peut correspondre à plusieurs mots écrits en chinois traditionnel. Pour le choix, il faut voir le contexte.

CS	CT	Remarque
阴 (yīn)	陰(yīn) et隂 (yīn)	Correspondance 1-n
干 (gān ou gàn)	乾 (gān ou qián) et 干(gān ou gàn)	Correspondance 1-n
阴干(yīn gān)	陰乾 (sécher à l'ombre, yīn gān) 陰干 (terme de médecine chinoise, yīn gān)	Voir le contexte

(3) Pour certains sens, CS et CT utilisent des mots complètement différents. Voici un exemple.

CT Taiwan

CT Hong Kong

Remarque

出租车

(chū zū chē)

計程車

(jì chéng chē)

的士

(dī shì)

La conversion de "caractère à caractère" : (CS) 出租车 → (CT) 出租車, produite par Google Translate, est fausse.

CS	CST	CT
线	綫	線
绷	綳	繃

(4) Il y a beaucoup de variantes en CT. Par exemple, 群et羣, 秋et秌, 匯et滙, 啟et啓, etc. D'autre part, la Chine continentale utilise un troisième système, le "chinois simplifié traditionnel" (CST) pour publier des journaux, des livres etc. pour les gens qui utilisent CT, par exemple "人民日報海外版" (Rén mín rì bào hǎi wài bǎn, People's daily overseas edition). Les caractères de CST sont définis dans la norme GB/T 12345-90. Ce ne sont pas tout à fait les mêmes que ceux de CT. Voir la table ci-contre.

Le japonais est encore plus compliqué que le chinois. Il y a quatre jeux de caractères : kanji, hiragana, katakana et romaji. Ils sont le plus souvent mélangés. Par exemple, la phrase "金の卵を産む鶏" (Kin no tamago wo umu niwatori, poulet qui pond des œufs d'or) peut avoir 24 variantes d'écriture. En plus, il existe beaucoup de variantes, par exemple, (variante de Kanji) 發 et 発, ou (homophones) 柔かぃ (Yawaraka ~i) et 軟かぃ (Yawaraka ~i). Pour plus de détails, voir [Halpern, J., 2002 ; Halpern, J., 2006].

CJK.org utilise des tables de correspondance pour convertir entre les différents niveaux.

Conversion entre chinois simplifié et chinois traditionnel

· Tables "Code-level mapping" pour la conversion caractère à caractère.

· Tables "orthographic et lexemic mapping" pour la conversion mot à mot.

· Tables "orthographic mapping tables for proper nouns" pour les noms propres.

· Tables "orthographic/lexemic mapping tables for technical terminology" (surtout pour l'informatique).

Normalisation orthographique du chinois traditionnel vers le chinois simplifié

· Tables de normalisation de CT en CS.

· Tables de normalisation de CST en CS.

Base de données des variantes orthographiques en japonais

· Base de données complète des variantes orthographiques en japonais.

· Base de données des groupes homophones sémantiquement classés.

· Groupes de synonymes sémantiquement classés, pour l'expansion de ces synonymes (thésaurus japonais).

· Lexique anglais-japonais pour le CLIR (cross-language information retrieval, ou RI translingue).

· Règles d'identification des variantes non listées.

I.2.1.2 IATE (0,5 p.)

IATE (Inter-Active Terminology for Europe) [Ball, S., 2003] est la base de données terminologique que partagent les institutions de l'Union européenne. Elle concerne les 25 langues officielles de l'UE. L'interface actuelle permet de choisir parmi 21 grands domaines, eux-mêmes divisés en plus de 100 petits domaines. Il y a aujourd'hui environ 8,6 millions de termes dans la base d'IATE, répartis dans approximativement 1,4 million de fiches.

La base de données est organisée à trois niveaux : concept, langue et terme. Pour ajouter une nouvelle entrée, il faut l'associer à chaque niveau en utilisant une interface avancée de manipulation des données. Cette fonction est réservée aux terminologues et aux administrateurs. Le système permet également aux terminologues d'évaluer les termes par degré de fiabilité.

Il y a parfois des doublons pour un seul et même concept. C'est parce que plusieurs ressources terminologiques (Eurodicautom, TIS, Euterpe, Euroterms, CDCTERM) ont été fusionnées dans la base de données IATE en 2004. Chaque institution avait auparavant sa propre base de données terminologiques.

Le système fournit aux terminologues des outils de "dédoublonnage", qui permettent la sélection, la suppression ou la concaténation des données à chacun de ces trois niveaux. Ce travail est toujours en cours.

I.2.1.3 EDR (1 §.)

EDR Electronic Dictionary[5] est un dictionnaire japonais-anglais, développé entre 1987 et 1993 par le projet EDR, organisé par le MITI (Ministry of International Trade and Industry) du Japon, auquel ont participé 8 grosses entreprises[6]. La base lexicale d'EDR est composée de dictionnaires de quatre types[7] et de deux corpus [Takebayashi, Y., 1993].

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-16 à 10.25.10.png

Figure 38 : Structure de EDR Electronic Dictionary

Les dictionnaires monolingues (Word Dictionaries) contiennent des informations grammaticales, des informations supplémentaires (l'usage, la fréquence, etc.) et des liens vers des concepts (dans le dictionnaire des concepts).

Les entrées du dictionnaire des concepts contiennent leurs définitions, des explications, ainsi que les relations entre deux concepts (dans le dictionnaire "Concept Classification"), par exemple kind-of(concept1, concept2).

Les dictionnaires bilingues sont similaires aux dictionnaires papier. Ils définissent des correspondances de traduction.

Les dictionnaires de cooccurrences donnent des informations sur les usages, surtout les relations syntaxiques entre termes, par exemple, eaten @d-object lunch.

I.2.2 Prolexbase et les prolexèmes (5 p.)

I.2.2.1 Le projet Prolex (1 p.)

a. Contexte

Le projet Prolex[8] a été lancé par le Laboratoire d'Informatique (LI) de l'université François-Rabelais de Tours en 1994. Son objectif était le traitement automatique des noms propres et la création d'un dictionnaire relationnel de noms propres.

Prolex a produit Prolexbase, un système développé par Mickaël Tran dans le cadre de sa thèse [Tran, M., 2006]. Prolexbase est un dictionnaire électronique relationnel multilingue pour les noms propres.

On retranscrit ci-dessous les points importants et les notions de base introduites dans [Tran, M., 2006].

b. Définition d'un nom propre

M. Tran a listé plusieurs définitions différentes pour les noms propres, et il a finalement adopté la définition de [Jonasson, K., 1994].

Définition 21. Nom propre [Jonasson, K., 1994] : Toute expression associée dans la mémoire à long terme à une entité particulière en vertu d'un lien dénominatif conventionnel stable.

c. Critères des noms propres

Dans son analyse de la complexité du problème de l'identification des noms propres, il a défini 5 critères.

Critère de la majuscule à l'initiale. Cela dépend des langues et des cas. Pour le français, le critère de la majuscule s'applique seulement à l'écrit, mais ne concerne pas l'oral. L'emploi de la majuscule n'est pas limité aux noms propres, mais aussi à certains noms communs quand ils sont utilisés de façon "personnifiante" (ex : la Mort, la Nature). Dans le cas des mots composés, la majuscule n'apparaît pas toujours pour chaque élément (ex : la tour Eiffel, mais Le Mans).

Critères morphologiques. En français, les noms propres sont souvent invariables en genre et en nombre, mais il y a des exceptions et des incertitudes (ex : les îles Spratleys et les îles Spratley).

Critères syntaxiques. Les noms propres peuvent être ou non accompagnés d'un déterminant (ex : Taiwan, la Thaïlande, Bornéo, les Philippines).

Critères sémantiques. Il existe plusieurs théories quant à la signification des noms propres. Certains linguistes (S. Mill, K. Kripke, J. Molino, M. Noailly, K. Jonasson, etc.) les considèrent uniquement comme des étiquettes. Pour d'autres linguistes (E. Buyssens, F. Kiefer, M. Gross, etc.), ils ont un sens descriptif (faible ou fort). Enfin, d'autres linguistes les considèrent comme des prédicats de dénomination.

Critères pragmatiques. La signification d'un nom propre peut dépendre de son contexte d'utilisation (Paris → une ville de France, une ville des États-Unis, une ville du Canada, etc.).

d. Typologies des noms propres

M. Tran a présenté plusieurs typologies des noms propres. La plus importante est celle de Grass [Grass, T., 2000]. Cette typologie n'est pas exactement celle utilisée pour la réalisation de Prolexbase, mais elle lui a servi de base.

Anthroponymes : patronymes, prénoms, pseudonymes, ethnonymes, groupes musicaux modernes, gentilés[9], hypocoristiques, ensembles artistiques et orchestres classiques, partis et organisations, clubs sportifs, noms donnés aux animaux familiers (zoonymes).

Toponymes : pays, villes, microtoponymes, hydronymes, oronymes, installations militaires, monuments.

Ergonymes : marques, entreprises, établissements d'enseignement et de recherche, titres de livres, de films, de publications et d'œuvres d'art, objets mythiques.

Praxonymes : faits historiques, maladies, événements culturels.

Phénonymes : ouragans, zones de haute et de basse pression, astres et comètes, phénomènes climatiques (ex : el Niño).

I.2.2.2 Concepts essentiels venant de Coseriu (0,5 p.)

I.2.2.2.1 Types de relations de synonymie

La théorie linguistique d'Eugenio Coseriu [Coseriu, E., 1992] distingue trois sous-types de relation dans la relation de synonymie :

· la relation entre un signe linguistique et un objet.

· la relation entre un signe linguistique et d'autres signes linguistiques.

· la relation entre un signe linguistique et le contexte linguistique et situationnel.

I.2.2.2.2 Variations de la relation de synonymie en fonction de caractéristiques de la "situation"

[Coseriu, E., 1998] propose un "diasystème" décrivant les variations de la relation de synonymie en fonction de différentes dimensions :

· selon le temps (dimension diachronique).

· selon l'espace (dimension diatopique).

· selon les caractéristiques sociales des locuteurs (dimension diastratique). Par exemple, 神马(shén mǎ) et 什么(shén me)[10].

· selon les activités qu'ils pratiquent (dimension diaphasique).

Françoise Gadet [Gadet, F., 2003] a proposé une dimension en fonction du canal employé, oral ou écrit (dimension diamésique).

I.2.2.3 Aspects logiciels : Prolexbase (2 p.)

I.2.2.3.1 Concepts (1,5 p.)

Il y a deux notions principales à la base du projet Prolex : le nom propre conceptuel et le prolexème.

a. Le nom propre conceptuel

Citons ici une partie de la présentation de [Tran, M., 2006].

Pour une langue donnée, des noms propres totalement différents sur le plan graphique peuvent renvoyer à un même et unique référent, et ce phénomène se retrouve généralement d'une langue à l'autre.

Nous définissons le nom propre conceptuel non pas comme le référent, mais plutôt comme un certain point de vue sur celui-ci. Ainsi les noms propres Allemagne en français, Alemania en espagnol, Deutschland en allemand, etc., seront associés à un même nom propre conceptuel, tandis que les noms propres République fédérale d'Allemagne en français, República Federal de Alemania en espagnol, Bundesrepublik Deutschland en allemand, etc. seront associés à un autre nom propre conceptuel. Ces deux noms propres conceptuels seront en relation de synonymie.

Pour définir ces différents points de vue, nous nous sommes basés sur un marquage diasystématique, qui provient des travaux sur la métalexicographie de [Coseriu, E., 1998].

b. Le prolexème

On a déjà mentionné la notion de prolexème au I.3.1.1.1 et au III.1.3.2. On peut considérer que le prolexème est une classe d'équivalence de synonymes de noms propres. M. Tran a défini des concepts secondaires pour le prolexème :

· les alias (les variantes, les abréviations, les sigles, les transcriptions etc.), par exemple, Pékin – Bejing, Canal plus – Canal +, François Mitterrand – F. Mitterrand.

· les dérivés (les noms relationnels et les adjectifs relationnels), par exemple, Parisien et parisien.

Pivot

Prolexème

Alias et dérivée

Instances

I.2.2.3.2 Relations (0,75 p.)

Après avoir identifié les différents concepts de noms propres, M. Tran précise les relations qui peuvent les relier.

· Synonymie : partage d'un même sens. Il en existe différents types :

o diachronique (ex. Zaïre et République démocratique du Congo).

o diastratique (les variations entre jeunes/personnes âgées, ruraux/urbains, professions différentes, niveaux d'études différents).

o diaphasique (ex. Paris et Ville lumière).

· Méronymie : hiérarchisation sur plusieurs niveaux entre les éléments contenants (holonymes) et les éléments contenus (méronymes), par exemple, arbre/forêt, matinée/journée.

· Accessibilité : notion d'importance, d'entité significative. Par exemple, Bangkok est la capitale de la Thaïlande.

· Expansion classifiante : notion de caractérisation d'un terme (ex. Dirigeant politique et Président).

· Éponymie : la relation entre un nom propre et une forme lexicalisée. Elle sert à empêcher la reconnaissance abusive des noms propres. Par exemple, un bic = un stylo-bille, Parkinson ≠ nom propre dans maladie de Parkinson.

I.2.2.3.3 Ontologie des noms propres

M. Tran a pris en compte la méthodologie de construction de l'ontologie de Noy et McGuinness [Noy, N. F. & McGuinness, D. L., 2003]. Chaque nom propre conceptuel (pivot) est en relation d'hyperonymie avec un type et une existence.

Pour définir l'ontologie, M. Tran s'est inspiré de la typologie de Grass [Grass, T., 2000] (voir III.2.2.1). Les quatre premiers supertypes identifiés sont :

· les anthroponymes : trait humain ;

· les ergonymes : trait inanimé ;

· les pragmonymes : trait événement ;

· les toponymes : trait locatif.

Il y a aussi 29 sous-types que nous ne listons pas ici. Par exemple, le supertype ergonyme a des sous-types objet, œuvre, produit, vaisseau.

De plus, deux notions ont été ajoutées :

· la notion d'existence, pour préciser le domaine d'appartenance d'un nom propre (ex. historique, fiction, etc.).

· la relation d'hyperonymie (primaire et secondaire), qui décrit le phénomène d'inclusion. La relation d'hyperonymie primaire est la relation la plus usuelle. La relation d'hyperonymie secondaire est la relation complémentaire. Par exemple, le type "Entreprise" relie l'anthroponyme (par exemple Bouygues) en relation d'hyperonymie primaire avec l'organisme nommé d'après lui (par exemple, le groupe Bouygues) et relie l'ergonyme et le toponyme en relation d'hyperonymie secondaire. C'est parce que le terme "Entreprise" est d'abord vu comme un nom (ou l'entreprise elle-même), avant d'être considéré comme une fabrication humaine ou un lieu. Voici les exemples.

(1) L'entreprise Bouygues a décidé que …

(2) Il a réussi dans son entreprise avec …

(3) Il est aujourd'hui au travail à l'entreprise…

I.2.2.3.4 Représentation à quatre niveaux (0,5 p.)

Il y a quatre niveaux.

Les deux premiers niveaux sont indépendants de la langue. Ce sont :

· le niveau méta-conceptuel : la typologie et l'existence.

· le niveau conceptuel : le nom propre conceptuel (qui constitue un "pivot" entre les langues) et les relations indépendantes des langues.

Les deux derniers niveaux sont dépendants d'une langue :

· le niveau linguistique : le prolexème, les alias, les dérivés et les relations qui dépendent de la langue (dont des fonctions lexico-syntaxiques de I. Mel'čuk).

· le niveau des instances : l'ensemble des formes fléchies d'un lexème d'une langue.

La Figure 39 regroupe les différents concepts utilisés.

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-16 à 16.38.56.png

Figure 39 : Modèle à quatre niveaux de Prolexbase

I.2.3 Esquisse d'une solution (0,5 p.)

Notre travail s'est beaucoup inspiré de Prolexbase. Par contre, nous ne nous sommes pas limitée aux noms propres, mais nous avons étendu notre modélisation à tous les termes de différents degrés de situement (voir la Définition 18), y compris les verbes et les prédicats composés.

Au niveau linguistique, Prolexbase est déjà bien complexe, et nous ne voulons pas l'enrichir de ce point de vue. Nous avons préféré simplifier et ne reprendre qu'une partie des notions de Prolexbase (surtout l'idée de prolexème) dans notre prototype : Pivax-3.

D'autre part, notre travail ne limite pas le nombre de langues. Donc la construction de dictionnaires non-symétriques comme CJK.org ne nous convient pas. Pour la symétrie, nous avons repris les notions de lexie, d'axème et d'axie de Pivax-2.

Pour l'implémentation, utiliser la plate-forme Jibiki-2 était la meilleure solution. Nous avons profité des fonctions existantes (ex. gestion des contributions, interfaces etc.) et intégré la notion de prolexème dans la macrostructure de Pivax-2 (ce qui a donné Pivax-3).

I.3 Conception et implémentation d'une solution basée sur les "liens riches" (19,5 p.)

I.3.1 1° prototypage chez L&M (4,5 p.)

On ne pouvait pas intégrer les prolexèmes dans la BDLex de Libellex à cause de contraintes techniques. On ne pouvait pas non plus combiner Pivax-3 avec Libellex à cause de contraintes industrielles. Finalement, j'ai proposé et implémenté une solution ad hoc.

Dans cette section, on analyse les contraintes techniques et les contraintes industrielles, puis on présente la solution retenue, et une démonstration.

I.3.1.1 Contraintes techniques (2,5 p.)

I.3.1.1.1 Format d'échange de ressources lexicales (1 p.)

Comme l'a vu plus haut (au I.2.2) la BDLex de Libellex a la même structure de BDLex que Metricc, et elle a été conçue à partir des mêmes formats d'échange. Nous présentons d'abord les formats d'échange, puis la BDLex correspondante.

a. TBXMetricc (1 p.)

On a déjà mentionné les formats d'échange au I.2.2.1 et au I.2.2.2. Voici la structure Xml des entrées terminologiques spécifiée dans la norme ISO 30042 (TBX standard).

Une entrée terminologique (<termEntry>) représente un concept, exprimé dans une ou plusieurs langues (<langSet>) au moyen d'un ou plusieurs termes (soit <tig>, soit <ntig>[11]).

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-22 à 16.12.58.png

Figure 40 : Structure TBX standard

Dans le format TBX standard, deux termes en relation de traduction sont considérés comme appartenant à un même concept ; par exemple, il sont encodés dans deux <langSet> différents, à l'intérieur d'une même balise <termEntry>.

Dans le format TBXMetricc, deux termes en relation de traduction apparaissent dans des concepts (<termEntry>) différents. La relation de traduction est matérialisée au moyen d'une balise <descrip>, les reliant au niveau <langSet> et non au niveau <termEntry>.

Dans certains articles, E. Delpech a présenté <langSet> en disant que c'est le niveau des sens, et que <tig> ou <ntig> est le niveau des termes (mot-vedette et variante).

Cependant, cette présentation est contraire à l'explication qu'elle donne dans la spécification interne du format TBXMeTRICC (voir I.2.2.2.1).

Il nous semble qu'en fait <langSet> est le regroupement (complet ou partiel) des différents termes (<tig> ou <ntig>) de même sens.

D'une part, pour chaque balise <langSet>, les sous-balises <tig> ou <ntig> introduisent des termes de même sens. D'autre part, on peut avoir plusieurs <langSet> différents dans des <termEntry> différents pour une même langue, qui décrivent les mêmes sens. Il n'y a pas de relation monolingue entre deux entrées différentes.

Ainsi, TBXMetricc ne fournit aucun moyen pour vraiment décrire un sens comme un objet unique. C'est une organisation un peu trouble.

Nous sommes donc plutôt d'accord avec l'explication de E. Delpech au I.2.2.2.1. La relation de traduction au niveau <langSet> est l'équivalence sémantique entre termes simples ou composés, et c'est tout.

b. TEIMetricc (0,5 p.)

TEIMetricc permet d'encoder uniquement le découpage en phrases des textes dont sont extraits les glossaires Metricc. La structure d'entrée de TEIMetricc est définie ci-dessous.

<title>TITRE DU TEXTE</title>

</titleStmt>

<p>description éventuelle du document original (elle peut être vide)</p>

</sourceDesc>

</fileDesc>

</teiHeader>

<text>

<body>

</body>

</text>

</TEI>

Figure 41 : Définition d'une entrée TEI

c. TSV (0,5 p.)

On a introduit TSV au III.1.1.2. L'import et l'export en format TSV ont été développés spécialement pour Libellex après l'intégration de la BDLex de Metricc dans Libellex. On peut noter que ce format n'est pas utilisé par Metricc.

I.3.1.1.2 Analyse de la structure de la base lexicale (0,5 p.)

On a brièvement présenté la structure de la BDLex de Libellex au I.2.2.1 et au I.2.2.2. Nous devons ici aller plus dans le détail.

Il y a deux types de table : statique et dynamique. Les tables statiques sont créées une fois pour chaque BDLex lors de l'installation d'une instance de Libellex. Voir l'Annexe 7, qui donne le schéma de la base de données. Les tables en bleu sont les tables statiques.

Les tables dynamiques (les tables en jaune dans l'Annexe 7) sont créées lors de l'import d'un nouveau glossaire. Il y a deux sous-types de table dynamique, les tables de description et les tables de liaison. Les tables de description permettent de stocker les contenus des entrées, et les tables de liaison permettent de stocker les informations de relation. En voici quelques-unes.

· M_??_SETS[12] : table stockant les informations correspondant à la balise <langSet>.

· M_??_TIGS : table stockant les termes (vedettes et variantes) des balises <tig> et <ntig>.

· M_??_TIGS_SETS : correspondances entre entrées de SETS et de TIGS.  

· M_??_CROSSLINGREL : relation de traduction entre deux SETS.  

I.3.1.2 Contraintes industrielles (0,5 p.)

Outre la mauvaise qualité des ressources terminologiques fournies à L&M par ses clients (voir III.1.2.1), nous avons rencontré des problèmes de coût de maintenance et des limites fortes aux évolutions possibles chez les clients.

I.3.1.2.1 Coût de maintenance

Au début, nous avons proposé d'utiliser Jibiki comme plate-forme sous-jacente à Libellex. L&M a refusé cette solution, parce qu'il n'y avait aucun permanent de L&M qui connaissait la plate-forme Jibiki. Même si Jibiki est en source ouvert, après ma thèse, il aurait fallu avoir au moins une personne pour la maintenance.

Montrer un exemple.

I.3.1.2.2 Limites aux évolutions chez les clients

D'autre part, les systèmes Libellex sont installés indépendamment chez les clients comme des instances. Comme Libellex fonctionnait déjà chez des clients, on ne pouvait pas faire de gros changements des bases lexicales dans les instances de Libellex installées chez les clients. On n'aurait pu le faire que par des plugins, mais ça aurait toujours dû être compatible avec les ressources anciennes.

I.3.1.3 Spécification et implémentation d'une solution ad hoc (1 p.)

I.3.1.3.1 Solution ad hoc proposée (0,5 p.)

Nous[13] avons proposé une solution à deux niveaux, celui du modèle de BDLex et celui des instances spécialisées.

Nous avons enrichi la BDLex avec un champ type de valeur libre dans plusieurs tables.

· Le type dans la table de stockage des termes (TIGS), peut être mot-vedette, acronyme, abréviation, variante non typée, etc.

· Le type dans la table de stockage des relations sémantiques (LEXSEMREL), peut être parent ou enfant (c'est le cas dans la base de Louis Vuitton).

· Ces valeurs de type sont faciles à changer/ajouter selon les besoins des clients.

· On a également enrichi les statuts de validation pour représenter la qualité.

On a déjà dit que le format TSV est utilisé principalement pour les imports des données des clients chez Libellex. Nous avons développé une fonction d'import complexe à partir d'un fichier TSV pour améliorer les échanges de sources (les relations bilingues, les synonymes et les relations hiérarchiques parent/enfant etc). La Figure 42 montre l'interface d'import actuel de Libellex.

D'autre part, selon les besoins des clients, on a développé plusieurs formats spécialisés (par exemple pour le client Exalead). La Figure 43 montre l'interface d'export actuel de Libellex.

Figure 42 : L'interface d'import de Libellex

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-24 à 16.19.13.png

Figure 43 : L'interface d'export de Libellex

I.3.1.3.2 Résultats et validation (0,5 p.)

Dans certains cas, comme celui de Louis Vuitton, on s'est limité à une seule entrée dans la BDLex pour chaque terme. Par exemple, SAC DE VILLE ou ORANGE apparaissent dans plusieurs lignes dans la ressource (voir la Figure 36).

Si le terme est déjà créé dans la BDLex, on ne crée que la relation (relation parent/enfant et relation de traduction). Dans ce cas, on considère que le terme est au niveau du sens. Ce n'est certainement pas une solution totalement satisfaisante, et on ne peut pas faire la même chose pour tous les autres clients. Mais on a pu faire comme ça pour quelques autres clients.

I.3.1.4 Démonstration (1 p.)

La figure ci-dessous montre un exemple de Louis Vuitton : l'affichage pour la consultation du mot blue jean avec les relations monolingues et la relation de traduction.

Description : Macintosh HD:Users:yingzhang:Documents:suivi de thèse:plan de these:pic:cabjahid.png

Figure 44 : Consultation de blue jean sur l'interface de Libellex

(pour L&M)

à voir

I.3.2 Une solution plus générale basée sur Jibiki-2 : Pivax-3 (8 p.)

Au niveau du laboratoire, il a été possible d'aller plus loin en utilisant la plate-forme Jibiki-2, qui permet d'implémenter de façon naturelle les différents types d'objets lexicaux et leurs liens. Cela nous a permis de produire un nouveau type de BDLex, Pivax-3.

I.3.2.1 Extension de l'architecture de Pivax-2 (5 p.)

Notre but était d'unifier les 3 types de données lexicales : mots (simples ou composés) généraux, termes (liés à un domaine), et prolexèmes. Pour simplifier la conception, on a considéré qu'un terme est un type de prolexème.

I.3.2.1.1 Macrostructure (2 p.)

a. Types de volumes repris de Pivax-2 (0,5 p.)

On a repris les trois types de volumes de Pivax-2 : lexie, axème et axie (voir II.2.2.1).

b. Nouveaux types de volumes (0,5 p.)

On a repris et enrichi la notion de prolexème et on a introduit une nouvelle notion, celle de proaxie.

Définition 22. Prolexème. Dans une BDLex Pivax-3, il y a un seul volume de prolexèmes pour chaque langue. Dans ce volume, les prolexèmes regroupent les lexies qui représentent le même sens mais dont la réalisation syntaxique est différente (forme de surface, classe grammaticale, etc.).

Au contraire de M. Tran, notre notion de prolexème n'est pas limitée aux noms propres. Les liens bidirectionnels entre les lexies et leurs prolexèmes sont marqués avec une étiquette libre (par exemple, alias, acronyme, dérivation, définition, etc.).

Par exemple, l'entrée de type prolexème fra.organisation_des_nations_unies.1 est reliée aux entrées de type lexie :

· ONU, par un lien étiqueté acronyme.

· nations unies, par un lien étiqueté alias.

· onusien, par un lien étiqueté dérivation.

· organisation des nations unies, par un lien étiqueté définition. Ce lien n'est pas la définition lexicographique du prolexème, mais caractérise seulement le terme préféré pour le décrire.

Définition 23. Proaxie. Il y a un seul volume de proaxies dans une instance de Pivax-3. Les proaxies regroupent les prolexèmes de langues différentes partageant un même sens.

Les liens entre une entrée de proaxie et les entrées de prolexèmes sont bidirectionnels. Par exemple, dans un dictionnaire trilingue français-anglais-chinois, l'entrée de proaxie proaxie.united_nations.1 relie les entrées :

· fra.organisation_des_nations_unies.1 du volume des prolexèmes français,

· eng.united_nations.1 du volume des prolexèmes anglais,

· zho.联合国.1 du volume des prolexèmes chinois.

c. Macrostructure complète (1 p.)

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-25 à 19.40.29.png

Figure 45 : Macrostructure de Pivax-3

Dans cette macrostructure, nous avons deux couches : une couche basique et une couche "Pro". Dans la couche basique, nous gérons trois types de volume : les volumes de lexies, les volumes d'axèmes et le volume d'axies. Dans la couche "Pro", nous gérons deux types de volume : les volumes de prolexèmes et le volume des proaxies.

Grâce à la couche basique, nous pouvons relier les lexies qui se correspondent exactement, comme l'acronyme français ONU, relié à l'acronyme anglais UN.

Grâce à la couche "Pro", nous pouvons proposer en traduction des lexies des langues cible de même sens. Par exemple, en chinois, il y a un seul mot联合国 (lián hé guó) pour ce sens, et il n'existe pas d'acronyme. Donc on peut toujours proposer le même terme 联合国 pour la traduction de ONU et la traduction de organisation des nations unies. Voir la Figure 46.

La notion d'étiquette a pour but de proposer les meilleures traductions. Par exemple, en japonais, 国際連合 (kokusai-rengō) est la lexie de même sens que Organisation des Nations Unies, et son acronyme est 国連 (kokuren). Cet acronyme utilise le premier et le troisième kanji de ce mot (composé), ce qui est différent des initiales de la lexie de définition (le cas de ONU et de UN). Il existe peut-être une langue qui a deux acronymes, l'un correspondant à l'acronyme des initiales, l'autre correspondant à une sélection de caractères ou de mots. Donc, nous avons décidé de ne pas relier ces deux acronymes de types différents à une même axie. Par contre, comme ce sont des acronymes, pour la traduction de ONU, 国連 est meilleur que 国際連合. On donnera trois niveaux de précision de traduction au III.3.2.2.3.

I.3.2.1.2 Microstructures (2 p.)

a. Microstructure des lexies (0,5 p.)

Dans notre prototype, nous avons utilisé deux microstructures pour les volumes de lexies. La première est similaire à celle de Pivax-2. Un volume a une entrée par lexie. Au niveau d'une lexie, on a le lemme, la partie du discours, les définitions multilingues, les informations des liens vers les prolexèmes et vers les axèmes.

<p:volume xmlns:p=……>

<p:lexie p:id="Acro.fra.ONU.1">

<p:lemma>ONU</p:lemma>

<p:pos>n</p:pos>

<p:definitions>

<p:definition d:lang="fra">Initiales de « Organisation des Nations Unies ».

</p:definition>

</p:definitions>

<p:entryref type="prolexeme" volume="Acro_fra-prolexeme "

p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-

mono="ACRO"/>

<p:entryref type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.ONU.1" lang="fra"

p:relation-mono=""/>

</p:lexie>

<p:lexie p:id="Acro.fra.Nations_unies.1">

<p:lemma>Nations unies</p:lemma>

<p:pos>n</p:pos>

<p:definitions>

<p:definition d:lang="fra">Alias de « Organisation des Nations Unies ».</p:definition>

</p:definitions>

<p:entryref type="prolexeme" volume="Acro_fra-prolexeme"

p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-

mono="ALIAS"/>

<p:entryref type="axeme" volume="Acro_fra-axeme"

p:idref="Acro.axeme.fra.Nations_unies.1" lang="fra" p:relation-mono=""/>

</p:lexie>

……

</p:volume>

Figure 47 : Exemple de la première microstructure des lexies

La seconde microstructure est conforme à la proposition de V. Dikonov. Un volume a une entrée par vocable. Au niveau d'un vocable, il y a une sous-entrée par lexie.

<p:volume xmlns:p=……>

<p:vocable p:id="Acro.fra.vocable.CNAM.1">

<p:lemma>CNAM</p:lemma>

<p:lexie p:id="Acro.fra.CNAM.1">

<p:pos>n.f.</p:pos>

<p:definitions>

<p:definition d:lang="fra"> Acronyme de la « Caisse Nationale de l'Assurance Maladie

des travailleurs salariés ».</p:definition>

</p:definitions>

<p:entryref type="prolexeme" volume="Acro_fra-prolexeme"

p:idref="Acro.prolexeme.fra.Caisse_nationale_de_l'assurance_maladie_des_travailleurs

_salariés.1" lang="fra" p:relation-mono="ACRO"/>

<p:entryref type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.CNAM.1"

lang="fra" p:relation-mono=""/>

</p:lexie>

<p:lexie p:id="Acro.fra.CNAM.2">

<p:pos>n.m.</p:pos>

<p:definitions>

<p:definition d:lang="fra">Acronyme du « Conservatoire National des Arts et

Métiers ».</p:definition>

</p:definitions>

<p:entryref type="prolexeme" volume="Acro_fra-prolexeme"

p:idref="Acro.prolexeme.fra.Conservatoire_national_des_arts_et_métiers.1" lang="fra"

p:relation-mono="ACRO"/>

<p:entryref type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.CNAM.2"

lang="fra" p:relation-mono=""/>

</p:lexie>

</p:vocable>

</p:volume>

Figure 48 : Exemple de la deuxième microstructure (vocable > lexie)

b. Microstructure des axèmes (0,25 p.)

La microstructure des axèmes est simple. Une entrée ne comporte que des liens (vers une ou plusieurs lexies et vers une axie).

<p:axeme p:id="Acro.axeme.fra.ONU.1">

<p:entryref type="final[14]" volume="Acro_fra" p:idref="Acro.fra.ONU.1" lang="fra"

p:relation-mono=""/>

<p:axiref type="axie" volume="Acro_axie" p:idref="Acro.axie.UN.1" lang="axie"

p:relation-mono=""/>

</p:axeme>

Figure 49 : Exemple de la microstructure d'un volume d'axèmes

c. Microstructure des axies (0,25 p.)

La microstructure des axies est également simple. Une entrée ne comporte que des liens vers les axèmes de chaque espace lexical (celui d'une langue naturelle ou éventuellement celui d'UNL).

<p:axie id="Acro.axie.United_Nations.1">

<p:item-links link_group="g1">

<p:item relation="" volume="Acro_eng-axeme" type="axeme"

p:idref="Acro.axeme.eng.United_Nations.1" lang="eng"/>

<p:item relation="" volume="Acro_fra-axeme" type="axeme"

p:idref="Acro.axeme.fra.Organisation_des_nations_unies.1" lang="fra"/>

<p:item relation="" volume="Acro_zho-axeme" type="axeme"

p:idref="Acro.axeme.zho.连合国.1" lang="zho"/>

<p:item relation="" volume="Acro_jpn-axeme" type="axeme"

p:idref="Acro.axeme.jpn.国際連合.1" lang="jpn"/>

</p:item-links>

</p:axie>

Figure 50 : Exemple de la microstructure des axies

d. Microstructure des prolexèmes (0,5 p.)

Une entrée de prolexème se compose de liens vers les lexies, avec les étiquettes, et de liens vers les proaxies, sans étiquette.

<p:prolexeme p:id="Acro.prolexeme.jpn.国際連合.1">

<p:entryref type="final" volume="Acro_jpn" p:idref="Acro.jpn.国際連合.1" lang="jpn"

p:relation-mono="DEF"/>

<p:entryref type="final" volume="Acro_jpn" p:idref="Acro.jpn.国連.1" lang="jpn" p:relation-

mono="ACRO"/>

<p:axiref type="proaxie" volume="Acro_proaxie" p:idref="Acro.proaxie.United_Nations.1"

lang="proaxie" p:relation-mono= ""/>

</p:prolexeme>

Figure 51 : Exemple de la microstructure des prolexèmes

e. Microstructure des proaxies (0,5 p.)

La microstructure des proaxies est également simple. Une entrée de proaxie ne contient que des liens vers des prolexèmes situés en général dans plusieurs espaces lexicaux.

<p:proaxie id="Acro.proaxie.United_Nations.1">

<p:link relation="" volume="Acro_eng-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.

eng.United_Nations.1" lang="eng"/>

<p:link relation="" volume="Acro_fra-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.

fra.Organisation_des_nations_unies.1" lang="fra"/>

<p:link relation="" volume="Acro_zho-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.

zho.联合国.1" lang="zho"/>

<p:link relation="" volume="Acro_jpn-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.

jpn.国際連合.1" lang="jpn"/>

</p:proaxie>

Figure 52 : Exemple de la microstructure des proaxies

I.3.2.1.3 Utilisation de liens riches (1 p.)

Ce que nous appelons "lien riche" a été présenté au II.3.1. Nous présentons ici les utilisations des liens riches pour réaliser la gestion d'une terminologie (ensemble de termes "situés").

Pour modéliser les relations "situées", on a besoin des étiquettes portées par les liens entre les entrées de lexie et de prolexème. Voir le schéma Figure 46, et des exemples dans la Figure 47 et dans la Figure 51.

On a implémenté cette relation de "situement" dans un champ étiquette de valeur libre. Ce champ était prévu (mais jamais utilisé) dans la table links de Jibiki-2 avec le nom label. Comme les liens sont orientés et bidirectionnels, nous avons dû stocker les étiquettes dans les tables des lexies et dans les tables des prolexèmes.

La Figure 53 ci-dessous montre des informations portées par certains liens de l'entrée Acro.prolexeme.fra.Organisation_des_nations_unies.1, stockées dans la table links du volume des prolexèmes français.

L'entrée Acro.prolexeme.fra.Organisation_des_nations_unies.1 est stockée dans la table des entrées du volume des prolexèmes français. On a créé un lien en lui donnant un identifiant, ici 38946301 (une clé étrangère du champ entryid de la table links vers le champ objectid de la table des entrées), créé automatiquement par le système. Voir la Figure 27.

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-02-26 à 15.42.19.png

Figure 53 : Exemple de l'utilisation d'étiquettes libres dans le volume des prolexèmes français

I.3.2.2 Implémentation de Pivax-3 (3 p.)

I.3.2.2.1 Traitement de la variété des microstructures (1 p.)

Dans Pivax-1 (voir II.2.2.2), on ne peut utiliser qu'une seule microstructure pour tous les volumes d'un même espace lexical. Par contre, comme on l'a dit au III.3.2.1.2, Pivax-3 permet d'avoir des volumes de microstructures différentes dans le même espace lexical. Nous avons utilisé deux microstructures différentes pour les volumes des lexies françaises.

Pour l'implémentation purement technique, M. Mangeot a proposé, en plus du pointeur entry, qu'on ajoute un pointeur supplémentaire : sens. Ci-dessous, les éléments CDM dans les deux fichiers de métadonnées correspondent aux exemples de la Figure 47 et de la Figure 48.

<cdm-elements>

Éléments CDM correspondant à l'exemple de la Figure 47.

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:lexie"/>

<cdm-entry-id xpath="/p:volume/p:lexie/@p:id"/>

<cdm-headword xpath="/p:volume/p:lexie/p:lemma/text()"/>

<cdm-pos xpath="/p:volume/p:lexie/p:pos/text()" />

<cdm-definition xpath="/p:volume/p:lexie/p:definitions/p:definition/text()"/>

<links>

</link>

</link>

</links>

</cdm-elements>

<cdm-elements>

Éléments CDM correspondant à l'exemple de la Figure 48.

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:vocable"/>

<cdm-entry-id xpath="/p:volume/p:vocable/@p:id"/>

<cdm-headword xpath="/p:volume/p:vocable/p:lemma/text()"/>

<cdm-sense-id xpath="/p:volume/p:vocable/p:lexie/@p:id"/>

<cdm-pos xpath="/p:volume/p:vocable/p:lexie/p:pos/text()" />

<cdm-definition xpath="/p:volume/p:vocable/p:lexie/p:definitions/p:definition/text()"/>

<links>

</link>

</link>

</links>

</cdm-elements>

Figure 54 : CDM correspondant aux deux exemples de microstructure de Pivax-3

Si le pointeur sens est vide (cas de la Figure 47), on prend le pointeur entrée pour accéder à une entrée dans la BDLex.

Si le pointeur sens n'est pas vide (cas de la Figure 48), on l'utilise pour accéder à une entrée dans la BDLex. On garde toujours le pointeur entrée, de façon à pouvoir récupérer les informations de mot-vedette (cdm-headword). En effet, le mot-vedette n'est pas au niveau sens, mais au niveau entrée.

I.3.2.2.2 Algorithmes de calcul (1 p.)

a. Réalisation informatique (0,5 p.)

La réalisation informatique est basée sur plusieurs algorithmes. Nos algorithmes sont un peu compliqués, nous en donnons le pseudo-code à l'Annexe 8. Ici, on en donne seulement une brève présentation.

Le premier est l'algorithme de collecte des liens. Il permet de chercher tous les liens possibles dans l'ensemble des liens riches de tous les volumes pour une entrée recherchée, et de réaliser le parcours des liens riches. Il s'agit des étapes suivantes :

· Chercher les lexies source et leurs liens.

· Chercher les liens de lexies source vers les axèmes source, puis vers les axies, ensuite vers les axèmes cible, enfin vers les lexies cible.

· Chercher les liens de lexies source vers les prolexèmes source puis vers les proaxies, ensuite vers les prolexèmes cible, à la fin vers les lexies cible, et comparer les étiquettes portées par les lexies/prolexèmes source et par les lexies/prolexèmes cible.

Le deuxième est l'algorithme de construction du résultat. Il s'agit principalement de notre stratégie des trois niveaux de traduction, qui sera présentée dans la section suivante III.3.2.2.3.

b. Exemple : diagramme de calcul pour la recherche de "TGV" (0,5 p.)

Quand on cherche le mot TGV vers l'anglais et le chinois, on trouve deux lexies : (1) TGV pour l'acronyme de Train à Grande Vitesse, et (2) TGV pour l'acronyme de Transposition des Gros Vaisseaux (terminologie médicale).

D'une part, on recherche les traductions par les axèmes et les axies comme avec Pivax-2, et on trouve une traduction en anglais : TGV pour l'acronyme de Transposition of the Great Vessels.

D'autre part, on recherche les traductions par les prolexèmes et les proaxies, et on trouve une suite de liens et de traductions, voir la figure ci-dessous. Pour faciliter la lecture, on a utilisé des couleurs différentes et on a marqué des numéros pour chaque étape de la recherche par des liens.

Par exemple, 1.a et 1.b correspondent à la recherche des liens des lexies source vers les prolexèmes source. 2.a et 2.b correspondent à la recherche des liens des prolexèmes source vers les proaxies. De 3.a à 3.f, ce sont les étapes de la recherche des liens des proaxies vers les prolexèmes cible. De 4.a à 4.i, ce sont les étapes de la recherche des liens des prolexèmes cible vers les lexies cible.

Figure 55 : Exemple de calcul des liens dans Pivax-3

I.3.2.2.3 Niveaux des traductions (1 p.)

→

Définition 24

a. Trois niveaux théoriques (0,5 p.)

Nous proposons trois niveaux de traduction classés selon la précision obtenue.

(1) Le système trouve une lexie directement, en passant par le volume des axèmes et par le volume des axies. C'est le premier niveau de traduction, et le plus précis.

Pour l'exemple de la Figure 55, c'est le cas de TGV pour le sens d'acronyme transposition des gros vaisseaux en français vers le même sens TGV en anglais.

(2) Le système cherche le lien dans le volume des prolexèmes de la langue source avec une étiquette. Puis il parcourt le volume des proaxies, et ensuite le volume des prolexèmes et les volumes des lexies des langues cible. Il trouve une lexie avec la même étiquette. C'est le deuxième niveau, dit niveau intermédiaire.

Par exemple, à la fin de la section III.3.2.1.1, on a expliqué que, en japonais 国連 est meilleur que 国際連合 pour la traduction de ONU, parce que ces mots portent l'étiquette acronyme.

(3) Le système trouve les lexies par prolexème et proaxie sans prendre en compte l'étiquette. Ces lexies proposées constituent le troisième niveau, le moins précis.

Par exemple, dans la Figure 55, on trouve la traduction en chinois 高速列车 pour TGV et train à grande vitesse.

La quantité de lexies contenues dans le résultat augmente suivant les niveaux de traduction, du premier vers le troisième. C'est-à-dire qu'on a :

{traductions_1er_niveau}⊆{traductions_2e_niveau}⊆{traductions_3e_niveau}

b. Trois niveaux d'affichage sur l'interface (0,5 p.)

Pour faciliter la lecture, nous avons décidé :

(1) d'afficher l'étiquette, la langue et le mot-vedette dans le 1er et le 2ème niveau sur l'interface Web.

(2) d'afficher tous les détails (phrases exemples, définitions, POS, etc.) dans le 3ème  niveau, y compris les lexies du même prolexème de la langue source.

(3) de ne pas afficher la traduction dans le 2ème niveau si elle a déjà été trouvée et est déjà affichée dans le 1er niveau.

I.3.3 Un exemple complet de gestion des acronymes (7 p.)

I.3.3.1 Exemple en quatre langues pour le sens "Organisation des Nations Unies" (1 p.)

I.3.3.1.1 Choix de l'exemple (0,5 p.)

Cette section présente notre méthode avec un exemple en quatre langues, pour le sens Organisation des Nations Unies.

(1) En français, il y a Organisation des Nations Unies, on peut aussi dire Nations unies, ONU ou onusien[15].

(2) En anglais, on a United Nations et son acronyme UN.

(3) En chinois, on a 联合国 (lián hé guó) qui est la seule lexie pour ce sens, et il n'y a pas d'acronyme.

(4) En japonais, on a 国際連合 (kokusai-rengō) et son acronyme 国連 (kokuren).

On choisit cet exemple pour les raisons suivantes :

(1) C'est un cas compliqué.

(2) On a déjà utilisé cet exemple dans les présentations ci-dessus, mais jamais complètement.

(3) Cet exemple (parties en anglais et en français) a été utilisé par M. Tran pour présenter Prolexbase.

(4) C'est un besoin initial de L&M.

I.3.3.1.2 Définition des étiquettes (0,5 p.)

Dans cet exemple, il n'y a pas que des acronymes, mais aussi d'autres types de noms propres, par exemple, alias et dérivés. Voir la table ci-dessous.

Table 8 : Étiquettes utilisées pour l'exemple "Organisation des Nations Unies"

Étiquette	Anglais	Français	Chinois	Japonais
Définition (DEF)	United Nations	Organisation des Nations Unies	联合国	国際連合
Acronyme (ACRO)	UN	ONU		国連
Alias (ALIAS)		Nations Unies
Dérivé (DERIV)		onusien

I.3.3.2 Modélisation de cet exemple dans Pivax-3 (3 p.)

I.3.3.2.1 Entrées relatives au "non-situé" (1 p.)

a. Entrée de type "lexie"

Nous avons déjà montré des exemples de lexies au III.3.2.1.2a. On gère deux types de lien pour chaque lexie : (1) type axème et (2) type prolexème. Les liens vers les prolexèmes contiennent une valeur non vide pour l'attribut p:relation-mono. Cette valeur est donc le traitement de "situé", c'est l'étiquette portée par le lien.

<p:lexie p:id="Acro.fra.Nations_unies.1">

……

<p:entryref type="prolexeme" volume="Acro_fra-prolexeme"

p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-

mono="ALIAS"/>

<p:entryref type="axeme" volume="Acro_fra-axeme"

p:idref="Acro.axeme.fra.Nations_unies.1" lang="fra" p:relation-mono=""/>

……

</p:lexie>

Figure 56 : Exemple des liens de lexie Nations Unies dans la ressource lexicale[16]

Pour les CDM correspondants, voir la première partie de la Figure 54.

b. Entrée de type "axème"

<p:axeme p:id="Acro.axeme.fra.Organisation_des_nations_unies.1">

<p:entryref type="final[17]" volume="Acro_fra"

p:idref="Acro.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-mono=""/>

<p:axiref type="axie" volume="Acro_axie" p:idref="Acro.axie.United_Nations.1"

lang="axie" p:relation-mono=""/>

</p:axeme>

<cdm-elements>

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:axeme"/>

<cdm-entry-id xpath="/p:volume/p:axeme/@p:id"/>

<cdm-headword xpath="/p:volume/p:axeme/@p:id"/>

<links>

</link>

</link>

</links>

</cdm-elements>

Figure 57 : Exemple d'axème et ses CDM

c. Entrée de type "axie"

Les axèmes et les axies ont pour but de présenter le sens exact. C'est pour distinguer les acronymes de types différents entre onu, un et 国連. Voir la Figure 58.

Figure 58 : Liens entre les axèmes et les axies

<p:axie id="Acro.axie.UN.1">

<p:item-links link_group="g1">

<p:item relation="" volume="Acro_eng-axeme" type="axeme"

p:idref="Acro.axeme.eng.UN.1" lang="eng"/>

<p:item relation="" volume="Acro_fra-axeme" type="axeme" p:idref="Acro.axeme.fra.ONU.1"

lang="fra"/>

</p:item-links>

</p:axie>

<cdm-elements>

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:axie"/>

<cdm-entry-id xpath="/p:volume/p:axie/@id"/>

<cdm-headword xpath="/p:volume/p:axie/@id"/>

<links>

</link>

</links>

</cdm-elements>

Figure 59 : Exemple d'axie et ses CDM

国連 ».

I.3.3.2.2 Entrées relatives au "situé" (1 p.)

a. Entrée de type "prolexème"

Les liens entre les prolexèmes et les proaxies sont illustrés par la Figure 60.

Figure 60 : Liens entre les prolexèmes et les proaxies

Nous avons également utilisé l'attribut p:relation-mono pour présenter l'étiquette portée par les liens des prolexèmes vers les lexies.

<p:prolexeme p:id="Acro.prolexeme.fra.Organisation_des_nations_unies.1">

<p:entryref type="final" volume="Acro_fra" p:idref="Acro.fra.ONU.1" lang="fra"

p:relation-mono="ACRO"/>

<p:entryref type="final" volume="Acro_fra" p:idref="Acro.fra.Nations_unies.1" lang="fra"

p:relation-mono="ALIAS"/>

<p:entryref type="final" volume="Acro_fra" p:idref="Acro.fra.onusien.1" lang="fra"

p:relation-mono="DERIV"/>

<p:entryref type="final" volume="Acro_fra"

p:idref="Acro.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-mono="DEF"/>

<p:axiref type="proaxie" volume="Acro_proaxie" p:idref="Acro.proaxie.United_Nations"

lang="proaxie" p:relation-mono=""/>

</p:prolexeme>

<cdm-elements>

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:prolexeme"/>

<cdm-entry-id xpath="/p:volume/p:prolexeme/@p:id"/>

<cdm-headword xpath="/p:volume/p:prolexeme/@p:id"/>

<links>

</link>

</link>

</links>

</cdm-elements>

Figure 61 : Exemple de prolexème et ses CDM

b. Entrée de type "proaxie"

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-03-02 à 16.14.03.png

Figure 62 : Liens entre les proaxies et les prolexèmes

Voir la Figure 52 pour l'exemple de l'entrée de proaxie.

<cdm-elements>

<cdm-volume xpath="/p:volume"/>

<cdm-entry xpath="/p:volume/p:proaxie"/>

<cdm-entry-id xpath="/p:volume/p:proaxie/@id"/>

<cdm-headword xpath="/p:volume/p:proaxie/@id"/>

<links>

</link>

</links>

</cdm-elements>

Figure 63 : CDM correspondants des entrées proaxies

I.3.3.2.3 Diagramme de modélisation globale (0,5 p.)

Dans ce diagramme complet, pour faciliter la lecture, on a concentré la modélisation des types différents des entrées et leurs liens. On ne présente qu'un seul volume, mais un exemple avec plusieurs volumes a déjà été présenté dans la Figure 46.

Description : Macintosh HD:Users:yingzhang:Desktop:Capture d’écran 2016-03-02 à 17.50.39.png

Figure 64 : Modélisation complète de l'exemple organisation des nations unies dans Pivax-3

I.3.3.2.4 Identification des traductions à trois niveaux, théoriques et affichés (0,5 p.)

Nous avons expliqué les trois niveaux de précision d'une traduction au III.3.2.2.3.

Lorsqu'on cherche les liens de la lexie ONU du français vers l'anglais, vers le japonais et vers le chinois, on a trois niveaux théoriques :

· Le premier niveau de traduction : vers l'anglais, ONU→UN.

· Le deuxième niveau de traduction : vers le japonais, ONU→国連. Le système trouve un lien dans le volume des prolexèmes français avec l'étiquette Acro. Puis il trouve le lien dans les proaxies, ensuite il suit le lien de prolexème en japonais, enfin il arrive au volume des lexies japonaises, et il trouve une lexie avec l'étiquette Acro. Donc la lexie proposée du deuxième niveau de langue cible est cet acronyme. Le deuxième niveau de traduction comprend toujours le premier niveau de traduction. C'est-à-dire que ONU et UN ont la même étiquette Acro, donc le lien ONU→UN correspond également au deuxième niveau de traduction.

· Vers le chinois : ONU→联合国. Le système trouve les lexies par prolexème et proaxie sans étiquette correspondante. Ces lexies proposées constituent le troisième niveau, le moins précis. Le troisième niveau de traduction comprend les niveaux précédents.

Sur l'interface, selon les stratégies présentées au III.3.2.2.3b, on affiche :

· Le premier niveau : terme UN de l'anglais avec l'étiquette Acro.

· Le deuxième niveau : terme 国連 du japonais avec l'étiquette Acro.

· Le troisième niveau : tous les termes, y compris les termes reliés par un même prolexème de la langue source (ONU, nations unies, onusien et organisation des nations unies).

I.3.3.3 Démonstrations

I.3.3.3.1 Démo 1 : consultation du terme UN de l'anglais vers les autres langues (1 p.)

Il s'agit d'une consultation pour les trois niveaux de traduction.

Table 9 : Trois niveaux de traduction : terme UN de l'anglais vers toutes les langues

Niveau	Lexies trouvables en théorie				Lexies trouvées et affichées par l'interface
	Français	Anglais	Chinois	Japonais	Français	Anglais	Chinois	Japonais
1	ONU				ONU
2	ONU			国連				国連
3	ONU, Nations unies, onusien, Organisation des nations unies	Q=’UN’	联合国	国際連合, 国連	ONU, Nations unies, onusien, Organisation des nations unies	UN, United Nations	联合国	国際連合, 国連

Figure 65 : Terme UN de l'anglais vers toutes les langues

Figure 66 : Affichage agrandi de l'exemple "UN"

I.3.3.3.2 Démo 2 : consultation du terme 国連 du japonais vers les autres langues (1 p.)

Il s'agit d'une consultation aux 2^ème et 3^ème niveaux de traduction.

Table 10 : Trois niveaux de traduction : terme 国連 (kokuren) du japonais vers toutes les langues

Niveau	Lexies trouvables en théorie				Lexies trouvées et affichées par l'interface
	Français	Anglais	Chinois	Japonais	Français	Anglais	Chinois	Japonais
1
2	ONU	UN			ONU	UN
3	ONU, Nations unies, onusien, Organisation des nations unies	UN, United Nations	联合国	Q=’国連’	ONU, Nations unies, onusien, Organisation des nations unies	UN, United Nations	联合国	国際連合, 国連

Figure 67 : Terme 国連 du japonais vers toutes les langues

I.3.3.3.3 Démo 3 : consultation du terme onusien du japonais vers les autres langues (1 p.)

Il s'agit d'une consultation au 3^ème niveau de traduction.

Table 11 : Trois niveaux de traduction : terme onusien du français vers toutes les langues

Niveau	Lexies trouvables en théorie				Lexies trouvées et affichées par l'interface
	Français	Anglais	Chinois	Japonais	Français	Anglais	Chinois	Japonais
1
2
3	Q= ’onusien’	UN, United Nations	联合国	国際連合, 国連	ONU, Nations unies, onusien, Organisation des nations unies	UN, United Nations	联合国	国際連合, 国連

Figure 68 : Terme onusien du français vers toutes les langues

I.4 Autres extensions envisageables

Pivax-3 est le premier prototype, la base actuelle est une preuve de concept qui comporte quelques exemples issus de Prolexbase et une toute petite partie des données protégées de Lingua et Machina. Nous souhaitons tester cette solution en passant à l'échelle sur de grosses bases telles que CJK (chinois, japonais, coréen, arabe, anglais) avec 24 millions d'entrées ou l'Unifed Medical Language System avec 5 millions de termes.

I.4.1 Vers l'intégration général-terminologique-situé (1 p.)

Dans l'avenir, nous prévoyons de l'intégrer pour l'utilisation dans un domaine linguistique spécifique, et de l'enrichir en utilisant les quatre variations du diasystème de Coseriu.

I.4.1.1 Intégration pour l'utilisation dans un domaine linguistique spécifique (0,5 p.)

Pour le futur, nous souhaitons faire évoluer cette macrostructure pour prendre en compte les différents sous-types de synonymie, et transposer le concept de prolexème pour que cette solution puisse être utilisée dans un autre domaine linguistique.

Par exemple, pour une ressource lexicale comprenant des textos, en français A+ correspondrait à À plus ou À plus tard avec une étiquette texto, et en anglais L8R correspondrait à later avec l'étiquette texto.

I.4.1.2 Intégration pour l'utilisation des quatre dimensions du diasystème

Comme notre étiquette est une étiquette libre, pour chaque BDLex de type Pivax-3, il faut bien définir les étiquettes utilisées pour conserver la cohérence.

Nous prévoyons de prendre en compte également les quatre dimensions du diasystème basé essentiellement sur ce qu'Eugenio Coseriu a proposé : diachronique (variété dans le temps), diaphasique (variété concernant les finalités de l'emploi), diatopique (variété dans l'espace), et diastratique (variété relative à la stratification socio-culturelle).

Pour ces cas complexes, on a proposé d'utiliser le descripteur de situement (voir la Table 1) comme étiquette. Voici un exemple.

	Descripteur de situement (étiquettes)
	A	le_pape#général
	B	le_pape#situé? date=16101978-02042005
	C	le_pape#situé? date=19042005-28022013

Figure 69 : Modélisation de l'exemple "le pape" dans Pivax-3

Les deux lexies chinoises zho.约翰_保罗二世.1 et zho.若望_保禄二世.1 sont synonymes. On peut les échanger dans tous les contextes. Donc, on a ces deux traductions au premier niveau de traduction pour fra.Jean-Paul_II.1.

→

I.4.2 Autres structures (ex: Innovalangues-LexInnova) (2 p.)

Mes co-directeurs de thèse ont proposé d'utiliser Pivax-3 dans le sous-projet LexInnova du projet Innovalangues, dans lequel elle et il sont impliqués. Nous n'avons pas pu y travailler vraiment, mais pensons qu'il est intéressant de donner ici leur perspective d'utilisation et d'extension de Pivax-3 dans ce projet.

I.4.2.1 Contexte du projet Innovalangues-LexInnova (0,5 p.)

Citons ici la brève présentation de LexInnova dans sa page wiki interne.

Dans le cadre de l'ENPA (Environnement Numérique Personnalisé d'Apprentissage) d'Innovalangues^{^[18]}, nous souhaiterions créer des outils sous licence ouverte (données et code), qui permettraient aux apprenants identifiés travaillant sur tablette ou ordinateur de créer leurs propres lexiques dynamiques multilingues d'apprentissage et de générer des exercices associés.

Les étudiants, tuteurs et enseignants pourraient également avoir accès aux corpus de groupes-classes donnés.

Ces corpus pourraient être issus de diverses sources : entrées des étudiants, corpus de documents de cours, d'exercices et jeux faits sur l'ENPA par l'étudiant. Chaque lexique individuel ou collectif résulterait d'une extraction de données provenant d'une base lexicale partagée.

Les lexiques individuels devraient pouvoir être récupérés par les étudiants à la fin de leur formation (export Excel ou Xml).

La mémoire du parcours et des contextes associés pour chaque utilisateur (élève, enseignant, et même logiciel) est partagée avec les autres outils d'Innova. A chaque session, selon le profil de l'utilisateur et des informations propres à notre application, les données sont extraites des bases lexicales et corporale pour constituer la vue temporelle exploitée. Les actions de l'utilisateur conduisant à des modifications de ces bases sont prises en compte immédiatement lorsque c'est possible, sinon différées au moment où la connexion sera rétablie. Les fonctionnalités prévues ne conduisent qu'à des actions introduisant des nouvelles informations, il n'y a donc pas de conflits a posteriori.

I.4.2.2 Proto-structure du dictionnaire (0,5 p.)

Il existe déjà des outils dictionnairiques (Magic Word[19], Game of words[20], Check your smile[21], Kinephones[22], SELF[23]) utilisés dans le cadre du projet Innovalangues. Chaque outil a sa propre BDLex. On voudrait intégrer et unifier ces ressources dans une même structure de BDLex.

La proto-structure du dictionnaire est créée à partir de celles des outils existants et à partir des besoins pédagogiques du projet. Cela nous a menés à la microstructure suivante.

· forme fléchie (Magic Word)

· lemme (Game of words, Magic Word)

· catégorie grammaticale (Check your smile), ex. nom, verbe, etc.

· catégorie morphologique (Magic Word), ex. classe du Bescherelle.

· définition(s) L2 (Magic Word, Check your smile)

· définition(s) L1 (Check your smile)

· entrées liées sémantiquement (Game of words)

· découpage syllabique (Check your smile)

· syllabe accentuée (Check your smile)

· transcription phonétique L2 (Check your smile, Kinephones)

· transcription phonétique L1 (Check your smile)

· transcription en couleurs (Kinephones)

· enregistrement sonore (Check your smile)

· mot en contexte, par exemple collocations (SELF)

· association entre mot et niveau de compétence d'usage en production, par exemple le "profil en anglais" ou "english profile" (SELF)

· sinogrammes

· composants des sinogrammes

· transcriptions des sinogrammes en mandarin et en japonais

· image

Figure 70 : Modélisation de BDLex pour LexInnova

I.4.2.3 Modélisation de la macrostructure avec des exemples (1 p.)

On a modélisé la proto-structure aux niveaux forme, lemme, lexie, axème et axie. Voir la Figure 70. Dans cette figure, on n'a pas dessiné tous les liens. Il faudrait ajouter un axème correspondant à chaque lexie.

Pour chaque langue naturelle, on aura une combinaison des informations morphologiques qui permettent de générer un lemme (ce qui vient de l'analyse morphologique de la forme, éventuellement précisé par des interactions humaines). Dans notre exemple, Ch. Boitet a proposé d'utiliser le résultat d'un analyseur morphologique écrit en ATEF[24] comme "descripteurs morphologiques". Les liens entre forme et lemme portent des étiquettes commençant par id-fmt.

Table 12 : Exemple de descripteur morphologique

id-fmt	valeur
id-fmt-49698	GNR=MAS; CAT=N; SUBN=NC; NBR=SIN
id-fmt-84204	GNR=FEM; CAT=N; SUBN=NC; NBR=SIN

[1] TSV est un format texte représentant des données tabulaires sous forme de "valeurs séparées par des tabulations". Chaque ligne correspond à une rangée du tableau et les cellules d'une même rangée sont séparées par une tabulation. — Wikipédia

[2] C'est à 50% non traduit, et les traductions sont à 50% très mauvaises.

[3] La première version du "Chinese Character Simplification Scheme" a été publiée le 31 janvier 1956, et concernait environ 510 caractères. La deuxième version a été publiée en mars 1964 avec comme titre "Simplified Chinese characters list". En 1986 a été publiée la troisième version (c'est la version actuelle), qui contient 3 tables, respectivement de 350 caractères, de 132 caractères et de 1 753 caractères.

[4] Dans cette thèse, nous indiquons toujours la prononciation en mandarin standard.

[5] https://www2.nict.go.jp/out-promotion/techtransfer/EDR/index.html?

[6] Fujitsu, Ltd., NEC Corporation, Hitachi, Ltd., Sharp Corporation, Toshiba Corporation, Oki Electric Industry Co., Ltd., Mitsubishi Electric Corporation, and Matsushita Electric Industrial Co., Ltd.

[7] Ou 5 types, si on ne fusionne pas le type monolingue général et le type monolingue terminologique dans un seul type.

[9] Noms des habitants d'un lieu (ex : Bellifontain pour habitant de Fontainebleau).

[10] C'est un exemple chinois. Initialement le mot神(divinité, shén)马(cheval, mǎ) n'a pas une vraie signification, mais les jeunes Chinois l'utilisent (surtout sur le Web) pour remplacer le mot 什么(shén me, qui a plusieurs sens comme quoi, quel, quelconque etc.). C'est parce que les prononciations se ressemblent : 神马(shén mǎ), 什么(shén me).

[11] La balise <ntig> permet une représentation plus complexe d'un terme, notamment son découpage en

éléments via la balise <termCompList>.

[12] ?? est le numéro de ressource lexicale (on l'appelle glossaire), par exemple, M_1_TIGS, M_37_TIGS, etc.

[13] Il n'y a pas que moi qui ai travaillé sur le sujet, mais aussi mes collègues. Le patron de L&M, F. Brown de Colstoun, communiquait avec les clients et spécifiait les besoins. Le chef E. Monneret était responsable technique, proposait les conceptions globales, puis vérifiait et validait les travaux. M. Morardo a développé l'interface d'affichage de consultation. Quant à moi, j'ai travaillé sur l'import, l'export, leurs interfaces et les traitements de la BDLex.

[14] Le type final est implémenté pour le type lexie.

[16] On a gardé l'attribut p:relation-mono pour le lien de type axème dans cet exemple. C'est un résultat de création initiale de la ressource par un script. Sa valeur est toujours vide ou bien on peut aussi l'enlever.

[17] Le type final est l'implémentation informatique du type lexie.

[18] Innovalangues est un projet IDEFI-ANR visant à innover dans l'apprentissage et l'enseignement des langues. Il a été lancé officiellement le 14 juin 2012.

[19] Magic Word : vise à produire un premier prototype de jeu inspiré du Boggle. Voir http://gamer.innovalangues.net/magicword/

[20] Game of words : permet de développer un jeu à partir des règles du Taboo. Voir http://gamer.innovalangues.net/gameofwords/

[21] Check your smile : ce chantier vise à créer un site web collaboratif et ludo-éducatif pour l'apprentissage d'un lexique spécialisé.

[22] Kinephones : réalise un prototype pour l'enseignement-apprentissage de la phonologie du français et de l'anglais (British et US). Voir kinephones.u-grenoble3.fr.

[23] SELF : Système d'Evaluation en Langues à visée Formative. Voir http://self.innovalangues.net.

[24] On a déjà mentionné Ariane-G5 au I.1.1.1. ATEF (Analyse de Textes en États Finis) est le LSPL (Langage Lpéciale de Programmation Linguistique) utilisé par Ariane-G5 pour écrire tous les analyseurs morphologiques. Ce langage a été créé en 1972 par J. Chauché, P. Guillaume et M. Quézel-Ambrunaz.