(0,5 p.)
Ce chapitre présente une contribution originale à la lexicographie computationnelle, qui a donné lieu à une publication [Zhang, Y. & Mangeot, M., 2013] à LTT en 2013. Le point de départ a été un besoin précis de L&M, à savoir la gestion d'un certain type d'abréviations, les acronymes, pour certains clients.
Les acronymes en question sont des unités lexicales souvent terminologiques, mais pas toujours. Un même "prolexème" (collection d'unités lexicales synonymes dans une certaine situation, spatio-temporelle et/ou technique et/ou entrepreneuriale) n'a pas nécessairement de réalisation de type acronyme (ou abréviation, ou apocope, ou mot-valise) dans différentes langues. Du point de vue informatique, il faut pouvoir traiter ces unités dans la même base de données que les termes techniques et que les termes généraux.
Nous avons proposé un modèle pour réaliser cette intégration de ces 3 types d'unités lexicales dans une même BDLex. Pour des raisons informatiques, L&M ne pouvait pas intégrer cette solution à sa BDLex ; la solution réalisée pour L&M n'a donc été que partielle. Par contre, au laboratoire, nous avons pu l'implémenter complétement en Pivax-3/Jibiki-2, et produire un démonstrateur.
Dans la première section, nous analysons le problème posé par L&M et sa demande précise. Dans la deuxième section, nous étudions les éléments de la solution. Ensuite, dans la troisième section, nous présentons les solutions (la solution pour L&M et la solution générale), et les démonstrations. Enfin, nous discutons les autres extensions envisageables.
On a déjà mentionné les besoins réels de L&M au I.2.2.2.2. Vers février 2012, L&M a été confrontée au problème suivant : deux clients (EDF et Wesco) avaient à traduire des textes comportant beaucoup d'acronymes. Ces acronymes figuraient dans leurs fichiers terminologiques, qui avaient été importés dans Libellex, mais les traducteurs n'obtenaient pas le développement de ces acronymes, quand la traduction "acronymique" était absente. Ensuite, en 2013, deux autres clients (ExaleadSuggest et Louis Vuitton) ont demandé de traiter leurs terminologies monolingues avec des relations plus complexes.
L'outil de gestion de terminologie de Libellex permet l'import, l'export, la suppression, la consultation et la validation. Il y a deux interfaces pour la terminologie monolingue et pour la terminologie bilingue, qui diffèrent l'une de l'autre surtout pour la consultation et la validation. Pour l'import et l'export, on peut utiliser les formats d'échange de Metricc (TBXMetricc et TEIMetricc, voir I.2.2.1 et I.2.2.2). Mais ces formats sont dédiés au traitement automatique et sont difficiles à comprendre et à utiliser par les clients (par les humains en général).
Libellex propose un nouveau format d'échange, TSV (Tabulation-Separated Values)[1], et nous avons principalement utilisé ce format TSV pour les tâches liées à Libellex (voir les exemples dans la section suivante).
Juste au début de ma thèse, vers mi-avril 2012, Libellex a réalisé une interface graphique pour la terminologie monolingue et pour afficher les réseaux sémantiques. Cette fonction a été initialement réalisée par Mikaël Morardo. Au début, les liens sont créés entre deux termes seulement s'ils partagent des contextes similaires. Une matrice nœuds/contextes est construite dynamiquement en utilisant l'analyseur syntaxique FRMG [Villemonte de la Clergerie, É. et al., 2009]. M. Morardo a présenté sa méthode et son algorithme dans [Morardo, M. & Villemonte de La Clergerie, É., 2013].
Figure
33 : Interface de consultation graphique pour la
terminologie monolingue dans Libellex |
Début 2012, les ressources importées en format TSV contenaient quatre types de fichier : (1) monolingue sans phrases d'exemples en une seule colonne : langue en ISO 639-1 (ex. fr), (2) monolingue avec phrases d'exemple en deux colonnes (ex. fr[Tab]fr_sent), (3) bilingue sans phrases d'exemples en deux colonnes (ex. fr[Tab]en) et (4) bilingue avec phrases d'exemples en quatre colonnes (ex. fr[Tab]en[Tab]fr_sent[Tab]en_sent).
Figure 34 : Ressource bilingue importée (avec phrases) dans la BDLex de Libellex |
Voici quelques exemples de ressources transmises par les clients après mon arrivée.
Figure 35 : Exemple de ressource prétraitée dédiée à des acronymes[2] |
|
Figure 36 : Exemple d'une ressource de Louis Vuitton prétraitée |
|
Figure 37 : Exemple d'une ressource d'ExaleadSuggest prétraitée |
L&M m'a demandé d'étudier ce problème, de trouver une solution implémentable à l'intérieur de Libellex, et de l'implémenter. J'ai d'abord étudié et évalué la structure de la BDLex existante pour voir si elle permettait de traiter ce type de problème ou bien si on avait besoin d'installer une autre BDLex séparée (dans cette perspective, nous avons proposé un nouveau type de BDLex basé sur Jibiki).
Ensuite, j'ai travaillé sur l'import et l'export de
terminologies complexes en TSV, contenant des acronymes
et diverses relations. Enfin, avec M. Morardo, j'ai réalisé l'affichage et l'intégration
dans les interfaces existantes, principalement dans l'interface graphique.
L&M a souvent reçu des ressources très riches mais très
incomplètes. Par exemple, les ressources lexicales de Louis Vuitton contiennent principalement des entités nommées associées à
des lignes de produits et à des produits. Ces ressources initiales étaient
hiérarchisées en xlsx, et il fallait les mettre en format "à plat" (en TSV) tout en gardant les liens
de parenté, les correspondances bilingues, les synonymes etc.
On aurait dû avoir une
traduction en anglais pour chaque terme français, mais souvent il n'y en avait pas. Par exemple, un échantillon sur lequel
j'ai travaillé contenait 10 857 termes français,
mais seulement 2604 traductions anglaises.
On voit aussi des erreurs dans la Figure 35 : (1) l'acronyme SNCF et sa définition française ont été recopiés dans les colonnes anglaises, et (2) on indique un –s pour le pluriel d'un acronyme, toujours invariable en français (les CNAM, pas "les CNAMs").
De plus, les traductions françaises sont souvent fausses ou très mauvaises.
Il y a des confusions entre les acronymes et les autres types d'abréviation. Plus généralement, on voit qu'il aurait fallu qu'au moins un(e) spécialiste de terminologie participe à la construction de ces ressources. D'où la nécessité d'étudier nous-même les aspects linguistiques, et plus précisément lexicologiques, liés aux différents "objets linguistiques" à traiter.
On a mentionné cette structure au I.2.2.1 et au I.2.2.2. L'absence de la notion d'acception interlingue (représentée en LexAlp ou en PIVAX par une "axie") associée à un concept dans le schéma conceptuel de la base lexicale de Libellex est un problème profond. Elle rend très difficile la création des relations sémantiques.
Les liens entre les termes sont compliqués. Plusieurs termes différents peuvent être liés à un seul référent : Jean-Paul II et Karol Jozef Wojtyla en français, ou en anglais John Paul II et Karol Jozef Wojtyla.
Des pays parlant la même langue (ex : France et Suisse romande) peuvent également utiliser des mots différents pour le même concept. Par exemple, chien renifleur et chien drogue. Inversement, le même terme peut désigner des concepts différents : dans la province de langue allemande de Bolzano en Italie, le Landeshauptmann est le président du conseil provincial, avec des compétences beaucoup plus limitées que le Landeshauptmann autrichien, qui est à la tête de l'un des États (Länder) de la fédération autrichienne. Même chose pour principe de précaution en français (voir la Figure 13).
C'est pourquoi on a besoin de lexies (voir la Définition 10) et d'axies (voir la Définition 11).
Les notions d'axie et de lexie ne suffisent pas à représenter toutes les situations liées aux noms propres, parce qu'on a des dérivés, des alias, des types différents d'abréviation d'un même nom propre, etc. Par exemple, pour la ville de Saint-Martin-d'Hères, on peut trouver : Saint Martin d'Hères, St Martin d'Hères, Saint-Martin-d'Hères, SMDH, ou SMH.
L'association d'un prolexème (voir la Définition 17) aux noms propres de même référent a été proposée pour traiter ce type de problème dans la thèse de M. Tran [Tran, M., 2006]. Un prolexème permet de relier les différentes formes d'un nom propre qui apparaissent dans les différents textes d'une langue donnée.
Il s'agit non seulement de noms propres, mais aussi d'expressions métaphoriques, ou de groupes nominaux, par exemple, Paris et ville lumière, Obama et président des USA.
Une terminologie contient des termes situés de façon relativement permanente. Un terme (nominal ou même verbal), ou un phrasème (ex: un gène "code pour" une protéine), a un sens spécifique par rapport aux énoncés relatifs à chaque domaine ou ontologie où il apparaît.
Par contraste, une entité nommée est un "désignateur", et son référent peut changer (et change fréquemment) en fonction du temps, du lieu, du contexte socio-économique et historique, etc. Un exemple très connu est Président des USA : George Bush. Oui, mais quand ? Il y a eu le père et le fils, à des périodes différentes.
On peut considérer une forme comme L8R comme un mot spécialisé pour le sens later, rencontré seulement dans le contexte des textos. Il s'agit ici non pas d'une entité nommée, mais d'un vocable du sous-langage des textos en anglais.
De même, dans le sous-langage des mels ou dans celui des textos, on trouve A+ pour À plus ou À plus tard. Dans le contexte de textos, la meilleure traduction en anglais de A+ sera donc L8R et pas later.
Les idées présentées plus haut (au I.3.1.1.1)
sont basées sur la théorie de la cognition située. Cette théorie provient
initialement des travaux de Coseriu [Coseriu, E., 1998 ; Coseriu, E., 2001]. Citons
ici la définition trouvée dans Wikipedia :
Situated
cognition is a theory that posits that knowing is inseparable from doing [Brown,
J. S. et al., 1989] by arguing that all knowledge
is situated in activity bound to social, cultural and physical contexts [Greeno,
J. G. & Moore, J. L., 1993].
CJK.org a été brièvement mentionné au I.2.3.3. L'institut CJK, sous la direction de J. Halpern, s'est concentré sur le problème de l'extraction intelligente d'informations pour traiter les variantes d'écriture de plusieurs langues, à partir de 1996 [Halpern, J., 2002]. Par exemple, en chinois et en japonais, il y a plusieurs formes d'écriture, et beaucoup de variantes pour certains caractères ou mots.
Pour l'écriture du chinois, on distingue le "chinois simplifié" et le "chinois traditionnel". Entre 1956 et 1986[3], les nouvelles autorités de la Chine (RPC) ont mis en œuvre une réforme de l'écriture préparée depuis bien avant la révolution. Elle a consisté à remplacer 2 274 caractères par des formes simplifiées, provenant de formes calligraphiques. Ni Taiwan ni le Japon ni la Corée n'ont adopté ces formes. Depuis une dizaine d'années, les formes traditionnelles sont de nouveau utilisées et enseignées. La raison principale semble être qu'il est plus difficile de se souvenir du sens des formes simplifiées que des formes traditionnelles, qui sont plus structurées et se prêtent mieux à des méthodes mnémoniques.
Les gens non informés pensent qu'il s'agit juste de la conversion d'un codage des caractères vers un autre codage des caractères. En fait, c'est beaucoup plus compliqué.
Il y a quatre difficultés principales. Les deux premières concernent les conversions des caractères et des mots, la troisième la conversion du sens, et la quatrième les variantes.
(1) Il y a beaucoup de sinogrammes simplifiés qui correspondent à plusieurs sinogrammes traditionnels (et vice versa, mais moins fréquemment). Voici trois exemples.
Chinois Simplifié (CS) |
Chinois Traditionnel (CT) |
Remarque |
头 (tóu) |
頭 (tóu)[4] |
Correspondance injective (1-1) |
发 (fā ou fǎ, polyphone)
|
髪(fǎ) et發 (fā) |
Correspondance 1-n |
头发 (tóu fǎ) |
頭髮 (cheveux, tóu fǎ) |
頭發 est faux. |
(2) Un mot écrit en chinois simplifié peut correspondre à plusieurs mots écrits en chinois traditionnel. Pour le choix, il faut voir le contexte.
CS |
CT |
Remarque |
阴 (yīn) |
陰(yīn) et隂 (yīn) |
Correspondance 1-n |
干 (gān ou gàn) |
乾
(gān
ou qián) et 干(gān ou gàn) |
Correspondance 1-n |
阴干(yīn gān) |
陰乾 (sécher
à l'ombre, yīn gān) 陰干 (terme de médecine chinoise, yīn gān) |
Voir le contexte |
(3) Pour certains sens, CS et CT utilisent des mots complètement différents. Voici un exemple.
CS |
CT Taiwan |
CT Hong Kong |
Remarque |
出租车 (chū
zū chē) |
計程車 (jì
chéng chē) |
的士 (dī shì) |
La conversion de "caractère à caractère" : (CS) 出租车 → (CT) 出租車, produite par Google Translate, est fausse. |
CS |
CST |
CT |
线 |
綫 |
線 |
绷 |
綳 |
繃 |
(4) Il
y a beaucoup de variantes en CT. Par exemple, 群et羣,
秋et秌,
匯et滙,
啟et啓,
etc. D'autre part, la Chine continentale utilise
un troisième système, le "chinois simplifié traditionnel" (CST) pour
publier des journaux, des livres etc. pour les gens qui utilisent CT, par exemple "人民日報海外版" (Rén
mín rì bào hǎi wài bǎn,
People's
daily overseas edition). Les caractères de CST sont définis dans la
norme GB/T 12345-90. Ce ne sont pas tout à fait les mêmes que ceux de CT. Voir
la table ci-contre.
Le
japonais est encore plus compliqué que le chinois. Il y a quatre jeux de
caractères : kanji, hiragana, katakana et romaji. Ils sont le plus souvent
mélangés. Par exemple, la phrase "金の卵を産む鶏" (Kin no tamago wo umu niwatori,
poulet qui pond des œufs d'or)
peut avoir 24 variantes d'écriture.
En plus, il existe beaucoup de variantes, par exemple, (variante de Kanji) 發 et 発, ou (homophones) 柔かぃ (Yawaraka ~i) et 軟かぃ
(Yawaraka ~i). Pour plus de détails, voir [Halpern, J., 2002 ;
Halpern, J., 2006].
CJK.org utilise des tables de correspondance pour convertir entre les
différents niveaux.
Conversion entre chinois simplifié et chinois traditionnel
· Tables "Code-level mapping" pour la conversion caractère à caractère.
· Tables "orthographic et lexemic mapping" pour la conversion mot à mot.
· Tables "orthographic mapping tables for proper nouns" pour les noms propres.
· Tables "orthographic/lexemic mapping tables for technical terminology" (surtout pour l'informatique).
Normalisation
orthographique du chinois traditionnel vers le chinois simplifié
· Tables de normalisation de CT en CS.
· Tables de normalisation de CST en CS.
Base de données des
variantes orthographiques en japonais
· Base de données complète des variantes orthographiques en japonais.
· Base de données des groupes homophones sémantiquement classés.
· Groupes de synonymes sémantiquement classés, pour l'expansion de ces synonymes (thésaurus japonais).
· Lexique anglais-japonais pour le CLIR (cross-language information retrieval, ou RI translingue).
· Règles d'identification des variantes non listées.
IATE (Inter-Active Terminology for Europe) [Ball, S., 2003] est la base de données terminologique que partagent les institutions de l'Union européenne. Elle concerne les 25 langues officielles de l'UE. L'interface actuelle permet de choisir parmi 21 grands domaines, eux-mêmes divisés en plus de 100 petits domaines. Il y a aujourd'hui environ 8,6 millions de termes dans la base d'IATE, répartis dans approximativement 1,4 million de fiches.
La base de données est organisée à trois niveaux : concept, langue et terme. Pour ajouter une nouvelle entrée, il faut l'associer à chaque niveau en utilisant une interface avancée de manipulation des données. Cette fonction est réservée aux terminologues et aux administrateurs. Le système permet également aux terminologues d'évaluer les termes par degré de fiabilité.
Il y a parfois des doublons pour un seul et même concept. C'est parce que plusieurs ressources terminologiques (Eurodicautom, TIS, Euterpe, Euroterms, CDCTERM) ont été fusionnées dans la base de données IATE en 2004. Chaque institution avait auparavant sa propre base de données terminologiques.
Le système fournit aux terminologues des outils de "dédoublonnage", qui permettent la sélection, la suppression ou la concaténation des données à chacun de ces trois niveaux. Ce travail est toujours en cours.
EDR Electronic Dictionary[5] est un dictionnaire japonais-anglais, développé entre 1987 et 1993 par le projet EDR, organisé par le MITI (Ministry of International Trade and Industry) du Japon, auquel ont participé 8 grosses entreprises[6]. La base lexicale d'EDR est composée de dictionnaires de quatre types[7] et de deux corpus [Takebayashi, Y., 1993].
Figure 38 : Structure de EDR Electronic Dictionary |
Les dictionnaires monolingues (Word Dictionaries) contiennent des informations grammaticales, des informations supplémentaires (l'usage, la fréquence, etc.) et des liens vers des concepts (dans le dictionnaire des concepts).
Les entrées du dictionnaire des concepts contiennent leurs définitions, des explications, ainsi que les relations entre deux concepts (dans le dictionnaire "Concept Classification"), par exemple kind-of(concept1, concept2).
Les dictionnaires bilingues sont similaires aux dictionnaires papier. Ils définissent des correspondances de traduction.
Les dictionnaires de cooccurrences donnent des informations sur les usages, surtout les relations syntaxiques entre termes, par exemple, eaten @d-object lunch.
Le projet Prolex[8] a été lancé par le Laboratoire d'Informatique
(LI) de l'université François-Rabelais de Tours en 1994. Son objectif était le
traitement automatique des noms propres et la création d'un
dictionnaire relationnel de noms propres.
Prolex a produit Prolexbase, un système développé par Mickaël Tran dans le cadre de sa thèse [Tran, M., 2006]. Prolexbase est un dictionnaire électronique relationnel multilingue pour les noms propres.
On retranscrit ci-dessous
les points importants et les notions de base introduites dans [Tran, M.,
2006].
M. Tran a listé plusieurs définitions différentes pour les noms propres, et il a finalement adopté la définition de [Jonasson, K., 1994].
Définition 21. Nom propre [Jonasson, K., 1994] : Toute expression associée dans la mémoire à long terme à une entité particulière en vertu d'un lien dénominatif conventionnel stable.
Dans son analyse de
la complexité du problème de l'identification
des noms propres, il a défini 5 critères.
Critère de la majuscule à l'initiale.
Cela dépend des langues et
des cas. Pour le français, le critère de la majuscule s'applique seulement à l'écrit, mais ne concerne pas l'oral. L'emploi de la majuscule n'est
pas limité aux noms propres, mais aussi à certains noms communs quand ils sont
utilisés de façon "personnifiante" (ex : la
Mort, la Nature). Dans
le cas des mots composés, la majuscule n'apparaît pas toujours pour chaque élément (ex : la tour Eiffel,
mais Le Mans).
Critères morphologiques. En français, les noms propres sont souvent
invariables en genre et en nombre, mais il y a des exceptions et des
incertitudes (ex : les îles Spratleys et les îles
Spratley).
Critères syntaxiques. Les noms propres peuvent être ou non accompagnés
d'un déterminant (ex : Taiwan, la Thaïlande, Bornéo, les
Philippines).
Critères sémantiques. Il existe plusieurs théories quant à la
signification des noms propres. Certains linguistes (S. Mill, K. Kripke, J.
Molino, M. Noailly, K. Jonasson, etc.) les considèrent uniquement comme des
étiquettes. Pour d'autres
linguistes (E. Buyssens, F. Kiefer, M. Gross, etc.), ils ont un sens descriptif
(faible ou fort). Enfin, d'autres
linguistes les considèrent comme des prédicats de dénomination.
Critères pragmatiques. La signification d'un nom propre peut dépendre de son contexte
d'utilisation (Paris → une ville de France, une ville des États-Unis, une ville du Canada,
etc.).
M. Tran a présenté
plusieurs typologies des noms propres. La plus importante est celle de Grass [Grass, T.,
2000]. Cette typologie n'est pas exactement celle utilisée pour la
réalisation de Prolexbase, mais elle lui a servi de base.
Anthroponymes : patronymes, prénoms, pseudonymes, ethnonymes,
groupes musicaux modernes, gentilés[9], hypocoristiques, ensembles artistiques et
orchestres classiques, partis et organisations, clubs sportifs, noms donnés aux
animaux familiers (zoonymes).
Toponymes : pays, villes, microtoponymes, hydronymes, oronymes,
installations militaires, monuments.
Ergonymes : marques, entreprises, établissements d'enseignement et de recherche, titres de
livres, de films, de publications et d'œuvres d'art, objets
mythiques.
Praxonymes : faits historiques, maladies, événements culturels.
Phénonymes : ouragans, zones de haute et de basse pression, astres et comètes,
phénomènes climatiques (ex : el Niño).
La théorie linguistique d'Eugenio Coseriu [Coseriu, E., 1992] distingue trois sous-types de relation dans la relation de synonymie :
· la relation entre un signe linguistique et un objet.
· la relation entre un signe linguistique et d'autres signes linguistiques.
· la relation entre un signe linguistique et le contexte linguistique et situationnel.
[Coseriu, E., 1998] propose un "diasystème" décrivant les variations de la relation de synonymie en fonction de différentes dimensions :
· selon le temps (dimension diachronique).
· selon l'espace (dimension diatopique).
· selon les caractéristiques sociales des locuteurs (dimension diastratique). Par exemple, 神马(shén mǎ) et 什么(shén me)[10].
· selon les activités qu'ils pratiquent (dimension diaphasique).
Françoise Gadet [Gadet, F., 2003] a proposé une dimension en fonction du canal employé, oral ou écrit (dimension diamésique).
Il y a deux notions principales à la base du projet Prolex : le nom propre conceptuel et le prolexème.
Citons ici une partie de la présentation de [Tran, M., 2006].
Pour une
langue donnée, des noms propres totalement différents sur le plan graphique
peuvent renvoyer à un même et unique référent, et ce phénomène se retrouve
généralement d'une
langue à l'autre.
Nous
définissons le nom propre conceptuel non pas comme le référent, mais plutôt
comme un certain point de vue sur celui-ci. Ainsi les noms propres Allemagne en
français, Alemania en espagnol, Deutschland en allemand, etc., seront associés
à un même nom propre conceptuel, tandis que les noms propres République
fédérale d'Allemagne
en français, República Federal de Alemania en espagnol, Bundesrepublik
Deutschland en allemand, etc. seront associés à un autre nom propre conceptuel.
Ces deux noms propres conceptuels seront en relation de synonymie.
Pour définir ces différents points de vue, nous nous sommes basés sur un marquage diasystématique, qui provient des travaux sur la métalexicographie de [Coseriu, E., 1998].
On a déjà mentionné la notion de prolexème au I.3.1.1.1 et au III.1.3.2. On peut considérer que le prolexème est une classe d'équivalence de synonymes de noms propres. M. Tran a défini des concepts secondaires pour le prolexème :
· les alias (les variantes, les abréviations, les sigles, les transcriptions etc.), par exemple, Pékin – Bejing, Canal plus – Canal +, François Mitterrand – F. Mitterrand.
· les dérivés (les noms relationnels et les adjectifs relationnels), par exemple, Parisien et parisien.
Après avoir identifié les différents concepts de noms propres, M. Tran précise les relations qui peuvent les relier.
· Synonymie : partage d'un même sens. Il en existe différents types :
o diachronique (ex. Zaïre et République démocratique du Congo).
o diastratique (les variations entre jeunes/personnes âgées, ruraux/urbains, professions différentes, niveaux d'études différents).
o diaphasique (ex. Paris et Ville lumière).
· Méronymie : hiérarchisation sur plusieurs niveaux entre les éléments contenants (holonymes) et les éléments contenus (méronymes), par exemple, arbre/forêt, matinée/journée.
· Accessibilité : notion d'importance, d'entité significative. Par exemple, Bangkok est la capitale de la Thaïlande.
· Expansion classifiante : notion de caractérisation d'un terme (ex. Dirigeant politique et Président).
· Éponymie : la relation entre un nom propre et une forme lexicalisée. Elle sert à empêcher la reconnaissance abusive des noms propres. Par exemple, un bic = un stylo-bille, Parkinson ≠ nom propre dans maladie de Parkinson.
M. Tran a pris en compte la méthodologie de construction de l'ontologie de Noy et McGuinness [Noy, N. F. & McGuinness, D. L., 2003]. Chaque nom propre conceptuel (pivot) est en relation d'hyperonymie avec un type et une existence.
Pour définir l'ontologie, M. Tran s'est inspiré de la typologie de Grass [Grass, T., 2000] (voir III.2.2.1). Les quatre premiers supertypes identifiés sont :
· les anthroponymes : trait humain ;
· les ergonymes : trait inanimé ;
· les pragmonymes : trait événement ;
· les toponymes : trait locatif.
Il y a aussi 29 sous-types que nous ne listons pas ici. Par exemple, le supertype ergonyme a des sous-types objet, œuvre, produit, vaisseau.
De plus, deux notions ont été ajoutées :
· la notion d'existence, pour préciser le domaine d'appartenance d'un nom propre (ex. historique, fiction, etc.).
· la relation d'hyperonymie (primaire et secondaire), qui décrit le phénomène d'inclusion. La relation d'hyperonymie primaire est la relation la plus usuelle. La relation d'hyperonymie secondaire est la relation complémentaire. Par exemple, le type "Entreprise" relie l'anthroponyme (par exemple Bouygues) en relation d'hyperonymie primaire avec l'organisme nommé d'après lui (par exemple, le groupe Bouygues) et relie l'ergonyme et le toponyme en relation d'hyperonymie secondaire. C'est parce que le terme "Entreprise" est d'abord vu comme un nom (ou l'entreprise elle-même), avant d'être considéré comme une fabrication humaine ou un lieu. Voici les exemples.
(1) L'entreprise Bouygues a décidé que …
(2) Il a réussi dans son entreprise avec …
(3) Il est aujourd'hui au travail à l'entreprise…
Il y a quatre niveaux.
Les deux premiers niveaux sont indépendants de la langue. Ce sont :
· le niveau méta-conceptuel : la typologie et l'existence.
· le niveau conceptuel : le nom propre conceptuel (qui constitue un "pivot" entre les langues) et les relations indépendantes des langues.
Les deux derniers niveaux sont dépendants d'une langue :
· le niveau linguistique : le prolexème, les alias, les dérivés et les relations qui dépendent de la langue (dont des fonctions lexico-syntaxiques de I. Mel'čuk).
· le niveau des instances : l'ensemble des formes fléchies d'un lexème d'une langue.
La Figure 39 regroupe les différents concepts utilisés.
Figure 39 : Modèle à quatre niveaux de Prolexbase |
Notre travail s'est beaucoup inspiré de Prolexbase. Par contre, nous ne nous sommes pas limitée aux noms propres, mais nous avons étendu notre modélisation à tous les termes de différents degrés de situement (voir la Définition 18), y compris les verbes et les prédicats composés.
Au niveau linguistique, Prolexbase est déjà bien complexe, et nous ne voulons pas l'enrichir de ce point de vue. Nous avons préféré simplifier et ne reprendre qu'une partie des notions de Prolexbase (surtout l'idée de prolexème) dans notre prototype : Pivax-3.
D'autre part, notre travail ne limite pas le nombre de langues. Donc la construction de dictionnaires non-symétriques comme CJK.org ne nous convient pas. Pour la symétrie, nous avons repris les notions de lexie, d'axème et d'axie de Pivax-2.
Pour l'implémentation, utiliser la plate-forme Jibiki-2 était la meilleure solution. Nous avons profité des fonctions existantes (ex. gestion des contributions, interfaces etc.) et intégré la notion de prolexème dans la macrostructure de Pivax-2 (ce qui a donné Pivax-3).
On ne pouvait pas intégrer
les prolexèmes dans la BDLex de Libellex à cause de contraintes techniques. On ne pouvait pas
non plus combiner Pivax-3
avec Libellex
à cause de contraintes industrielles. Finalement, j'ai proposé et implémenté une solution ad hoc.
Dans cette
section, on analyse les contraintes techniques et les contraintes
industrielles, puis on présente la solution retenue, et une démonstration.
Comme l'a vu plus haut (au I.2.2) la BDLex de Libellex a la même structure de BDLex que Metricc, et elle a été conçue à partir des mêmes formats d'échange. Nous présentons d'abord les formats d'échange, puis la BDLex correspondante.
On a déjà mentionné les formats d'échange au I.2.2.1 et au I.2.2.2. Voici la structure Xml des entrées terminologiques spécifiée dans la norme ISO 30042 (TBX standard).
Une entrée terminologique (<termEntry>) représente un concept, exprimé dans une ou plusieurs langues (<langSet>) au moyen d'un ou plusieurs termes (soit <tig>, soit <ntig>[11]).
Figure 40 : Structure TBX standard |
Dans le format TBX standard, deux termes en relation de traduction sont considérés comme appartenant à un même concept ; par exemple, il sont encodés dans deux <langSet> différents, à l'intérieur d'une même balise <termEntry>.
Dans le format TBXMetricc, deux termes en relation de traduction apparaissent dans des concepts (<termEntry>) différents. La relation de traduction est matérialisée au moyen d'une balise <descrip>, les reliant au niveau <langSet> et non au niveau <termEntry>.
Dans certains articles, E. Delpech a présenté <langSet> en disant que c'est le niveau des sens, et que <tig> ou <ntig> est le niveau des termes (mot-vedette et variante).
Cependant, cette présentation est contraire à l'explication qu'elle donne dans la spécification interne du format TBXMeTRICC (voir I.2.2.2.1).
Il nous semble qu'en fait <langSet> est le regroupement (complet ou partiel) des différents termes (<tig> ou <ntig>) de même sens.
D'une part, pour chaque balise <langSet>, les sous-balises <tig> ou <ntig> introduisent des termes de même sens. D'autre part, on peut avoir plusieurs <langSet> différents dans des <termEntry> différents pour une même langue, qui décrivent les mêmes sens. Il n'y a pas de relation monolingue entre deux entrées différentes.
Ainsi, TBXMetricc ne fournit aucun moyen pour vraiment décrire un sens comme un objet unique. C'est une organisation un peu trouble.
Nous sommes donc plutôt d'accord avec l'explication de E. Delpech au I.2.2.2.1. La relation de traduction au niveau <langSet> est l'équivalence sémantique entre termes simples ou composés, et c'est tout.
TEIMetricc permet d'encoder uniquement le découpage en phrases des textes dont sont extraits les glossaires Metricc. La structure d'entrée de TEIMetricc est définie ci-dessous.
<TEI xml:id="IDENTIFIANT
UNIQUE"> <teiHeader> <fileDesc> <titleStmt> <title>TITRE
DU TEXTE</title> </titleStmt> <!--
Liste des types-mime ici : http://fr.wikipedia.org/wiki/Type_mime --> <sourceDesc
target="URI
RELATIVE DU DOCUMENT" mimeType="TYPE
MIME DU DOCUMENT"> <p>description
éventuelle du document original (elle peut être vide)</p> </sourceDesc> </fileDesc> </teiHeader> <text> <body> <s xml:id="IDENTIFIANT
UNIQUE"><![CDATA[UNE PHRASE]]></s> <s xml:id="IDENTIFIANT
UNIQUE"><![CDATA[UNE PHRASE]]></s> <s xml:id="IDENTIFIANT
UNIQUE"><![CDATA[UNE PHRASE]]></s> </body> </text> </TEI> |
Figure 41 : Définition d'une entrée TEI
On a introduit TSV au III.1.1.2. L'import et l'export en format TSV ont été développés spécialement pour Libellex après l'intégration de la BDLex de Metricc dans Libellex. On peut noter que ce format n'est pas utilisé par Metricc.
On a brièvement présenté la structure de la BDLex de Libellex au I.2.2.1 et au I.2.2.2. Nous devons ici aller plus dans le détail.
Il y a deux types de table : statique et dynamique. Les tables statiques sont créées une fois pour chaque BDLex lors de l'installation d'une instance de Libellex. Voir l'Annexe 7, qui donne le schéma de la base de données. Les tables en bleu sont les tables statiques.
Les tables dynamiques (les tables en jaune dans l'Annexe 7) sont créées lors de l'import d'un nouveau glossaire. Il y a deux sous-types de table dynamique, les tables de description et les tables de liaison. Les tables de description permettent de stocker les contenus des entrées, et les tables de liaison permettent de stocker les informations de relation. En voici quelques-unes.
· M_??_SETS[12] : table stockant les informations correspondant à la balise <langSet>.
· M_??_TIGS : table stockant les termes (vedettes et variantes) des balises <tig> et <ntig>.
· M_??_TIGS_SETS : correspondances entre entrées de SETS et de TIGS.
· M_??_CROSSLINGREL : relation de traduction entre deux SETS.
Outre la mauvaise qualité des ressources terminologiques fournies à L&M par ses clients (voir III.1.2.1), nous avons rencontré des problèmes de coût de maintenance et des limites fortes aux évolutions possibles chez les clients.
Au début, nous avons proposé d'utiliser Jibiki comme plate-forme sous-jacente à Libellex. L&M a refusé cette solution, parce qu'il n'y avait aucun permanent de L&M qui connaissait la plate-forme Jibiki. Même si Jibiki est en source ouvert, après ma thèse, il aurait fallu avoir au moins une personne pour la maintenance.
D'autre part, les systèmes Libellex sont installés indépendamment chez les clients comme des instances. Comme Libellex fonctionnait déjà chez des clients, on ne pouvait pas faire de gros changements des bases lexicales dans les instances de Libellex installées chez les clients. On n'aurait pu le faire que par des plugins, mais ça aurait toujours dû être compatible avec les ressources anciennes.
Nous[13] avons proposé une solution à deux niveaux, celui du modèle de BDLex et celui des instances spécialisées.
Nous avons enrichi la BDLex avec un champ type de valeur libre dans plusieurs tables.
· Le type dans la table de stockage des termes (TIGS), peut être mot-vedette, acronyme, abréviation, variante non typée, etc.
· Le type dans la table de stockage des relations sémantiques (LEXSEMREL), peut être parent ou enfant (c'est le cas dans la base de Louis Vuitton).
· Ces valeurs de type sont faciles à changer/ajouter selon les besoins des clients.
· On a également enrichi les statuts de validation pour représenter la qualité.
On a déjà dit que le format TSV est utilisé principalement pour les imports des données des clients chez Libellex. Nous avons développé une fonction d'import complexe à partir d'un fichier TSV pour améliorer les échanges de sources (les relations bilingues, les synonymes et les relations hiérarchiques parent/enfant etc). La Figure 42 montre l'interface d'import actuel de Libellex.
D'autre part, selon les besoins des clients, on a développé plusieurs formats spécialisés (par exemple pour le client Exalead). La Figure 43 montre l'interface d'export actuel de Libellex.
Figure 42 : L'interface d'import de Libellex |
Figure 43 : L'interface d'export de Libellex |
Dans certains cas, comme celui de Louis Vuitton, on s'est limité à une seule entrée dans la BDLex pour chaque terme. Par exemple, SAC DE VILLE ou ORANGE apparaissent dans plusieurs lignes dans la ressource (voir la Figure 36).
Si le terme est déjà créé dans la BDLex, on ne crée que la relation (relation parent/enfant et relation de traduction). Dans ce cas, on considère que le terme est au niveau du sens. Ce n'est certainement pas une solution totalement satisfaisante, et on ne peut pas faire la même chose pour tous les autres clients. Mais on a pu faire comme ça pour quelques autres clients.
La figure ci-dessous montre un exemple de Louis Vuitton : l'affichage pour la consultation du mot blue jean avec les relations monolingues et la relation de traduction.
Figure 44 : Consultation de blue jean sur l'interface de Libellex |
Au niveau du
laboratoire, il a été possible d'aller plus loin en utilisant la plate-forme Jibiki-2, qui permet d'implémenter de façon
naturelle les différents types d'objets lexicaux et leurs liens. Cela nous a
permis de produire un nouveau type de BDLex, Pivax-3.
Notre but était
d'unifier les 3 types de
données lexicales : mots (simples ou composés) généraux, termes (liés à un
domaine), et prolexèmes. Pour simplifier la conception, on a considéré qu'un terme est un type de prolexème.
On a repris les
trois types de volumes de Pivax-2 : lexie, axème et axie (voir II.2.2.1).
On a repris
et enrichi la notion de prolexème et on a introduit une nouvelle notion, celle
de proaxie.
Définition 22. Prolexème. Dans une BDLex Pivax-3, il y a un seul volume de prolexèmes pour chaque langue. Dans ce volume, les prolexèmes regroupent les lexies qui représentent le même sens mais dont la réalisation syntaxique est différente (forme de surface, classe grammaticale, etc.).
Au contraire
de M. Tran, notre notion de prolexème n'est pas limitée aux noms propres. Les liens
bidirectionnels entre les lexies et leurs prolexèmes sont marqués avec une
étiquette libre (par exemple, alias, acronyme, dérivation, définition, etc.).
Par exemple,
l'entrée de type prolexème fra.organisation_des_nations_unies.1
est reliée aux entrées de
type lexie :
· ONU, par
un lien étiqueté acronyme.
· nations unies, par un lien étiqueté alias.
· onusien, par
un lien étiqueté dérivation.
· organisation des nations unies, par un lien étiqueté définition. Ce lien n'est pas la définition
lexicographique du prolexème, mais caractérise seulement le terme préféré pour
le décrire.
Définition 23. Proaxie. Il y a un seul volume de proaxies dans une instance de Pivax-3. Les proaxies regroupent les prolexèmes de langues différentes partageant un même sens.
Les liens
entre une entrée de proaxie et les entrées de prolexèmes sont bidirectionnels. Par
exemple, dans un dictionnaire trilingue français-anglais-chinois, l'entrée de
proaxie proaxie.united_nations.1 relie les entrées :
· fra.organisation_des_nations_unies.1 du volume des prolexèmes français,
· eng.united_nations.1 du volume des prolexèmes anglais,
· zho.联合国.1 du
volume des prolexèmes chinois.
Figure 45 : Macrostructure de Pivax-3 |
Dans cette macrostructure, nous avons deux couches : une couche basique et une couche "Pro". Dans la couche basique, nous gérons trois types de volume : les volumes de lexies, les volumes d'axèmes et le volume d'axies. Dans la couche "Pro", nous gérons deux types de volume : les volumes de prolexèmes et le volume des proaxies.
Grâce à la couche basique, nous pouvons relier les lexies qui se correspondent exactement, comme l'acronyme français ONU, relié à l'acronyme anglais UN.
Grâce à la couche "Pro", nous pouvons proposer en
traduction des lexies des langues cible de même sens. Par exemple, en chinois,
il y a un seul mot联合国 (lián hé guó) pour ce sens, et il
n'existe pas d'acronyme. Donc on peut toujours proposer le même terme 联合国 pour la traduction de ONU et la
traduction de organisation des nations unies. Voir la Figure 46.
Figure 46 : Exemple des liens dans Pivax-3 |
La notion d'étiquette a pour but de proposer les meilleures
traductions. Par exemple, en
japonais, 国際連合 (kokusai-rengō)
est la lexie de même sens que Organisation des Nations
Unies, et son
acronyme est 国連
(kokuren). Cet acronyme utilise le premier et le troisième kanji de ce mot
(composé), ce qui est différent des initiales de la lexie de définition (le cas
de ONU et de UN). Il
existe peut-être une langue qui a deux acronymes, l'un correspondant à
l'acronyme des initiales, l'autre correspondant à une sélection de caractères
ou de mots. Donc, nous avons décidé de ne pas relier ces deux acronymes de
types différents à une même axie. Par contre, comme ce sont des acronymes, pour
la traduction de ONU, 国連 est meilleur que 国際連合. On donnera trois niveaux de
précision de traduction au III.3.2.2.3.
Dans notre prototype, nous avons utilisé deux microstructures pour les volumes de lexies. La première est similaire à celle de Pivax-2. Un volume a une entrée par lexie. Au niveau d'une lexie, on a le lemme, la partie du discours, les définitions multilingues, les informations des liens vers les prolexèmes et vers les axèmes.
<p:volume xmlns:p=……> <p:lexie p:id="Acro.fra.ONU.1"> <p:lemma>ONU</p:lemma> <p:pos>n</p:pos> <p:definitions> <p:definition
d:lang="fra">Initiales
de « Organisation des Nations Unies ». </p:definition> </p:definitions> <p:entryref
type="prolexeme" volume="Acro_fra-prolexeme
" p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation- mono="ACRO"/> <p:entryref
type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.ONU.1" lang="fra" p:relation-mono=""/> </p:lexie> <p:lexie p:id="Acro.fra.Nations_unies.1"> <p:lemma>Nations
unies</p:lemma> <p:pos>n</p:pos> <p:definitions> <p:definition
d:lang="fra">Alias
de « Organisation des Nations Unies ».</p:definition> </p:definitions> <p:entryref
type="prolexeme" volume="Acro_fra-prolexeme" p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation- mono="ALIAS"/> <p:entryref
type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.Nations_unies.1" lang="fra" p:relation-mono=""/> </p:lexie> …… </p:volume> |
Figure 47 : Exemple de la première microstructure des lexies
La seconde microstructure est conforme à la proposition de V. Dikonov. Un volume a une entrée par vocable. Au niveau d'un vocable, il y a une sous-entrée par lexie.
<p:volume xmlns:p=……> <p:vocable
p:id="Acro.fra.vocable.CNAM.1"> <p:lemma>CNAM</p:lemma> <p:lexie p:id="Acro.fra.CNAM.1"> <p:pos>n.f.</p:pos> <p:definitions> <p:definition
d:lang="fra"> Acronyme de la « Caisse Nationale de l'Assurance
Maladie des travailleurs salariés ».</p:definition> </p:definitions> <p:entryref
type="prolexeme" volume="Acro_fra-prolexeme" p:idref="Acro.prolexeme.fra.Caisse_nationale_de_l'assurance_maladie_des_travailleurs _salariés.1" lang="fra" p:relation-mono="ACRO"/> <p:entryref
type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.CNAM.1" lang="fra" p:relation-mono=""/> </p:lexie> <p:lexie p:id="Acro.fra.CNAM.2"> <p:pos>n.m.</p:pos> <p:definitions> <p:definition
d:lang="fra">Acronyme
du « Conservatoire National des Arts et Métiers ».</p:definition> </p:definitions> <p:entryref
type="prolexeme" volume="Acro_fra-prolexeme" p:idref="Acro.prolexeme.fra.Conservatoire_national_des_arts_et_métiers.1" lang="fra" p:relation-mono="ACRO"/> <p:entryref
type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.CNAM.2" lang="fra" p:relation-mono=""/> </p:lexie> </p:vocable> </p:volume> |
Figure 48 : Exemple de la deuxième microstructure (vocable > lexie)
La microstructure des axèmes est simple. Une entrée ne comporte que des liens (vers une ou plusieurs lexies et vers une axie).
<p:axeme p:id="Acro.axeme.fra.ONU.1"> <p:entryref
type="final[14]" volume="Acro_fra" p:idref="Acro.fra.ONU.1" lang="fra" p:relation-mono=""/> <p:axiref type="axie" volume="Acro_axie" p:idref="Acro.axie.UN.1" lang="axie" p:relation-mono=""/> </p:axeme> |
Figure 49 : Exemple de la microstructure d'un volume d'axèmes
La microstructure des axies est également simple. Une entrée ne comporte que des liens vers les axèmes de chaque espace lexical (celui d'une langue naturelle ou éventuellement celui d'UNL).
<p:axie id="Acro.axie.United_Nations.1"> <p:item-links
link_group="g1">
<p:item relation="" volume="Acro_eng-axeme" type="axeme"
p:idref="Acro.axeme.eng.United_Nations.1" lang="eng"/>
<p:item relation="" volume="Acro_fra-axeme" type="axeme"
p:idref="Acro.axeme.fra.Organisation_des_nations_unies.1" lang="fra"/>
<p:item relation="" volume="Acro_zho-axeme" type="axeme"
p:idref="Acro.axeme.zho.连合国.1" lang="zho"/>
<p:item relation="" volume="Acro_jpn-axeme" type="axeme"
p:idref="Acro.axeme.jpn.国際連合.1" lang="jpn"/> </p:item-links> </p:axie> |
Figure 50 : Exemple de la microstructure des axies
Une entrée de prolexème se compose de liens vers les lexies, avec les étiquettes, et de liens vers les proaxies, sans étiquette.
<p:prolexeme p:id="Acro.prolexeme.jpn.国際連合.1"> <p:entryref
type="final" volume="Acro_jpn"
p:idref="Acro.jpn.国際連合.1" lang="jpn" p:relation-mono="DEF"/> <p:entryref
type="final" volume="Acro_jpn"
p:idref="Acro.jpn.国連.1" lang="jpn" p:relation- mono="ACRO"/> <p:axiref
type="proaxie" volume="Acro_proaxie" p:idref="Acro.proaxie.United_Nations.1" lang="proaxie" p:relation-mono= ""/> </p:prolexeme> |
Figure 51 : Exemple de la microstructure des prolexèmes
La microstructure des proaxies est également simple. Une entrée de proaxie ne contient que des liens vers des prolexèmes situés en général dans plusieurs espaces lexicaux.
<p:proaxie id="Acro.proaxie.United_Nations.1"> <p:link relation="" volume="Acro_eng-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.
eng.United_Nations.1" lang="eng"/> <p:link relation="" volume="Acro_fra-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.
fra.Organisation_des_nations_unies.1" lang="fra"/> <p:link relation="" volume="Acro_zho-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.
zho.联合国.1" lang="zho"/> <p:link relation="" volume="Acro_jpn-prolexeme" type="prolexeme" p:idref="Acro.prolexeme.
jpn.国際連合.1" lang="jpn"/> </p:proaxie> |
Figure 52 : Exemple de la microstructure des proaxies
Ce que nous appelons "lien riche" a été présenté au II.3.1. Nous présentons ici les utilisations des liens riches pour réaliser la gestion d'une terminologie (ensemble de termes "situés").
Pour modéliser les relations "situées", on a besoin des étiquettes portées par les liens entre les entrées de lexie et de prolexème. Voir le schéma Figure 46, et des exemples dans la Figure 47 et dans la Figure 51.
On a implémenté cette relation de "situement" dans un champ étiquette de valeur libre. Ce champ était prévu (mais jamais utilisé) dans la table links de Jibiki-2 avec le nom label. Comme les liens sont orientés et bidirectionnels, nous avons dû stocker les étiquettes dans les tables des lexies et dans les tables des prolexèmes.
La Figure 53 ci-dessous montre des informations portées par certains liens de l'entrée Acro.prolexeme.fra.Organisation_des_nations_unies.1, stockées dans la table links du volume des prolexèmes français.
L'entrée Acro.prolexeme.fra.Organisation_des_nations_unies.1 est stockée dans la table des entrées du volume des prolexèmes français. On a créé un lien en lui donnant un identifiant, ici 38946301 (une clé étrangère du champ entryid de la table links vers le champ objectid de la table des entrées), créé automatiquement par le système. Voir la Figure 27.
Figure 53 :
Exemple de l'utilisation d'étiquettes libres dans le
volume des prolexèmes français |
Dans Pivax-1 (voir II.2.2.2), on ne peut utiliser qu'une seule microstructure pour tous les volumes d'un même espace lexical. Par contre, comme on l'a dit au III.3.2.1.2, Pivax-3 permet d'avoir des volumes de microstructures différentes dans le même espace lexical. Nous avons utilisé deux microstructures différentes pour les volumes des lexies françaises.
Pour l'implémentation purement technique, M. Mangeot a proposé, en plus du pointeur entry, qu'on ajoute un pointeur supplémentaire : sens. Ci-dessous, les éléments CDM dans les deux fichiers de métadonnées correspondent aux exemples de la Figure 47 et de la Figure 48.
<cdm-elements>
<cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:lexie"/> <cdm-entry-id xpath="/p:volume/p:lexie/@p:id"/> <cdm-headword xpath="/p:volume/p:lexie/p:lemma/text()"/> <cdm-pos xpath="/p:volume/p:lexie/p:pos/text()" /> <cdm-definition xpath="/p:volume/p:lexie/p:definitions/p:definition/text()"/> <!-- cdm-sense-id xpath=""--> <links> <link
name="axeme" xpath="/p:volume/p:lexie/p:entryref[@type='axeme']"> <type xpath="@type" /> <volume xpath="@volume" /> <value xpath="@p:idref" /> <lang xpath="@lang" /> <label xpath="@p:relation-mono" /> </link> <link name="prolexeme"
xpath="/p:volume/p:lexie/p:entryref[@type='prolexeme']"> <type xpath="@type" /> <volume xpath="@volume" /> <value
xpath="@p:idref" /> <lang
xpath="@lang" /> <label
xpath="@p:relation-mono" /> </link> </links> </cdm-elements> |
|
<cdm-elements>
<cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:vocable"/> <cdm-entry-id xpath="/p:volume/p:vocable/@p:id"/> <cdm-headword xpath="/p:volume/p:vocable/p:lemma/text()"/> <cdm-sense-id xpath="/p:volume/p:vocable/p:lexie/@p:id"/> <cdm-pos xpath="/p:volume/p:vocable/p:lexie/p:pos/text()" /> <cdm-definition
xpath="/p:volume/p:vocable/p:lexie/p:definitions/p:definition/text()"/> <links> <link
name="axeme" xpath="/p:volume/p:vocable/p:lexie/p:entryref[@type='axeme']"> <type xpath="@type" /> <volume xpath="@volume" /> <value xpath="@p:idref" /> <lang xpath="@lang" /> <label xpath="@p:relation-mono" /> </link> <link
name="prolexeme" xpath="/p:volume/p:vocable/p:lexie/p:entryref[@type='prolexeme']"> <type xpath="@type" /> <volume xpath="@volume" /> <value xpath="@p:idref" /> <lang xpath="@lang" /> <label xpath="@p:relation-mono" /> </link> </links> </cdm-elements> |
Figure 54 : CDM correspondant aux deux exemples de microstructure de Pivax-3
Si le pointeur sens est vide (cas de la Figure 47), on prend le pointeur entrée pour accéder à une entrée dans la BDLex.
Si le pointeur sens n'est pas vide (cas de la Figure 48), on l'utilise pour accéder à une entrée dans la BDLex. On garde toujours le pointeur entrée, de façon à pouvoir récupérer les informations de mot-vedette (cdm-headword). En effet, le mot-vedette n'est pas au niveau sens, mais au niveau entrée.
La réalisation informatique est basée sur plusieurs algorithmes. Nos algorithmes sont un peu compliqués, nous en donnons le pseudo-code à l'Annexe 8. Ici, on en donne seulement une brève présentation.
Le premier est l'algorithme de collecte des liens. Il permet de chercher tous les liens possibles dans l'ensemble des liens riches de tous les volumes pour une entrée recherchée, et de réaliser le parcours des liens riches. Il s'agit des étapes suivantes :
· Chercher les lexies source et leurs liens.
· Chercher les liens de lexies source vers les axèmes source, puis vers les axies, ensuite vers les axèmes cible, enfin vers les lexies cible.
· Chercher les liens de lexies source vers les prolexèmes source puis vers les proaxies, ensuite vers les prolexèmes cible, à la fin vers les lexies cible, et comparer les étiquettes portées par les lexies/prolexèmes source et par les lexies/prolexèmes cible.
Le deuxième est l'algorithme de construction du résultat. Il s'agit principalement de notre stratégie des trois niveaux de traduction, qui sera présentée dans la section suivante III.3.2.2.3.
Quand on cherche le mot TGV vers l'anglais et le chinois, on trouve deux lexies : (1) TGV pour l'acronyme de Train à Grande Vitesse, et (2) TGV pour l'acronyme de Transposition des Gros Vaisseaux (terminologie médicale).
D'une part, on recherche les traductions par les axèmes et les axies comme avec Pivax-2, et on trouve une traduction en anglais : TGV pour l'acronyme de Transposition of the Great Vessels.
D'autre part, on recherche les traductions par les prolexèmes et les proaxies, et on trouve une suite de liens et de traductions, voir la figure ci-dessous. Pour faciliter la lecture, on a utilisé des couleurs différentes et on a marqué des numéros pour chaque étape de la recherche par des liens.
Par exemple, 1.a et 1.b correspondent à la recherche des liens des lexies source vers les prolexèmes source. 2.a et 2.b correspondent à la recherche des liens des prolexèmes source vers les proaxies. De 3.a à 3.f, ce sont les étapes de la recherche des liens des proaxies vers les prolexèmes cible. De 4.a à 4.i, ce sont les étapes de la recherche des liens des prolexèmes cible vers les lexies cible.
Figure 55 : Exemple de calcul des liens dans Pivax-3 |
Nous proposons trois niveaux de traduction classés selon la précision obtenue.
(1) Le système trouve une lexie directement, en passant par le volume des axèmes et par le volume des axies. C'est le premier niveau de traduction, et le plus précis.
Pour l'exemple de la Figure 55, c'est le cas de TGV pour le sens d'acronyme transposition des gros vaisseaux en français vers le même sens TGV en anglais.
(2) Le système cherche le lien dans le volume des prolexèmes de la langue source avec une étiquette. Puis il parcourt le volume des proaxies, et ensuite le volume des prolexèmes et les volumes des lexies des langues cible. Il trouve une lexie avec la même étiquette. C'est le deuxième niveau, dit niveau intermédiaire.
Par exemple, à la fin de la section III.3.2.1.1, on a expliqué que, en japonais 国連 est meilleur que 国際連合 pour la traduction de ONU, parce que ces mots portent l'étiquette acronyme.
(3) Le système trouve les lexies par prolexème et proaxie sans prendre en compte l'étiquette. Ces lexies proposées constituent le troisième niveau, le moins précis.
Par exemple, dans la Figure 55, on trouve la traduction en chinois 高速列车 pour TGV et train à grande vitesse.
La quantité de lexies contenues dans le résultat augmente suivant les niveaux de traduction, du premier vers le troisième. C'est-à-dire qu'on a :
{traductions_1er_niveau}⊆{traductions_2e_niveau}⊆{traductions_3e_niveau}
Pour faciliter la lecture, nous avons décidé :
(1) d'afficher l'étiquette, la langue et le mot-vedette dans le 1er et le 2ème niveau sur l'interface Web.
(2) d'afficher tous les détails (phrases exemples, définitions, POS, etc.) dans le 3ème niveau, y compris les lexies du même prolexème de la langue source.
(3) de ne pas afficher la traduction dans le 2ème niveau si elle a déjà été trouvée et est déjà affichée dans le 1er niveau.
Cette section présente notre méthode avec un exemple en quatre langues, pour le sens Organisation des Nations Unies.
(1) En français, il y a Organisation des Nations Unies, on peut aussi dire Nations unies, ONU ou onusien[15].
(2) En anglais, on a United Nations et son acronyme UN.
(3) En chinois, on a 联合国 (lián hé guó) qui est la seule lexie pour ce sens, et il n'y a pas d'acronyme.
(4) En japonais, on a 国際連合 (kokusai-rengō) et son acronyme 国連 (kokuren).
On choisit cet exemple pour les raisons suivantes :
(1) C'est un cas compliqué.
(2) On a déjà utilisé cet exemple dans les présentations ci-dessus, mais jamais complètement.
(3) Cet exemple (parties en anglais et en français) a été utilisé par M. Tran pour présenter Prolexbase.
(4) C'est un besoin initial de L&M.
Dans cet exemple, il n'y a pas que des acronymes, mais aussi d'autres types de noms propres, par exemple, alias et dérivés. Voir la table ci-dessous.
Table 8 : Étiquettes utilisées pour l'exemple "Organisation des Nations Unies"
Étiquette |
Anglais |
Français |
Chinois |
Japonais |
Définition (DEF) |
United Nations |
Organisation des Nations Unies |
联合国 |
国際連合 |
Acronyme (ACRO) |
UN |
ONU |
|
国連 |
Alias (ALIAS) |
|
Nations Unies |
|
|
Dérivé (DERIV) |
|
onusien |
|
|
Nous avons déjà montré des exemples de lexies au III.3.2.1.2a. On gère deux types de lien pour chaque lexie : (1) type axème et (2) type prolexème. Les liens vers les prolexèmes contiennent une valeur non vide pour l'attribut p:relation-mono. Cette valeur est donc le traitement de "situé", c'est l'étiquette portée par le lien.
<p:lexie p:id="Acro.fra.Nations_unies.1"> ……
<p:entryref type="prolexeme" volume="Acro_fra-prolexeme" p:idref="Acro.prolexeme.fra.Organisation_des_nations_unies.1" lang="fra" p:relation- mono="ALIAS"/> <p:entryref type="axeme" volume="Acro_fra-axeme" p:idref="Acro.axeme.fra.Nations_unies.1" lang="fra" p:relation-mono=""/> ……
</p:lexie> |
Figure 56 : Exemple des liens de lexie Nations Unies dans la ressource lexicale[16]
Pour les CDM correspondants, voir la première partie de la Figure 54.
<p:axeme p:id="Acro.axeme.fra.Organisation_des_nations_unies.1"> <p:entryref
type="final[17]" volume="Acro_fra" p:idref="Acro.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-mono=""/> <p:axiref type="axie" volume="Acro_axie" p:idref="Acro.axie.United_Nations.1" lang="axie" p:relation-mono=""/> </p:axeme> |
<cdm-elements> <cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:axeme"/> <cdm-entry-id xpath="/p:volume/p:axeme/@p:id"/> <!--
dml.xsd schema requires cdm-headword, but it is meaningless for axemes --> <cdm-headword xpath="/p:volume/p:axeme/@p:id"/> <links> <!-- links between French
axemes and Axies --> <link
name="axie" xpath="/p:volume/p:axeme/p:axiref"> <value
xpath="@p:idref" /> <lang
xpath="@lang" /> <volume
xpath="@volume" /> <type
xpath="@type" /> </link> <!-- links between French
axemes and French lexies --> <link
name="final" xpath="/p:volume/p:axeme/p:entryref"> <value
xpath="@p:idref" /> <lang
xpath="@lang" /> <volume
xpath="@volume" /> <type
xpath="@type" /> </link> </links> </cdm-elements> |
Figure 57 : Exemple d'axème et ses CDM
Les axèmes et les axies ont pour but de présenter le sens exact. C'est pour distinguer les acronymes de types différents entre onu, un et 国連. Voir la Figure 58.
Figure 58 : Liens entre les axèmes et les axies |
<p:axie id="Acro.axie.UN.1"> <p:item-links
link_group="g1"> <p:item relation="" volume="Acro_eng-axeme" type="axeme" p:idref="Acro.axeme.eng.UN.1" lang="eng"/> <p:item relation="" volume="Acro_fra-axeme" type="axeme" p:idref="Acro.axeme.fra.ONU.1" lang="fra"/> </p:item-links> </p:axie> |
<cdm-elements> <cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:axie"/> <cdm-entry-id xpath="/p:volume/p:axie/@id"/> <!--
dml.xsd schema requires cdm-headword, but it is meaningless for axies --> <cdm-headword xpath="/p:volume/p:axie/@id"/> <!--
id of an axeme linked to the axie --> <links> <link
name="axeme" xpath="/p:volume/p:axie/p:item-links/p:item">
<value xpath="@p:idref" />
<lang xpath="@lang" />
<volume xpath="@volume" />
<type xpath="@type" /> </link> </links> </cdm-elements> |
Figure 59 : Exemple d'axie et ses CDM
Les liens entre les prolexèmes et les proaxies sont illustrés par la Figure 60.
Figure 60 : Liens entre les prolexèmes et les proaxies |
Nous avons également utilisé l'attribut p:relation-mono pour présenter l'étiquette portée par les liens des prolexèmes vers les lexies.
<p:prolexeme p:id="Acro.prolexeme.fra.Organisation_des_nations_unies.1"> <p:entryref
type="final" volume="Acro_fra" p:idref="Acro.fra.ONU.1" lang="fra" p:relation-mono="ACRO"/> <p:entryref
type="final" volume="Acro_fra" p:idref="Acro.fra.Nations_unies.1" lang="fra" p:relation-mono="ALIAS"/> <p:entryref
type="final" volume="Acro_fra" p:idref="Acro.fra.onusien.1" lang="fra" p:relation-mono="DERIV"/> <p:entryref
type="final" volume="Acro_fra" p:idref="Acro.fra.Organisation_des_nations_unies.1" lang="fra" p:relation-mono="DEF"/> <p:axiref type="proaxie" volume="Acro_proaxie" p:idref="Acro.proaxie.United_Nations" lang="proaxie" p:relation-mono=""/> </p:prolexeme> |
<cdm-elements> <cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:prolexeme"/> <cdm-entry-id xpath="/p:volume/p:prolexeme/@p:id"/> <cdm-headword xpath="/p:volume/p:prolexeme/@p:id"/> <!-- dml.xsd schema
requires cdm-headword, but it is meaningless for prolexeme --> <links> <!--
links between French prolexemes and Axies --> <link
name="proaxie" xpath="/p:volume/p:prolexeme/p:axiref">
<value xpath="@p:idref" />
<lang xpath="@lang" />
<volume xpath="@volume" />
<label xpath="@p:relation-mono" />
<type xpath="@type" />
</link> <!--
links between French prolexemes and French lexies --> <link
name="final" xpath="/p:volume/p:prolexeme/p:entryref">
<value xpath="@p:idref" />
<lang xpath="@lang" />
<volume xpath="@volume" />
<type xpath="@type" /> </link> </links> </cdm-elements> |
Figure 61 : Exemple de prolexème et ses CDM
Figure 62 : Liens entre les proaxies et les prolexèmes |
Voir la Figure 52 pour l'exemple de l'entrée de proaxie.
<cdm-elements> <cdm-volume xpath="/p:volume"/> <cdm-entry xpath="/p:volume/p:proaxie"/> <cdm-entry-id xpath="/p:volume/p:proaxie/@id"/> <!--
dml.xsd schema requires cdm-headword, but it is meaningless for proaxies
--> <cdm-headword xpath="/p:volume/p:proaxie/@id"/> <!--
id of an axeme linked to the axie --> <links> <link
name="prolexeme" xpath="/p:volume/p:proaxie/p:item-links/p:item">
<value xpath="@p:idref" />
<lang xpath="@lang" />
<volume xpath="@volume" />
<type xpath="@type" /> </link> </links> </cdm-elements> |
Figure 63 : CDM correspondants des entrées proaxies
Dans ce diagramme complet, pour faciliter la lecture, on a concentré la modélisation des types différents des entrées et leurs liens. On ne présente qu'un seul volume, mais un exemple avec plusieurs volumes a déjà été présenté dans la Figure 46.
Figure
64 :
Modélisation complète de l'exemple organisation
des nations unies dans Pivax-3 |
Nous avons expliqué les trois niveaux de précision d'une traduction au III.3.2.2.3.
Lorsqu'on cherche les liens de la lexie ONU du français vers l'anglais, vers le japonais et vers le chinois, on a trois niveaux théoriques :
· Le premier niveau de traduction : vers l'anglais, ONU→UN.
· Le deuxième niveau de traduction : vers le japonais, ONU→国連. Le système trouve un lien dans le volume des prolexèmes français avec l'étiquette Acro. Puis il trouve le lien dans les proaxies, ensuite il suit le lien de prolexème en japonais, enfin il arrive au volume des lexies japonaises, et il trouve une lexie avec l'étiquette Acro. Donc la lexie proposée du deuxième niveau de langue cible est cet acronyme. Le deuxième niveau de traduction comprend toujours le premier niveau de traduction. C'est-à-dire que ONU et UN ont la même étiquette Acro, donc le lien ONU→UN correspond également au deuxième niveau de traduction.
· Vers le chinois : ONU→联合国. Le système trouve les lexies par prolexème et proaxie sans étiquette correspondante. Ces lexies proposées constituent le troisième niveau, le moins précis. Le troisième niveau de traduction comprend les niveaux précédents.
Sur l'interface, selon les stratégies présentées au III.3.2.2.3b, on affiche :
· Le premier niveau : terme UN de l'anglais avec l'étiquette Acro.
· Le deuxième niveau : terme 国連 du japonais avec l'étiquette Acro.
· Le troisième niveau : tous les termes, y compris les termes reliés par un même prolexème de la langue source (ONU, nations unies, onusien et organisation des nations unies).
Il s'agit d'une consultation pour les trois niveaux de traduction.
Table 9 : Trois niveaux de traduction : terme UN de l'anglais vers toutes les langues
Niveau |
Lexies trouvables en théorie |
Lexies trouvées et affichées par l'interface |
||||||
|
Français |
Anglais |
Chinois |
Japonais |
Français |
Anglais |
Chinois |
Japonais |
1 |
ONU |
|
|
|
ONU |
|
|
|
2 |
ONU |
|
|
国連 |
|
|
|
国連 |
3 |
ONU, Nations
unies, onusien, Organisation des nations unies |
Q=’UN’ |
联合国 |
国際連合, 国連 |
ONU, Nations
unies, onusien, Organisation des nations unies |
UN, United
Nations |
联合国 |
国際連合, 国連 |
Figure 65 : Terme UN de l'anglais vers toutes les langues |
|
Figure 66 : Affichage agrandi de l'exemple "UN" |
Il s'agit d'une consultation aux 2ème et 3ème niveaux de traduction.
Table 10 : Trois niveaux de traduction : terme 国連 (kokuren) du japonais vers toutes les langues
Niveau |
Lexies trouvables en théorie |
Lexies trouvées et affichées par l'interface |
||||||
|
Français |
Anglais |
Chinois |
Japonais |
Français |
Anglais |
Chinois |
Japonais |
1 |
|
|
|
|
|
|
|
|
2 |
ONU |
UN |
|
|
ONU |
UN |
|
|
3 |
ONU, Nations
unies, onusien, Organisation des nations unies |
UN, United
Nations |
联合国 |
Q=’国連’ |
ONU, Nations
unies, onusien, Organisation des nations unies |
UN, United
Nations |
联合国 |
国際連合, 国連 |
Figure 67 : Terme 国連 du japonais vers toutes les langues |
Il s'agit d'une consultation au 3ème niveau de traduction.
Table
11 : Trois niveaux de traduction : terme
onusien du français vers toutes les
langues
Niveau |
Lexies trouvables en théorie |
Lexies trouvées et affichées par l'interface |
||||||
|
Français |
Anglais |
Chinois |
Japonais |
Français |
Anglais |
Chinois |
Japonais |
1 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
3 |
Q= ’onusien’ |
UN, United
Nations |
联合国 |
国際連合, 国連 |
ONU, Nations
unies, onusien, Organisation des nations unies |
UN, United
Nations |
联合国 |
国際連合, 国連 |
Figure 68 : Terme onusien du français vers toutes les langues |
Pivax-3 est le premier prototype, la base actuelle est une preuve de concept qui comporte quelques exemples issus de Prolexbase et une toute petite partie des données protégées de Lingua et Machina. Nous souhaitons tester cette solution en passant à l'échelle sur de grosses bases telles que CJK (chinois, japonais, coréen, arabe, anglais) avec 24 millions d'entrées ou l'Unifed Medical Language System avec 5 millions de termes.
Dans l'avenir, nous prévoyons de l'intégrer pour l'utilisation dans un domaine linguistique spécifique, et de l'enrichir en utilisant les quatre variations du diasystème de Coseriu.
Pour le futur, nous souhaitons faire évoluer cette macrostructure pour prendre en compte les différents sous-types de synonymie, et transposer le concept de prolexème pour que cette solution puisse être utilisée dans un autre domaine linguistique.
Par exemple, pour une ressource lexicale comprenant des textos, en français A+ correspondrait à À plus ou À plus tard avec une étiquette texto, et en anglais L8R correspondrait à later avec l'étiquette texto.
Comme notre étiquette est une étiquette libre, pour chaque BDLex de type Pivax-3, il faut bien définir les étiquettes utilisées pour conserver la cohérence.
Nous prévoyons de prendre en compte également les quatre dimensions du diasystème basé essentiellement sur ce qu'Eugenio Coseriu a proposé : diachronique (variété dans le temps), diaphasique (variété concernant les finalités de l'emploi), diatopique (variété dans l'espace), et diastratique (variété relative à la stratification socio-culturelle).
Pour ces cas complexes, on a proposé d'utiliser le descripteur de situement (voir la Table 1) comme étiquette. Voici un exemple.
|
Descripteur de situement (étiquettes) |
|
A |
le_pape#général |
|
B |
le_pape#situé? date=16101978-02042005 |
|
C |
le_pape#situé? date=19042005-28022013 |
Figure 69 : Modélisation de l'exemple "le pape" dans Pivax-3
Les deux lexies chinoises zho.约翰_保罗二世.1 et zho.若望_保禄二世.1 sont synonymes. On peut les
échanger dans tous les contextes. Donc, on a ces deux traductions au premier
niveau de traduction pour fra.Jean-Paul_II.1.
Mes co-directeurs de thèse ont proposé d'utiliser Pivax-3 dans le sous-projet LexInnova du projet Innovalangues, dans lequel elle et il sont impliqués. Nous n'avons pas pu y travailler vraiment, mais pensons qu'il est intéressant de donner ici leur perspective d'utilisation et d'extension de Pivax-3 dans ce projet.
Citons ici la brève présentation de LexInnova dans sa page wiki interne.
Dans le
cadre de l'ENPA (Environnement Numérique Personnalisé d'Apprentissage)
d'Innovalangues[18], nous souhaiterions
créer des outils sous licence ouverte (données et code), qui permettraient aux
apprenants identifiés travaillant sur tablette ou ordinateur de créer leurs
propres lexiques dynamiques multilingues d'apprentissage et de générer des
exercices associés.
Les
étudiants, tuteurs et enseignants pourraient également avoir accès aux corpus
de groupes-classes donnés.
Ces
corpus pourraient être issus de diverses sources : entrées des étudiants,
corpus de documents de cours, d'exercices et jeux faits sur l'ENPA par
l'étudiant. Chaque lexique individuel ou collectif résulterait d'une extraction
de données provenant d'une base lexicale partagée.
Les
lexiques individuels devraient pouvoir être récupérés par les étudiants à la
fin de leur formation (export Excel ou Xml).
La mémoire du parcours et des contextes associés pour chaque utilisateur (élève, enseignant, et même logiciel) est partagée avec les autres outils d'Innova. A chaque session, selon le profil de l'utilisateur et des informations propres à notre application, les données sont extraites des bases lexicales et corporale pour constituer la vue temporelle exploitée. Les actions de l'utilisateur conduisant à des modifications de ces bases sont prises en compte immédiatement lorsque c'est possible, sinon différées au moment où la connexion sera rétablie. Les fonctionnalités prévues ne conduisent qu'à des actions introduisant des nouvelles informations, il n'y a donc pas de conflits a posteriori.
Il existe déjà des outils dictionnairiques (Magic Word[19], Game of words[20], Check your smile[21], Kinephones[22], SELF[23]) utilisés dans le cadre du projet Innovalangues. Chaque outil a sa propre BDLex. On voudrait intégrer et unifier ces ressources dans une même structure de BDLex.
La proto-structure du dictionnaire est créée à partir de celles des outils existants et à partir des besoins pédagogiques du projet. Cela nous a menés à la microstructure suivante.
· forme fléchie (Magic Word)
· lemme (Game of words, Magic Word)
· catégorie grammaticale (Check your smile), ex. nom, verbe, etc.
· catégorie morphologique (Magic Word), ex. classe du Bescherelle.
· définition(s) L2 (Magic Word, Check your smile)
· définition(s) L1 (Check your smile)
· entrées liées sémantiquement (Game of words)
· découpage syllabique (Check your smile)
· syllabe accentuée (Check your smile)
· transcription phonétique L2 (Check your smile, Kinephones)
· transcription phonétique L1 (Check your smile)
· transcription en couleurs (Kinephones)
· enregistrement sonore (Check your smile)
· mot en contexte, par exemple collocations (SELF)
· association entre mot et niveau de compétence d'usage en production, par exemple le "profil en anglais" ou "english profile" (SELF)
· sinogrammes
· composants des sinogrammes
· transcriptions des sinogrammes en mandarin et en japonais
· image
Figure 70 : Modélisation de BDLex pour LexInnova |
On a modélisé la proto-structure aux niveaux forme, lemme, lexie, axème et axie. Voir la Figure 70. Dans cette figure, on n'a pas dessiné tous les liens. Il faudrait ajouter un axème correspondant à chaque lexie.
Pour chaque langue naturelle, on aura une combinaison des informations morphologiques qui permettent de générer un lemme (ce qui vient de l'analyse morphologique de la forme, éventuellement précisé par des interactions humaines). Dans notre exemple, Ch. Boitet a proposé d'utiliser le résultat d'un analyseur morphologique écrit en ATEF[24] comme "descripteurs morphologiques". Les liens entre forme et lemme portent des étiquettes commençant par id-fmt.
Table 12 : Exemple de descripteur morphologique
id-fmt |
valeur |
id-fmt-49698 |
GNR=MAS; CAT=N; SUBN=NC; NBR=SIN |
id-fmt-84204 |
GNR=FEM; CAT=N; SUBN=NC; NBR=SIN |
[1] TSV est un format texte représentant des données tabulaires sous forme de "valeurs séparées par des tabulations". Chaque ligne correspond à une rangée du tableau et les cellules d'une même rangée sont séparées par une tabulation. — Wikipédia
[2] C'est à 50% non traduit, et les traductions sont
à 50% très mauvaises.
[3] La
première version du "Chinese Character Simplification Scheme" a été
publiée le 31 janvier 1956, et concernait environ 510 caractères. La deuxième version a été publiée en mars
1964 avec comme titre "Simplified Chinese characters list". En 1986 a
été publiée la troisième version (c'est la version actuelle), qui contient 3
tables, respectivement de 350 caractères, de 132 caractères et de 1 753 caractères.
[4] Dans cette thèse, nous
indiquons toujours la prononciation en mandarin standard.
[5] https://www2.nict.go.jp/out-promotion/techtransfer/EDR/index.html?
[6] Fujitsu,
Ltd., NEC Corporation, Hitachi, Ltd., Sharp Corporation, Toshiba Corporation,
Oki Electric Industry Co., Ltd., Mitsubishi Electric Corporation, and
Matsushita Electric Industrial Co., Ltd.
[7] Ou 5
types, si on ne fusionne pas le type monolingue général et le type monolingue
terminologique dans un seul type.
[8] http://www.cnrtl.fr/lexiques/prolex/
[9] Noms
des habitants d'un lieu (ex : Bellifontain
pour habitant de Fontainebleau).
[10]
C'est un exemple chinois. Initialement le mot神(divinité, shén)马(cheval, mǎ) n'a pas une vraie
signification, mais les jeunes Chinois l'utilisent (surtout sur le Web) pour
remplacer le mot 什么(shén
me, qui a plusieurs sens comme quoi, quel, quelconque etc.). C'est parce que
les prononciations se ressemblent : 神马(shén mǎ), 什么(shén me).
[11] La balise <ntig> permet une représentation plus complexe d'un terme, notamment son découpage en
éléments via la balise <termCompList>.
[12] ??
est le numéro de ressource lexicale (on l'appelle glossaire), par exemple, M_1_TIGS, M_37_TIGS, etc.
[13] Il
n'y a pas que moi qui ai travaillé sur le sujet, mais aussi mes collègues. Le
patron de L&M, F. Brown de Colstoun, communiquait avec les clients et
spécifiait les besoins. Le chef E. Monneret était responsable technique,
proposait les conceptions globales, puis vérifiait et validait les travaux. M.
Morardo a développé l'interface d'affichage de consultation. Quant à moi, j'ai
travaillé sur l'import, l'export, leurs interfaces et les traitements de la
BDLex.
[14] Le
type final est implémenté pour le type lexie.
[15] On a
repris les termes de Prolexbase.
[16] On a
gardé l'attribut p:relation-mono
pour le lien de type axème dans cet exemple. C'est un résultat de création
initiale de la ressource par un script. Sa valeur est toujours vide ou bien on
peut aussi l'enlever.
[17] Le
type final est
l'implémentation informatique du type lexie.
[18] Innovalangues est un projet IDEFI-ANR visant à innover dans l'apprentissage et l'enseignement des langues. Il a été lancé officiellement le 14 juin 2012.
[19] Magic Word : vise à produire un premier prototype de jeu inspiré du Boggle. Voir http://gamer.innovalangues.net/magicword/
[20] Game of words : permet de développer un jeu à partir des règles du Taboo. Voir http://gamer.innovalangues.net/gameofwords/
[21] Check your smile : ce chantier vise à créer un site web
collaboratif et ludo-éducatif pour l'apprentissage d'un lexique spécialisé.
[22] Kinephones : réalise un prototype pour l'enseignement-apprentissage
de la phonologie du français et de l'anglais (British et US). Voir kinephones.u-grenoble3.fr.
[23] SELF : Système d'Evaluation en Langues à visée Formative.
Voir http://self.innovalangues.net.
[24] On a
déjà mentionné Ariane-G5 au I.1.1.1.
ATEF (Analyse de Textes en États Finis) est le LSPL
(Langage Lpéciale de Programmation Linguistique) utilisé par Ariane-G5
pour écrire tous les analyseurs morphologiques. Ce langage a été créé en 1972
par J. Chauché, P. Guillaume et M. Quézel-Ambrunaz.