Table des définitions

comme dans la thèse de Phap

 

Définition 1. Une phrase (sentence en anglais) est l’unité élémentaire d'un énoncé, formée de plusieurs mots ou groupes de mots, et qui présente un sens complet. (TheFreeDictionary).

Définition 2*. Un syntagme ou groupe (phrase en anglais) est un constituant possible d'une phrase. En général, un titre est un groupe nominal.

Définition 3. Un segment est l’unité de traduction de base des traducteurs humains. Il s’agit d’une phrase, d’un titre, ou d’un terme dans une nomenclature.

Définition 4*. Un fragment (chunk en anglais) est une partie d'un segment, qui peut être un groupe syntaxique (phrase en anglais) ou un simple n-gramme.

Définition 5*. Un segment peut contenir des éléments non textuels, ou hors-texte, comme des images, des formules, ou des balises, qui ont un rôle linguistique et une valeur non linguistique.

Définition 6. Un segment monolingue est un segment dont le contenu textuel est en une seule langue.

Définition 7*. Un segment multilingue est un segment dont le contenu textuel est dans plusieurs langues, chaque version étant considérée comme contenant exactement la même information, exprimée de façon correcte.

Définition 8. Un segment monolingue multilingualisé (annoté) est un objet contenant un segment « source » primaire, une ou plusieurs traductions (automatiques ou humaines ou automatiques post-éditées) pour une ou plusieurs langues, et des annotations, en général des objets, comme des arbres linguistiques, des graphes UNL, des résultats d’évaluation(s), et des références aux contributions ayant produit chaque objet non primaire.

Définition 9*. Un segment multilingue multilingualisé (annoté) est un objet contenant un segment multilingue, dans N langues « sources », et, dans M autres langues, une ou plusieurs traductions (automatiques ou humaines ou automatiques post-éditées), ainsi que des annotations, comme celles d'un segment monolingue multilingualisé et annoté.

Définition 10*. Le chemin traductionnel d'une annotation, en particulier d'une traduction ou d'une post-édition, est la suite des opérations l'ayant produite, ainsi que les intervenants humains impliqués, et les éventuels objets auxiliaires utilisés.

Définition 11*. Un métasegment est un segment comportant une ou plusieurs variables, éventuellement typées (nombre, date, balise faible…).

Définition 12*. Un document est un ensemble formé par un support et une information, celle-ci enregistrée de manière persistante. Nous nous intéressons aux documents textuels, qui contiennent des "segments" textuels.

Définition 13*. Un métadocument est un document pouvant contenir des métasegments.

Définition 14*. Un pseudo-document est défini par une référence (nom de fichier, url, uri) à un document qui peut varier au cours du temps.

Définition 15. Contexte : Le contexte m-n d’segment source par rapport à un document, ou plus généralement à une instance d’un pseudo-document, est défini par :..............................................................................................................................................................................................   
- la liste des m segments (de même langue) qui le précèdent.
   
- la liste des n segments (de même langue) qui le suivent. 
- l’instanciation des variables, s’il y en a, dans ces m+n+1 segments. Le contexte m-n d’un segment (cible) dans une version résultat de TA ou de PE, dans un segment monolingue, ou multilingue multilingualisé, est défini par  
- la liste des m segments (de même langue et de même version) qui le précèdent. 
- la liste des n segments (de même langue et de même version) qui le suivant. 
- l’instanciation des variables, s’il y en a, dans ces m+n+1 segments pour la même version.

Définition 16*. Un corpus est un ensemble usuellement fermé de documents homogènes du point de vue de leur structure, de leur(s) langue(s), de leur genre et de leur domaine.

Définition 17*. Un corpus de traductions est un corpus au sens précédent, contenant les traductions de tout ou partie de ses segments, dans une ou plusieurs langues.