CAHIER DES CHARGES
Évaluation de TA dans SECTra
 Tout Fichiers Pages
Présentation générale

Grâce à SECTra, qui offre un système d'annotation de chaque traduction ou post‐édition d'un segment par un niveau de fiabilité (de * à *****) et un score de qualité (de 0 à 20). Il permet à l'utilisateur de choisir une des TA gratuites (Google, par exemple) pour pré-traduire les segments, et de post-éditer les segments à l'aide d'une (ou plusieurs) TA. Les "bons" segments post-édité peuvent être extrait de la MT comme les données d'apprentissage pour créer le modèle de traduction de Moses. Nous ajoutons une nouvelle fonction pour utiliser les données de SECTra à améliorer la qualité de la traduction de Moses automatiquement.

Objectifs généraux

Les objectifs liés au SECTra
L'utilisateur travaille sur SECTra:

  • extraction des segments source/post-édité par les critères
  • téléchargement des données pour la création de TA (des données d'apprentissage, des données de test, )
  • paramétrage du fichier de configuration pour la création de TA
  • aperçu du fichier de configuration
  • création de TA
  • annulation de la création de TA
  • suivi des étapes de la création
  • consultation des scores de TA
  • utilisation de la TA pour retraduire les segments source
  • suppression de la TA créée par l'utilisateur

L'administrateur travaille sur SECTra:

  • suivi des créations de TA
  • consultation des fichiers de configuration de l'utilisateur
  • modification des fichiers de configuration
  • démarrage (ou redémarrage) des tâches de la création
  • annulation des tâches de création
  • vérification des scores de la TA
  • suppression des TA créées
  • mise à jour de la TA

Les objectifs liés au Moses

Nous installons 2 Moses dans 2 serveur.

sur Serveur 1 (création de la nouvelle version n+1 du système de TA)

  • traitement des données de SECTra (tokénisation, nettoyage des données, etc)
  • création d'un modèle de langage en langue cible
  • apprentissage des modèle de traduction
  • optimisation des paramètres du modèle
  • évaluation de la traduction de TA (BLEU, NIST, etc)
  • mise à jour le modèle de traduction pour le serveur 2

sur Serveur 2 (utilisation du système de TA-n)

  • fournir la traduction à SECTra
  • décodeur

Description générale de la fonction

L'utilisateur (ou l'administrateur) extraire les segments post-édités du SECTra, et il peut mélanger une partie des données d'apprentissage. Il permet de télécharger les fichiers de l'utilisateur pour enrichir les données d'apprentissage, ou seulement utilise les données de l'utilisateur. Les données sont séparés en 3 fichiers:

  • fichier source, il contient les segments source (txt, sgm, ou tbx).
  • fichier post-édité, il contient les segments post-édité qui sont extraction d'une ou plusieurs MT (txt, sgm, ou tbx).
  • fichier test

On mets le fichier source et le fichier post-édité sur le serveur 1 pour générer le nouveau modèle de traduction. Après la création de TA, il faut calculer les scores sur le serveur 1.

Le serveur 2 utilise la version n du système de TA pour Les segments sont pré-traité par un script, ensuite on les utilise à créer le système TA. Il faut sauvegarder les sortis des informations dans un fichier .log (mise à jour en temps réel) pour consultation et suivi de la procédure de l'exécution du serveur. SECTra lit les contenues de ce fichier pour créer le modèle de langue, et le modèle de traduction (la version n du système de TA).

Quand il crée un nouveau modèle de traduction sur serveur 1, on extrait centaine nouveaux segments source/post-édité (ou les données de test fourni par l'utilisateur) pour évaluer ce modèle. L'administrateur mesura les scores (BLEU et NIST). Si les scores sont acceptés par l'utilisateur (ou l'administrateur), par rapport à l'augmentation de la qualité de la version actuelle du modèle de traduction dans le serveur 2. L'utilisateur (ou l'administrateur) validera le modèle sur l'interface de SECTra.

Le nouveau système de TA retraduire les segments sources, et recalcule les scores de chaque segments de la MT concernée (qui utilise la TA-n) sur le serveur 1. Après la mise à jour la base des données, SECTra utilise la version n+1 à remplacer la version n sur le serveur 2.

SECTra rappels le nouveau système pour traduire les nouveaux segments, ou retraduire les anciens segments (si l'utilisateur en demande). L'utilisateur peut comparer les versions successives.