Grâce à SECTra, qui offre un système d'annotation de chaque traduction ou post‐édition d'un segment par un niveau de fiabilité (de * à *****) et un score de qualité (de 0 à 20). Il permet à l'utilisateur de choisir une des TA gratuites (Google, par exemple) pour pré-traduire les segments, et de post-éditer les segments à l'aide d'une (ou plusieurs) TA. Les "bons" segments post-édité peuvent être extrait de la MT comme les données d'apprentissage pour créer le modèle de traduction de Moses. Nous ajoutons une nouvelle fonction pour utiliser les données de SECTra à améliorer la qualité de la traduction de Moses automatiquement.

Objectifs généraux

Les objectifs liés au SECTra
L'utilisateur travaille sur SECTra:

extraction des segments source/post-édité par les critères
téléchargement des données pour la création de TA (des données d'apprentissage, des données de test, )
paramétrage du fichier de configuration pour la création de TA
aperçu du fichier de configuration
création de TA
annulation de la création de TA
suivi des étapes de la création
consultation des scores de TA
utilisation de la TA pour retraduire les segments source
suppression de la TA créée par l'utilisateur

L'administrateur travaille sur SECTra:

suivi des créations de TA
consultation des fichiers de configuration de l'utilisateur
modification des fichiers de configuration
démarrage (ou redémarrage) des tâches de la création
annulation des tâches de création
vérification des scores de la TA
suppression des TA créées
mise à jour de la TA

Les objectifs liés au Moses

Nous installons 2 Moses dans 2 serveur.

sur Serveur 1 (création de la nouvelle version n+1 du système de TA)

traitement des données de SECTra (tokénisation, nettoyage des données, etc)
création d'un modèle de langage en langue cible
apprentissage des modèle de traduction
optimisation des paramètres du modèle
évaluation de la traduction de TA (BLEU, NIST, etc)
mise à jour le modèle de traduction pour le serveur 2

sur Serveur 2 (utilisation du système de TA-n)

fournir la traduction à SECTra
décodeur

Description générale de la fonction

L'utilisateur (ou l'administrateur) extraire les segments post-édités du SECTra, et il peut mélanger une partie des données d'apprentissage. Il permet de télécharger les fichiers de l'utilisateur pour enrichir les données d'apprentissage, ou seulement utilise les données de l'utilisateur. Les données sont séparés en 3 fichiers:

fichier source, il contient les segments source (txt, sgm, ou tbx).
fichier post-édité, il contient les segments post-édité qui sont extraction d'une ou plusieurs MT (txt, sgm, ou tbx).
fichier test

On mets le fichier source et le fichier post-édité sur le serveur 1 pour générer le nouveau modèle de traduction. Après la création de TA, il faut calculer les scores sur le serveur 1.

Le serveur 2 utilise la version n du système de TA pour Les segments sont pré-traité par un script, ensuite on les utilise à créer le système TA. Il faut sauvegarder les sortis des informations dans un fichier .log (mise à jour en temps réel) pour consultation et suivi de la procédure de l'exécution du serveur. SECTra lit les contenues de ce fichier pour créer le modèle de langue, et le modèle de traduction (la version n du système de TA).

Quand il crée un nouveau modèle de traduction sur serveur 1, on extrait centaine nouveaux segments source/post-édité (ou les données de test fourni par l'utilisateur) pour évaluer ce modèle. L'administrateur mesura les scores (BLEU et NIST). Si les scores sont acceptés par l'utilisateur (ou l'administrateur), par rapport à l'augmentation de la qualité de la version actuelle du modèle de traduction dans le serveur 2. L'utilisateur (ou l'administrateur) validera le modèle sur l'interface de SECTra.

Le nouveau système de TA retraduire les segments sources, et recalcule les scores de chaque segments de la MT concernée (qui utilise la TA-n) sur le serveur 1. Après la mise à jour la base des données, SECTra utilise la version n+1 à remplacer la version n sur le serveur 2.

SECTra rappels le nouveau système pour traduire les nouveaux segments, ou retraduire les anciens segments (si l'utilisateur en demande). L'utilisateur peut comparer les versions successives.