Acolad – Plateforme pour l’édition collaborative dépendancielle
De nombreuses applications de TAL nécessitent de grandes quantités de données annotées manuellement. La production de ces données est coûteuse. D’autre part, la nature et la qualité des annotations à produire dépendent très largement des besoins en terme d’exploitations futures du corpus (Valli et Véronis, 1999). Pour faciliter la production de tels corpus, plusieurs outils récents ont été développés parmi lesquels on peut citer : l’application Web 2.0 System EasyRef développé dans le cadre de l’ANR action Passage pour annoter des corpus syntaxiques dans les formats Easy et Passage (Paroubek et al., 2009), l’extension firefox WebAnnotator qui permet d’annoter des pages Web selon une DTD définie par l’utilisateur (Xavier, 2012). Ces outils tentent de résoudre de nombreux problèmes liés à la création de corpus, en particulier, l’aspect collaboratif pour EasyRef et l’aspect générique pour WebAnnotator. Dans cet article, nous nous intéressons à 2 problèmes cruciaux liés à l’annotation de corpus : Comment
représenter les annotations concurrentes ? Comment importer et utiliser de manière générique des ressources linguistiques externes comme des dictionnaires ou des analyses morphosyntaxiques ?
Nous tentons avec la plateforme ACOLAD (Annotation de COrpus Linguistique pour l’Analyse de Dépendances) de répondre à ces questions. Cette plateforme open-source a été développée avec pour objectif de faciliter la tâche d’édition collaborative lors de la création d’un corpus de dépendance. Elle propose des services manuels de segmentation et d’annotation multi-niveaux (segmentation en mots et en syntagmes minimaux (chunks), annotation morphosyntaxique des mots, annotation syntaxique des chunks et annotation syntaxique des dépendances entre mots ou entre chunks).