[:fr]Travaux actuels[:en]Current Work[:]

[:fr]Intérêts actuels à compléter

Projets financés terminés

Détection et vérification d’auteur (2017)

Projet de l’institut Cognition (Tremplin Carnot)

Rôle : co-responsable avec Jérôme Goulian, MCF à l’UGA.

Budget : 2500€.

Autres personnes impliquées : Jérémy Ferrero (société Copilatio), Agnès Tutin, professeure à l’UGA, au Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles (LIDILEM), Sreynoch Soung, étudiante en M2R.

La plupart des logiciels anti- plagiat se concentrent sur une détection extrinsèque de plagiat, c’est-à-dire sur le fait de trouver des similitudes entre un document et un corpus de sources probables. Or ce système est inutile si le document ayant été plagié ne se trouve pas dans le corpus fouillé. Autrement dit, la détection de plagiat extrinsèque devient vite inef cace lorsque l’on n’a pas accès aux documents potentiellement sources du plagiat ou lorsque l’on se confronte à un espace aussi vaste que le Web, ce qui est souvent le cas dans les logiciels anti- plagiat actuels. Une solution à cette problématique est d’identi er et de caractériser un auteur par son style d’écriture (sa stylométrie). Il est par la suite plus aisé de savoir si tel ou tel auteur a écrit tels ou tels paragraphes à l’intérieur d’un même document ou bien encore si un auteur est le même pour deux documents différents. L’objectif de ce projet est donc double, d’une part détecter le plagiat intrinsèque à un document par le biais de la détection et du regroupement de passages d’un document par auteur(s), et d’autre part de vérifier que ce soit bien le même auteur qui aura produit un ensemble de documents.

Indexation sémantique par apprentissage d’un espace latent (2017)

Projet du laboratoire d’informatique de Grenoble

Rôle : co-responsable avec Jean-Pierre Chevallet, MCF HDR à l’UGA.

Montant : 5000€.

Autres personnes impliquées : Jibril Frej, étudiant en M2R

La représentation de la signification (i.e. sémantique) des mots possède des applications en Traduction Automatique, mais également en Recherche d’Information. En effet, les moteurs de recherche d’infor- mation textuels, transforment des documents en structures qui permettent de trouver des documents proches d’une requête en langue naturelle, de manière très rapide. La plupart des modèles et leur im- plantation, utilisent une représentation des documents en sac de mots. Un sac de mot est équivalent à un ensemble ou chaque élément est associé à la valeur entière du nombre d’occurrence de cet élément dans le sac de mot. La
plupart des modèles de correspondance anciens ou plus récents, sont basés sur cette représentation en sac de mots, comme le modèle vectoriel, les modèles de langues, et de manière plus générale tous les modèles probabilistes.

Une approche de ce type a déjà été proposée, inspirée de l’appren- tissage profond (Deep Learning) avec succès. Nous désirons poursuivre l’étude pour tenir compte de la variation de sens des mots. Le second volet de cette recherche concerne le modèle de correspondance à mètremettre en place, en s’inspirant des modèle existant, plus particulièrement des modèles probabilistes. Le troisième volet correspond à une implémentation efficace pour permettre l’utilisation effective de cet espace sémantique lattent dans un Système de Recherche d’Information sur de larges corpus de document, et bien sur son évaluation sur des collections de test.

Projet Formicae de l’Université Grenoble 2 (2013-2014)

Le projet FORMICAE (Algorithme à colonies de fourmis pour la désambiguïsation lexicale multilingue) est historiquement le premier projet à s’inscrire directement dans le cadre du groupe de travail Processus automatiques et interactifs de clarification du sens. La tâche de désambiguïsation lexicale est une tâche centrale pour le traitement automatique des langues car elle peut permettre d’améliorer significativement de nombreuses applications (extraction d’informations multilingues, résumé automatique, traduction automatique par exemple). Alors que les systèmes concurrents semblent atteindre leurs limites qualitatives, notre système, basé sur des algorithmes à colonies de fourmis, offre de nombreuses pistes d’amélioration qui sont étudiées dans le cadre de ce projet.

J’apporte, ici, mon expertise sur les algorithmes à colonies de fourmis pour le traitement automatique des langues, sujet que j’étudie depuis ma thèse.

Projet LOL (Linked Open Lexica), projet conjoint Grenoble INP – Université Grenoble I (2014-2015):

En s’appuyant principalement sur la ressource dbnary (une extraction des Wiktionnaires de 10 langues initiée par Gilles Sérasset) ), ce projet aborde le problème des dictionnaires fortement multilingues de langue générale. Il adopte les principes de l’architecture lexicale à base d’acceptions interlingues en proposant une construction automatique du pivot lexical en s’appuyant sur nos travaux en désambiguïsation lexicale multilingue. Enfin, il aborde le problème de l’évolutivité des ressources en modélisant les annotations manuelles et les changements dans les versions des ressources d’origine afin faire évoluer dbnary en parallèle avec ces dernières (un Wiktionnaire a une nouvelle version tous les 10 jours environ).

Ce projet constitue le cœur de la thèse d’Andon Tchechmedjiev et s’appuie sur la définition d’une architecture à base d’agents en charge des processus de décision nécessaires à la construction des données (similarité sémantique monolingue et multilingue, annotations humaines, constructions des acceptions interlingues en fonction des données bilingues collectées, …).

Les données lexicales ainsi construites (et plus particulièrement les acceptions interlingues qui servent de pont entre les langues) seront utilisées/évaluées au travers d’une tâche de génération de liens entre ontologies décrites en RDF dans des langues différentes. Cette évaluation se fera par l’équipe EXMO (INRIA-LIG), dans le cadre du projet international ANR-NSFC franco-chinois Lindicle (http://lindicle.inrialpes.fr/)

Dans ce projet, j’apporte plus particulièrement mon expertise sur les mesures sémantiques et la construction automatique de bases lexicales.

Projet ANR VIDEOSENSE (janvier 2010 – septembre 2013)

Ce projet consiste à permettre la catégorisation de vidéos en fonction de leur contenu et des émotions qu’elles suscitent. Je participe à la partie multilingue du projet. Il s’agit de catégoriser les os en fonction des textes (pouvant être en plusieurs langues) associés. Cette catégorisation se fait à partir de vecteurs conceptuels dont la construction peut se faire de plusieurs manières, manières que nous étudions et comparons dans le cadre de ce projet. Partenaires : entreprise GHANNI, laboratoire eurocom (Sophia Antipolis), équipe BDAA du LIF (Labora- toire d’Informatique de Marseille), équipe ECL du LIRIS (Laboratoire d’InfoRmatique en Image et Systèmes d’information de Lyon), équipes MRIM et GETALP du LIG (Laboratoire d’Informatique de Grenoble).

Dans ce projet, j’apporte mon expertise sur les représentations du sens en général et les vecteurs conceptuels en particulier. Vecteurs conceptuels que j’étudie depuis ma thèse de doctorat.

Projet ANR TRAOUIRO (janvier 2011 – janvier 2013)

Traouiero est un projet Émergence qui vise à permettre l’opérationnalisation d’outils logiciels et de techniques et ressources linguicielles développés jusqu’ici par le GETALP du LIG en tant que prototypes opérationnels. J’étais responsable du passage à l’échelle de la technique OMNIA d’étiquetage sémantique. L’objectif était de produire une application autonome effectuant l’étiquetage sémantique d’un texte tout venant par des UW++ UNL accompagnés de scores. J’étais également responsable d’une sous-tâche axée sur le passage architecture clients/serveurs à une organisation en système multi-agents à gros grains.[:en]Under construction…[:]

Didier Schwab

Professeur des universités en informatique à L'Université Grenoble Alpes