Depuis ma thèse, mon sujet d’étude principale concerne les bases lexicales multilingues. J’aborde la problématique de leur structuration, de leur gestion, de leur construction, etc.
Dans ce cadre, j’ai proposé une représentation du multilinguisme par acceptions interlingues (« axies » selon le terme utilisé à partir de la thèse de Mathieu Mangeot). Les axies ont inspiré, entre autres, le concept d' »Axis » dans le « Lexical Markup Framework » (un standard de représentation des lexiques dans le cadre de l’ISO/TC 37). C’est autour de cette organisation que s’est architecturé le projet Papillon et le projet de terminologie juridique LexALP.
J’ai de plus abordé la problématique de la diversité des structures informatiques présentes dans un dictionnaire et des problèmes de généricité des outils de construction de tels dictionnaires. C’est pour aborder cette problématique qu’a été construit la plateforme Jibiki.
Plus récemment, je travaille sur les données liées lexicales. Dans ce cadre, j’ai produit le dataset DBnary, version RDF des données lexicales multilingues présentes dans différentes éditions du Wiktionnaire. Ce dataset a été le lauréat du « Monnet Challenge » en 2012. Il s’agit à l’heure actuelle du plus grand et du mieux maintenu des extracteurs lexicaux des Wiktionnaires.
Plus anecdotiquement, j’ai été à l’origine, avec Mathieu Lafourcade, dans le cadre d’un projet STIC-Asie, de l’idée de produire des Jeux de Mots pour collecter des données lexicales. Cette idée a fait son chemin, et, portée par Mathieu, elle a permis la construction de la plus grande ressource associative actuelle sur le Français.