ETABLISSEMENT : _

o Enseignant-Chercheur au laboratoire LIG (Laboratoire d’Informatique de Grenoble) au sein de l’équipe GETALP (Groupe d’Etude sur le Traitement Automatique des Langues et de la Parole), depuis 2007.

o Chercheur invité au centre de recherche d’IBM Watson (Yorktown Heights, NY, USA) au sein du groupe Human Language Technologies, Septembre 2005 à Novembre 2006.

o Enseignant-Chercheur au laboratoire CLIPS (Communication Langagière et Interaction Personne Système) au sein de l’équipe GEOD (Groupe d’Etude sur l’Oral et le Dialogue), 1999-2006.

· Post-doctorant à l’Institut de Microtechnique de Neuchâtel (Suisse) au sein du laboratoire de traitement du signal, 1998-1999.

· Bourse de docteur ingénieur (BDI) du CNRS, 1995-1998

o Thèse au Laboratoire d’Informatique d’Avignon (LIA) sous la direction de Jean-François Bonastre et d’Henri Meloni

o 1ère année de thèse passée au Laboratoire Parole et Langage (LPL) d’Aix-en-Provence

Diplômes

· Habilité à Diriger les Recherches, spécialité Informatique, Université Joseph Fourier (Janvier 2007). Titre du mémoire : Transcription enrichie de documents dans un monde multilingue et multimodal

· Doctorat en Informatique (1998), Université d’Avignon, mention Très Honorable avec Félicitations du Jury. Titre de la thèse : Un modèle parallèle pour la reconnaissance automatique du locuteur, sous la direction de Jean-François Bonastre et Henri Meloni

· DEA INPG (1995), spécialité Signal-Image-Parole, mention Assez Bien

· Ecole supérieure Chimie Physique Electronique de Lyon (1995), option électronique et traitement de l’information

retour

Domaines de recherche (Mots clés)

· Traitement automatique du langage parlé

o Reconnaissance automatique de la parole (aspects multilingues, accents, langues peu dotées)

o Traduction automatique de parole (méthodes probabilistes)

· Traitement des signaux audio et de parole

o Extraction et analyse d’éléments non linguistiques (locuteurs, sons)

o Analyse de la parole multimodale

o Reconnaissance et segmentation en locuteurs

retour

Encadrement thèses et master-R

Résumé

Thèses de doctorat

DEA ou Masters Recherche

Résumé

	Thèses soutenues	Thèses en cours	DEA ou MASTER-R
Encadrement total	3	1	7
Co-encadrement	6	2	2
Total / école doctorale (ou master)	6 EEATS[1], 3 EDMI[2]	3 MSTII[3]	2 SIPT[4], 5 INFO[5], 1 ICPS[6], 1 IDL[7]

Thèses de doctorat

Encadrement partiel

-C. Nguyen[8] (taux d’encadrement : 30%) : Reconnaissance automatique de la parole en langue vietnamienne. Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue en Juin 2002.

-D. Vaufreydaz[9] (taux d’encadrement : 50%) : Modélisation statistique du langage à partir d'Internet pour la reconnaissance automatique de la parole continue. Doctorat de l’Université J. Fourier, école doctorale EDMI Grenoble, thèse soutenue en Janvier 2002.

-D. Istrate[10] (taux d’encadrement : 50%) : Détection et Reconnaissance des Sons pour la Surveillance Médicale. Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue en Décembre 2003.

-V-B Le (taux d’encadrement : 70%) : Reconnaissance automatique de la parole pour des langues peu dotées. Doctorat de l’Université J. Fourier, école doctorale EDMI Grenoble, thèse soutenue le 1er Juin 2006.

-Q. Vu-Minh (taux d’encadrement : 50%) : Détection de zones d’intérêt intonatives dans un flux audio. Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue le 20 Septembre 2007.

-N. Aboutabit (taux d’encadrement : 30%) : Modélisation et reconnaissance des mouvements du langage parlé complété, Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue le 11 Décembre 2007.

-S. Seng (taux d’encadrement : 70%) : Approche multi-niveaux pour la modélisation statistique du langage. Doctorat de l’Université J. Fourier, école doctorale MSTII Grenoble, soutenance prévue fin 2009.

-D. Do (taux d’encadrement : 60%) : Traduction automatique de parole pour les langues peu dotées. Doctorat de l’INPG, école doctorale MSTII Grenoble, soutenance prévue en 2010.

Encadrement total

-D. Moraru[11] : Segmentation en locuteurs de documents audios et audiovisuels : application à la recherche d'information multimédia. Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue en Décembre 2004.

-P. Mayorga[12] : Reconnaissance vocale dans un contexte de voix sur IP : diagnostic et propositions. Doctorat de l’INPG, école doctorale EEATS Grenoble, thèse soutenue en Janvier 2005.

-T.T. Ping : Modélisation des locuteurs non natifs pour la reconnaissance automatique de la parole. Doctorat de l’Université J. Fourier, école doctorale EDMI Grenoble, thèse soutenue le 3 juillet 2008.

-S. Sam : Modèles acoustiques multilingues à large couverture pour le traitement automatique de la parole. Doctorat de l’INPG, école doctorale MSTII Grenoble, soutenance prévue en 2010.

DEA ou Masters Recherche

-C. Bergamini : Modèle acoustique dépendant du contexte pour la reconnaissance automatique de la parole. DEA Informatique Systèmes Communication. Université J. Fourier, Grenoble. Juin 2000. Mention B.

-R. Lamy : Adaptation de modèles acoustiques et traitement des vecteurs acoustiques pour la reconnaissance automatique de la parole téléphonique. DEA Informatique Systèmes Communication. Université J. Fourier, Grenoble. Juin 2001. Mention B.

-D. Moraru : Segmentation de signaux en locuteurs. DEA Signal Image Parole Telecom. INPG, Grenoble. Juin 2001. Mention B.

-V-B. Le : Reconnaissance automatique de mots clés en anglais en conditions bruitées. DEA Informatique Systèmes Communication. Université J. Fourier, Grenoble. Juin 2002. Mention AB.

-Q. Vu-Minh : Meilleur Interfaçage Reconnaissance / Analyse pour la Traduction de Parole. DEA Informatique Systèmes Communication. Université J. Fourier, Grenoble. Juin 2003. Mention AB.

-B. Senechal[13] : Etude de signatures audio-vidéo pour la recherche d’invariants de production. Master-R Signal Image Parole Telecom. INPG, Grenoble. Juin 2004. Mention AB.

-A. Mahdhaoui : Contributions à la traduction de parole arabe-anglais. Master-R ICPS, UPMF. Juin 2007. Mention AB.

-A. Ben Youcef : Méthodes mixtes pour la traduction automatique de parole. Master-R IDL, Univ. Stendhal. Juillet 2008. Mention TB.

-J-B Faddoul : Capitalizing Machine Translation & Preserving Tags and Parentheses. Master-R Informatique, Université J. Fourier, Grenoble, Juin 2008. Mention AB.

retour

Projets nationaux ou internationaux

Projets Internationaux Achevés

Projets nationaux achevés

Projets en cours

Autres partenaires et contacts industriels

Projets Internationaux Achevés

Participation au projet Européen M2VTS (1998/1999)

Pendant mon post-doctorat dans l’équipe Traitement du Signal de l’Institut de Microtechnique de Neuchâtel (Suisse, 98/99), je me suis intéressé au portage d’algorithmes de vérification vocale d’identité sur une plate-forme utilisable en conditions réelles ainsi qu’à l’évaluation de leurs performances dans ces conditions. Ce travail s’est effectué dans le cadre du projet européen M2VTS d’authentification multimodale de personnes.

Participation au projet Européen NESPOLE & au Consortium C-STAR (1999/2002)

A mon arrivée au CLIPS en 1999, j’ai été impliqué dans deux projets de traduction automatique de parole dont le CLIPS était partenaire : CSTAR (Consortium for Speech Translation Advanced Research) et NESPOLE (Negotiating Through SPOken Language in E-commerce). Je suis devenu responsable de ces deux projets pour l’équipe GEOD (dont la contribution était surtout de fournir l’étage de reconnaissance automatique de la parole). Le but des recherches menées au sein de ces projets était la traduction automatique de parole spontanée avec tous les couples de langues possibles entre les différents partenaires.

Participation à l’action COST275 (Biometric Person Authentication over the Internet) (2001/2004)

J’ai été impliqué, entre 2001 et 2004, dans l’action européenne COST 275 traitant de la biométrie. J’ai notamment contribué au sous-groupe « évaluation » de l’action que j’ai co-animé avec J-F Bonastre du LIA.

Responsable des projets TALK (Traitement Automatique de la Langue Khmère) et CORUS (Traitement de la parole en langue vietnamienne) (2002/2005)

Ces deux projets, soutenus respectivement par l’AUF (Agence Universitaire pour la Francophonie) et par le MAE (Ministère des Affaires Etrangères), concrétisent une collaboration qui existe entre le CLIPS, le centre MICA à Hanoï, et (plus récemment) l’Institut de Technologie du Cambodge (ITC) sur le domaine du traitement automatique du vietnamien et du khmer. Mon implication dans ces projets concerne la reconnaissance automatique de la parole pour le vietnamien et le khmer.

Participation au projet DARPA TRANSTAC (pendant mon séjour à IBM de Septembre 2005 à Novembre 2006)

TRANSTAC (Translation System for Tactical Use) est un projet financé par le département de défense américain (DARPA). Ce projet évalue notamment les technologies permettant le déploiement rapide de systèmes de traduction automatique pour de nouveaux langages ou dialectes, ayant peu de ressources. Le but du projet était de développer un système de traduction de parole anglais-arabe dialectal (le dialecte concerné étant celui parlé en Irak). Ma contribution sur ce projet a concerné surtout la reconnaissance automatique de l’arabe Irakien et l’interfaçage entre le module de reconnaissance et le module de traduction.

Projets nationaux achevés

Reponsable des 3 Contrats : CLIPS/GEOD – Thomson Multimédia 2000-01 ; CLIPS/GEOD – Prosodie 2000-01 ; CLIPS/GEOD – Thalès 2001-02

La nature de ces trois contrats était sensiblement la même. Le projet de convention portait sur une expertise et un développement menés conjointement par le CLIPS et le partenaire industriel (Thomson, Prosodie ou Thalès) dans le but de réaliser un système de reconnaissance automatique de la parole et de le comparer à un système de reconnaissance vocale de référence. La contribution du CLIPS consistait à accompagner le développement du système au niveau de la réalisation d’un état de l’art sur la reconnaissance du point de vue des méthodes et des algorithmes, de l’apport de données d’apprentissage exploitables pour la modélisation acoustique (étiquetage complet d’une base d’apprentissage), de conseils techniques dans le développement (choix des paramètres acoustiques, modèles acoustiques, recherche des hypothèses et modèle de langage), et du suivi scientifique dans le développement du système de reconnaissance en prenant comme point d’appui les résultats du système RAPHAEL du CLIPS pour comparer et valider les résultats à toutes les étapes de la reconnaissance.

Le système propriétaire réalisé par Prosodie, avec l’aide du CLIPS, est actuellement en exploitation dans quelques serveurs vocaux interactifs de la société.

Responsable du contrat CLIPS/GEOD – Université de Karlsruhe 2000-01

Dans le cadre d’un contrat de coopération avec ISL (Interactive Systems Laboratories) de l'Université de Karlsruhe pour le développement en commun d'une base de données de parole en français, nous avons enregistré une large base orale (BRAF100 : Base pour la Reconnaissance Automatique du Français avec 100 locuteurs – environ 30h de parole).

Participant au projet RNRT COUCOU (CLIPS, MSH, CEA, FT-R&D), 2002-05

Le laboratoire CLIPS, en collaboration avec le CNRS, le CEA (IDEAS LAB), France Telecom, et ST Microelectronics a participé au projet RNRT COUCOU (Conception participative Orientée Usage de services de Communication et d’objets Ubiquistes) entre 2002 et 2005. Le but de ce projet était, entre autres, de spécifier et commencer à implémenter deux salles intelligentes de réunions (au CEA et au CLIPS) équipées d’outils avancés de prise de notes et de post-traitement des données enregistrées. Mon implication sur ce projet a concerné les aspects audio (équipement et traitement) d’une salle intelligente.

Responsable local du projet Technolangue AGILE/ALIZE (CLIPS, LIA, DDL, IRISA, IRIT, ENST), 2003-05

Le projet ALIZE consistait à réaliser une plateforme logiciel libre en vérification automatique du locuteur. L’objectif était de pérenniser le savoir-faire du consortium ELISA, acquis grâce à des participations continues aux campagnes d’évaluation NIST depuis 1998, aux entreprises et laboratoires académiques qui souhaiteraient se lancer dans la vérification automatique du locuteur. La contribution du CLIPS sur ce projet a concerné la segmentation en locuteurs : participation à des campagnes d’évaluation (NIST, ESTER) et re-écriture du système existant au CLIPS en utilisant la plateforme ALIZE.

Participation au projet BQR INPG 2003 « Vidéo-Sémantique » (CLIPS, LIS, LSR)

Ce projet financé par l’INPG avait pour but de fédérer les collaborations entre trois laboratoires grenoblois dans le domaine de l’indexation multimédia. Ma contribution, au sein du CLIPS, a concerné le traitement automatique de la bande son de documents vidéo et la participation annuelle aux campagnes d’évaluation TREC-Vidéo (en 2003 et 2004).

Participation au projet BQR INPG 2004 « TELMA » (CLIPS, LIS, ICP)

Ce projet financé par l’INPG visait à l’étude et au développement algorithmique de fonctionnalités audiovisuelles originales à l’usage des personnes malentendantes, et à l’étude de faisabilité de leur intégration dans un terminal autonome de télécommunication téléphonique. Le projet avait pour objectif technique précis d’exploiter la modalité visuelle de la parole, d’une part pour améliorer les techniques de débruitage du son de parole (la minimisation du bruit environnemental permettant une meilleure exploitation des restes auditifs des malentendants), et d’autre part, en mettant en œuvre des techniques d’analyse/synthèse de lecture labiale et de gestes de la Langue Française Parlée Complétée (LPC). Une suite de TELMA, financée par l’ANR a ensuite démarré en 2006.

Responsable local du projet ACI-SI BIOMUL (CLIPS, EURECOM, LIA, INT), 2004-06

Ce projet était financé par le CNRS sur l’ACI Sécurité Informatique (BIOMUL : Biométrie et Multimodalités). Dans ce cadre, j’ai pu accueillir un post-doctorant au CLIPS (Nicolas Eveno, issu du laboratoire LIS/INPG) pour travailler sur la biométrie labiale bimodale. Nous avons également abordé au cours de ce projet la problématique de segmentation en locuteurs dans des environnements perceptifs (salles de réunion instrumentées).

Responsable du projet BQR INPG 2007 « LANG-PI » (LIG, MICA)

Ce projet concerne le développement d’une méthodologie générique permettant de développer rapidement des technologies vocales pour des langues peu dotées. Par exemple, en reconnaissance automatique de parole, mais cela est aussi vrai pour la traduction automatique, il subsiste un certain nombre de verrous en ce qui concerne la généricité des systèmes et leur portabilité vers de nouvelles langues. L’originalité de notre approche vient de la volonté d’aborder des langues peu ou mal dotées, pour lesquelles peu ou pas de corpus sont disponibles, ce qui nécessite des méthodologies innovantes qui vont bien au-delà du simple réapprentissage ou de l’adaptation de modèles.

Projets en cours

Responsable local du projet ANR RNTS TELMA (fin du projet en 2009)

Ce projet, issu au départ d’un BQR INPG, vise à l’étude et au développement algorithmique de fonctionnalités audiovisuelles originales à l’usage des personnes malentendantes, et à l’étude de faisabilité de leur intégration dans un terminal autonome de télécommunication téléphonique. Le projet a pour objectif technique précis d’exploiter la modalité visuelle de la parole, d’une part pour améliorer les techniques de débruitage du son de parole (la minimisation du bruit environnemental permettant une meilleure exploitation des restes auditifs des malentendants), et d’autre part, en mettant en œuvre des techniques d’analyse/synthèse de lecture labiale et de gestes de la Langue Française Parlée Complétée (LPC). Ma contribution à ce projet concerne la reconnaissance automatique de la parole et des gestes multimodaux. En liaison avec ce projet, j’ai co-encadré un étudiant en thèse au laboratoire GIPSA, Nourredine Aboutabit, qui a soutenu en 2008.

Responsable local du projet ANR RNTL MISTRAL (fin du projet en 2009)

Ce projet s’articule autour du thème de la biométrie multimodale avec des partenaires tels que le LIA, EURECOM, IRIT et LIUM. Le projet MISTRAL propose une plate-forme logicielle de type logiciel libre (OpenSource) pour l'authentification biométrique. L'objectif de ce projet est de faciliter l'accès aux technologies biométriques au monde académique (centre de recherche et d'enseignement) comme au monde industriel en fournissant une plate-forme logicielle complète, performante, modulaire, facile à maîtriser et à mettre en oeuvre, apte à gérer différentes tâches en biométrie et différents environnements. Une des retombées attendues du projet est l’animation d’une forte communauté d'utilisateurs de la plate-forme MISTRAL, composée d’acteurs académiques et industriels.

http://mistral.univ-avignon.fr/

Responsable local du projet ANR CONTINT PORT-MEDIA (2008-2011)

Ce projet concerne la robustesse et portabilité multidomaine et multilingue des systèmes de compréhension de l'oral. Les partenaires sont le LIG, le LIA, le LORIA, le LIUM et ELRA (European Language Ressources Association). Plus précisément, les trois objectifs principaux du projet concernent :

-la robustesse et l'intégration /couplage du composant de reconnaissance automatique de la parole dans le processus de compréhension.

-la portabilité vers un nouveau domaine ou langage : évaluation des niveaux de généricité et d'adaptabilité des approches implémentées dans les systèmes de compréhension.

-L’utilisation de représentations sémantiques de haut niveau pour l’interaction langagière.

La contribution du LIG à ce projet concerne essentiellement la portabilité multilingue des différents composants d’un système de dialogue (reconnaissance automatique de la parole, compréhension, …).

Participation au projet APIMS (appel MSTIC 2008 de l’UJF)

Ce projet réuni les équipes MRIM, MESCAL et GETALP du LIG, ainsi qu’une équipe du laboratoire GIPSA. Le thème du projet est l’apprentissage parallèle pour l'indexation multimédia sémantique. La contribution de GETALP à ce projet concerne l’indexation de la bande son de documents vidéos multilingues et la participation commune, avec MRIM, à des campagnes d’évaluation du domaine. Au niveau local, ce projet correspond à un des thèmes affichés par PILSI (Loisir et Multimédia). Les équipes MRIM et GETALP viennent par ailleurs de collaborer sur la compétition de recherche d’information selon le contenu « Star Challenge » (http://www.thestarchallenge.sg ), et ont fait partie des 5 équipes (sur 56 équipes de 17 pays au départ) qualifiées pour la finale qui a eu lieu le 23 Octobre 2008 à Singapour.

Autres partenaires et contacts industriels

IBM (Watson Research Center), NY, USA

XEROX (European Research Center), Grenoble, France

Orange-Labs, Lannion, France

Thales Communications, Paris, France

Calistel, Grenoble, France

Fondation Chirac

retour

Jurys, comités, expertises

Participation à des jurys de thèses

Membres de comités scientifiques et relectures

Organisation d’événements

Expertises

Fonctions collectives

Participation à des jurys de thèses

Nombre de jury en tant que :	Encadrant	Examinateur	Rapporteur
	9	6	7

Comme rapporteur

-Nimaan Abdillahi « Sauvegarde du patrimoine oral africain : conception de système de transcription automatique de langues peu dotées pour l’indexation des archives audio » (LIA / Université d’Avignon) soutenue le 2/7/2007

-Daniel Dechelotte « Traduction automatique de parole par des méthodes statistiques » (LIMSI / Université Paris Sud) soutenue le 17/12/2007

-Xiao Zhongzhe « Speech emotion & music mood recognition » (LIRIS, Ecole Centrale de Lyon) soutenue le 25/01/2008

-Thomas Pellegrini « Transcription automatique de langues peu dotées » (LIMSI / Université Paris Sud) qui sera soutenue le 11/4/2008.

-Ghazi Bouselmi « Contributions à la reconnaissance automatique de la parole non native » (LORIA / Université Nancy 1) soutenue le 12/11/2008 après-midi.

-Vincent Robert « Modélisation de la coarticulation labiale : mise en œuvre sur une tête parlante » (LORIA / Université Nancy 1) soutenue le 12/11/2008 matin.

-Nguyen Hong Quang « Reconnaissance automatique de la parole continue grand vocabulaire en vietnamien ». (LIA / Université d’Avignon) soutenue le 5/11/2008.

Comme examinateur

-Teva Merlin « AMIRAL, une plateforme générique pour la reconnaissance du locuteur. De l’authentification à l’indexation» (LIA / Université d’Avignon) soutenue le 18/11/2004

-Christophe Levy « Modèles acoustiques compacts pour les systèmes embarqués » (LIA / Université d’Avignon) soutenue le 30/11/2006

-Joseph Razik « Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole » (LORIA / Université Nancy 1) soutenue le 9/10/2007

-Emmanuel Didiot « Segmentation parole / musique pour la transcription automatique de parole continue » (LORIA / Université Nancy 1) soutenue le 13/11/2007

-Nicolas Audibert « Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés » (GIPSA-Lab, Grenoble INP) soutenue le 2/12/2008

-Phan Duy Hung « Fusion de données ECG et mouvements en vue d’un système ambulatoire » (CEA LETI, Grenoble INP) soutenue le 15/12/2008

Comme encadrant

-D. Vaufreydaz (CLIPS) soutenue le 7 Janvier 2002

-C. Nguyen (CLIPS) soutenue le 19 Juin 2002

-D. Istrate (CLIPS) soutenue le 16 Décembre 2003

-D. Moraru (CLIPS) soutenue le 20 Décembre 2004

-P. Mayorga (CLIPS) soutenue le 19 Janvier 2005

-V-B Le (CLIPS) soutenue le 1^er Juin 2006

-V-M Quang (LIG) soutenue le 20 Septembre 2006

-N. Aboutabit (GIPSA) soutenue le 11 Décembre 2007

-T-P Tan (LIG) soutenue le 3 Juillet 2008

Membres de comités scientifiques et relectures

Relecture d’articles pour des revues internationales

-IEEE Transactions on Acoustics, Speech and Language Processing (IEEE ASL)

-Computer Speech and Language Journal (Springer)

-Speech Communication Journal (Elsevier)

-IEEE Transactions on Speech and Audio Processing

-IEEE Signal Processing Letters

-IEEE Transactions on Signal Processing

-IEEE Transactions on Multimedia

-IEEE Transactions on Information Forensics and Security

-Pattern Recognition Letters

Relecture d’articles pour des revues nationales

-Traitement du Signal

-Acta Acustica

-Revue I3

Comité de relecture de conférences internationales[14]

-Interspeech (chaque année depuis 2005)

-IEEE ICASSP (chaque année depuis 2007)

-EUSIPCO (depuis 2006)

-Speaker Odyssee, Workshop on Speaker Identification and Verification, (2004-2006-2008)

-International Workshop on Spoken Language Translation 2008 (IWSLT 2008)

-Speech Translation for Medical and Other Safety-Critical Applications, COLING conference workshop, 2008

-SpeD (depuis 2004)

-CORIA 2009

Comité scientifique de conférences nationales

-JEP : Journées d’Etude sur la Parole (depuis 2002)

-RECITAL : Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (depuis 2005)

-Relecteur pour les journées ATALA sur la traduction automatique (1^er Décembre 2007)

Organisation d’événements

-Chairman et organisateur du 1st Workshop International SLTU (Spoken Language Technologies for Under-resourced Languages), Hanoï, Vietnam, May 2008[15].

http://www.mica.edu.vn/sltu

-Organisateur d’une session spéciale Biométrie à la conférence ISPA 2005.

-Organisateur du séminaire AFCP Traitement Automatique du Langage Parlé pour les Langues peu Dotées, Juin 2007.

Expertises

-Evaluateur d’un projet pour l’ACI Masse de données 2005

-Evaluateur d’un projet ANR « masse de données » 2006

-Evaluateur pour les bourses de recherche Microsoft (Microsoft Research PhD Scholarship).

-Expert auprès de OSEO-Anvar (2008).

Fonctions collectives

-Membre élu du bureau de l’AFCP (Association Francophone de la Communication Parlée) depuis 2001, trésorier de l’association depuis 2006.

-Membre des commissions de spécialistes 27ème section de l’Université J. Fourier (depuis 2003) et de l’Université d’Avignon (2001-2004).

-Membre du conseil scientifique de l’université J. Fourier (Janvier 2005-Decembre 2006).

retour

Collaborations internationales (hors projets)

-IBM Watson Research Center (NY, USA) : collaboration avec l’équipe Traduction de Parole de Y. Gao (chercheur invité pendant 13 mois en 2005/06, co-signatures d’articles IEEE ICASSP 2007, Interspeech 2007, IEEE/ACL SLT 2006, HLT 2006).

-Interactive Systems Lab. (ISL) à CMU (USA) et Université de Karlsruhe (Allemagne) : collaboration avec T. Schultz sur la reconnaissance automatique de la parole multilingue (co-signature notamment d’un article à la conférence IEEE ICASSP 2006). Collaboration en cours avec S. Stücker sur la découverte non supervisée de mots à partir de flux phonétiques.

-European Commission – Joint Research Centre (JRC) : collaboration avec B. Pouliquen sur la translitération automatique d’entités nommées dans un contexte fortement multilingue.

-Laboratoire MICA, Hanoï (Vietnam) : co-encadrement d’étudiants en thèse et travaux communs autour du traitement automatique de la langue vietnamienne depuis la création de l’UMI MICA (INPG/CNRS/IPH).

-Laboratoire ITC (Cambodge) : co-encadrement et travaux communs autour du traitement automatique de la langue khmère.

-Institut Polytechnique de Bucarest (Human-Computer Dialogue Group) : échanges scientifiques avec le Pr Corneliu Burileanu, co-encadrement d’étudiants de MASTER.

retour

Responsabilités pédagogiques et enseignement

Responsabilités pédagogiques

Enseignement

Je suis maître de conférence en section 27 à Polytech’ Grenoble (Université J. Fourier) depuis Septembre 1999. Plus de la moitié de mon enseignement est fait dans la filière ingénieur Réseaux Informatiques et Communication Multimédia de Polytech’ Grenoble. J’interviens également depuis 1999 régulièrement et significativement en License d’Informatique à l’UFR d’Informatique et de Mathématiques Appliquées de Grenoble (UFR IMAG). Les sections suivantes présentent les diverses responsabilités pédagogiques que j’ai assurées, ainsi que les principales matières enseignées depuis 1999.

Responsabilités pédagogiques

Responsable de la première année de la filière d’ingénieurs RICM de Polytech’ Grenoble

J’ai été, de 1999 à 2002, responsable pédagogique de la première année de la filière d’ingénieurs RICM (Réseaux Informatiques et Communication Multimédia) de Polytech’ Grenoble. La première promotion de cette filière ayant démarré en 1999, j’ai donc été responsable d’année pour les quatre premières promotions (75 étudiants en moyenne). Outre les tâches liées à la gestion au jour le jour d’une promotion d’ingénieurs (préparation des emplois du temps, réunions pédagogiques, organisation des examens et des jurys), j’ai aussi été amené à proposer et réaliser des aménagements du contenu pédagogique de cette filière, par rapport à l’offre de départ.

Responsable de spécialité à l’école doctorale Mathématique, Sciences et Technologies de l’Information, Informatique (MSTII)

Depuis Septembre 2008, je suis responsable de la spécialité Informatique à l’ l’école doctorale Mathématique, Sciences et Technologies de l’Information, Informatique (MSTII). Cette école doctorale de 400 étudiants compte quatre spécialités ; la spécialité informatique regroupe 228 étudiants de 30 nationalités différentes, rattachés à 4 universités et 7 laboratoires de recherche. Le rôle d’un responsable de spécialité consiste, au moment de l’inscription en doctorat, à signer la charte de 1ère année de thèse, gérer les demandes de dispense de Master (étudiants étrangers). Pendant le doctorat, le responsable de spécialité vise les chartes (pour re-inscription), valide les crédits de formation doctorale et est l’interlocuteur des étudiants ou des encadrants lors de problèmes ou changements pendant la thèse. Avant la soutenance, le rôle du responsable consiste à valider le jury de thèse, lire et signer le dossier de soutenance (lectures des rapports, …).

Responsable du parcours ILP (Ingénierie des Langues et de la Parole) puis du parcours ICH (Informatique centrée humain) du nouveau M2R Informatique de Grenoble

J’ai coordonné la création et je suis responsable (depuis début 2007) du parcours ILP (Ingénierie des Langues et de la Parole) puis en 2008 du parcours ICH (Informatique centrée humain) du nouveau M2R Informatique de Grenoble (depuis 2007). Cette responsabilité implique également la participation aux jurys de projets de MASTER-R en Juin et Septembre.

http://www-ufrima.imag.fr/spip.php?article477

Responsable des stages de première année de la filière d’ingénieurs RICM de Polytech’ Grenoble

J’ai été, de 1999 à 2002, responsable des stages de première année de la filière d’ingénieurs RICM (Réseaux Informatiques et Communication Multimédia) de Polytech’ Grenoble. Ces stages de découverte de l’informatique devaient être réalisés pendant l’été suivant la première année du cursus ingénieur. Les soutenances étaient organisées sous forme de sessions posters.

Responsable du projet Multimédia de deuxième année de la filière d’ingénieurs RICM de Polytech’ Grenoble

J’ai été responsable du projet Multimédia (en 2004 et 2005) de la deuxième année de la filière d’ingénieurs RICM (Réseaux Informatiques et Communication Multimédia) de Polytech’ Grenoble. Ce projet, réalisé sur une période bloquée d’un mois (généralement au mois de Mai), a pour but de faire travailler les étudiants en équipe (généralement 4 personnes) sur la réalisation d’un prototype complet, dans le domaine de la communication multimédia (site web, interface homme-machine, application intégrant des modalités audio, image ou vidéo, etc…).

Enseignement

Principales Matières enseignées (niveau License ou 1^ère année Ingénieur)

· Architectures Logicielles et Matérielles (ALM) : participation depuis 1999 à l’équipe pédagogique d’ALM, TD et TP, publics variés (ingénieurs Polytech’, license d’informatique, IUP MIAGE), 54 h / an en moyenne. L’objectif de ce cours est d’expliquer à de futurs spécialistes d’informatique le fonctionnement de l’ordinateur. Une des idées fortes de ce cours est l’étroite complémentarité des aspects logiciels et matériels des ordinateurs. Les thèmes abordés dans ces TD et TP sont les suivants :

o Algèbre de Boole

o Circuits combinatoires et séquentiels

o Langages d’assemblage (SPARC, ARM)

o Relations processeur / mémoire

o Circuits d’entrées / sorties, interruptions

· Langages et Programmation (ALGO 5 et 6) : participation depuis 1999 à l’équipe pédagogique, TD et TP, publics variés (ingénieurs Polytech’, license d’informatique, IUP MIAGE), 36 h / an en moyenne. Les thèmes abordés dans ces TD et TP sont les suivants :

o Algorithmique de base

o Implémentation de types abstraits (ensembles, files, arbres)

o Langages de programmation (C, ADA)

o Algorithmique avancée (notamment algorithmes de parcours de graphes) et complexité

· Probabilités et Statistiques : participation depuis 99 à l’équipe pédagogique, TD auprès des étudiants ingénieurs de la filière RICM 1ère année de Polytech’ Grenoble, 18h / an (1999-2005). L'objectif de ce cours est de donner à de futurs spécialistes d’informatique des bases en probabilités et en statistique, en montrant la cohérence entre la théorie de l'information et la théorie axiomatique des probabilités.

· Traitement Numérique du Signal : responsable cours, TD et TP dans la filière RICM 1ère année, Polytech’ Grenoble, 36h / an (2000-2005). J’ai complètement monté ce cours destiné à des étudiants ingénieurs réseau ou multimédia. Il présente en 18 heures de cours, 6 heures de TD et 12 heures de TP (simulations avec Matlab), un introduction au traitement numérique du signal. Les thèmes abordés sont les suivants :

o Introduction et Bases Théoriques

o Analyse de Fourier des Signaux

o Echantillonnage et quantification des Signaux

o Introduction au Filtrage Numérique

Cours avancés (niveau Master ou 2^ème et 3^ème années Ingénieurs)

· Traitement de l’Oral : j’ai enseigné ce cours en DEA Informatique Système & Communication (ISC) de l’Université Joseph Fourier de Grenoble (1999-2003) puis dans un module commun aux deux Master-R ICPS (Ingénierie de la Communication Personne-Système) et 3I (Intelligence, Interaction, et Information) des universités grenobloises (2004-2005). Ce cours était une introduction à l’analyse et au traitement automatique de signaux de parole (en 18h ou 24h suivant les années).

· Analyse de documents multimédia : j’enseigne ce cours depuis la rentrée 2007 dans le nouveau M2R Informatique de Grenoble (depuis 2007). Ce module a pour objectif de donner aux étudiants des méthodes mathématiques de base pour le traitement des signaux audio, parole, image et vidéo (j’assure la partie « audio et parole » de ce cours, soit 12h). Après avoir redéfini les notions nécessaires en traitement du signal, le cours aborde le traitement de documents audio et de parole, notamment en décrivant les techniques de reconnaissance automatique de la parole et d'autres objets sonores (sons, locuteurs, …). Un exemple de supports de ce cours se trouve sur ma page personnelle[16].

· Communication Langagière : responsable des cours et TP dans la filière RICM 2ème année, Polytech’ Grenoble, 18h / an (depuis 2000). Ce cours est une introduction aux technologies vocales et de traitement du langage naturel pour des étudiants en informatique destinés à se spécialiser dans le multimédia. J’assure dans ce cours la partie « technologies vocales » à hauteur de 9h de cours et 9h de TPs.

http://www-clips.imag.fr/geod/User/laurent.besacier/CoursCL/

· Tatouage et biométrie : responsable des cours et TP dans la filière RICM 3ème année, Polytech’ Grenoble, 24h / an (depuis 2007). Ce nouveau cours de traitement du signal pour la sécurité offre une introduction aux techniques avancées de tatouage et de biométrie. Il est accompagné de manipulations pratiques décrivant les principaux algorithmes du domaine (Matlab ou C).

http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Biometrie/

http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-Tatouage

· Ingénierie des langues et de la parole : j’assure 12h dans un nouveau cours du M2R Informatique de Grenoble (depuis 2006). Ma contribution concerne une introduction à la traduction automatique statistique et au traitement automatique multilingue du langage parlé.

http://www-clips.imag.fr/geod/User/laurent.besacier/M2R-ILP/

Supports de cours, TD ou TP réalisés

· Traitement numérique du signal : cours, exercices et travaux pratiques

· Communication langagière : cours et travaux pratiques

· Analyse de documents multimédia : cours et travaux pratiques

· Tatouage et biométrie : cours et travaux pratiques (en cours de préparation)

· Contribution aux supports de TD en langage et programmation

· J’ai un projet de livre rassemblant des exercices pratiques dans le domaine du traitement automatique du langage naturel écrit et parlé ; le point de départ serait la page suivante, qui regroupe des TPs que je propose aux étudiants ingénieurs de RICM2 : http://www-clips.imag.fr/geod/User/laurent.besacier/NEW-TPs/TP-CL/

retour

Publications

Une page avec les articles à télécharger se trouve ici.

Les publications les plus récentes depuis 2007 se trouvent ici

Résumé

Mémoires

Revues internationales avec comité (RI)

Revues nationales avec comité de lecture (RN)

Chapitre de livre avec comité de lecture (CL)

Conférences et Workshops internationaux avec comité de lecture (CI,WI)

Congres nationaux avec comité de lecture (CN)

Résumé

Le tableau ci-dessous fournit une vue synthétique des types de publications par thèmes. Les abréviations utilisées pour les thèmes sont : TSAP pour Traitement des signaux audio et de parole, RAP pour Reconnaissance automatique de la parole, TAP pour Traduction Automatique de Parole et O pour Autres. La rubrique TSAP regroupe les travaux menés depuis ma thèse autour de la reconnaissance des sons, des locuteurs et l’extraction d’éléments non linguistiques à partir du signal de parole. La rubrique RAP concerne plus particulièrement mes activités (depuis 2000) en reconnaissance automatique de la parole (RAP multilingue, RAP pour les langues peu dotées et RAP multimodale notamment). La rubrique TAP est quand à elle liée à mes activités les plus récentes dans le domaine de la traduction automatique statistique. Enfin, la rubrique O regroupe les autres publications (par exemple en matière de constitution de corpus). Pour les types de publications, j'utilise les abréviations suivantes : CL pour chapitre dans des ouvrages internationaux avec comité de relecture, RI pour articles dans des revues internationales avec comité de relecture, RN pour articles dans des revues nationales avec comité de relecture, CI pour articles dans des conférences internationales avec comité de relecture, CN pour articles dans des conférences nationales avec comité de relecture, et WI pour articles dans des colloques internationaux avec comité de relecture.

Remarque : les deux conférences annuelles de référence, dans le domaine du traitement automatique du langage parlé, sont Interspeech et ICASSP, dans lesquelles j’ai publié 26 articles depuis 1998 (14 à Interspeech et 12 à ICASSP). Je suis également solicité comme relecteur tous les ans pour ces deux conférences.

Mémoires

"Transcription enrichie de documents dans un monde multilingue et multimodal" HDR, Université Grenoble I, Janvier 2007.

"Un modèle parallèle pour la reconnaissance automatique du locuteur" Thèse de doctorat, Université d’Avignon, Avril 1998.

Revues internationales avec comité (RI)

· "Time-frequency analysis of circumferential wave energy distribution for spherical shells. Application to sonar target recognition" P.Chevret, F.Magand, L. Besacier. Applied Signal Processing, Springer Verlag, (3). pp 136-142. 1996.

· "Subband approach for automatic-speaker recognition" L. Besacier, J.F. Bonastre. European Journal Signal Processing, n°80 (2000), Elsevier. Special Issue on Emerging Techniques for Communication Terminals. pp 1245-1259.

· "Localization and selection of speaker-specific information with statistical modeling" L. Besacier, J.F. Bonastre, C. Fredouille, Speech Communication, n°31 (2000), pp 89-106.

· "Overview of compression and packet loss effects in speech biometrics" L. Besacier, J.-F. Bonastre, P. Mayorga, C. Fredouille, S. Meignier, 2003 , IEE Proceedings Vision, Image & Signal Processing - Special issue on Biometrics on the Internet . Vol. 150, n°6, December 2003.

· "Voice biometrics over the Internet in the framework of COST action 275", L. Besacier, A. M. Ariyaeeinia, J. S. Mason, J.-F. Bonastre, P. Mayorga, C. Fredouille, S. Meignier, J. Siau, N. W. D. Evans, R. Auckenthaler, R. Stapert, EURASIP Journal on Signal Processing, Special issue on biometric signal processing. n°4, 1 April 2004. p 466-479.

· « Information Extraction From Sound for Medical Telemonitoring » D. Istrate, D.; Castelli, E.; Vacher, M.; Besacier, L.; Serignat, J.-F.. IEEE Transactions on Information Technology in Biomedicine. Volume: 10 Issue: 2 Date: April 2006. pp 264-274.

· « Step-by-step and Integrated approaches in broadcast news speaker diarization » Corinne Fredouille, Daniel Moraru; Sylvain Meignier, Jean-Francois Bonastre, Laurent Besacier. Computer Speech and Language Journal pp303-330, vol 20, Issues 2-3. April-July 2006. (Elsevier).

Revues nationales avec comité de lecture (RN)

"Système de télésurveillance sonore pour la détection des situations de détresse" Dan Istrate, M. Vacher, J. F. Serignat, L. Besacier, E. Castelli. ITBM-RBM (Elsevier) Revue Européenne de Technologie Biomédicale. 2006.

Chapitre de livre avec comité de lecture (CL)

· "Subband approach for automatic-speaker recognition : optimal division of the frequency domain" L. Besacier, J.F. Bonastre. Audio and Video Biometric Person Authentication. Bigun & al. eds. Lectures Notes in Computer Science 1206 (Springer Verlag), pp 195-202 / ISBN 3-540-62660-3.

· « Speech Coding and Packet Loss Effects on Speech and Speaker Recognition » L. Besacier. In Automatic Speech Recognition on Mobile Devices and over Communication Networks. Z.-H. Tan and B. Lindberg (Eds.). Springer-Verlag, London, 2008, ISBN: 978-1-84800-142-8.

Conférences et Workshops internationaux avec comité de lecture (CI,WI)

2008

« The LIG Arabic / English Speech Translation System à IWSLT08 » L. Besacier, A. Ben-Youcef, H. Blanchon, IWSLT08. Hawai. USA. October 2008

-« Improving Pronunciation Modeling for Non-Native Speech Recognition » Tien-Ping Tan, Laurent Besacier, Interspeech 2008. Brisbane, Australia, September 2008.

-« Feature adaptation of hearing-impaired lip shapes: the vowel case in the Cued Speech context. » . Aboutabit, D. Beautemps, O. Mathieu, L. Besacier. Interspeech 2008. Brisbane, Australia, September 2008.

-« Word/Sub-word lattices decomposition and combination for Speech Recognition » V-B. Le, S. Seng, L. Besacier, B. Bigi. IEEE ICASSP 2008. Las Vegas, USA, 2008

-« First Broadcast News Transcription System for Khmer Language », S. Seng, S. Sam, L. Besacier, B. Bigi, E. Castelli. Proc. LREC 2008, Marrakech, 2008

-« WHICH UNITS FOR ACOUSTIC AND LANGUAGE MODELING FOR KHMER AUTOMATIC SPEECH RECOGNITION? », Sopheap Seng, Sethserey Sam, Viet-Bac Le, Brigitte Bigi, Laurent Besacier. 1st International Conference on Spoken Language Processing for Under-resourced languages (SLTU’2008). Hanoi, Vietnam, May 2008.

-« RECENT ADVANCES IN AUTOMATIC SPEECH RECOGNITION FOR VIETNAMESE », Viet-Bac Le, Laurent Besacier, Sopheap Seng, Brigitte Bigi, Thi-Ngoc-Diep Do. 1st International Conference on Spoken Language Processing for Under-resourced languages (SLTU’2008). Hanoi, Vietnam, May 2008.

2007

« The LIG Arabic / English Speech Translation System à IWSLT07 » L. Besacier, A. Mahdhaoui, V-B Le, IWSLT07. Trento. Italy. October 2007

« Automatic question detection: prosodic-lexical features and crosslingual experiments » V-M Quang, L. Besacier, E. Castelli, INTERSPEECH 2007. Antwerp. Belgium. August 2007.

« Modeling Context and Language Variation for Non-Native Speech Recognition » T-P Tan, L. Besacier, INTERSPEECH 2007. Antwerp. Belgium. August 2007.

« A HMM recognition of consonant-vowel syllables from lip contours: the Cued Speech case » N. Aboutabit, D. Beautemps, J. Clarke, L. Besacier, INTERSPEECH 2007. Antwerp. Belgium. August 2007.

« Automatic identification of vowels in the Cued Speech context » , Noureddine Aboutabit, Denis Beautemps, Laurent Besacier, Proc. AVSP (International Conference on Auditory-Visual Speech Processing), Hilvarenbeek (The Netherlands). September 2007.

« ON EFFICIENT COUPLING OF ASR AND SMT FOR SPEECH TRANSLATION» Bowen Zhou, Laurent Besacier and Yuqing Gao. Proceedings IEEE ICASSP 2007. Hawai, USA. April 2007.

« ACOUSTIC MODEL INTERPOLATION FOR NON-NATIVE SPEECH RECOGNITION» Tien-Ping Tan, Laurent Besacier. IEEE ICASSP 2007. Hawai, USA. April 2007.

« TELMA: Telephony for the Hearing-Impaired People, From Models to User Tests » Beautemps, D., Girin, L., Aboutabit, N., Bailly, G., Besacier, L., Breton, G., Burger, T., Caplier, A., Cathiard, M.A., Chêne, D., Clarke, J., Elisei, F., Govokhina, O., Le, V.B., Marthouret, M., Mancini, S., Mathieu, Y., Perret, P., Rivet, B., Sacher, P., Savariaux, C., Schmerber, S., Sérignat, J.F., Tribout, M., Vidal, S., 2007. Proc. ASSISTH’2007. pp. 201–208, 2007.

2006

« Towards speech translation of non written languages» Laurent Besacier, Bowen Zhou, Yuqing Gao. IEEE / ACL SLT 2006. Aruba, December 2006.

« IBM MASTOR SYSTEM: Multilingual Automatic Speech-to-Speech Translator » Yuqing Gao, Gu Liang, Bowen Zhou, Ruhi Sarikaya, Mohamed Afify, Hong-Kwang Kuo, Wei-zhong Zhu, Yonggang Deng, Charles Prosser, Wei Zhang and Laurent Besacier, First International Workshop on Medical Speech Translation, in conjunction with NAACL/HLT 2006, New-York, USA. June 2006.

« Comparison of Acoustic Modeling Techniques for Vietnamese and Khmer ASR », Viet Bac Le, Laurent Besacier, Proc ICSLP 2006, Pittsburgh, USA, September 2006.

« ON THE USE OF MORPHOLOGICAL ANALYSIS FOR DIALECTAL ARABIC SPEECH RECOGNITION », Mohamed Afify, Ruhi Sarikaya, Hong-Kwang Jeff Kuo, Laurent Besacier, and Yuqing Gao, Proc ICSLP 2006, Pittsburgh, USA, September 2006.

« Characterisation of cued speech vowels fron the inner lip contour », N. Aboutabit, D. Beautemps, L. Besacier, Proc ICSLP 2006, Pittsburgh, USA, September 2006.

« ASR AND TRANSLATION FOR UNDER-RESOURCED LANGUAGES » L. Besacier, V-B. Le, C. Boitet, V. Berment. Proceedings IEEE ICASSP 2006. Toulouse, France. May 2006.

« ACOUSTIC-PHONETIC UNIT SIMILARITIES FOR CONTEXT DEPENDENT ACOUSTIC MODEL PORTABILITY » Viet Bac Le, Laurent Besacier, Tanja Schultz. IEEE ICASSP 2006. Toulouse, France. May 2006.

« HAND AND LIP DESYNCHRONIZATION ANALYSIS IN FRENCH CUED SPEECH: AUTOMATIC TEMPORAL SEGMENTATION OF HAND FLOW » Noureddine Aboutabit, Denis Beautemps, Laurent Besacier. IEEE ICASSP 2006. Toulouse, France. May 2006.

« A French Non-Native Corpus for Automatic Speech Recognition » Tien-Ping Tan, Laurent Besacier Proc LREC 2006. Genoa, Italy. May 2006.

2005

"First steps in fast acoustic modeling for a new target language. Application to Vietnamese" Viet-Bac Le, Laurent Besacier. Proceedings IEEE ICASSP 2005. Philadelphia, USA. April 2005.

"Audio, Video and Audio-Visual Signatures for Short Video Clip Detection: Experiments on Trecvid2003", Benjamin Senechal, Denis Pellerin, Laurent Besacier, Isabelle Simand, Stéphane Brès . Accepté à IEEE ICME (International Conference on Multimedia and Expo). Amsterdam. Holand. July 2005.

« A Speaker independent “Liveness” Test for Audio-Visual Biometrics », Nicolas Eveno, Laurent Besacier. Accepté à Eurospeech 2005. Lisbonne, Portugal. Septembre 2005.

« Speaker and Story Segmentation Using Audio-Video Information » D. Moraru, L. Besacier, G. Quenot, S. Ayache. Trends in Speech Technology. Proc. 3d Conference on Speech Technology and Human Computer Dialog. ISBN 973-27-1178-7. Cluj-Napoca, Roumania, May 13-14, 2005.

« NIST RT05S Evaluation : Pre-Processing Techniques and Speaker Diarization on Multiple Microphone Meetings » Dan Istrate, Corinne Fredouille, Sylvain Meignier, Laurent Besacier, and Jean Francois Bonastre. Proc. RT05S Workshop. July 2005.

2004

-« Speaker Diarization in the ELISA Consortium over the last 4 years », D. Moraru, L. Besacier, S. Meignier, C. Fredouille, JF Bonastre, RT2004 Fall Workshop. November 2004.

« Video Story Segmentation with Multi-Modal Features: Experiments on TRECvid 2003 », L. Besacier, G. Quenot, S. Ayache, D. Moraru, 6th ACM SIGMM International Workshop on Multimedia Information Retrieval, October 15-16, 2004, New York, NY USA.

« The NIST 2004 spring rich transcription evaluation : two-axis merging strategy in the context of multiple distance microphone based meeting speaker segmentation », C. Fredouille, D. Moraru, S. Meignier, L. Besacier, J.-F. Bonastre, RT2004 Spring Meeting Recognition Workshop, May 17, 2004.

“Benefit of prior acoustic segmentation for speaker segmentation systems” S. Meignier, D. Moraru, C. Fredouille, L. Besacier, and J.-F. Bonastre, International Conference on Acoustics Speech & Signal Processing (ICASSP), Montreal, Canada, May 2004.

“The ELISA consortium approaches in Broadcast News speaker segmentation during the NIST 2003 Rich Transcription evaluation”. D. Moraru, S. Meignier, C. Fredouille, L. Besacier, and J.-F. Bonastre, International Conference on Acoustics Speech & Signal Processing (ICASSP), Montreal, Canada, May 2004.

“Using a priori information for speaker diarization”, Daniel Moraru, Laurent Besacier, Eric Castelli Proc. Odyssee 2004, The Speaker and Language Recognition Workshop, Toledo, Spain, 31 May-4 June, 2004.

"ELISA Nist RT03 Broadcast News Speaker Diarization Experiments" Daniel Moraru, Sylvain Meignier, Corinne Fredouille, Laurent Besacier, Jean-François Bonastre, Proc. Odyssee 2004, The Speaker and Language Recognition Workshop, Toledo, Spain, 31 May-4 June, 2004.

"SPOKEN AND WRITTEN LANGUAGE RESOURCES FOR VIETNAMESE" Viet-Bac Le , Do-Dat Tran, Eric Castelli, Laurent Besacier, Jean-François Serignat, Proc. LREC2004, Lisbonne, Portugal. 2004

« Spoken Dialogue Translation Systems Evaluation: Results, New Trends, Problems and Proposals » Hervé Blanchon, Christian Boitet, Laurent Besacier. Proc. IWSLT 2004 (ICLSP 2004 Satellite Workshop). Kyoto, Japan. September 30 - October 1, 2004. vol. 1/1: pp. 95-102.

2003

"AUDIO PACKET LOSS OVER IP AND SPEECH RECOGNITION ", Pedro Mayorga, Laurent Besacier, Richard Lamy and Jean-Francois Serignat, ASRU 2003 (Automatic Speech recognition & Understanding), Virgin Islands, USA, Dec 2003.

"Using the Web for fast language model construction in minority languages" Viet Bac LE, Brigitte BIGI, Laurent BESACIER, Eric CASTELLI, Eurospeech 2003, Geneva, 1-4 Sept. 2003.

"The NESPOLE! VoIP Multilingual Corpora in Tourism and Medical Domains" Nadia Mana, Susanne Burger, Roldano Cattoni, Laurent Besacier, Victoria MacLaren, John McDonough, Florian Metze, Eurospeech 2003, Geneva, 1-4 Sept. 2003.

"Smart Audio Sensor for Telemedicine" Michel Vacher, Dan Istrate, Laurent Besacier, Eric Castelli, Jean-Francois Serignat, Smarts Objects Conference (SOC) 2003, 15-17 May, Grenoble, France.

-"The ELISA consortium approaches in speaker segmentation during the NIST 2002 speaker recognition evaluation", D. Moraru, S. Meignier, L. Besacier, J-F Bonastre, I. Magrin-Chagnolleau. Accepted to International Conference on Acoustics Speech & Signal Processing (ICASSP), Honk-Kong, China, May 2003.

-"Towards Conversational Model for Speaker Segmentation", D. Moraru, L. Besacier, "Speech Technology & Human-Computer Dialogue", Bucharest, April 10-11, 2003, ISBN 973-27-0963-4.

"HABITAT TELEMONITORING SYSTEM BASED ON THE SOUND SURVEILLANCE" Eric Castelli, Michel Vacher, Dan Istrate, Laurent Besacier, Jean-Francois Serignat, ICICTH (International Conference on Information Communication Technologies in Health), 11-13 July 2003, Samos Island, Greece.

"Non-linear acoustical pre-processing for multiple sampling rates ASR and ASR in noisy condition", Richard LAMY, Laurent BESACIER, worshop NOLISP 03, Le Croisic, France, 20-23 mai 2003.

“CLIPS at TRECvid: Shot Boundary Detection and Feature Detection”, Georges M. Quénot, Daniel Moraru, Laurent Besacier, 12th Text Retrieval Conference, Gaithersburg, MD, USA, 2003.

2002

METHODOLOGY FOR EVALUATING SPEAKER VERIFICATION ROBUSTNESS OVER IP NETWORKS L. Besacier, P. Mayorga, J.F. Bonastre, C. Fredouille, Proceedings of the COST275 Workshop on The Advent of Biometrics on the Internet, Rome, Nov 2002, ISBN 92-894-4848-2

"CLIPS-IMAG at TREC-11 : Experiments in Video Retrieval", Georges M. Quénot, Daniel Moraru, Laurent Besacier, and Philippe Mulhem , 11th Text Retrieval Conference, Gaithersburg, MD, USA, 19-22 November, 2002.

S. Rossato, H. Blanchon, L. Besacier “Speech-to-speech translation system evaluation : results for French for the Nespole! Project first showcase”, Proc ICSLP2002, Denver, USA, Sept 2002.

P. Mayorga-Ortiz, R. Lamy, L. Besacier “Recovering of packet loss for distributed speech recognition”, Proc. Eusipco 2002, Toulouse, France, Sept. 2002.

The Nespole Project Consortium : A. Lavie, F. Metze, R. Cattoni, E. Costantini, S. Burger, D. Gates, C. Langley, K.Laskowski, L. Levin, K. Peterson, T. Schultz, A. Waibel, D. Wallace, J. MacDonough, H. Soltau, G. Lazzari, N. Mana, F. Pianesi, E. Pianta, L. Besacier, H. Blanchon, D. Vaufreydaz “A Multi-Perspective Evaluation of the Nespole! Speech-to-Speech Translation System”, Proc. ACL2002 Workshop on Speech-to-Speech Translation : Algorithms and Systems, Philadelphia, PA, July 7-12 2002

The Nespole Project Consortium “The NESPOLE! Speech-to-Speech Translation System”, Proc HLT (Human Language Technologies) 2002, San-Diego, CA

The Nespole Project Consortium “Enhancing the Usability and Performance of NESPOLE! - a Real-World Speech-to-Speech Translation System”, Proc HLT (Human Language Technologies) 2002, San-Diego, CA

2001

D. Vaufreydaz, L. Besacier , C. Bergamini, R. Lamy, “From generic to task-oriented speech recognition: French experience in the NESPOLE! European project", presented at ITRW Workshop on Adaptation Methods for Speech Recognition, Sophia-Antipolis, France 29-30 August, 2001,

L. Besacier, H. Blanchon, Y. Fouquet, J.P. Guilbaud, S. Helme, S. Mazenot, D. Moraru, D. Vaufreydaz "Speech Translation for French in the NESPOLE! European Project", Eurospeech 2001, Aalborg, Danemark, September 2001.

S. Burger, L. Besacier, P. Coletti, F. Metze, C. Morel "The NESPOLE! VoIP Dialogue Database", Eurospeech 2001, Aalborg, Danemark, September 2001.

L. Besacier , C. Bergamini, D. Vaufreydaz, E. Castelli "THE EFFECT OF SPEECH AND AUDIO COMPRESSION ON SPEECH RECOGNITION PERFORMANCE " IEEE Multimedia Signal Processing Workshop, Cannes, France, October 2001.

2000

D. Vaufreydaz, C. Bergamini, J. F. Serignat, L. Besacier and M. Akbar, “A New Methodology for Speech Corpora Definition from Internet Documents,” presented at LREC'2000, 2nd International Conference on Language Ressources and Evaluation, Athens, Greece, 31 May-2 June, 2000, I, pp.423-426.

"GSM Speech Coding and Speaker Recognition,” L. Besacier, S. Grassi, A. Dufaux, M. Ansorge and F. Pellandini, presented at ICASSP 2000, Istambul, Turkey, 5-9 june, 2000 .

"INFLUENCE OF GSM SPEECH CODING ON THE PERFORMANCE OF TEXT-INDEPENDENT SPEAKER RECOGNITION" S. Grassi, L. Besacier, A. Dufaux, M. Ansorge, and F. Pellandini.EUSIPCO 2000, Tampere, Finland, Sept. 4-8, 2000

"AUTOMATIC SOUND DETECTION AND RECOGNITION FOR NOISY ENVIRONMENT", Alain Dufaux, Laurent Besacier, Michael Ansorge, and Fausto Pellandini, EUSIPCO 2000, Tampere, Finland, Sept. 4-8, 2000

"SPEAKER RECOGNITION ON COMPRESSED SPEECH" S. Grassi , A. Dufaux , L. Besacier , M. Ansorge , F. Pellandini, Workshop on friendly exchanging through the net, Bordeaux (France), March 22-24, 2000.

1999

"Experimental Evaluation of Text-independent Speaker Verification on Laboratory and Field Test Databases in the M2VTS project" L. Besacier, J. Luettin, G. Maître, E. Meurville. Eurospeech 99. Budapest, Hungary. 5-9 September 99.

"Automatic Sound Recognition relying on statistical methods, with application to telesurveillance". L. Besacier, A. Dufaux, M. Ansorge, and F. Pellandini. International Workshop on Intelligent Communication Technologies and Applications, with emphasis on mobile communications. Neuchâtel, Switzerland. May, 5-7, 1999.

"Influence of GSM speech coding algorithms on text-independent speaker identification performance". S. Grassi, L. Besacier, A. Dufaux, M. Ansorge, F. Pellandini. International Workshop on Intelligent Communication Technologies and Applications, with emphasis on mobile communications. Neuchâtel, Switzerland. May, 5-7, 1999.

"Multi Modal Verification for Teleservices and Security Applications (M2VTS)" G. Richard, Y. Menguy, I. Guis, N. Suaudeau, J. Boudy, P. Lockwood, C. Fernandez, F. Fernández, C. Kotropoulos, I. Pitas, R. Heimgartner, P. Ryser, C. Beumier, S. Pigeon, G. Matas, J. Kittler, J. Bigün, Y. Abdeljaoued, E. Meurville, L. Besacier , G.Maitre, J. Luettin, S. Ben-Yacoub B. Ruiz. In Proc. IEEE Conference on Multimedia Computing and Systems’99. Florence, Italy, 7-11 June 1999.

"Automatic Detection and Classification of Wideband Acoustic Signals" A. Dufaux, L. Besacier, M. Ansorge, F. Pellandini. Joint 137th meeting of the Acoustical Society of America and Forum Acusticum 99. Berlin, Germany. 14-19 March, 1999.

1998

"Frame Pruning for Speaker Recognition". L. Besacier, J.F. Bonastre. Proc. IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), 12-15 May 1998. Seattle (USA).

"Time and frequency pruning for speaker identification". L. Besacier. Proc 14th International Conference on Pattern Recognition (ICPR), 16-20 August 1998. Brisbane (Australia).

"Frame Pruning for Speaker Recognition". L. Besacier, J.F. Bonastre. Proc. Eusipco, 8-11 September 1998. Rhodes (Greece).

"Time and frequency pruning for speaker identification" L. Besacier, J.F. Bonastre. Proc. on Speaker Recognition and its Commercial and Forensic Applications (RLA2C), 20-23 April, 1998. Avignon (France).

1997

"Independent processing and recombination of partial frequency bands for automatic speaker recognition" L. Besacier, J.F. Bonastre. Fourteenth Internationnal Conference on Speech Processing. IEEE Korea Council, IEEE Korea Signal Processing Society, Seoul, Korea, August 26-28, 1997.

"Subband architecture for automatic speaker recognition on partially corrupted speech" L. Besacier, J.F. Bonastre. COST 254 Workshop on emerging techniques for communication terminals. Toulouse, France. 7-9 July 1997.

1995

"Time frequency analysis of Stoneley wave energy distribution for spherical and cylindrical shells. Application to sonar target recognition." P.Chevret, F.Magand, L. Besacier, . UK Symposium on applications of time-frequency and time-scale methods. pp 233-240. Coventry, UK, 30-31 Aout 1995.

Congres nationaux avec comité de lecture (CN)

· « Reconnaissance automatique de la parole en langue khmère : quelles unités pour la modélisation du langage et la modélisation acoustique? » Sopheap Seng , Sethserey Sam, Viet-Bac Le, Brigitte Bigi , Laurent Besacier. JEP/TALN 2008. Avignon, France. Juin 2008.

· « Modélisation acoustique multilingue pour la reconnaissance automatique de la parole non native » T-P Tan, L. Besacier. JEP/TALN 2008. Avignon, France. Juin 2008.

· « Adaptation de la production labiale d'un participant sourd et classification : le cas des voyelles en contexte du code LPC », Aboutabit, D. Beautemps, O. Mathieu, L. Besacier. JEP/TALN 2008. Avignon, France. Juin 2008.

· « Reconnaissance Automatique de la Parole pour des Langues peu Dotées : Application au Vietnamien et au Khmer » L. Besacier , V.-B. Le , E. Castelli, S. Sethserey , L. Protin , TALN 2005 – Atelier TALN et langues mal dotées. Dourdan, France. Juin 2005.

· "Premiers pas du CLIPS sur les données d’évaluation ESTER", R. Lamy, D. Moraru, B. Bigi, L. Besacier, JEP 2004, Fès, Maroc, Avril 2004

· "Segmentation selon le locuteur: les activités du Consortium ELISA dans le cadre de Nist RT03", D. Moraru, S. Meignier, C. Fredouille, L. Besacier, J-F Bonastre, JEP 2004, Fès, Maroc, Avril 2004

· Vu Minh, Q., Besacier, L., Castelli, E., Bigi, B., and Blanchon, H.. (2004). Interchange format-based language model for automatic speech recognintion in speech-to-speech translation. Proc. RIVF'04 (Recherche Informatique Vietnam-Francophonie). To be published in a special issue of Studia Informatica Universalis [Suger Editor]. February 2-5, 2004. vol. 1/1: pp. 47-50.

· Hervé Blanchon, Laurent Besacier « Traduction de dialogue: résultats du projet NESPOLE! et pistes pour le domaine » TALN 2004, Session Poster, Fès, 19-21 avril 2004.

· Quang Vu-minh, Laurent Besacier, Hervé Blanchon, Brigitte Bigi « Modèle de langage sémantique pour la reconnaissance automatique de parole dans un contexte de traduction » TALN 2004, Session Poster, Fès, 19-21 avril 2004.

· D. Moraru, L. Besacier « Segmentation en locuteurs de conversations sur IP », XXIVèmes Journées d’Etude sur la Parole, Nancy, Juin 2002.

· R. Lamy, L. Besacier “Adaptation spectrale par quantification vectorielle : exemple de la RAP à fréquences d’échantillonnage multiples”, XXIVèmes Journées d’Etude sur la Parole, Nancy, Juin 2002.

· S. Rossato, H. Blanchon, L. Besacier “Évaluation du premier démonstrateur de traduction de parole dans le cadre du projet NESPOLE!”, Congrès TALN (Traitement Automatique du Langage Naturel), Nancy, Juin 2002.

· "Système d'élagage temps-fréquence pour l'identification du locuteur" L. Besacier, J.F. Bonastre. 22èmes Journées d'Etude sur la Parole. Martigny, Suisse. 15-19 Juin 1998.

· "Architecture en sous-bandes pour la reconnaissance automatique du locuteur en milieu bruite" L. Besacier, J.F. Bonastre, C. Fredouille. Proc. RFIA 98. Clermont-Ferrand, France. 20-22 Janvier 1998.

· " Traitement indépendant de sous-bandes fréquentielles par des méthodes statistiques du second ordre pour la reconnaissance automatique du locuteur. " L. Besacier, J.F. Bonastre. 4th French Congress on Acoustics. Marseille, France, 14-18 April 1997.

· "Caractéristiques individuelles de la durée vocalique intrinsèque en français lu; une étude pilote. " D. Duez, L. Besacier. 4th French Congress on Acoustics. Marseille, France, 14-18 April 1997.

retour

Prix / Distinctions

-Vainqueur (meilleur système) des évaluations NIST 2002 sur la segmentation automatique en locuteurs (données meeting)[17],

-Vainqueur (meilleur système) lors de l’évaluation du projet DARPA/TRANSTAC 2006 de traduction automatique de parole arabe-anglais[18],

-Finaliste du Star Challenge 2008 (recherche d’information par le contenu dans les documents vidéos), pour plus de détails voir http://www.liglab.fr/spip.php?article319

retour

Séminaires invités

-Séminaire invité à l’Ecole Recherche Multimodale d'Information Techniques & Sciences (ERMITES 2008), Presqu’île de Giens, Septembre 2008.

-EPFL Lausanne, journées « Images et Sons », Lausanne, Juin 2008.

-INRIA Rhône-Alpes, séminaires IN'Tech : Mining Multimedia Data. Grenoble, 19 Juin 2008.

-Institut des Sciences de l’Homme, Laboratoire Dynamique du Langage, Lyon, Mars 2008.

-Journée AFCP « TALP et langues peu dotées », Grenoble, 2007.

-IBM Watson Research Center, NY, USA, 2006.

-Institut de la Communication Parlée (ICP), 2003.

-Journees de l'ATALA sur la traduction automatique, 2001.

-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), 1998.

-Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), 1998.

-Center for Language and Communication Studies - Trinity College – Dublin, 1997.

retour

[1] Ecole Doctorale Electronique, Electrotechnique, Automatique & Traitement du Signal (EEATS)

[2] Ecole Doctorale Mathématique et Informatique (EDMI)

[3] Ecole Doctorale Mathématique, Sciences et Technologies de l’Information, Informatique (MSTII qui succède à EDMI)

[4] DEA (ou MASTER-R) Signal, Image, Parole, Telecom de l’INPG

[5] DEA (ou MASTER-R) Informatique, Université J. Fourier

[6] MASTER-R Ingénierie de la Communication Personne-Système de l’Université Pierre Mendès-France

[7] MASTER-R Industrie des Langues, Université Stendhal, Grenoble 3

[8] C. Nguyen est enseignant-chercheur à l’Institut Polytechnique de Hanoï (Viet-Nam)

[9] D. Vaufreydaz est enseignant-chercheur à l’Université Pierre Mendes-France (Grenoble II)

[10] D. Istrate est enseignant-chercheur à l’ESIGETEL (Fontainebleau)

[11] D. Moraru est ingenieur de recherche chez FreeScale (ex : Motorola)

[12] P. Mayorga est enseignant-chercheur à l’Université de Mexicali (Mexique)

[14] Les deux conférences annuelles de référence, dans mon domaine, sont Interspeech et ICASSP.

[18] pendant mon séjour dans l’équipe Speech-to-speech translation d’IBM Watson Research Center