Vous êtes iciUNIL > Recherche > Présentation générale > Archives > Projets de pointe (2000-2003) > Synthèse de la parole

Synthèse de la parole

SITE WEB: www.unil.ch/sli
Université de Lausanne
Faculté des lettres
Section des sciences du langage et de l'information
UNIL - Dorigny
Anthropole - bureau 4096
CH-1015 Lausanne

Tél.: ++41 021 692 29 73
Fax: ++41 021 692 29 15

Présentation

Collaborateurs

Le Laboratoire d'analyse informatique de la parole (LAIP) est formé d'un noyau central de quatre scientifiques qui ont fait de la synthèse de la parole leur orientation de recherche principale: le Professeur Eric Keller, fondateur et directeur du laboratoire depuis 1991, ainsi que ses proches collaborateurs: Brigitte Zellner Keller, Hans Buchmann et Beat Siebenhaar-Rölli.

Objectifs

Le LAIP poursuit comme objectif premier le développement d'une méthode de synthèse de la parole complète en français et en allemand, commercialement viable. Ce travail est fondé principalement sur des évidences psycholinguistiques et phonétiques, et se découpe en deux éléments principaux.

Travaux en modélisation informatique des aspects phonétiques de la parole

La base de toute synthèse de la parole est la création d'une structure sonore (c'est-à-dire d'un signal) incorporant l'ensemble des caractéristiques acoustiques de la parole. La plupart des systèmes en utilisation courante emploient une technique relativement simple de concaténation (enchaînement de segments de signaux pré-stockés). La limite essentielle de ces systèmes est que chaque voix requiert la construction d'une nouvelle base de données.

Au LAIP, nous construisons actuellement un système de sonorisation basée sur une abstraction mathématique de l'information sonore de la parole. A terme, ce système permettra de créer un grand nombre de voix à partir d'une seule base de données. Ceci aura pour effet d'augmenter considérablement la flexibilité des applications de synthèse.

Travaux en modélisation informatique de la prosodie

Si la parole peut être comparée à un bâtiment, les sons phonétiques en constituent les blocs de construction, et la prosodie correspond à son design architectural. La prosodie inclut, parmi d'autres aspects, l'organisation temporelle (le "timing", le rythme et la fluence), ainsi que l'organisation mélodique (l'intonation).

Au LAIP, nous avons exploré divers modèles statistiques pour le contrôle de l'organisation temporelle et de la fréquence fondamentale du français. Certains de ces modèles sont incorporés dans notre prototype de synthèse de la parole (LAIPTTS). Nous étendons actuellement ce travail à différents styles de parole du français, ainsi qu'à l'allemand et à la reconstruction du latin oral. A terme, nous nous attendons à pouvoir exercer un contrôle nettement plus précis sur les aspects prosodiques de la synthèse de la parole, ce qui augmentera considérablement son rayon d'applications possibles.

Recherche fondamentale vs. recherche appliquée

Notre laboratoire s'occupe avant tout de recherche fondamentale. Ce choix est délibéré. Il est fondé sur l'idée que les laboratoires universitaires ne peuvent jamais entrer en compétition avec l'industrie privée. La responsabilité du personnel publiquement subventionné est de fournir la compréhension, les perspectives et les fondements facilitant en premier lieu le progrès scientifique et technologique. Il n'est pas admissible (ni même légal) pour une institution publique de fournir des produits concurrençant ceux produits par l'industrie. Par conséquent, notre laboratoire est concerné par:

  • l'exploration des possibilités offertes par les méthodes mathématiques et computationnelles pour l'amélioration de la reproduction simulée de la parole humaine,
  • la production d'une série de prototypes illustrant l'application potentielle de ces techniques,
  • l'exploration du potentiel de ces développements pour la compréhension de la parole et du langage humain, dans les civilisations actuelles et passées, ainsi que dans le cadre des interactions humaines,
  • l'offre d'interactions collaboratives avec des industries suisses, européennes ou mondiales pour l'exploitation des technologies conçues et développées dans notre laboratoire.

L'objectif de cette recherche est donc avant tout scientifique, et seulement secondairement technologique. Par la création de moyens de plus en plus précis et accessibles pour la reproduction artificielle de la parole humaine, nous souhaitons permettre à un nombre croissant de scientifiques non spécialisés de l'expérimenter dans le cadre de leurs travaux portant sur la communication, le langage et les dysfonctions linguistiques.

Si certaines de ces expériences incitent le développement de nouvelles applications commerciales, nous sommes également ouverts à des interactions avec des développeurs commerciaux, par exemple, dans le contexte de licences commerciales pour les technologies développées dans notre laboratoire.

Activités 1991-2000

Durant les neuf premières années d'existence de notre laboratoire, nous avons:

  • exploré les limites et les contraintes de la synthèse articulatoire,
  • exploré les possibilités de la synthèse par formants, selon l'approche développée par John Local (Department of Language and Linguistic Science, York University, UK) et Ken Stevens (Research Laboratory of Electronics, Massachusetts Institute of Technology, USA),
  • implanté une première version d'un synthétiseur par formants (y compris des adaptations au synthétiseur de Klatt permettant la génération de voyelles nasales, ainsi que le support informatique associé),
  • implanté un prototype initial d'un modèle harmoniques-et-bruit pour la génération du signal en synthèse de la parole,
  • effectué des analyses lexicales et syntaxiques pour un algorithme simple de prédiction des effects prosodiques principaux en français et en allemand,
  • documenté de manière détaillée les effets qualitatifs et quantitatifs de la variation lent-rapide en parole lue française,
  • extrait et préparé des bases lexicales et syntaxiques en français et en allemand,
  • créé un ensemble de 520 règles graphémo-phonétiques pour le français,
  • résumé la littérature et les algorithmes pertinents en appui des règles phonotactiques du français,
  • créé, enregistré, et segmenté un corpus de 280 phrases (parole rapide, moyenne et lente) incorporant 98.5% des transitions phonémiques du français,
  • participé dans des contracts avec British Telecom et Swisscom.

Activités 1991-2000

Des rapports sur ces activités ont été présentés à un grand nombre de réunions internationales. De nombreux articles ont été publiés, deux livres et un manuel ont été édités et publiés.

Le LAIP a participé à l'action européenne COST 233 (1993-1997), et il assume actuellement la direction et le secrétariat de l'action COST 258 (1998-2001).

TOP ^

Recherche:
 dans ce site:
   
   
 Go
 
rss/atom
twitter  youtube  linkedin  itunes 

Archives 2000-2003

Les archives du site de la Recherche à l'UNIL
© fotokalle - Fotolia.com

Unicentre  -  CH-1015 Lausanne  - Suisse  -  Tél. +41 21 69211 11  -  Fax +41 21 69226 15
Swiss University