247 (1997/3) Les défis actuels en synthèse de la parole - Edité par Eric Keller et Brigitte Zellner

SOMMAIRE

Eric KELLER, Brigitte ZELLNER - Les défis actuels en synthèse de la parole (p. 3-8)

Eric KELLER - Les théories de la parole dans l’éprouvette de la synthèse (p. 9-28)

La synthèse de la parole ne se résume pas à l'inversion des résultats de l'analyse phonologique et phonétique de la parole. Les préoccupations traditionnelles de la phonologie sont orientées vers les fonctions communicative et distinctive, ainsi que vers l'établissement de structures et universels. Parallèlement, les préoccupations traditionnelles des sciences phonétiques concernent les mécanismes de production de la parole, ainsi que les concepts physiques et psychologiques permettant de comprendre la création, la transmission, la perception et la compréhension de la parole. Ces informations ont une importance indéniable pour la synthèse de la parole. Cependant, des informations supplémentaires sont requises pour recréer une parole naturelle, caractérisée par la pleine panoplie de marques typiques d'un individu particulier, fonctionnant dans une communauté linguistique spécifique. Un survol rapide des tentatives de créer une synthèse de la parole durant le dernier demi-siècle nous révèle que les réussites, tout comme les défaillances, des synthèses existantes sont directement liées aux préoccupations traditionnelles en analyse linguistique et phonétique de la parole. Certaines perspectives prometteuses pour l'exploration des connaissances manquantes sont discutées, ainsi que les conséquences plus générales de ces considérations pour l'épistémologie de notre domaine.

John LOCAL - Ce qu’on peut faire pour la synthèse de la parole avec un peu plus de prosodie et une meilleure qualité du signal (p. 29-46)

Cet article propose d'aborder, de manière assez personnelle, certaines observations faites à partir de données prises dans un corpus de langue parlée pour modéliser le détail phonétique et l'information prosodique requise en synthèse de la parole. L'auteur conclut que pour améliorer la qualité actuelle de la synthèse, nous devons trouver un moyen de modéliser la «cohésion acoustique» (Hawkins & Slater, 1994) et la variabilité systématique qui caractérisent la parole naturelle et spontanée. Deux questions fondamentales sont soulevées: i. la détermination de l'étendue sur laquelle on peut modéliser les différents paramètres et ii. la formulation des interactions et interdépendances exactes entre les différents composants du ou des modèles.

Brigitte ZELLNER - La fluidité en synthèse de la parole (p. 47-78)

En français, peu de travaux ont jusqu'à présent été consacrés à la dynamique temporelle de la parole. Il sera montré dans cet article en quoi cette dimension appartient à la fluence verbale et doit être prise en compte dans la modélisation de la prosodie. La démonstration empirique de l'importance de cette dimension peut être faite en synthèse de la parole. Différentes approches seront présentées dans leur capacité à bien prédire la structure temporelle des énoncés pour un synthétiseur. Les résultats seront ensuite discutés et permettront de reconsidérer la relation entre structure temporelle et structure mélodique pour le français.

Stefan WERNER - La modélisation de l’intonation pour la synthèse de la parole (p. 79-102)

Cet article présente une revue des méthodologies les plus importantes dans le domaine de la modélisation de l'intonation de la parole. De plus, il illustre l'utilisation d'un modèle particulier pour la synthèse du français. Les caractéristiques principales des quatre approches de prédiction de la mélodie (Pierrehumbert, IPO, ICP et INTSINT) sont décrits et sont comparés à l'algorithme de Fujisaki. Ce dernier est examiné plus en détail. Après une discussion des suppositions de base générales, son application au français est illustrée à l'aide d'un exemple.

Geneviève CAELEN-HAUMONT, Eric KELLER - La prosodie, de la parole à la synthèse: l’apport de la sémantique et de la pragmatique (p. 103-130)

Dans le discours, les fonctions sémantique et pragmatique de la prosodie semblent essentielles. En fonction du type de signifié, de sa relation à l'auditeur et à la situation du discours, le locuteur se fait une représentation de l'importance à accorder au sens véhiculé par telle ou telle unité lexicale. C'est ce que nous appelons la fonction d'auto-interprétation. Pour le locuteur, cela peut signifier qu'un mot peut avoir plus d'importance qu'un autre, et dans ce cas ce mot recouvre à lui seul la notion essentielle (la hauteur mélodique est alors maximale), soit au contraire il en a moins, et alors la notion a besoin d'être fragmentée en plusieurs mots pour se communiquer. Dans le transfert du sens vers autrui, ceci a pour effet d'instaurer une hiérarchisation des mots en fonction de leur capacité à exprimer au plus juste et au plus bref, le concept du locuteur à transmettre. Un système de synthèse performante doit capter ces relations s'il aspire à transmettre correctement à un auditeur les sens d'un énoncé dans un contexte donné.
Cet article se propose de recenser l'intrication des fonctions sémantique et pragmatique de la prosodie et, en illustrant ces propos à partir d'un corpus de lecture et d'un corpus de parole spontanée, de montrer comment le faire-croire prosodique en passant d'un statut purement syntaxique, transite vers un statut sémantique en traitant un sens plus subjectif, puis vers un statut pragmatique lorsque la communication est clairement centrée vers l'allocutaire. Le statut de la prosodie est finalement traduit sur une échelle allant de la fonction pragmatique minimale à la fonction pragmatique maximale. L'implantation informatique de ces concepts procéderait en deux étapes, la première étant chargée des modifications acoustiques dues à la prosodie, et la deuxième étant responsable de la génération des marques prosodiques en fonction des états sémantiques, pragmatiques et affectifs présents dans l'énoncé.

TOP ^