La complexité des signaux acoustiques de la parole
Par
auteur
Mamady Nabé
Docteur en informatique, Université Grenoble Alpes (UGA)
Déclaration d’intérêts
Mamady Nabé a reçu des financements du ministère de l’enseignement supérieur et de la recherche.
Partenaires
Université Grenoble Alpes (UGA) dans The Conversation
Lorsqu’on lit la phrase « Il est parti au travail », nous distinguons clairement les différents mots qui la constituent, car ils sont séparés par un espace. Mais si, au lieu de lire, on entend la même phrase prononcée par quelqu’un, les différentes parties que l’on nomme les « unités linguistiques discrètes », comme les mots ou les syllabes, ne sont pas aussi directement et facilement accessibles. En effet, ce qui parvient à l’oreille de l’auditeur, le « signal de parole », n’est pas organisé par unités discrètes et bien distinctes, mais plutôt comme un flot continu et ininterrompu. Comment donc transformons-nous ce signal continu en des unités linguistiques distinctes ? C’est cette question, qui anime depuis plusieurs décennies nombre de travaux de recherche sur la perception de la parole, que nous abordons dans un modèle mathématique original, présenté récemment dans le journal Frontiers in Systems Neuroscience.
Dans la littérature, il existe deux grandes classes de modèles de perception de la parole. Les modèles de la première catégorie, comme TRACE, le modèle classique du domaine, considèrent que la segmentation de la parole se fait tout naturellement avec le décodage du contenu acoustique de la parole : l’auditeur peut décoder directement le flux continu de la parole à partir des informations acoustiques contenues dans le signal, en utilisant ses connaissances sur les mots et les sons. La segmentation serait alors un simple produit du décodage.
Au contraire, pour la seconde classe de modèles, il y aurait bien un processus de segmentation (avec une détection des frontières des unités linguistiques) distinct d’un autre processus opérant l’association des segments ainsi obtenus à des unités lexicales. Cette segmentation s’appuierait sur la détection d’événements marqueurs des frontières entre segments. Ces deux processus distincts travailleraient de manière intégrée pour faciliter la compréhension et le traitement du flux continu de la parole.
De tels mécanismes sont observables chez les bébés qui, bien que n’ayant pas encore développé de vocabulaire de leur langue, sont quand même capables, jusqu’à un certain point, de segmenter la parole en unités distinctes.
En ligne avec cette seconde conception de la segmentation, les développements des neurosciences dans les 15 dernières années ont conduit à de nouvelles propositions concernant les processus de segmentation du flux de parole, en lien avec les processus de synchronisation et d’oscillations neuronales. Ces processus font référence aux activités cérébrales coordonnées qui se produisent à différentes fréquences dans notre cerveau. Lorsque nous écoutons la parole, notre cerveau doit synchroniser et organiser les différentes informations acoustiques qui arrivent à nos oreilles pour former une perception cohérente du langage. Les neurones dans les aires auditives du cerveau oscillent à des fréquences spécifiques, et cette oscillation rythmique facilite la segmentation du flux de parole en unités discrètes.
Un modèle phare dans ce domaine est le modèle neurobiologique TEMPO. TEMPO se concentre sur la détection temporelle des maxima d’amplitude dans le signal de parole pour déterminer les limites entre les segments.
Cette approche s’appuie sur des données neurophysiologiques montrant que les neurones du cortex auditif sont sensibles à la structure temporelle de la parole, et plus spécialement sur le fait qu’il existe des processus de synchronisation entre les oscillations neuronales et le rythme syllabique.
Toutefois, bien que ces modèles fournissent une perspective plus fine et plus précise sur la manière dont notre cerveau analyse et traite les signaux acoustiques complexes de la parole, ils n’expliquent pas encore tous les mécanismes liés à la perception de la parole. Une question en suspens concerne le rôle des connaissances de plus haut niveau, comme les connaissances lexicales, c’est-à-dire sur les mots qu’on connaît, dans le processus de segmentation de la parole. Plus précisément, on étudie encore la manière dont ces connaissances sont transmises et combinées avec les indices extraits du signal de parole pour parvenir à une segmentation de la parole la plus robuste possible.
Supposons par exemple qu’un locuteur nommé Bob prononce la phrase « il est parti au travail » à Alice. S’il n’y a pas trop de bruit ambiant, si Bob articule bien et ne parle pas trop vite, Alice ne rencontre alors aucune difficulté pour comprendre le message véhiculé par son interlocuteur. Sans effort apparent, elle aura su que Bob a prononcé les différents mots il, E, paRti, o, tRavaj (la transcription phonétique des mots prononcés dans le système de transcription SAMPA). Dans une telle situation « idéale », un modèle qui se baserait uniquement sur les fluctuations d’amplitude du signal sans faire appel à des connaissances supplémentaires suffirait pour la segmentation.
Cependant, dans la vie de tous les jours, le signal acoustique est « pollué », par exemple par les bruits des moteurs de voitures, ou les chants des oiseaux, ou la musique du voisin à côté. Dans ces conditions, Alice aura plus de mal pour comprendre Bob lorsqu’il prononce la même phrase. Dans ce cas, il est probable qu’Alice, dans cette situation, utiliserait ses connaissances sur la langue, pour avoir une idée de ce que Bob est susceptible de prononcer ou non. Ces connaissances lui permettraient de complémenter l’information fournie par les indices acoustiques pour une segmentation plus efficace.
En effet, Alice sait de nombreuses choses sur la langue. Elle sait que les mots s’enchaînent dans des séquences syntaxiquement et sémantiquement acceptables, que les mots sont constitués de syllabes, qui sont elles-mêmes constituées de plus petites unités linguistiques. Puisqu’elle parle la même langue que Bob, elle sait même très précisément les durées « classiques » pour réaliser et produire elle-même le signal de parole. Elle connaît donc les durées attendues des syllabes, et peut ainsi se reposer sur cette information pour aider son processus de segmentation, notamment lorsqu’elle rencontre une situation difficile, comme le brouhaha. Si le bruit ambiant « suggère » des frontières syllabiques qui ne correspondent pas à ses attentes, elle pourra les ignorer ; à l’inverse, si un bruit masque une frontière effectivement produite par Bob, elle pourra la récupérer si ses prédictions en suggèrent une à cet instant-là.
Dans notre article publié dans le journal scientifique « Frontiers in Systems Neuroscience », nous explorons ces différentes théories de la perception de la parole. Le modèle développé comporte un module de décodage du contenu spectral du signal parole et un module de contrôle temporel qui guide la segmentation du flux continu du signal parole. Ce module de contrôle temporel combine, de manière originale, les sources d’information provenant du signal même (en accord avec les principes des oscillations neuronales) et celles provenant des connaissances lexicales qu’a l’auditeur sur les durées des unités syllabiques et ce, que l’on soit dans un cas ou l’autre de perturbation du signal de parole (événement en trop ou événement manqué). Nous avons ainsi développé différents modèles de fusion qui permettent, soit d’éliminer des événements non pertinents dus au bruit acoustique, s’ils ne correspondent pas à des connaissances préalables cohérentes, soit de retrouver des événements manquants, grâce aux prédictions linguistiques. Les simulations avec le modèle confirment qu’utiliser les prédictions lexicales de durées des syllabes produit un système de perception plus robuste. Une variante du modèle permet de plus d’expliquer des observations comportementales obtenues dans une expérience récente, dans laquelle les durées de syllabes dans des phrases étaient manipulées, justement pour correspondre, ou non, aux durées naturellement attendues.
En conclusion, dans une situation de communication réelle, quand nous nous retrouvons dans un environnement où le signal parlé ne souffre d’aucune perturbation, se baser sur le signal seul suffit probablement à accéder aux syllabes, ainsi qu’aux mots le constituant. En revanche, lorsque ce signal est dégradé, nos travaux de modélisation expliquent comment le cerveau pourrait avoir recours à des connaissances complémentaires, comme ce que l’on sait sur les durées syllabiques habituelles qu’on produit, pour aider la perception de la parole.
Dérèglement climatique : passer de la parole aux actes, comment ?
Dérèglement climatique : passer de la parole aux actes, comment ?
Il n’est pas étonnant que les jeunes (aussi de moins jeunes) manifestent de façon aussi massive contre l’inertie des différents pouvoirs politiques vis-à-vis du dérèglement climatique. En effet en dépit des conférences et des grandes annonces médiatiques, le monde fait presque du surplace même si on peut constater ici ou là quelques actions positives. Mais globalement des actions qui ne sont pas à la hauteur des enjeux. Ce que réclament les jeunes qui ne sont pas encore prisonniers des contingences politiciennes, c’est de traduire les paroles en actes. Or la problématique est complexe car elle remet en cause le mode de production, le mode de consommation et même le type de civilisation. Ce que ne souhaitent pas évidemment les lobbys internationaux qui détiennent le vrai pouvoir et qui souhaitent continuer de transformer le citoyen en simples consommateurs. Pas question de changer le mode de production source pourtant de gâchis énorme de matières premières, de logistique, de transport ; source aussi d’émissions polluantes. Ainsi le moindre produit de base effectue des milliers de kilomètres pour sa production, sa commercialisation et sa distribution. Ceci vaut pour un produit un peu sophistiqué comme l’automobile mais aussi comme un produit élémentaire comme un simple yaourt. En outre nombre d’objets de consommation vivent une obsolescence programmée. À dessein ils ne sont pas réparables. Parfois quand ils le sont aucune organisation ne permet de les remettre en état. En outre la fiscalité qui pèse sur les systèmes de remise en état rend l’opération financièrement non rentable. Or il y aurait sans doute là d’énormes gisements d’emploi qui par ailleurs pourraient contribuer à la préservation de la planète. La responsabilité incombe à ces grandes sociétés multinationales qui ne voient que le consommateur dans le citoyen et développe une culture de consumérisme. . Elle incombe aussi aux pouvoirs politiques trop souvent sous la tutelle des grands lobbys financiers. On doit aussi mettre en évidence la responsabilité du consommateur qui peut et doit changer son mode de vie et n’est pas forcément contraint d’acheter des produits rapidement obsolètes ou encore des produits inutiles. Pour être cohérent, il convient évidemment de tenir et d’articuler les éléments économiques, environnementaux, sociaux voire culturels. L’exemple le plus caricatural est sans doute celui de l’automobile conçue pour transporter au moins cinq personnes en moyenne ou 500 kg alors que le taux d’occupation d’une voiture est en moyenne de 1,2 personne. Des voitures conçues toutes pour circuler 250 à 200 km/h voire davantage alors que la vitesse est limitée à 80 et 130 sur autoroute. On pourrait prendre bien d’autres exemples comme le business scandaleux de la commercialisation de l’eau en bouteille. Les jeunes en raison d’interpeller fortement les responsables du monde entier car en vérité rien ne change fondamentalement. Ajoutons à cela la folie de la métropolisation qui détruit les équilibres naturels et augmente largement des émissions polluantes. Certes on ne transformera pas du jour au lendemain le mode de production et le mode de consommation mais c’est maintenant qu’il convient de commencer pour obtenir des effets significatifs d’ici 10, 20 ou 30 ans.