Les neurones miroirs ne peuvent pas être dupés par des voix artificielles

« La voix humaine est l’organe de l’âme ». – Henry Wadsworth Longfellow

Jusqu’au siècle dernier, la parole était considérée comme une capacité exclusivement humaine où seul l’Homo sapiens pouvait parler et comprendre une ou plusieurs langues. Maintenant, cependant, les téléphones portables, les robots compagnons, les assistants virtuels, les jeux vidéo et de nombreuses autres applications logicielles utilisent des voix artificielles et parlent des dizaines de langues bien mieux et plus grammaticalement correctes que la plupart d’entre nous ! Il semble que les voix artificielles aient envahi tous les domaines de notre vie et le feront encore pendant de nombreuses années.

Les chercheurs ont créé la première voix artificielle dans les années 1950. Grâce à des systèmes informatiques rudimentaires à l’époque, il avait un ton robotique et un timbre masculin. Au cours des 40 années qui suivirent, les systèmes informatiques n’ont pas beaucoup évolué, de sorte que les voix artificielles ont continué à avoir le ton robotique et le timbre masculin. Dans les années 1990, cependant, des processeurs de données puissants sont apparus sur le marché et, avec leur aide, les chercheurs ont pu débarrasser les voix artificielles de leur tonalité robotique et créer la première voix artificielle avec un timbre féminin. Les systèmes informatiques se sont développés de manière exponentielle dans les années qui ont suivi, et avec leur aide, les chercheurs ont créé des voix artificielles de plus en plus complexes et performantes. Les voix artificielles sont produites par des systèmes informatiques utilisant des bases de données contenant toutes les représentations acoustiques de chaque mot, avec toutes les significations possibles. Lorsqu’un système de calcul prononce une phrase, il extrait de cette base de données une représentation acoustique de chaque mot qui compose cette phrase, en fonction du sens qu’il doit véhiculer dans cette phrase.¹ Le système de calcul ajoute ensuite aux représentations acoustiques sélectionnées une certaine ligne mélodique (prosodie), de sorte que la voix artificielle acquiert une certaine tonalité et un certain rythme et transmet ainsi à l’interlocuteur humain certaines significations et certaines émotions. Les systèmes informatiques à haute performance qui existent aujourd’hui ont permis de développer des voix artificielles très complexes qui ont une clarté d’élocution et des tonalités similaires à celles de la voix humaine. Toutefois, les voix artificielles ne parviennent toujours pas à transmettre des émotions aussi intenses et variées que la voix humaine. [1] [2] [3] [4] [5] [6] [7] [8]

Certains chercheurs pensent que le handicap émotionnel des voix artificielles est dû à la manière dont les émotions sont reçues par les auditeurs humains. Nous recevons des émotions transmises par une voix humaine ou artificielle à l’aide de neurones miroirs dans le cerveau. Les neurones miroirs dupliquent dans le cerveau de l’auditeur uniquement les expériences émotionnelles authentiques du locuteur et non celles qui sont des imitations. Les systèmes informatiques ne sont pas vivants, ils ne peuvent donc pas avoir d’expériences émotionnelles humaines authentiques, mais ne peuvent que les imiter. Les neurones miroirs ne peuvent donc pas dupliquer les imitations dans le cerveau de l’auditeur humain, aussi bonnes soient-elles.

Les chercheurs dans ce domaine pensent que ce problème pourrait être résolu en étudiant les processus cérébraux qui assurent la réception des émotions transmises par la voix humaine et en identifiant ceux qui assureraient également la transmission des émotions par des voix artificielles. Les mécanismes cérébraux qui assurent la réception des émotions transmises par la voix ont été analysés dans de nombreuses études scientifiques. Une étude de 2024 a présenté les mécanismes cérébraux par lesquels les voix humaines et les voix artificielles transmettent des émotions aux auditeurs [1]. Les volontaires qui ont participé à cette étude ont évalué l’impact émotionnel des voix artificielles avec une note moyenne de 3 (sur une échelle de 1 à 10) et une note de 8 pour les voix humaines. Les images IRM ont montré que dans le cas des voix artificielles, la transmission se fait par des mécanismes cérébraux liés à la mémoire et dans le cas des voix humaines, par des mécanismes cérébraux liés aux neurones miroirs. Les résultats de cette étude ont montré que les voix artificielles peuvent également générer des émotions dans le cerveau de l’auditeur humain mais uniquement celles qui sont déjà connues (et présentes dans la mémoire) et que celles-ci ne peuvent être que d’intensité minimale.² Les chercheurs concluent qu’en raison de la façon dont elles sont construites, les voix artificielles ne peuvent pas encore égaler l’impact émotionnel de la voix humaine.

Mémo

Remerciements: Ce texte est tiré du livre Le pouvoir de la voix, avec le consentement de l’auteur Eduard Dan Franti. Le pouvoir de la voix est disponible sur Memobooks, Apple Books ou Amazon.

Footnotes:

Dans ce chapitre, une version simplifiée du processus de génération de voix artificielles est présentée pour faciliter sa compréhension par ceux qui ne sont pas spécialistes dans ce domaine. Ce processus est en fait très complexe et contient beaucoup plus d’étapes que celles présentées ici.

Les chercheurs pensent que la limitation de l’intensité des émotions transmises par les voix est due aux mécanismes de mémoire du cerveau qui ne réactivent qu’une partie des stimuli déclenchant les émotions.

Bibliography

[1] A. G. Andrei, C. A. Brătan, C. Tocilă-Mătăsel, B. Morosanu, B. Ionescu, A. V. Tebeanu, M. Dascălu, G. Bobes, I. Popescu, A. Neagu, G. Iana, E. Franti and G. Iorgulescu, « Mirror Neurons cannot be Fooled by Artificial Voices – a study using MRI and AI algorithms, » in Conference on Computing in Natural Sciences, Biomedicine and Engineering, Athens, 2024.

[2] J. Bachorowski, « Vocal expression and perception of emotion, » Curr. Dir. Psychol. Sci., vol. 8, p. 53–57, 1999.

[3] A. Abelin and a. A. J. , « Cross linguistic interpretation of emotional prosody, » ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, p. 110–113.

[4] A. V. Clark, Psychology of Moods, Nova Publishers, 2005.

[5] X. Chen, J. Yang, S. Gan and Y. Yang, « The contribution of sound intensity in vocal emotion perception: behavioral and electrophysiological evidence, » PLoS ONE, 2012.

[6] T. Bänziger, G. Hosoya and K. R. Scherer, « Path models of vocal emotion communication, » PLoS ONE, 2015.

[7] R. L. C. Mitchell and Y. Xu, « What is the Value of Embedding Artificial Emotional Prosody in Human–Computer Interactions? Implications for Theory and Design in Psychological Science, » Front. Psychol., 2015.

[8] K.-L. Huang, S.-F. Duan and X. Lyu, « Affective Voice Interaction and Artificial Intelligence: A Research Study on the Acoustic Features of Gender and the Emotional States of the PAD Model, » Front. Psychol., 2021.

août 18, 2025

Lisez, explorez, découvrez

et obtenez de nouvelles perspectives. Consultez notre page de livres et découvrez ce que nous avons en réserve pour vous.

Découvrir des livres

Abonnez-vous à la newsletter

Suivez-nous et restez à jour avec nos nouvelles publications. Inscrivez-vous à la newsletter et soyez les premiers à découvrir nos derniers lancements de livres.

Les neurones miroirs ne peuvent pas être dupés par des voix artificielles

Les neurones miroirs ne peuvent pas être dupés par des voix artificielles

Contactez-nous :

Gardons le contact. Suivez-nous sur :