«La voz humana es el órgano del alma». – Henry Wadsworth Longfellow
Hasta el siglo pasado, se consideraba que el habla era una capacidad exclusivamente humana en la que sólo el Homo sapiens podía hablar y comprender una o varias lenguas. Ahora, sin embargo, los teléfonos móviles, los robots de compañía, los asistentes virtuales, los videojuegos y muchas otras aplicaciones de software utilizan voces artificiales y hablan docenas de idiomas ¡mucho mejor y más gramaticalmente correctos que la mayoría de nosotros! Parece que las voces artificiales han invadido todos los ámbitos de nuestra vida y lo harán durante muchos años.
Los investigadores crearon la primera voz artificial en la década de 1950. Gracias a los rudimentarios sistemas informáticos de la época, tenía un tono robótico y un timbre masculino. Durante los 40 años siguientes, los sistemas informáticos no evolucionaron mucho, por lo que las voces artificiales siguieron teniendo el tono robótico y el timbre masculino. En la década de 1990, sin embargo, aparecieron en el mercado procesadores de datos de gran potencia y, con su ayuda, los investigadores pudieron librar a las voces artificiales de su tonalidad robótica y crear la primera voz artificial con timbre femenino. Los sistemas informáticos se desarrollaron exponencialmente en los años siguientes y, con su ayuda, los investigadores crearon voces artificiales cada vez más complejas y de mayor rendimiento. Las voces artificiales son producidas por sistemas informáticos que utilizan bases de datos que contienen todas las representaciones acústicas de cada palabra, con todos los significados posibles. Cuando un sistema de computación pronuncia una frase, extrae de esta base de datos una representación acústica de cada palabra que compone esa frase, en función del significado que debe transmitir dentro de esa frase.1 A continuación, el sistema de cálculo añade sobre las representaciones acústicas seleccionadas una determinada línea melódica (prosodia), de modo que la voz artificial adquiere una tonalidad y un ritmo determinados y transmite así al interlocutor humano ciertos significados y ciertas emociones. Los sistemas informáticos de alto rendimiento que existen en la actualidad han permitido desarrollar voces artificiales muy complejas que tienen una claridad de voz y tonalidades similares a la voz humana. Sin embargo, las voces artificiales siguen sin transmitir emociones tan intensas y variadas como la voz humana [2] [3] [4] [5] [6] [7] [8].
Algunos investigadores creen que la incapacidad emocional de las voces artificiales se debe a la forma en que las emociones son recibidas por los oyentes humanos. Recibimos las emociones transmitidas por una voz humana o artificial con la ayuda de las neuronas espejo del cerebro. Las neuronas espejo duplican en el cerebro del oyente sólo las experiencias emocionales auténticas del hablante y no las que son imitaciones. Los sistemas informáticos no están vivos, por lo que no pueden tener auténticas experiencias emocionales humanas, sino solo imitarlas. Las neuronas espejo, por tanto, no pueden duplicar las imitaciones en el cerebro del oyente humano, por muy buenas que sean.
Los investigadores en este campo creen que este problema podría resolverse investigando los procesos cerebrales que aseguran la recepción de las emociones transmitidas por la voz humana e identificando aquellos que también asegurarían la transmisión de emociones por voces artificiales. Los mecanismos cerebrales que aseguran la recepción de las emociones transmitidas por la voz han sido analizados en numerosos estudios científicos. Un estudio de 2024 presentó los mecanismos cerebrales por los que las voces humanas y las voces artificiales transmiten emociones a los oyentes [1]. Los voluntarios que participaron en ese estudio evaluaron el impacto emocional de las voces artificiales con una nota media de 3 (en una escala de 1 a 10) y de 8 para las voces humanas. Las imágenes de resonancia magnética mostraron que, en el caso de las voces artificiales, la transmisión se produce a través de mecanismos cerebrales relacionados con la memoria y, en el caso de las voces humanas, a través de mecanismos cerebrales relacionados con las neuronas espejo. Los resultados del estudio demostraron que las voces artificiales también pueden generar emociones en el cerebro del oyente humano, pero sólo las ya conocidas (y que se encuentran en la memoria) y que éstas únicamente pueden ser de una intensidad mínima.2 Los investigadores concluyen que, debido a la forma en que están construidas, las voces artificiales aún no pueden igualar el impacto emocional de la voz humana.
Memo
Agradecimientos: Este texto fue extraído del libro El poder de la voz, con el consentimiento del autor Eduard Dan Franti. El poder de la voz se puede obtener en Memobooks, Apple books o Amazon.
Footnotes:
- En este capítulo se presenta una versión simplificada del proceso de generación de voces artificiales para facilitar su comprensión a quienes no son especialistas en este campo. Este proceso es en realidad muy complejo y contiene muchos más pasos que los aquí presentados.
- Los investigadores afirman que la limitación de la intensidad de las emociones transmitidas por las voces se debe a los mecanismos de memoria del cerebro que reactivan sólo algunos de los estímulos desencadenantes de la emoción.
Bibliography
[1] A. G. Andrei, C. A. Brătan, C. Tocilă-Mătăsel, B. Morosanu, B. Ionescu, A. V. Tebeanu, M. Dascălu, G. Bobes, I. Popescu, A. Neagu, G. Iana, E. Franti and G. Iorgulescu, «Mirror Neurons cannot be Fooled by Artificial Voices – a study using MRI and AI algorithms,» 2023.
[2] J. Bachorowski, «Vocal expression and perception of emotion,» Curr. Dir. Psychol. Sci., vol. 8, p. 53–57, 1999.
[3] A. Abelin and a. A. J. , «Cross linguistic interpretation of emotional prosody,» ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, p. 110–113.
[4] A. V. Clark, Psychology of Moods, Nova Publishers, 2005.
[5] X. Chen, J. Yang, S. Gan and Y. Yang, «The contribution of sound intensity in vocal emotion perception: behavioral and electrophysiological evidence,» PLoS ONE, 2012.
[6] T. Bänziger, G. Hosoya and K. R. Scherer, «Path models of vocal emotion communication,» PLoS ONE, 2015.
[7] R. L. C. Mitchell and Y. Xu, «What is the Value of Embedding Artificial Emotional Prosody in Human–Computer Interactions? Implications for Theory and Design in Psychological Science,» Front. Psychol., 2015.
[8] K.-L. Huang, S.-F. Duan and X. Lyu, «Affective Voice Interaction and Artificial Intelligence: A Research Study on the Acoustic Features of Gender and the Emotional States of the PAD Model,» Front. Psychol., 2021.