“A voz humana é o órgão da alma”. – Henry Wadsworth Longfellow
Até ao século passado, a fala era considerada uma capacidade exclusivamente humana, em que apenas o Homo sapiens podia falar e compreender uma ou mais línguas. No entanto, hoje em dia, os telemóveis, os robots de companhia, os assistentes virtuais, os jogos de vídeo e muitas outras aplicações de software utilizam vozes artificiais e falam dezenas de línguas muito melhor e de forma mais gramaticalmente correta do que a maioria de nós! Parece que as vozes artificiais invadiram todas as áreas das nossas vidas e continuarão a fazê-lo durante muitos anos.
Os investigadores criaram a primeira voz artificial na década de 1950. Graças aos sistemas informáticos rudimentares da altura, tinha um tom robótico e um timbre masculino. Nos 40 anos seguintes, os sistemas informáticos não evoluíram muito, pelo que as vozes artificiais continuaram a ter o tom robótico e o timbre masculino. No entanto, na década de 1990, surgiram no mercado processadores de dados de alta potência e, com a sua ajuda, os investigadores conseguiram libertar as vozes artificiais da sua tonalidade robótica e criar a primeira voz artificial com um timbre feminino. Os sistemas informáticos desenvolveram-se exponencialmente nos anos que se seguiram e, com a sua ajuda, os investigadores criaram vozes artificiais cada vez mais complexas e de elevado desempenho. As vozes artificiais são produzidas por sistemas informáticos que utilizam bases de dados contendo todas as representações acústicas de cada palavra, com todos os significados possíveis. Quando um sistema de computação emite uma frase, extrai desta base de dados uma representação acústica de cada palavra que compõe essa frase, de acordo com o significado que deve transmitir dentro dessa frase.1 O sistema de cálculo adiciona então sobre as representações acústicas selecionadas uma determinada linha melódica (prosódia), de forma que a voz artificial adquira uma certa tonalidade e um certo ritmo, transmitindo assim ao interlocutor humano determinados significados e certas emoções. Os sistemas de computação de alto desempenho que existem atualmente permitiram o desenvolvimento de vozes artificiais muito complexas, que possuem uma clareza de fala e tonalidades semelhantes à voz humana. No entanto, as vozes artificiais ainda falham em transmitir emoções tão intensas e variadas como a voz humana. [1] [2] [3] [4] [5] [6] [7] [8]
Alguns investigadores acreditam que a incapacidade emocional das vozes artificiais se deve à forma como as emoções são recebidas pelos ouvintes humanos. Recebemos as emoções transmitidas por uma voz humana ou artificial com a ajuda dos neurónios-espelho no cérebro. Os neurónios-espelho duplicam no cérebro do ouvinte apenas as experiências emocionais autênticas do orador e não as que são imitações. Os sistemas informáticos não estão vivos, pelo que não podem ter experiências emocionais humanas autênticas, podendo apenas imitá-las. Por conseguinte, os neurónios-espelho não podem duplicar as imitações no cérebro do ouvinte humano, por muito boas que sejam.
Os investigadores neste domínio acreditam que este problema poderia ser resolvido investigando os processos cerebrais que asseguram a receção das emoções transmitidas pela voz humana e identificando aqueles que também assegurariam a transmissão de emoções por vozes artificiais. Os mecanismos cerebrais que asseguram a receção das emoções transmitidas pela voz foram analisados em numerosos estudos científicos. Um estudo de 2024 apresentou os mecanismos cerebrais através dos quais as vozes humanas e as vozes artificiais transmitem emoções aos ouvintes [1]. Os voluntários que participaram nesse estudo avaliaram o impacto emocional das vozes artificiais com uma nota média de 3 (numa escala de 1 a 10) e de 8 para as vozes humanas. As imagens de ressonância magnética mostraram que, no caso das vozes artificiais, a transmissão ocorre através de mecanismos cerebrais relacionados com a memória e, no caso das vozes humanas, através de mecanismos cerebrais relacionados com os neurónios-espelho. Os resultados do estudo mostraram que as vozes artificiais também podem gerar emoções no cérebro do ouvinte humano, mas apenas aquelas que já são conhecidas (e que se encontram na memória) e que estas só podem ser de intensidade mínima.2 Os investigadores concluem que, devido à forma como são construídas, as vozes artificiais ainda não podem igualar o impacto emocional da voz humana.
Memo
Agradecimentos: Este texto foi retirado do livro O poder da voz, com a concordância do autor Eduard Dan Franti. O poder da voz pode ser obtido nos Memobooks, Apple Books ou Amazon.
Footnotes:
- Neste capítulo, é apresentada uma versão simplificada do processo de geração de vozes artificiais para facilitar a sua compreensão por quem não é especialista neste domínio. Este processo é, de fato, muito complexo e contém muitas mais etapas do que as aqui apresentadas.
- Os investigadores afirmam que a limitação da intensidade das emoções transmitidas pelas vozes se deve aos mecanismos de memória do cérebro que reativam apenas alguns dos estímulos que desencadeiam as emoções.
Bibliography
[1] A. G. Andrei, C. A. Brătan, C. Tocilă-Mătăsel, B. Morosanu, B. Ionescu, A. V. Tebeanu, M. Dascălu, G. Bobes, I. Popescu, A. Neagu, G. Iana, E. Franti and G. Iorgulescu, “Mirror Neurons cannot be Fooled by Artificial Voices – a study using MRI and AI algorithms,” 2023.
[2] J. Bachorowski, “Vocal expression and perception of emotion,” Curr. Dir. Psychol. Sci., vol. 8, p. 53–57, 1999.
[3] A. Abelin and a. A. J. , “Cross linguistic interpretation of emotional prosody,” ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, p. 110–113.
[4] A. V. Clark, Psychology of Moods, Nova Publishers, 2005.
[5] X. Chen, J. Yang, S. Gan and Y. Yang, “The contribution of sound intensity in vocal emotion perception: behavioral and electrophysiological evidence,” PLoS ONE, 2012.
[6] T. Bänziger, G. Hosoya and K. R. Scherer, “Path models of vocal emotion communication,” PLoS ONE, 2015.
[7] R. L. C. Mitchell and Y. Xu, “What is the Value of Embedding Artificial Emotional Prosody in Human–Computer Interactions? Implications for Theory and Design in Psychological Science,” Front. Psychol., 2015.
[8] K.-L. Huang, S.-F. Duan and X. Lyu, “Affective Voice Interaction and Artificial Intelligence: A Research Study on the Acoustic Features of Gender and the Emotional States of the PAD Model,” Front. Psychol., 2021.