“人类的声音是灵魂的器官”。– Henry Wadsworth Longfellow
直到上个世纪,语言被认为是人类独有的能力,只有智人才能说话并理解一种或多种语言。然而,现在,手机、伴侣机器人、虚拟助手、视频游戏和许多其他软件应用程序使用人造声音,说几十种语言,比我们大多数人都要好得多,语法也更正确!似乎人造声音已经侵入了我们生活的各个领域,而且在未来的许多年里还会如此。
研究人员在 20 世纪 50 年代创造了第一个人造声音。多亏了当时的基本计算系统,它拥有机器人的音调和男性的音色。在接下来的 40 年里,计算机系统没有太大的发展,所以人造声音仍然具有机器人的音调和男性的音色。然而,在 20 世纪 90 年代,市场上出现了高性能的数据处理器,在它们的帮助下,研究人员能够摆脱人造声音的机器人音调,并创造出第一个具有女性音色的人造声音。在随后的几年里,计算系统呈指数级发展,在它们的帮助下,研究人员创造了越来越复杂和高性能的人造声音。人工语音由计算机系统生成,这些系统使用包含每个单词的所有声学表征及其所有可能含义的数据库。当一个计算系统说出一句话时,它会根据该句子需要传达的意义从数据库中提取出构成该句子的每个单词的声学表征1。然后,计算系统在选定的声学表征上添加一定的旋律线(语调),使得人工语音具有特定的音调和节奏,从而向人类对话者传递特定的意义和情感。当今存在的高性能计算系统使得开发出非常复杂的人工语音成为可能,这些语音具有类似于人类声音的清晰度和音调。然而,人工合成的声音仍然无法传达出如人类声音般强烈而多样的情感 [1] [2] [3] [4] [5] [6] [7] [8]。
一些研究人员认为,人造声音的情感障碍是由于人类听众接受情感的方式造成的。在大脑镜像神经元的帮助下,我们接收到人类或人造声音传递的情绪。在听者的大脑中,镜像神经元只复制说话者真实的情感体验,而不复制那些模仿的情感体验。计算机系统不是活的,所以它们不能拥有真实的人类情感体验,只能模仿。因此,镜像神经元无法在人类听者的大脑中复制模仿,无论它们有多好。
该领域的研究人员认为,这个问题可以通过研究大脑过程来解决,这些过程确保了人类声音传递的情感的接收,并确定了那些也会确保人造声音传递情感的过程。许多科学研究已经分析了确保接收声音传递的情绪的大脑机制。在2023年,我展开了一项研究,监测了人类声音和人造声音向听者传达感情的大脑机制 [1]。参与该研究的志愿者对人造声音的情感影响进行了评估,平均评分为 3 分(1 到 10 分),人声评分为 8 分。核磁共振成像显示,在人造声音的情况下,传播是通过与记忆有关的大脑机制进行的,而在人类声音的情况下,传播是通过与镜像神经元有关的大脑机制进行的。研究结果表明,人造声音也可以在人类听者的大脑中产生情绪,但仅限于那些已经知道(并在记忆中找到)的情绪,而且这些情绪的强度只能是最小的2。研究人员得出结论,由于它们的构造方式,人造声音还不能与人类声音的情感影响相提并论。
备忘录
致谢:本文摘自《声音的力量》一书,经作者 Eduard Dan Franti 同意。《声音的力量》可从 Memobooks、Apple Books 或 Amazon 获取。
Footnotes:
- 本章展现了产生人造声音的简化版的过程,以方便那些不是这个领域的专家的人的理解。这个过程实际上非常复杂,并且比在这里展示的要包含更多步骤。
- 研究人员表示,通过声音传播的情绪强度之所以受到限制,是因为大脑的记忆机制只会重新激活一些引发情绪的刺激。
参考书目
[1] A. G. Andrei, C. A. Brătan, C. Tocilă-Mătăsel, B. Morosanu, B. Ionescu, A. V. Tebeanu, M. Dascălu, G. Bobes, I. Popescu, A. Neagu, G. Iana, E. Franti and G. Iorgulescu, “Mirror Neurons cannot be Fooled by Artificial Voices – a study using MRI and AI algorithms,” 2023.
[2] J. Bachorowski, “Vocal expression and perception of emotion,” Curr. Dir. Psychol. Sci., vol. 8, p. 53–57, 1999.
[3] A. Abelin and a. A. J. , “Cross linguistic interpretation of emotional prosody,” ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, p. 110–113.
[4] A. V. Clark, Psychology of Moods, Nova Publishers, 2005.
[5] X. Chen, J. Yang, S. Gan and Y. Yang, “The contribution of sound intensity in vocal emotion perception: behavioral and electrophysiological evidence,” PLoS ONE, 2012.
[6] T. Bänziger, G. Hosoya and K. R. Scherer, “Path models of vocal emotion communication,” PLoS ONE, 2015.
[7] R. L. C. Mitchell and Y. Xu, “What is the Value of Embedding Artificial Emotional Prosody in Human–Computer Interactions? Implications for Theory and Design in Psychological Science,” Front. Psychol., 2015.
[8] K.-L. Huang, S.-F. Duan and X. Lyu, “Affective Voice Interaction and Artificial Intelligence: A Research Study on the Acoustic Features of Gender and the Emotional States of the PAD Model,” Front. Psychol., 2021.