终于!AI语音不再"像AI":Sesame的语音存在感突破
当我们与人交谈时,真正的理解不仅仅体现在词语上,更体现在声音的微妙之处:语调的起伏、有意义的停顿、语速的变化。这些细微差别共同构成了我们最亲密的交流媒介。而当前的AI语音助手,无论多么先进,都缺乏这种真实的”语音存在感”。
走出AI语音的”恐怖谷”
“恐怖谷”(Uncanny Valley)是机器人学和AI领域的一个著名现象,最初由日本机器人学家森政弘在1970年提出。这一理论指出,当机器人或虚拟形象接近人类但又不完全像人类时,人们会产生强烈的不适感。
在语音领域,这一效应同样存在:当AI合成语音接近真人但仍有微小瑕疵时,反而让人觉得怪异,不如明显的”合成”的声音那样让人接受。我们多数人都体验过这种感觉 - 当前的高级语音助手听起来已经很”像人”了,但那种平板的情感、缺乏语境适应的回应和机械的节奏,常常让长时间交流变得疲惫和不自然。这就是语音交互的”恐怖谷”,一个看似接近人类但又让人感到不适的区域。
Sesame团队在最近发布的研究《Crossing the uncanny valley of conversational voice》中,正尝试跨越这一根本挑战。我体验了他们的语音助手演示,无论是Maya还是Miles,都给我留下了深刻印象,特别是相比目前市面上的ChatGPT或者豆包的实时语音模式,Sesame的语音助手听起来真实了许多 - 他们似乎已经开始成功地跨越这道”恐怖谷”。