

据ITV新闻数字视频制作人Isaine Blatry报道,人工智能技术已经取得了很大的进步,合成声音听起来令人惊讶地像人类
几个月前,我开始在TikTok视频的评论区注意到一个有趣的趋势。
人们质疑我的声音是真实的还是人工智能生成的。这让我很吃惊,因为我是真实存在的!
作为一个以英语为第二语言的人,我知道我有口音,这让我思考:为什么越来越多的人把我的声音误认为是人工智能?
为了理解是什么驱动了这种看法,我决定深入挖掘人工智能生成声音的世界。
人工智能生成的声音现在无处不在,从社交媒体平台到Siri和Alexa等语音助手。我们在客服电话、广告甚至视频解说中都能听到他们的声音。
但在早期,这些声音是机械的、单调的,很容易与人类的语言区分开来。
今天,情况发生了变化。人工智能技术的进步如此之大,以至于合成的声音听起来令人惊讶地像人类。
“通常情况下,人工智能深度假音或音频深度假音听起来相当单调,”伦敦国王学院计算机科学教授迈克尔·库克博士告诉我。
“他们没有那种你可能期望从自然说话的人那里得到的情感。”
即便如此,许多现代人工智能的声音已经变得比以前更有说服力了,这也许可以解释为什么有些人质疑像我这样的真实声音的真实性。
人们可能认为我的声音是人工智能的原因之一,是因为我说英语时的声音,我的第二语言。
作为法国人,我说英语时自然带有口音,而口音有时会让人听不懂。
正如库克博士解释的那样:“例如,一个因素是你是一名年轻女性,许多声音都试图让你听起来像年轻女性。另一个因素可能是你说话的方式不太熟悉。”
但这不只是口音的问题。
声优代理公司Voquent的主管艾尔·布莱克告诉我这个问题的另一个层面:“(人工智能)的声音听起来完美无瑕。我认为人们很容易忘记人类是有机生物——我们会呼吸。”
换句话说,当人们在视频中听到经过大量编辑的音频时,呼吸和背景噪音都被清理干净了,声音听起来太完美了,这可能是人们认为这是人工智能的另一个原因。
在我的调查中,我发现人工智能声音之所以让人感觉如此超然,其中一个原因是它们缺乏人情味——尤其是那种真人在讲话中带来的情感上的细微差别。
在Respeecher从事人工智能生成语音技术工作的玛格丽塔?格鲁比纳(Margarita Grubina)完美地解释了这一点,她告诉我:“人工智能还不能在情感和表现方面取代人类。
“有了人工智能,你可以选择听起来是悲伤、快乐还是愤怒,但它仍然无法达到人类情感的复杂性。”
当人们把我的声音误认为是人工智能时,我想知道这是不是因为人工智能的声音经常试图听起来中立,没有任何地区口音。
我们从人工智能那里听到的许多画外音都有这种完美的品质,可以消除口音或情绪变化等因素。这可能会使它们听起来不自然,但也很难与高度处理的人类语言区分开来。
人工智能生成的声音在社交媒体视频中也变得越来越普遍。
有些公司甚至将内容完全转向人工智能,付钱给真人,让他们使用自己的声音,但根据自己的需要进行调整,比如《Respeecher》。
这就提出了一个新问题:人工智能有一天会完全取代人类内容创造者吗?
免费订阅我们的每周新闻通讯独家和原创的报道,从ITV新闻。每周五早上直接发到你的收件箱。
至少目前,答案似乎是否定的。
布莱克指出,人工智能的声音仍然不能像真实的声音那样引起听众的共鸣:“听一个人不断地用同样的音调和音高说话,耳朵会很累。”
这就是真正的区别所在。人工智能可以传递事实,但它无法在情感上与我们建立联系。社交媒体,尤其是抖音这样的平台,在情感联系上蓬勃发展。
无论是声音中的热情还是微妙的情感暗示,这些都是人工智能无法复制的东西。
那么为什么有些人认为我的声音是人工智能呢?
这可能是多种因素的混合:我的口音,我的音频处理,以及人工智能语音已经变得如此先进,以至于有时很难区分人类和机器之间的区别。
但正如我通过研究了解到的那样,人工智能仍然无法捕捉到真实的人类声音的一些特别之处——一些真实和情感共鸣的东西。
随着人工智能技术的不断发展,区分合成声音和人声将变得更加困难。
但我相信,在数字世界里,真实的、未经过滤的人类语言总会有一席之地。因为在一天结束的时候,我们与呼吸、停顿和承载真实情感的声音联系得更紧密。
无论人工智能变得多么先进,这都是它永远无法真正复制的。
想要快速了解重大新闻事件的专家简报吗?收听我们最新的播客,找出你需要知道的……