先来听听三条音频,做个真假声测试。
上面三条音频的正确答案,会在文章发布后的第二天,于本文留言区公布。欢迎收藏后再回来看,结果相信会打破你的三观。
近日出门问问公司推出了新一代合成引擎MeetHiFiVoice,在发音人音质、韵律节奏等方面均有质的提升。下面我们来欣赏一段视频(大部分为魔音工坊用户制作的视频片段),看看目前的技术,做出来的作品配音效果是否足够以假乱真了?
在大众的固有印象中,AI配音总是给人机械的印象。那么人工智能经过这么多年的发展,TTS是否已经摘掉了“一听就是机器人”的帽子呢?
三年前,出门问问有个公众号投票,针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票,投票结果如下图。投票数据显示,当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少,并且投票的时候预先知道了两条音频里“一条为真一条为假”,不够接近真实世界的现状,说服力还不够强。
比赛规则:
• 邀请超过150人参与比赛;
• 设置奖项,让大家都能够认真听音频投票,而不是应付了事;
• 使用32条音频,设置32个投票。参与的用户只需要听该音频,投票该音频是“真人”还是“合成”。投票前,不告知用户真人和合成的比例等任何额外信息;
• 投票数少于30条音频的用户作废,不计入统计;
以下是某支音频的投票结果:
可以看到,该条音频总共有190人参与投票,投真人106票,投合成84票。
我们先来听听这条音频:
下面再来分析看看最终的评测结果,以下是总体的投票信息:
对32支音频的投票结果进行分析
从上面的表格可以看到,音频的平均准确率只有59.4%,而盲猜的准确率也会有50%,说明真人的辨别能力,和盲猜结果相差无几。
大概有10条音频,真人和合成的得票数在40%-60%之间,也就是说,大部分人都无法分辨出来。
(投票结果比例图表:指不同得分范围对应的人员比例)
从以上图表可以看出,准确率低于盲猜(50%准确率,即50分)的用户,达到了19.9%,说明对这部分用户而言,合成已经真正达到“以假乱真”。而得分为60分以下的用户,占到了55.7%,也就是说,过半的用户,可以在一定程度上辨别真假,但是接近盲猜(高了不到10分)。176个用户里,最高得分为75分。
另外, 我们还重点看了下四位声音领域的专业用户的投票结果(其中C和D是专门邀请来进行测试的,不在统计的176个用户里)。
专业的主播和配音从业者,也很难有效判断出某个音频是AI还是真人,更何况对声音不太敏感的普通大众?看到这里,你还会认为“AI配音很机械”,或“配音还是得使用真人,否则效果不自然”么?
是的,媲美真人的配音时代已经来临!
下面我们来听几支音频,看看哪些音频是比较容易被AI克隆的,哪些是AI难以逾越的。
先来看看“以假乱真”的合成音频1。上面这支采采的音频,有高达55.8%的用户认为它是真人原声,而不是合成的。有一些投票用户认为,该音频“有吐气之感”,确信它是真人,而不是合成的。
再来看看真人音频2。满超老师的这支音频,目前对AI而言,依然是不可逾越的高峰。由于满超老师的演绎水平很高,可能导致大部分用户认为AI目前做不到这个水平,所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊,他和杨婧老师的《斗罗大陆》有声书,堪称有声小说的标高,有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。
再来听听满超老师激情风格的样音,看看真人可以做到多“真”,张力多强:
当然,主播的演绎越好,风格越多变,对AI来说越是无法逾越的高峰。不过技术在持续进步,路漫漫其修远兮,魔音工坊团队也会持续勇攀高峰,争取开发出更好的AI模型以飨用户。
目前出门问问MeetHiFiVoice 的模型已经落地到魔音工坊中了,可以访问以下发音人,实际听听他们的合成效果:
看完这篇文章,你觉得目前的AI技术,已经做到了“以假乱真”了么?如果没有,又有哪些方面和真人存在差距? 欢迎大家在留言区留下你的看法。也可以在留言区留下你判断一条音频是真人还是合成的“黄金法则”,我们来看看,到底这些人类判断的经验法则,是否经得起AI技术的考验!!!