AI配音“以假乱真”时代已经到来？

AI配音“以假乱真”时代已经到来？
2022-8-21 01:20:26 Author: mp.weixin.qq.com(查看原文) 阅读量:1 收藏

先来听听三条音频，做个真假声测试。

上面三条音频的正确答案，会在文章发布后的第二天，于本文留言区公布。欢迎收藏后再回来看，结果相信会打破你的三观。

近日出门问问公司推出了新一代合成引擎MeetHiFiVoice，在发音人音质、韵律节奏等方面均有质的提升。下面我们来欣赏一段视频（大部分为魔音工坊用户制作的视频片段），看看目前的技术，做出来的作品配音效果是否足够以假乱真了？

在大众的固有印象中，AI配音总是给人机械的印象。那么人工智能经过这么多年的发展，TTS是否已经摘掉了“一听就是机器人”的帽子呢？

三年前，出门问问有个公众号投票，针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票，投票结果如下图。投票数据显示，当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少，并且投票的时候预先知道了两条音频里“一条为真一条为假”，不够接近真实世界的现状，说服力还不够强。

这次，出门问问升级了技术，推出了MeetHiFiVoice 引擎，技术团队在公司内部组织了近两百人的评测，应用了8位发音人（分别是「魔音工坊」的满超ZN、采采、杨婧、魔千雪、魔小杰、魔天轮、魔小凡、魔丽娘），并且合成的声音不使用训练集里的文本，评测的方式加大了难度，不再是两条音频里一个为真一个为假，而是更加挑战地对32条音频进行独立的真假判断。

比赛规则：

• 邀请超过150人参与比赛；

• 设置奖项，让大家都能够认真听音频投票，而不是应付了事；

• 使用32条音频，设置32个投票。参与的用户只需要听该音频，投票该音频是“真人”还是“合成”。投票前，不告知用户真人和合成的比例等任何额外信息；

• 投票数少于30条音频的用户作废，不计入统计；

以下是某支音频的投票结果：

可以看到，该条音频总共有190人参与投票，投真人106票，投合成84票。

我们先来听听这条音频：

下面再来分析看看最终的评测结果，以下是总体的投票信息：

可以看到，在本次投票中，大家倾向于认为音频是合成的（虽然实际上真人和合成的比例是5:5）。那么，对32支音频的判别准确率怎么样呢？大家接着看下面的详细数据。

对32支音频的投票结果进行分析

从上面的表格可以看到，音频的平均准确率只有59.4%，而盲猜的准确率也会有50%，说明真人的辨别能力，和盲猜结果相差无几。

大概有10条音频，真人和合成的得票数在40%-60%之间，也就是说，大部分人都无法分辨出来。

对176个投票用户的投票结果进行的分析

（投票结果比例图表：指不同得分范围对应的人员比例）

从以上图表可以看出，准确率低于盲猜（50%准确率，即50分）的用户，达到了19.9%，说明对这部分用户而言，合成已经真正达到“以假乱真”。而得分为60分以下的用户，占到了55.7%，也就是说，过半的用户，可以在一定程度上辨别真假，但是接近盲猜（高了不到10分）。176个用户里，最高得分为75分。

另外，我们还重点看了下四位声音领域的专业用户的投票结果（其中C和D是专门邀请来进行测试的，不在统计的176个用户里）。

专业的主播和配音从业者，也很难有效判断出某个音频是AI还是真人，更何况对声音不太敏感的普通大众？看到这里，你还会认为“AI配音很机械”，或“配音还是得使用真人，否则效果不自然”么？

是的，媲美真人的配音时代已经来临！

下面我们来听几支音频，看看哪些音频是比较容易被AI克隆的，哪些是AI难以逾越的。

先来看看“以假乱真”的合成音频1。上面这支采采的音频，有高达55.8%的用户认为它是真人原声，而不是合成的。有一些投票用户认为，该音频“有吐气之感”，确信它是真人，而不是合成的。

再来看看真人音频2。满超老师的这支音频，目前对AI而言，依然是不可逾越的高峰。由于满超老师的演绎水平很高，可能导致大部分用户认为AI目前做不到这个水平，所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊，他和杨婧老师的《斗罗大陆》有声书，堪称有声小说的标高，有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。

再来听听满超老师激情风格的样音，看看真人可以做到多“真”，张力多强：

当然，主播的演绎越好，风格越多变，对AI来说越是无法逾越的高峰。不过技术在持续进步，路漫漫其修远兮，魔音工坊团队也会持续勇攀高峰，争取开发出更好的AI模型以飨用户。

目前出门问问MeetHiFiVoice 的模型已经落地到魔音工坊中了，可以访问以下发音人，实际听听他们的合成效果：

看完这篇文章，你觉得目前的AI技术，已经做到了“以假乱真”了么？如果没有，又有哪些方面和真人存在差距？欢迎大家在留言区留下你的看法。也可以在留言区留下你判断一条音频是真人还是合成的“黄金法则”，我们来看看，到底这些人类判断的经验法则，是否经得起AI技术的考验！！！

文章来源: https://mp.weixin.qq.com/s?__biz=MzI3NzE1NDcyNQ==&mid=2247485474&idx=1&sn=6127788ef9a468dab71b45d1965b078e&chksm=eb6bd6e8dc1c5ffea800064cdf06abdd713cf3950b25c589fe46d8bc553352d92399e42139dc&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh