你可能有过这样的经历:打开某款游戏新版本的 PV,画面还没来得及看清,耳机里先是一声巨响扑面而来,鼓点、爆炸、角色台词与背景音乐层层叠加,短短几分钟的视频在前几帧便已将情绪推到最满。
这种「响」并不是因为你调高了手机或电脑的音量。即便音量条停留在原来的位置,一段视频依然可以听起来更加「饱满」。从游戏 PV、短视频配乐,到流媒体中的音乐作品,我们似乎正在习惯一种声音被不断塞满的世界。
这种现象并非偶然,而在音视频领域它有一个专业的名字——「响度战争」。
这篇文章便想从笔者最近观看的几支游戏 PV 出发,聊聊一段视频是如何听起来更响的,以及当「更响」逐渐成为内容创作者与厂商们抓住观众注意力的默认方式时,我们的听觉体验发生了什么变化。
接触过耳机或音响圈的读者们对这个概念应该不陌生。人耳的听觉频带大概在 20Hz-20kHz,此频段的声音也被称为「可闻声」。低于 20Hz 频段的声音也就是我们常说的「次声」,高于 20kHz 则是「超声」。
当然,这只是一个大致的理想范围,个体的可闻频域范围因人而异。普遍来说,可闻频域范围会随着年龄的增长而逐渐下降(这或许也是某些特定内容的短视频刻意拉高响度的原因)。
你或许也接触过一个单位——dB,也有人习惯将它表示的声音大小直接称作「声压」。但更严谨地说,描述现实环境中声音强弱的物理量叫作声压级(Sound Pressure Level,简称 SPL),属于物理声学范畴,通常写作 dB SPL。
频率决定了声音听起来是低沉还是尖锐,频率越低声音听起来越低沉、频率越高则反之;而声压级描述的,则是声音在现实中究竟有多强。
这种「有多强」也并不难理解:电脑风扇的轻微转动声,大约只有二三十分贝;正常谈话声,通常会来到 60 dB SPL 左右;走到车流较大的街道旁,声音可能已经接近 80 dB SPL;而在演唱会或音乐节中,现场声压则可能超过 100 dB SPL。更专业的音频后期制作校准,则主要分布在 79-83 dB SPL。
响度(Loudness)其实并不是一个客观的物理量,而是心理声学范畴的一个概念。换句话说,它衡量的并非一段声音在物理上释放了多少能量,而是当声音进入耳朵之后,我们主观上觉得它有多「响」。
上文提到了人耳的听阈范围,但在这段范围之内,我们对不同频率的敏感程度并不一致。相比沉闷的低频轰鸣,或极高频的细小尖声,人耳对中高频区域的声音要敏感得多。交谈中的人声、警报声,以及动作电影中用于制造冲击感的金属撞击、刀剑出鞘等音效,恰好都大量集中在容易被我们注意到的频段。
下图为等响曲线图,不难看出,人耳在不同频率下对同一声压级的响度感受是不同的。

对于一支视频来说,仅仅知道现实环境中的声压级还不够。毕竟最终听到多大的声音,还会受到播放设备和音量设置的影响:同一支视频,在手机外放、耳机和客厅音箱中播放,实际产生的声压级并不相同。
在数字音频信号领域,我们经常会看到一个叫做 dBFS 的单位,即 dB relative to Full Scale。dBFS 通常从负值逐渐接近 0,声音信号越接近 0,说明它距离数字系统能够容纳的上限越近。
而在讨论一段视频整体听起来有多响时,我们更需要关注 LUFS,即 Loudness Units relative to Full Scale,其结合了心理声学的相关理论,即人耳对声音的感受方式,衡量一段时间内的整体响度。在数值上,LUFS 越接近 0,通常意味着这段内容听起来越响。

讲这么多概念你可能也累了,如果「响度」始终只停留在听感层面,总归有些抽象。我们能够察觉一支视频比另一支更吵、更满、更有压迫感,却很难仅凭耳朵准确回答其响度。
因此我们需要借助一些工具将主观感受转化成相对直观的数据。
Youlean Loudness Meter 2 是一款可视化的响度检测工具,支持 macOS 和 Windows,可以读取声音在播放过程中的响度变化,并呈现诸如综合响度(用于描述整段视频整体听起来有多响)、短期响度与真实峰值等信息。

你可以在官网免费下载 YOULEAN LOUDNESS METER 2 自行体验。
下面笔者选取了一支约十年前发布的游戏宣传 PV 与这个月刚发布的几支 PV 进行了对比。需要提前说明的是,在游戏行业内,-21 LUFS 到 -16 LUFS 可以作为较常见的参考标准。
我们主要注意左侧表格中的 INTEGRATED 数值(即综合响度)与 SHORT TERM(即短期响度),结果如下:

可以看到,十年前的 PV 还处在较为克制的响度范围内。从右侧的响度曲线来看,整支视频并没有长时间贴近顶部运行,而是保留了相对明显的高低起伏:安静的段落负责铺垫,战斗与转场处的音效再将情绪推高。也正因为前后存在差异,高潮真正出现时,声音才更容易给人留下冲击感。

而近几年的 PV 响度则一家更比一家响。第一支近期动作游戏 PV 的综合响度已经来到 -12.2 LUFS,相较十年前的样本提升了接近 4 LU。这意味着即使观众没有调高播放设备的音量,整段视频在主观听感上也会更加饱满、更靠前,更容易在刚开始播放的几秒内抓住观众的注意力。

在另一支近期 PV 中这种趋势表现得更加明显:它的综合响度进一步达到 -11.2 LUFS,短期响度则来到 -6.7 LUFS;从右侧曲线中也能够看到,红色区域几乎持续贴近上方,留给安静段落和动态变化的空间已经相当有限。换句话说它并不是只在某几个战斗镜头中突然变响,而是在相当长的一段时间内都保持着较高的听觉压迫感。
更响的声音,会让视频在听觉上更「饱满」吗?
前面的测试中有一个很有意思的现象:几支 PV 的最高峰值其实都已经相当接近上限,但它们的综合响度却有着明显差异。显然新的 PV 并不是简单地把「最响的那一下」继续变得更响,而是让整段视频中的大部分声音都更响了。原本「较轻」的部分也会被一同推高。
在第一支十年前的 PV 中,对白、环境声和铺垫部分可能处在较低的位置,到了角色登场、战斗开始或配乐爆发时,声音才迅速冲上高峰;两支近期的 PV 则把响度最低处抬高,原本相对安静的部分不再那么安静,原本已经很响的高潮则继续贴近上限。
这种处理方式并不一定是坏事。对于一支只有一两分钟的游戏宣传片来说,更紧凑、更饱满的声音,确实能够迅速营造情绪,适应当前快节奏的观看环境。
但问题是我们正在丢失「动态」,这也是我们还是要反对「响度战争」的原因。
在数字音频中,声音并不能无限变响。数字信号存在一个明确的上限,峰值抵达 0 dBFS 后再继续向上推动,便可能产生削波和失真。
这里便涉及另一个概念——动态范围。简单来说,动态范围就是一段声音中,最轻与最响部分之间的差距。动态范围越大,安静的地方越安静,爆发的地方也就越容易显得突出;动态范围越小,整段声音则会听起来更加均匀、更加密集。
在专业音频制作中,压缩器可以将过高的峰值压低,限制器则可以防止声音突破数字信号的上限。在此基础上再将整段音频的电平提高,原本较轻的对白、配乐和环境声便会一同变响。最终,最高峰值或许没有明显改变,整段视频的综合响度却能够得到提升。
也就是说,响度战争用更小的动态范围换取了更高的整体响度,但高潮部分反而会变得不再突出。
事实上,平台并非完全没有注意到声音越来越响的问题。对于视频、节目等需要大量连续观看的内容来说,如果上一段对白还需要调大音量,下一段音乐或爆炸声便突然冲到耳边,观看体验显然是一场灾难。
有些内容平台制作了相应的响度参考标准(如 Netflix),但幽默的是不只是内容创作者们,这些标准制定平台有时候也并未重视自己的标准。


如果说参考标准是在内容上线前提前为创作者提供一个参考,那么播放端的响度标准化,则是在内容真正来到观众耳边之前,平台根据自身标准对音频整体响度进行调控的主要手段。
响度标准化的逻辑很简单:当不同内容被连续播放时,平台会尽可能让它们听起来处在相近的音量水平,避免用户刚听完一段较轻的内容,下一段便突然响到需要手动调低音量。
Apple Music 中的 Sound Check 便是一个直观的例子。Apple 在官方说明中将它描述为一项用于平衡不同歌曲响度的功能:系统会先判断歌曲本身听起来有多响,再在播放时适当调高或调低音量,让歌曲之间的切换不会显得忽大忽小。
遗憾的是这套机制在用户端的实际表现,依然会因平台和播放环境而有所不同,毕竟平台可以调低一支过响的视频,却无法替它重新找回那些已经在制作阶段被挤掉的动态范围。
说了这么多,回到开头,是否我们已经为「响度战争」盖棺定论,视频越响就越低质?
从客观上看,响度增大所带来的动态范围的损失是无法弥补的,但主观上提高响度又实打实增加了同等音量下视频的表现力。「响度」的调整应该作为某些情况下增加作品表现力的工具,而不是制作者与厂商们试图获取观众注意力的「武器」,使用一切工具的前提应该都是为内容服务。
毕竟,「看视频」这件事本不应该是一场「战争」。
> 关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀