近日,第4届全国人工智能大赛NAIC(National Artificial Intelligence Challenge)圆满落幕。经过激烈角逐,火山引擎多媒体实验室提出的"Patch-based Multi-level Swin Transformer for High Resolution Video Quality Assessment"算法荣获 AI+视频质量评价赛道冠军,算法性能在复赛、决赛阶段均稳居第一,技术能力达到行业领先水平。
自2019年首届举办以来,全国人工智能大赛已经发展成为一个具有国际视野、规模庞大且影响力广泛的赛事。该大赛累积汇集了来自20个国家的1万多支队伍,涵盖了头部企业、知名院校和科研机构,并且在参赛规模和国际影响力方面不断提升,成为同类比赛中的佼佼者。
本届大赛设置了“AI+视频质量评价”、“AI+视觉特征编码”和“AI+无线通信”三个赛道,分别面向人工智能、通信、智能视觉、工业互联网和大数据应用等领域的技术人才和创新团队,发布了一系列具有挑战性的赛题。在本届全国人工智能大赛中,“AI+视频质量评价”赛道是全球首个专注于广色域、高帧率、高比特数的4K超高清视频压缩质量评价的人工智能赛道。该赛道要求参赛选手采用更高级别的视频序列和更专业的主观标签数据集,旨在挖掘准确性高、鲁棒性强的人工智能评价算法,以提供出色的视频传输和分发质量,为视听媒体用户提供卓越的观看体验。
随着传媒领域技术的不断发展和革新,超高清视频逐渐成为行业发展新趋势,围绕超高清视频的相关技术也引起了学术界和工业界越来越多的关注。得益于真实细腻的视频画面,超高清视频能够为用户提供更精彩的沉浸式体验。超高清视频往往辅以更广的色域范围、更深的量化比特数进行呈现,所需传输的数据量极大。受限于带宽资源因素,超高清视频往往需要经过大幅度压缩编码处理才能够有效传输。目前,主流的视频编码技术在大幅度数据压缩时会不可避免地引入失真,包括模糊、块效应、伪轮廓等。因此,如何有效感知经压缩编码后的超高清视频质量至关重要。
视频质量评价技术旨在感知和量化视频的画质优劣,包括分辨率、清晰度、失真度等多种因素。在超高清视频中,视频质量评价能够为压缩编码等操作提供可靠的画质评判依据,保证超高清视频的高质量呈现,从而为用户体验保障、用户黏度提升等方面提供巨大助力。
受困于失真特性差异,面向低分辨率的视频质量评价算法在本次赛题的超高清PGC视频场景下表现不佳。基于多媒体实验室内部的画质评估算法,团队对大赛提供的超高清视频进行了充分的失真分析,包括空域失真特点分析和时域质量波动分析。
在此次竞赛中,多媒体实验室针对性地提出一种"Patch-based Multi-level Swin Transformer for High Resolution Video Quality Assessment"的超高清视频质量评价算法。空域失真特点方面,超高清PGC视频与基于局部块的质量评价算法相关性最高,团队采用了图像块输入策略以更好地感知局部质量变化。时域质量波动方面,超高清PGC视频的帧间质量波动较小,团队采用了帧级强监督训练策略以充分扩充训练数据。进一步,团队提出了多层级特征融合策略以进一步提升算法的质量感知能力。团队提出的算法表现优越,性能持续领跑,且能以极低的计算代价完成对超高清PGC视频的质量评价。最终,团队方案从该赛道1624支队伍中脱颖而出,荣获冠军。