马斯克不惜溢美之词,称「人类愿赌服输」;红衣教主周鸿祎眼中,借助 Sora 人类实现 AGI 将缩减至一两年。就连卖付费课程的微商,也拿「Sora」重新组装了自己的镰刀。这种狂热的蔓延,从美国到中国,从一级到二级甚至再到三级市场,像涟漪一样,播散向全世界。因为,在理想情况下,长视频生成的底层逻辑,约等于世界模型。十几秒、几十秒的视频中,包含了基础的图像处理、空间关系、物理规律、因果逻辑等等现实规律与知识的映射。小处看,可以掀翻传统电影、游戏制作的桌子,大处看,通往通用人工智能,这是关键一步。同时,在一众长视频生成算法中,Sora 的技术突破是具备革命性的。相比传统的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架构,既克服了 Stable Diffusion 扩展性的缺失,更是在生成内容的准确性和灵活性上有了质的飞跃。没了开源,也就没了复现的可能;没了复现可能,那么哪怕经管出身的合伙人睡前读物变成了《Scalable diffusion models with transformers》,投资经理一周跑遍北京、深圳科技产业园掘地三尺,所有人都不得不承认一个现实,尽管视频大模型企业众多,但或许尚未等到国产 Sora 正式发掘,视频大模型的淘汰赛就已经走到尾声。业内「哇声一片」,一级市场却空前焦虑。中国 AI 企业,只能眼睁睁看着自己距离 Sora 越来越远吗?场上 VC 几乎绝望之际,谁也没曾想到,国产 Sora 的秘密,最先揭晓谜底的,竟是成立仅一年多的大模型企业——生数科技。近日,生数科技联合清华大学宣布推出国内首个基于纯自研 U-ViT 架构的视频大模型「Vidu」,支持一键生成长达 16 秒、分辨率高达 1080p 的高清视频内容。从官宣的短片来看,Vidu 在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面,几乎与 Sora 齐平。而相比其他国产「类 Sora」的工作,Vidu 一个最明显的特点就是,画面时间足够长。提示词:一艘木头玩具船在地毯上航行。注:这是 Vidu 放出的一段官方视频,可在生数科技旗下 PixWeaver 平台查看一直以来,十秒几乎是「国产 Sora」的一个生死线。要想达到或者超过十秒,则意味着对训练素材的积累,以及如何解决算法记忆消失问题,需要做出深厚的研究。这是 Vidu 放出的另一段官方视频,从视频中可以看到,白色老式 SUV 在山坡土路行驶中,滚动的轮胎会扬起灰尘,轨迹自然连贯;周围树林,也在阳光的照射下,遵循真实世界中的投射规律,留下光影斑驳。形成对比的是,保证视频时长的前提下,大部分国产「类 Sora」都很难保持人物和场景的连贯,同时也难以做到真实地遵循物理世界规律,比如吃汉堡会留下咬痕、汽车开过会留下尾气与灰尘的痕迹。根据行业人士透露,目前市面上之前的一些「类 Sora」模型,做到长时长的路径,其实大多是通过插帧的方式,在视频的每两帧画面中增加一帧或多帧来提升视频的长度。这种方法就需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。但生数科技的作用原理明显不同。基于单一模型完全端到端生成实现底层算法,直观上,我们可以看到「一镜到底」的丝滑感,视频从头到尾连续生成,没有插帧痕迹。另外,还有一些工具类的长视频采用了「换汤不换药」的做法。底层集合了许多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成单张画面,再图生 4s 短视频,再做拼接。也就是说,想要一个十几秒长视频,那就把多个 4s 短视频拼在一起就好,不仅整体的画面流畅度会大打折扣,底层也并没有实现长视频生成能力的突破。除了生成时长有了质的突破,从官宣视频中我们还可以看到,Vidu 还做到了画面连续流畅,且有细节、逻辑连贯。尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。做一个简单对比,以下是某热门视频大模型团队的视频生成效果截图,虽然整体视频长度才四秒,但仅仅一个准备跳跃的动作指令,就足以让画面里的小猫变成 6 只脚,或者三根尾巴的「鬼影」。对比如此鲜明,让人不禁疑惑:为何ChatGPT发布后,市场马上涌现一批「达到 GPT 3.5,逼近 GPT4.0」的大模型产品。同样是追赶,为什么类 Sora 产品却如此困难?答案是,ChatGPT 发布不久,Meta LLama2 开源,开源平替解决了国产 ChatGPT 技术复现的燃眉之急。而 Sora 没有开源,技术细节未公开,这就导致,实现「国产 Sora」就只剩了自研这一条路可以走。根据 OpenAI 披露的技术报告,Sora 核心技术架构背后源自一篇名为《Scalable Diffusion Models with Transformers》的论文,论文提出了一个将 Diffusion(扩散模型)和 Transformer 融合的架构——DiT,后面被 Sora 采用。巧合的是,比 DiT 早两个多月,清华团队就提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。从架构路线上,两者并无二致。甚至过程中,还曾出现一个小插曲,由于发布时间更早,当年计算机视觉顶会 CVPR 2023 收录了清华大学的 U-ViT 论文,却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。生数科技的创始团队正是源于清华大学该论文团队。公司的 CTO 鲍凡就是该篇论文的第一作者,此次发布的 Vidu 模型底层采用的就是 U-ViT 架构。也就是说,生数科技并不属于追逐 Sora 的一员,而是一早就踏在了同一起跑线,甚至是更早。深扒发现,论人才,其团队核心成员来自清华大学人工智能研究院,是国内最早开展深度生成式研究的团队。论技术,团队多项研究成果被 OpenAI、苹果、Stability AI 等应用于 DALL·E 2、Stable Diffusion 等模型中,是现阶段在生成式领域发表论文成果数最多的国内团队。论背景,生数科技已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名机构的认可,完成数亿元融资。与市面上大部分视频生成算法采用基于 U-Net 卷积架构的传统扩散模型不同,生数科技此次发布的 Vidu 与 Sora 采用的都是融合架构(即上文提到的 U-ViT 与 DiT)。所谓融合架构,可以理解为 Diffusion(扩散模型)与 Transformer 的融合。Transformer 架构被熟知应用于大语言模型,该架构的优势在于 scale 特性,参数量越大,效果越好,而 Diffusion 被常用于传统视觉任务(图像和视频生成)中。融合架构就是在 Diffusion Model(扩散模型)中,用 Transformer 替换常用的 U-Net 卷积网络,将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。2022 年 9 月,团队提交了 U-ViT 论文,在全球首次提出将扩散模型与 Transformer 融合的架构思路。两个多月之后推出的 DiT 架构同样采取了这一思路,而后被 Sora 采用。相比仅在 ImageNet 上做了实验的 DiT,U-ViT 还在小数据集(CIFAR10、CelebA)、ImageNet、图文数据集 MSCOCO 均做了实验。而且,相比传统的 Transformer,U-ViT 提出了一项「长连接」的技术,大大提升了训练收敛速度。之后,团队继续深入。2023 年 3 月,团队基于 U-ViT 架构在大规模图文数据集 LAION-5B 上训练出近 10 亿参数量模型 UniDiffuser,并将其开源,UniDiffuser 支持图文模态间的任意生成和转换。UniDiffuser 的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将融合架构在大规模训练任务中的所有环节流程都跑通。值得一提的是,同为图文模型,UniDiffuser 比最近才切换至 DiT 架构的 Stable Diffusion 3 领先了一年。不过,虽然都选了融合架构,但在后续产品路径的推进上,基于资源等方面的考虑,Sora 团队选择「每天基本不睡觉高强度工作了一年」all in 长视频,生数科技则选择从 2D 图像开始,再进一步拓展到 3D 和视频。路线没有对错之分,一个基本常识是,国内创业公司,技术路线可以与 OpenAI 一样,说明目光足够长远;但商业化打法参考 OpenAI 就是自寻死路——Sora 背后是 OpenAI 的技术实力,以及微软的几乎无限制的算力支持,普通公司没有学习的资本。也是因此,回顾整个 2023 年,生数科技主要资源都放在了图像和 3D 上。到了今年 1 月份,生数科技才正式上线 4 秒短视频生成,2 月份 Sora 发布之后,公司正式攻坚,很快便在 3 月份就突破了 8 秒的视频生成,4 月份实现 16 秒长度突破,生成质量与时长,全方面取得突破。仅仅两个月的时间就完成从 4 秒到 16 秒的训练任务,速度令人吃惊。背后不仅源自技术架构层面的「前瞻」,也在于通过过去图像到 3D 到视频的循序渐进,让团队积累了高效的工程化经验。视频本质上是图像在时间序列上的扩增,可以看成连续多帧的图像,所以先从图像开始入手,基础建设类的工程化工作,比如数据的收集、清洗、标注以及模型的高效训练等经验,是可以复用的。Sora 就是这么做的:它采用了 DALL·E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。据悉,「Vidu」也复用了生数科技在图文任务的很多经验,通过在前期的图像等任务中的准备铺垫,生数科技利用视频数据压缩技术降低了输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。路要一步一步走,饭要一口一口吃。在这个抢夺「国产 Sora」的商业游戏中,技术上找对和认准方向是第一步;而走出「国产」特色,也是生存下去的必要条件,二者缺一不可。本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653040023&idx=1&sn=f57cd250e1af8aa62c57d50c5944f45d&chksm=7e5750214920d937954c3288555df058121a3dff8bec84d4a2530ba044cf4241a9f9f97fc558&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh