首页 > 杏彩平台官网
返回
杏彩平台官网
杏彩体育:Sora之后OpenAI Lilian Weng亲

  过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视

  过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。

  2. 相比于文本或图像,收集大量高质量、高维度的视频数据要更为困难,更罔论配对的文本 - 视频数据了。

  这里使用的变量定义与之前那篇文章稍有不同,但数学形式是一致的。令 ��~��_real 是从该真实数据分布采样的一个数据点。现在,在时间中添加少量高斯噪声,创建出 �� 的一个有噪声变体序列,记为:{��_�� �� = 1..., ��},其中噪声随 �� 的增加而增长,而最后的 ��(��_��)~��(��,��)。这个添加噪声的前向过程是一个高斯过程。令 ��_�� 和 ��_�� 为这个高斯过程的可微噪声调度(differentiable noise schedule):

  图 1:以角坐标形式展示扩散更新步骤的工作方式,其中 DDIM 通过让 z_{��_��} 沿

  对于视频生成任务,为了延长视频长度或提升帧率,需要扩散模型运行多个上采样步骤。这就需要基于第一个视频 ��^�� 采样第二个视频 ��^�� 的能力,

  除了其自身对应的有噪声变量之外,��^�� 的采样还需要基于 ��^��。Ho & Salimans 等人 2022 年的视频扩散模型(VDM)提出使用一种经过调整的去噪模型来实现重构引导方法,这样就可以很好地以 ��^�� 为基础实现 ��^�� 的采样:

  其中 是 ��^�� 和 ��^�� 根据所提供的去噪模型的重构。而 ��_�� 是一个加权因子,可以寻找一个较大的 ��_�� 1 来提升采样质量。请注意,使用同样的重建引导方法,也有可能基于低分辨率视频来扩展样本,使之变成高分辨率样本。

  类似于文生图扩散模型,U-Net 和 Transformer 依然是常用的架构选择。谷歌基于 U-net 架构开发了一系列扩散视频建模论文,OpenAI 近期的 Sora 模型则是利用了 Transformer 架构。

  VDM 采用了标准的扩散模型设置,但对架构进行了一些修改,使之更适合视频建模任务。它对 2D U-net 进行了扩展,使其能处理 3D 数据,其中每个特征图(feature map)都表示一个 4D 张量:帧数 x 高度 x 宽度 x 通道数。这个 3D U-net 是在空间和时间上进行分解,也就是说每一层都仅会操作空间或时间一个维度,而不会同时操作两者。

  处理空间:原本和 2D U-net 中一样的 2D 卷积层会被扩展成仅针对空间的 3D 卷积,具体来说,就是 3x3 卷积变成 1x3x3 卷积。每一个空间注意力模块依然是关注空间的注意力,其中第一个轴(frames)则被当成批(batch)维度处理。

  处理时间:每个空间注意力模块之后会添加一个时间注意力模块。其关注的是第一个轴(frames)并将空间轴视为批维度。使用这种相对位置嵌入可以跟踪帧的顺序。这个时间注意力模块可让模型获得很好的时间一致性。

  图 2:3D U-net 架构。该网络的输入是有噪声视频 z_��、条件信息 c 和对数信噪比(log-SNR)λ_��。通道乘数 M_1,...,M_�� 表示各层的通道数量。

  Ho, et al. 在 2022 年提出的 Imagen Video 基于一组级联的扩散模型,其能提升视频生成的质量,并将输出升级成 24 帧率的 1280x768 分辨率视频。Imagen Video 架构由以下组件构成,总计 7 个扩散模型。

  一组级联的交织放置的空间和时间超分辨率扩散模型,包含 3 个 TSR(时间超分辨率)和 3 个 SSR(空间超分辨率)组件。

  图 3:Imagen Video 的级联式采样流程。在实践中,文本嵌入会被注入到所有组件中,而不只是基础模型中。

  基础去噪模型使用共享的参数同时在所有帧上执行空间操作,然后时间层将各帧的激活混合起来,以更好地实现时间一致性;事实证明这种方法的效果优于帧自回归方法。

  SSR 和 TSR 模型都基于在通道方面连接了有噪声数据 ��_�� 的上采样的输入。SSR 是通过双线性大小调整来上采样,而 TSR 则是通过重复帧或填充空白帧来上采样。

  Imagen Video 还应用了渐进式蒸馏来加速采样,每次蒸馏迭代都可以将所需的采样步骤减少一半。在实验中,他们能够将所有 7 个视频扩散模型蒸馏为每个模型仅 8 个采样步骤,同时不会对感知质量造成任何明显损失。

  为了更好地扩大模型规模,Sora 采用了 DiT(扩散 Transformer)架构,其操作的是视频和图像隐代码的时空块(spacetime patch)。其会将视觉输入表示成一个时空块序列,并将这些时空块用作 Transformer 输入 token。

  在扩散视频建模方面,另一种重要方法是通过插入时间层来「扩增」预训练的文生图扩散模型,然后就可以选择仅在视频上对新的层进行微调或完全避免进行额外的训练。这个新模型会继承文本 - 图像对的先验知识,由此可以帮助缓解对文本 - 视频对数据的需求。

  Singer et al. 在 2022 年提出的 Make-A-Video 是在一个预训练扩散图像模型的基础上扩展一个时间维度,其包含三个关键组件:

  是时空,其能生成一系列的 16 帧视频,其中每一帧都是低分辨率的 64x64 RGB 图像

  是帧插值网络,可通过在生成的帧之间插值而有效提升帧率。这是一个经过微调的模型,可用于为视频上采样任务预测被掩蔽的帧。

  伪 3D 卷积层:每个空间 2D 卷积层(由预训练图像模型初始化)后面跟着一个时间 1D 层(由恒等函数初始化)。从概念上讲,其中的 2D 卷积层首先生成多帧,然后这些帧会被调整为一段视频。

  伪 3D 注意力层:在每个(预训练)空间注意力层之后堆叠一个时间注意力层,从而近似得到一个完整的时空注意力层。

  其中有输入张量 ��∈ℝ^{��×��×��×��×��}(对应于批量大小、通道数、帧数、高度和宽度);

  除了扩展 2D 卷积层之外,Tune-A-Video 的 U-Net 架构还整合了 ST-Attention(时空注意力)模块,可通过查询在之前帧中的相关位置来实现时间一致性。给定帧 ��_��、前一帧 ��_{��-1} 和第一帧 ��_1 的隐含特征(它们被投射成查询 ��、键 �� 和值 ��),ST-Attention 的定义是:

  图 8:Tune-A-Video 架构概况。在采样阶段之前,它首先在单个视频上运行一个轻量加权的微调阶段。请注意整个时间自注意力(T-Attn)层都会得到微调,因为它们是新加入的,但在微调阶段,ST-Attn 和 Cross-Attn 中只有查询投射会被更新,以保留先验的文生图知识。ST-Attn 能提升时空一致性,Cross-Attn 能优化文本 - 视频的对齐。

  Esser et al. 在 2023 年提出的 Gen-1 模型(Runway)针对的任务是根据文本输入编辑给定视频。它在考虑生成条件时会将视频的结构和内容分开处理:p (�� ��,c)。但是,要将这两方面清楚地分开实非易事。

  内容 �� 是指视频的外观和语义,其可从文本采样来进行条件化编辑。视频帧的 CLIP 嵌入能很好地表示内容,并且能在很大程度上与结构特征保持正交。

  结构 �� 描述了几何性质和动态情况,包括形状、位置、物体的时间变化情况,�� 是从输入视频采样的。可以使用深度估计或针对特定任务的辅助信息(比如用于人类视频合成的姿势或人脸标识信息)。

  Gen-1 中的架构变化相当标准,即在其残差模块中的每个 2D 空间卷积层之后添加 1D 时间卷积层,在其注意力模块中的每个 2D 空间注意力模块之后添加 1D 时间注意力模块。训练期间,结构变量 �� 会与扩散隐变量 �� 连接起来,其中内容变量 �� 会在交叉注意力层中提供。在推理时间,会通过一个先验来转换 CLIP 嵌入 —— 将其从 CLIP 文本嵌入转换成 CLIP 图像嵌入。

  Blattmann et al. 在 2023 年提出的 Video LDM 首先是训练一个 LDM(隐扩散模型)图像生成器。然后微调该模型,使之得到添加了时间维度的视频。这个微调过程仅用于那些在编码后的图像序列上新增加的时间层。Video LDM 中的时间层

  交错放置,而这些空间层在微调过程中会保持冻结。也就是说,这里仅微调新参数 ��,而不会微调预训练的图像骨干模型参数 ��。Video LDM 的工作流程是首先生成低帧率的关键帧,然后通过 2 步隐含帧插值过程来提升帧率。

  长度为 �� 的输入序列会被解释成用于基础图像模型 �� 的一批图像(即 ��・��),然后再调整为用于

  时间层的视频格式。其中有一个 skip 连接通过一个学习到的融合参数 �� 导向了时间层输出 �� 和空间输出 �� 的组合。在实践中,实现的时间混合层有两种:(1) 时间注意力,(2) 基于 3D 卷积的残差模块。

  图 10:一个用于图像合成的预训练 LDM 被扩展成一个视频生成器。B、��、��、��、�� 分别是批量大小、序列长度、通道数、高度和宽度。��_S 是一个可选的条件 / 上下文帧。

  但是,LDM 的预训练自动编码器依然还有问题:它只能看见图像,永远看不见视频。直接使用它来生成视频会产生闪动的伪影,这样的时间一致性就很差。因此 Video LDM 向添加了额外的时间层,并使用一个用 3D 卷积构建的逐块时间判别器在视频数据进行微调,同时编码器保持不变,这样就依然还能复用预训练的 LDM。在时间微调期间,冻结的编码器会独立地处理视频中每一帧,并使用一个视频感知型判别器强制在帧之间实现在时间上一致的重建。

  图 11:视频隐扩散模型中自动编码器的训练工作流程。其中编码器的微调目标是通过新的跨帧判别器获得时间一致性,而编码器保持不变。

  SVD 专门强调了数据集整编对模型性能的关键作用。他们使用了一个剪辑检测流程来从每段视频获得更多剪辑,然后对其使用三个不同的字幕标注器模型:(1) 用于中间帧的 CoCa,(2) 用于视频字幕的 V-BLIP,(3) 基于前两个标注使用 LLM 来进行标注。然后他们还能继续提升视频数据集,其做法包括移除运动更少的视频片段(通过以 2 fps 速度计算低光流分数进行过滤)、清除过多的文本(使用光学字符识别来识别具有大量文本的视频)、清除看起来不够美的视频(使用 CLIP 嵌入标注每段视频的第一帧、中间帧和最后帧并计算美学分数和文本 - 图像相似度)。实验表明,使用经过过滤的更高质量的数据集能得到更好的模型质量,即便这个数据集要小得多。

  对于首先生成远距离关键帧然后再使用时间超分辨率进行插值的方法,其中的关键挑战是如何维持高质量的时间一致性。Bar-Tal et al. 在 2024 年提出的 Lumiere 则是采用了一种时空 U-Net(STUNet)架构,其可在单次通过中一次性生成整段时间上持续的视频,这样就无需依赖 TSR(时间超分辨率)组件了。STUNet 会在时间和空间维度上对视频进行下采。


相关产品
中文 English