大模型论文解读：VidTok：通过紧凑令牌化重新思考视频处理

论文： VidTok A Versatile and Open-Source Video Tokenizer

考虑观看一段繁忙街道的视频：建筑物、树木和道路在每一帧中几乎保持不变，而只有人和车辆在移动。传统的视频处理方法将每一帧作为独立的图像进行分析，这意味着它们最终会处理大量重复的信息，而没有利用从一帧到下一帧的自然流。这种冗余使得视频处理效率低下，需要比必要更多的存储、内存和计算。

为了解决这个问题，VidTok 在论文《VidTok：A Versatile and Open Source Video Tokenizer》中介绍了一种新的视频压缩和表示方法。VidTok 不是单独处理每一帧，而是将原始视频转换为紧凑的标记，既捕捉视觉细节又捕捉运动。这减少了冗余，同时保留了视频的基本结构，使视频生成、编辑和检索等任务更加高效。

在本文中，我们将着眼于传统视频处理的局限性以及 VidTok 如何提供更高效的替代方案。我们将分解它的架构，解释它对空间和时间特征提取的方法，并探索它如何量化视频数据。

传统视频处理的局限性

在许多视频场景中，特别是在静态背景或最小变化的情况下，连续帧之间的内容保持相似。传统方法没有利用这种冗余，而是将每一帧视为一个孤立的图像。这种方法没有考虑视频数据的连续性，并导致影响性能和资源使用的低效率。

主要问题包括：

计算负载过大：类似信息跨帧重复处理，导致计算冗余，这增加了流转时长和能耗，这对于高分辨率视频和实时应用来说变得至关重要。
高存储和内存开销：将每一帧存储为一个唯一的单元会导致冗余数据的积累。在视频的持续时间内，重复存储几乎相同的背景信息会显著增加数据量，给存储系统和内存资源带来压力。
时间一致性丢失：帧之间的连续性对于准确捕捉运动是必要的。隔离每一帧会导致系统错过传达连续性的细微变化，从而可能导致动态场景中的细节丢失和视频重建中的伪影。
低效数据利用：重复处理视频的静态部分意味着计算资源没有集中在实际变化上。这导致在冗余信息上浪费处理能力，而不是在定义场景动态的元素上。

这些挑战强调了对一种将视频数据压缩成紧凑、有意义的表示的方法的需求，同时保留空间细节和运动流。VidTok 通过将原始视频数据转换为有效的标记化格式来解决这些问题，该格式以有意义的更改为目标，同时最大限度地减少冗余。

VidTok 如何转换原始视频数据

VidTok 通过一系列步骤将高维视频转换为紧凑的表示：编码、正则化、量化和解码。
图1. VidTok管道概述

该过程从编码器开始，这是一个使用卷积层从每一帧中提取基本空间特征的神经网络。该网络识别边缘、纹理和形状等关键细节。通过利用连续帧之间的相似性，编码器专注于捕捉运动的变化，而不是重复处理静态信息。

编码后，正则化步骤将提取的特征组织到结构化潜在空间（数据的压缩抽象表示，其中相似的输入具有相似的编码特征）中。这确保了相似的帧产生相似的表示，这对于以后的一致重建至关重要。

在正则化之后，VidTok 将有限标量量化（FSQ）应用于潜在特征，创建离散表示。FSQ 将表示的每个元素映射到一组固定值中的一个，避免了传统矢量量化中看到的密码本崩溃等问题。然而，VidTok 不仅限于离散标记化，它还支持连续标记化，其中视频被映射到平滑的潜在空间，而不是固定的离散值。连续标记化对于视频生成和基于扩散的模型等任务很有用，而离散标记化对于压缩和检索任务更有效。VidTok 通过对离散标记使用 FSQ 和对连续标记使用 KL 正则化来平衡这两种方法，使其比只专注于一种类型的模型更灵活。

然后，解码器在需要时重建视频，重新组装标记化表示以保留空间细节和时间运动动力学。通过将视频数据压缩成这种标记化格式，VidTok 减少了冗余，同时保留了关键信息，使视频编辑、生成和检索更加高效。现在我们已经看到了 VidTok 如何编码和量化视频数据，让我们更详细地探索它的架构组件。

在 VidTok 架构中

VidTok 旨在将原始视频数据转换为一组紧凑的标记，以捕获空间细节和运动信息。该架构由几个相互关联的模块组成，这些模块协同工作以减少冗余并保留基本内容。

基于二维卷积的空间特征提取

该过程从一个编码器开始，该编码器将 2D 卷积层应用于单个视频帧。这些层从每张图像中提取关键的空间特征，如边缘、纹理和形状。例如，在城市街道场景中，网络学习检测建筑轮廓、道路标记和标牌，同时最大限度地减少静态背景元素的重复处理。

具有 3D 卷积的时间特征提取

为了捕捉运动，VidTok 使用 3D 卷积层同时处理多帧。通过考虑空间和时间维度，这些层识别运动模式和随时间的转变。在繁忙的十字路口等场景中，3D 卷积关注动态方面，如移动的车辆和行人，而忽略了基本上静态的环境。

解耦时空采样

VidTok 的一个关键设计决策是分别处理空间和时间信息。空间采样是使用专用的 2D 操作执行的，可以有效地从每一帧中提取细节，而时间采样是独立管理的，以跟踪随时间的变化。这种分离允许网络将资源分配到最需要的地方，减少对静态内容的冗余计算。

使用 AlphaBlender 运算符进行时间混合

保持帧之间的平滑过渡对于准确捕捉运动至关重要。VidTok 集成了 AlphaBlender 运算符来混合连续帧的特征。运算符根据公式计算加权和：
[x = \alpha \cdot x_1 + (1 - \alpha) \cdot x_2]
在这个等式中，(x_1)和(x_2)代表来自两个连续时间步长的特征图，而(\alpha)控制它们之间的平衡。这种混合过程对于通过有效地组合来自相邻帧的信息来保持渐变至关重要，例如日落的移位色相。为了更好地理解 VidTok 如何处理空间和时间信息，请看下图，它说明了它的架构，并显示了特征提取和混合所涉及的不同组件。

图2. 模型的空间和时间处理，包括2D + 1D DownBlocks、AlphaBlender Temporal DownBlocks和3D卷积

VidTok 使用用于时空特征提取的 3D 卷积、用于高效空间处理的 2D + 1D 块和用于时间混合的 AlphaBlender 的混合来处理视频输入。图的右侧详细说明了 AlphaBlender 如何集成池化和插值以保持平滑的运动表示。这种结构确保在有效捕获时间信息的同时保留静态细节，而不会引入不必要的伪影。

有限标量量化（FSQ）

在特征提取和混合之后，VidTok 使用有限标量量化（FSQ）压缩潜在表示。FSQ 通过将潜在向量的每个标量元素映射到一组固定的预定值之一来独立量化潜在向量的每个标量元素。这种独立量化避免了传统向量量化方法中可能出现的密码本崩溃等问题。结果是一组标记，其中几乎每个标记都携带有意义的信息。

图3. 传统矢量量化与FSQ的视觉比较

上图显示了 VQ 如何用从学习到的密码本最近的条目替换整个潜在向量，这可能会导致不稳定。相比之下，FSQ 沿着预定义的轴（(z_0)，(z_1)，(z_2)）独立量化每个维度，消除了对密码本的需求，并确保更高效和稳定的标记化。这种方法产生了更可靠的离散表示，其中每个令牌都携带有意义的信息。

解码器和重建过程

解码器通过从紧凑的标记重建视频来反转编码过程。它重新组装标记化表示以再现原始视频的空间细节和时间流。这种重建类似于拼凑马赛克，其中每个标记都有助于完整的图像。

培训策略和正规化

VidTok 使用平衡计算效率和高质量视频重建的两阶段方法进行训练。在第一阶段，模型在低分辨率视频上进行训练，允许它在没有过多计算成本的情况下捕获结构模式。这有助于网络在处理更精细的细节之前学习一般的视频特征。在第二阶段，只有解码器使用高分辨率数据进行微调，在保持训练高效的同时细化重建帧。此外，在训练期间降低帧率有助于模型专注于有意义的时间变化，而不是处理冗余的逐帧更新。这通过优先考虑视频动态中实际重要的变化来改进运动表示。

为了保持结构化的潜在空间，VidTok 应用了提高稳定性和防止过度拟合的正则化技术。用于连续标记的一个关键方法是 KL 发散，它测量学习分布偏离预期分布的程度。通过最小化 KL 发散，该模型确保潜在表示保持平滑，不会折叠成过于集中的值，否则可能会限制学习特征的多样性。

对于离散令牌，应用熵惩罚来鼓励更统一和多样化地使用可用的量化级别。如果没有这些惩罚，模型可能会仅过度使用一小部分令牌，导致压缩效率低下和信息丢失。通过应用熵正则化，VidTok 确保整个令牌空间得到有效利用，提高视频表示的质量。这些技术一起帮助 VidTok 优化视频令牌化，保留空间和时间信息，同时实现高效的视频生成、编辑和检索。

现在让我们检查一下这些架构选择如何转化为关键基准测试和实际应用程序的性能改进。

VidTok 在基准测试上的表现

在改进其训练策略并应用有限标量量化后，VidTok 在视频重建基准上表现出强劲的性能。评估衡量它在不同视频数据集中保留空间细节和捕捉运动的程度，每个视频数据集在场景复杂性和运动动力学方面都有自己的挑战。

VidTok 在 MCL - JCV 和 WebVid - Val 等数据集上进行了测试。MCL - JCV 数据集由具有不同运动模式和细节级别的视频组成，而 WebVid - Val 包含来自真实世界场景的自然视频。在这些条件下，VidTok 实现了 29.82 dB 的峰值信噪比（PSNR），表明重建的视频与原始内容紧密匹配，失真最小。它还达到了 0.867 的结构相似度指数（SSIM），反映了其保持空间结构、纹理和帧之间对比度的能力。更高的 SSIM 意味着重建的视频看起来更像原始视频。

使用学习知觉图像贴片相似性（LPIPS）指标进行的进一步评估得出 0.106 分，表明原始视频和重建视频之间的视觉差异仍然很低。VidTok 还记录了 160.1 的 Fréchet 视频距离（FVD），这是衡量模型在帧间保持时间一致性和运动的程度。

这些结果突出了 VidTok 平衡压缩效率和重建质量的能力。标记化表示保留了基本信息，同时减少了冗余，使其对视频生成、编辑和检索中的应用程序有用。虽然这些结果证明了 VidTok 的效率，但仍有一些领域可以进一步改进。

VidTok 和视频令牌化的未来方向

VidTok 提供了一种有效的视频表示方法，改进了检索、存储和生成。虽然当前模型取得了出色的结果，但可以探索几个领域以进一步增强其能力。

改进运动表现

VidTok 使用 3D 卷积和 AlphaBlender 算子捕捉时间动态，但处理视频中的长期依赖仍然具有挑战性。未来的工作可能会探索基于变压器的视频架构，该架构可以明确跟踪跨帧的长期依赖关系。这些改进将增强运动连续性，特别是在快速移动物体、遮挡或快速转换的场景中。

更高分辨率和多尺度编码

有效处理高分辨率视频仍然是一个公开的挑战。多尺度编码技术可以在不显著增加计算成本的情况下更好地保存精细纹理。这对于需要高质量视频重建的应用特别有用，如媒体制作和医学成像。

自适应量化以获得更好的压缩

有限标量量化（FSQ）提供了标记化的稳定性，但自适应量化可以进一步提高效率。通过根据场景复杂性动态调整比特分配，系统可以为具有复杂纹理或高运动的区域分配更多细节，同时减少静态区域的冗余。这将在保持视频质量的同时优化存储。

视频理解的跨模态学习

VidTok 的标记化表示可以与文本和音频等其他模式相结合，以增强视频理解。未来的工作可以探索联合嵌入，其中视频标记与文本描述和声音特征一起映射。这将改进自动字幕、多模态搜索和基于视频的问答等任务，将 VidTok 的潜在应用扩展到检索和压缩之外。

通过专注于这些领域，VidTok 可以继续发展成为更强大的视频处理工具，提高各个行业的存储、检索和分析效率。

结论

VidTok 通过减少冗余和保留空间和时间细节来改进视频处理。它不是将每一帧视为孤立的图像，而是将视频数据转换为紧凑的标记，使存储、压缩和重建更加高效。通过应用卷积编码器、有限标量量化（FSQ）和时间混合，它专注于有意义的变化，同时最大限度地减少不必要的处理。

这种方法在不牺牲重要细节的情况下使视频生成、编辑和检索等任务更加高效。展望未来，运动跟踪、多尺度编码和自适应量化的改进可以进一步提高其性能。随着对高效视频处理需求的增长，VidTok 提供了一种结构化和可扩展的方法来管理视频数据，同时保持准确性和效率。

如果觉得文章对你有用，请随意赞赏

VidTok

大模型论文解读：VidTok：通过紧凑令牌化重新思考视频处理

https://www.chenbaiqi.com/archives/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB%EF%BC%9AVidTok%EF%BC%9A%E9%80%9A%E8%BF%87%E7%B4%A7%E5%87%91%E4%BB%A4%E7%89%8C%E5%8C%96%E9%87%8D%E6%96%B0%E6%80%9D%E8%80%83%E8%A7%86%E9%A2%91%E5%A4%84%E7%90%86

作者

柏企

发布于

2025-04-05

更新于

2025-04-05

许可协议

CC BY 4.0

大模型论文解读：VidTok：通过紧凑令牌化重新思考视频处理

传统视频处理的局限性

VidTok 如何转换原始视频数据

在 VidTok 架构中

基于二维卷积的空间特征提取

具有 3D 卷积的时间特征提取

解耦时空采样

使用 AlphaBlender 运算符进行时间混合

有限标量量化（FSQ）

解码器和重建过程

培训策略和正规化

VidTok 在基准测试上的表现

VidTok 和视频令牌化的未来方向

改进运动表现

更高分辨率和多尺度编码

自适应量化以获得更好的压缩

视频理解的跨模态学习

结论

作者

发布于

更新于

许可协议

评论