第二支羽毛

大模型论文解读：VidTok：通过紧凑令牌化重新思考视频处理

论文： VidTok A Versatile and Open-Source Video Tokenizer 考虑观看一段繁忙街道的视频：建筑物、树木和道路在每一帧中几乎保持不变，而只有人和车辆在移动。传统的视频处理方法将每一帧作为独立的图像进行分析，这意味着它们最终会处理大量重复的信息，而没有利用

多模态