文章作者、来源:新智元
过去两年,视频生成模型正飞速演进,从24年底Sora刚发布时的惊艳效果,到Google Veo、Sora 2、Kling系列模型,以及今年年初的Seedance 2.0等视频生成模型的多点爆发,AI生成视频的质量已发生了质的飞跃,可以生成出电影级别的逼真效果的数分钟、多人物、复杂场景下的视频。
在日新月异的生成侧对面,研究界对AI视频检测的关注却不温不火。
而在现实中我们不难观察到,视频的多模态性质带来的比图片大得多的欺骗性正带来巨大的社会影响:
各个社交平台上,AI生成的虚假视频频出,且数量、质量、覆盖广度均正在激增,用户询问Grok、豆包等基座模型「视频是否为AI生成」,得到的答案往往只有缺乏可解释性和可信度的是非判断;在小红书等平台上,真实拍摄的视频却经常被标注为「疑似AI生成」。
生成侧快速发展与检测端的关注缺失之间正经历巨大鸿沟,我们必须及时关注:在AI视频生成快速迭代的今天,AI生成视频检测的研究发展到了哪一步、正在经历怎样的范式转变、未来需要向哪些方向发展。
在这样的背景下,来自MBZUAI、中国人民大学和哈佛大学的研究者综述共同撰写并发布了五十页综述,首次从视觉和语言两个方向梳理出从低层视觉感知到高层世界级推理的技术路径,据此分析了目前迫切需要的多层证据耦合的动态、可溯源、可解释的可信检测体系,现已被ACL 2026录用,
论文链接:https://www.researchgate.net/doi/10.13140/RG.2.2.31713.88168
GitHub链接:https://github.com/dxhou/AI-Generated-Video-Detection
Homepage链接:https://AIgcvdetection.github.io
图 1|AI 生成视频检测的完整流程:生成端、双视角检测,到证据集合
在生成式AI爆发之前,AI生成视频会留下相对明显的视觉伪迹,基于这个前提,在早期以换脸为代表的Deepfake场景中,帧级的视觉感知侧核验足够有效。
而在近两年,飞速发展生成式AI时代的视频质量逐渐跨过了这个「前提」,人眼已越来越无法判断真实、完整的视频的真假。此时,只输出二分类判断的检测就已经不能满足需求,亟待回答:检测器究竟基于怎样的证据来支持可信的判断。
本综述首先将检测问题的边界前推:指出检测输出需要从「真假二分类走向可解释、可信的结构化判断,从而把检测对象推进到面向视频中的「虚拟世界」与「现实世界」之间的间隙进行核验。
因此,综述首先重新界定了检测目标,重定义为「事实保真度验证」,即核查视频内容中关于「谁、何时、何地、发生了什么」这样的命题是否同时在感知和认知上一致对齐真实世界,在视觉和模态间核验之外,需要去进一步判断视频内容包含这些命题是否与外部「事实、物理规律与世界知识等」存在冲突。
图 2|本综述定义的三类 AI 生成视频范式
2020年至今,AI生成视频经历了范式上的迁移:从早期Deepfake时期通过GAN进行视频局部修改,到换口型和语音等音画重组,再到潜空间扩散模型促生的类Sora的「世界模拟器」支持的AI视频全合成,综述将AI生成视频分为如下三种范式:
保留真实载体的局部操控视频(Local Manipulation Video, LMV)
LMV 长期是传统Deepfake检测最典型、最成熟的一类范式。视频本身将真实拍摄视频的局部区域作处理,如换脸、换背景等;而场景、人物动作、镜头运动、光照关系等的原始视频的大部分结构通常还在。因此,绝大多数早期方法也正是围绕局部伪迹、频域特征、几何异常和区域一致性来做。而生成模型在局部融合、光照适配和身份迁移上的能力越来越强,平台处理和二次传播又会把很多细小痕迹进一步抹掉;对LMV范式的检测重点慢慢更关注检测方法在不同场景下的鲁棒性。
跨模态耦合约束下的音视频编辑(Audio-Visual Editing, AVE)
AVE范式主要兴起于2024年,这类AI生成视频中改动的是画面本身和声音、口型、说话人身份、说话节奏、字幕内容等视频内部原本已经建立好的对应关系。包括语音驱动的人脸合成、对原视频重新配音、改口型、换说话人等。这使得检测端需要从看视觉伪迹走向检查视频内部几个模态之间的关系有没有真的成立,把声音、口型、身份和内容放在一起看去找到真正有判断力的线索。
端到端生成式视频合成(Generative Video Synthesis, GVS)
2025年爆发的GVS范式中,模型直接依靠文本、图像、噪声等条件信息生成整段视频,不再依靠真实视频做底子,给检测端带来了全新挑战。
这类视频通常在单帧或短时间内看上去很真,但在长时空序列上往往会出现漏洞:如人物的动作或在场景中的位置前后无法衔接,物体的形状、运动发生不符合物理规律的改变,或视频中事件本身无法真实世界中成立。
相应地,对GVS范式的检测思路也就不能局限于局部、模态间一致性,需要走向更高层,从长程一致性、常识、物理规律、叙事和因果,命题级别的真实性和可追溯性等出发,在长空序列上核查内容本身是否可信,去看视频内容是否可以在各个层面上均在真实世界成立。
图 3|Vision-Language Dual-View 四层框架:前两层偏向视觉视角,后两层走向语言视角
当前,进行AI生成视频检测的模态视角已经分化,可分为两类核心科学问题:第一类是从视觉模态出发,聚焦底层信号取证和画面时空一致性。
另一类从语言模态出发,关注核心包括视频本身的跨模态语言信息,判断「视频究竟是不是在模态间良好对齐地叙事」;以及利用语言模态引入与有关世界的知识、事实相关的推理,判断「视频的内容是否能经受住外部真实世界中知识、事实、规律等的检验」。
综述抓住了这一转变趋势,提出从视觉-语言双视角出发来组织AI生成视频检测的研究方法和评估范式,在此基础上进一步提出下述从低层感知到高层认知的四层方法图景。
包括如下四层:
layer1中的方法关注的研究问题是:在底层视觉信号上视频是否符合真实视频需要满足的统计规律,以及视频是否存在由AI模型生成或编辑操作引入的底层线索。
在底层信号上,真实视频会满足相应的的统计特性,同时真实拍摄处理得到的视频会天然地与采集、编码及后处理过程相匹配;而AI生成的过程往往会留下风格样式单一、模型对应的水印和伪迹、可以被检测出来的生硬的生理信号等偏离真实视频分布的线索;第一层内的方法从视觉视角出发通过建模、抽取并放大这些底层信号来进行取证。包括检测:
频域、纹理、边界、噪声模式等像素与几何异常;
脉搏耦合、肌肉微小动作、眨眼节奏等人脸上的生理信号;
真实视频和伪造视频在特征空间中是否存在系统偏移。
Layer2中的方法针对「视频的多帧在时空上的序列组合」的概念,关注的研究问题是:在时空维度上,视频的图像流是否满足真实视频中物体运动过程的需要满足的特征。真实拍摄的视频需要受限于连续的相机轨迹与现实环境场景,相邻帧之间的主体和背景画面会呈现符合物理可行性和相机运动的连续、可预测时空变化模式。而AI生成视频在长时序上可能会出现物体或背景失真、画面局域突然模糊等时空上的不连续性。包括检测:
局部物体变形、背景漂移、突发模糊、运动残差异常等时间与运动不一致;
表情变化、身份动态,画面人物主体之间的互动节奏等人类行为与互动动态;
关注时间频率和画面连续性相关的物理与频率异常。
Layer 3 是整个框架里一个很关键的转折点:检测开始进入视频内部的多模态核验,关注的研究问题是:视频中画面、声音、字幕等各模态「是否各个层面都对齐地讲相同的内容」。
真实视频在往往伴随的音频、文字、画面这些模态之间高度对齐。而AI生成视频可能存在口型–语音、身份–声纹,画面–文字之间系统性的错配。第三层方法对模态间的一致性进行细粒度多角度的一致性分析。包括三种类型:
检测声音和画面之间的一致性;
将字幕、标题、转写文本、说明文本引入后进行文本—视频语义一致性推理;
面向对模态间不一致的时间定位的鲁棒性学习。
Layer4的检测视角从「视频内部的一致性」提升到「与外部真实世界中的规则、知识是否一致不冲突」,关注的研究问题转变为:视频内容在语义和事实维度上在真实世界里是否真地可能存在、是否合理。
真实视频的所有内容都应当与真实世界的事实、物理规则等领域知识、基本常识等保持一致。而AI生成视频的内容往往难以完全align到真实世界,这正是第四层利用的检测空间。包括:
用提示词、文本先验、文本原型或轻量模块去重新校准模型的表征空间,从而使得模型更容易把看到的异常和更明确的语义类别对应起来;
将检测视为一个查证流程,构建一个会查资料、会调工具、会回头修正判断的调查员智能体,将判断与证据、工具输出、查证过程等对应起来;
通过微调、偏好学习、奖励建模和强化学习,把「如何选证据、如何组织解释、如何给出结论」训练进模型本身。关注给出清楚、结构稳定、证据链完整的检测输出。
图4|代表性检测方法演化图谱:生成侧威胁升级与检测端提升同步推进
上图沿时间线呈现了生成侧威胁不断抬高「假视频」所能达到的逼真上限,检测技术依赖的基座模型经历了从深度卷积网络与循环网络,到视觉Transformer,再到具备推理能力的视觉语言大模型与智能体系统的演进的背景下,检测端从视觉取证逐步走向多模态验证与高层推理检测的演进图谱。
综述进一步对检测方法的层级分布做出了时间上的统计,2020年占比仅7.7%,2023 年升至40.0%,在2025年过半。
总得来说,检测方法的重心在持续上移:早期主要集中在第一层和第二层,而随着生成视频越来越平滑、越来越逼真,检测开始更多进入第三层和第四层。
图 5|检测方法分布变化统计:语言视角占比逐渐上升
面对事实保真度检测的目标,对检测方法的评测需要回答:模型是否掌握了可迁移的视觉线索,是否能够识别时空和跨模态的不一致,是否能够对事实、知识和世界约束作出有效判断。综述系统梳理了从传统Deepfake时代到今天的检测评估指标、数据集的演进。
Acc、AUC、Precision、Recall、F1、EER、PR-AUC,及frame-level和video-level的聚合方式,仍是不同方法之间最基本的共同语言,使得不同层级的方法可以横向比较。然而,这些基础评测指标仍然必要,但无法承载事实忠实性验证目标下可解释、可信的评测要求。
评测的重心在于当检测器遇到分布变化、压缩传播和真实环境干扰之后,其原来的线索还能不能继续成立。分为如下两类:
语言视角下的检测路径的覆盖范围更宽,评测指标已无法再用一套简单的分类指标概括。综述做出如下分层:
绝大多数用于评估和训练检测方法的数据集天然会沿着前述AI生成视频范式分化,综述进行了如下梳理:
检测相关的评估侧资源不局限于面向检测本身的数据集。事实上,在CV和世界模型相关研究中,许多针对视频生成模型的生成质量诊断评测及与视频理解模型的纠错能力的评测同样可以作为检测的重要参照。综述将这些可以作为补充资源的诊断评测工作按照逐步推进的评估链条进行梳理:
高保真AI生成视频正在持续抬高伪造内容的逼真上限,检测任务所面对的问题已经越来越难用一个真假分数概括,需要进行事实保真度检测;相应地,评测段和检测系统也需要随着外扩的任务边界同样进行拓展:
面对新涌现的AI生成的长时间跨度复杂视频,评测需要回答的就不只是「模型会不会分类」,还包括「模型究竟依赖了什么线索产生了正判或误判」。而粗粒度评估标签会掩盖大量真正关键的信息,评测中的数据标注、模型训练和结果报告也需一起前推,需要将视频重新拆回到可核验的命题单元组,把「长时序叙事」转化为如事件链、实体状态轨迹或事件图等的可操作结构化对象,以便在长时间尺度上进行因果与约束验证,从而进一步追问检测「究竟抓住了哪条命题」及「证据和判断能否一一对应」。
此外,大多数检测器仍在「封闭世界」设定下被评估:真实部署场景中新的视频生成模型、编辑工具和内容风格持续涌现,不同平台引入各自的下采样、转码与滤波流程。为弥补这一长期鲁棒性缺口,需要借鉴 arena/leaderboard 式的持续更新机制,将新发布生成器与新平台转码链路以流式方式纳入评测集合。
为实现面向前述事实忠实性的可解释检测,需要兼顾感知—认知两条链路,将视觉视角揭露视觉伪迹和时空不一致的能力,与高层语言视角进行结构化推理的能力相结合,从而在双视角打通四层方法图景。一方面,当前视觉语言模型和视频理解模型对「感知保真度」的相关判别能力较差,需要视觉视角的手段来进行补充;另一方面,对于更强生成模型和反检测手段生成的在感知上高度保真的视频,需要在事实层面以语言视角在语义和事实空间进行检测。
进一步,建立「识别—定位—解释」的显式推理路径。这意味着,在上述双链路体系中,每一个工具的调用或知识的引用,都必须严格绑定到具体的论证环节。
此外,上述在「内容侧」构成的检测体系需要与可能存在的「来源侧」的认证信号等进行交叉校验,联通内容分析与源头追溯。最终形成跨层次、多模态的检测体系以及可信、可解释的证据空间。
AI视频检测是一个只会越来越难的任务。
对未来的AIGC-V检测研究和实际应用而言,该综述提供了一套更接近落地需求的地图,重新界定了AI生成视频检测的任务,提出了「视觉—语言双视角」的四层框架,并据此系统梳理了已有方法、相关基准和评测指标,同时将这些层级与真实部署中的挑战、现有评测中的缺口以及正在出现的发展方向联系起来。
沿着这一框架,指出可信检测所需要具备的几个关键要求,包括以证据为先、结论可追溯,以及在跨生成器和真实场景条件下保持稳健。
而未来,可信的AI视频检测也很难再由某一个单独领域独立完成,它正在成为CV、NLP、多模态理解和世界模型相关研究需要共同面对的交叉议题:CV提供时空证据建模与取证稳健性,NLP提供命题拆解、推理、证据落地与解释能力,多模态与世界模型研究则提供更强的跨模态对齐能力及关于物理、因果和时间一致性的更丰富先验。
只有把这些能力真正结合起来,视频检测才能逐步超越对局部伪迹的搜索,走向一种更严格的「真实观」:问题不再只是视频看起来是否可信,而是其中的实体、事件与动态过程,是否始终忠实于真实世界的约束,去寻找把虚拟世界和真实世界之间越来越模糊的边界。
参考资料:https://www.researchgate.net/doi/10.13140/RG.2.2.31713.88168


