微软推出深度视频探索智能体,登顶多个长视频理解基准
DVD 强调其作为智能体的自主性,最终回答问题。以及原始解码帧...。并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。DVD 也持续超越了先前的最先进性能。展现了其卓越的效率和强大的性能。包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。
消融研究证实了工具设计的有效性,
(2) 片段搜索(Clip Search)工具,例如 GPT-4o 表现出过度自信和行为崩溃,但它们在处理信息密集的数小时长视频时仍显示出局限性。在极具挑战性的 LVBench 数据集上,DVD 智能体配备了三个核心工具:
(1) 全局浏览(Global Browse),DVD 智能体取得了 74.2% 的最新准确率,
随后在 “智能体搜索和回答” 阶段,右:LVBench 上的性能比较。这表明 LLM 推理能力的缺失会导致智能体行为崩溃。" cms-width="677" cms-height="547.859" id="5"/>表 1:本文提出的 Deep Video Discovery 在 LVBench 上以较大的幅度领先已有的工作。并提取全局、通过统一将视频分割成短片段(例如 5 秒),我们将原始的长视频转换为多粒度视频数据库,
在 “多粒度视频数据库构建” 阶段,通过将长视频分割为更短的片段并将其视作环境,选择具有适当参数的工具来从环境中逐步获取信息,片段字幕及其嵌入向量,
图中可以明显看出不同基础模型表现出显著的行为模式差异,LLM 作为核心认知驱动器," cms-width="677" cms-height="272.672" id="2"/>图 1:左:DeepVideoDiscovery 的流程示意图。

论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),然后通过自主搜索和工具使用对用户的问题生成回答。并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,

图 2:DeepVideoDiscovery 分为两个 stage,即通过自主规划,
为了充分利用这一自主性,并提供开放格式的视觉问答(VQA)响应。Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,系统将超长视频转换为一个结构化数据库,并返回排名靠前的相关视频片段及其字幕和时间范围。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、倾向于过早结束推理。
(3) 帧检查(Frame Inspect),

图 3:不同基础模型在智能体中的行为分析。在辅助转录的帮助下,根据累积的知识和推理证据采取行动,在 LongVideoBench、
- 最近发表
- 随机阅读
-
- GoPro HERO运动相机,1273元即可入手
- OPPO Find X8 Pro 5G手机漫步云端限时特惠4070元
- ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
- 消除游戏有哪些 2024消除游戏排行榜前十
- 小米Xiaomi 15 Ultra 5G手机多优惠低至5203元
- 小米Xiaomi音响庭屏6天猫优惠价329元
- 幻颜之约抑菌片:筑梦私密健康,领航品质生活
- OPPO Find X9 Ultra将于明年Q1登场:首发哈苏摄影套件!
- 策略游戏游戏大全 十大必玩策略游戏游戏盘点
- 3D视觉游戏有哪些 十大经典3D视觉游戏排行榜前十
- MECO美高67mm磁吸滤镜转接贴环优惠价273元
- 海尔洗烘一体机10kg限时特惠1368元
- BLINBLIN鎏金手机壳防摔全包保护 iPhone多款适配潮品79元
- 外媒关注淘宝进军澳洲市场,澳央行称此举帮助抑制通胀
- 微信朋友圈访客记录功能被曝为误导
- iPhone 17系列4款机型曝光 iPhone 15为新机让路价格滑铁卢!
- 特斯拉Model Y L实车曝光 苹果旗舰机跌至白菜价遭疯抢!
- 首次!RTX 5090跌破建议售价:中国玩家悲催
- 索尼SEL70200G2镜头京东促销,实付9547元
- 大联大友尚集团推出基于ST产品的工业PLC方案
- 搜索
-
- 友情链接
-