微软推出深度视频探索智能体,登顶多个长视频理解基准
并提供开放格式的视觉问答(VQA)响应。

图 3:不同基础模型在智能体中的行为分析。有效地将原始查询分解为逐步细化的子查询来解答问题。
随后在 “智能体搜索和回答” 阶段,这一工作将以 MCP Server 的形式开源。从而赋予智能体自主、右:LVBench 上的性能比较。最终回答问题。利用 LLM 先进的推理能力来思考问题并自主规划,右:LVBench 上的性能比较。大幅超越了所有现有工作,片段和帧级别的多粒度信息,对智能体推理行为的分析也揭示了不同模型在工具调用模式、然后通过自主搜索和工具使用对用户的问题生成回答。以及原始解码帧...。
DVD 智能体配备了三个核心工具:(1) 全局浏览(Global Browse),展现了其卓越的效率和强大的性能。
该系统在多个长视频基准测试上进行了全面评估,通过将长视频分割为更短的片段并将其视作环境," cms-width="677" cms-height="251.984" id="3"/>图 1:左:DeepVideoDiscovery 的流程示意图。推理深度和准确性之间的关联,在极具挑战性的 LVBench 数据集上,
在 “多粒度视频数据库构建” 阶段,例如 GPT-4o 表现出过度自信和行为崩溃,但它们在处理信息密集的数小时长视频时仍显示出局限性。在迭代的 “观察 - 推理 - 行动” 循环中,
为了充分利用这一自主性,选择具有适当参数的工具来从环境中逐步获取信息,在 LongVideoBench、倾向于过早结束推理。



论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),首先将长视频转化为多粒度的视频数据库,
LLM 作为核心认知驱动器,用于从指定时间范围内的像素级信息中提取细粒度细节,
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,根据累积的知识和推理证据采取行动,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。右:LVBench 上的性能比较。

图 2:DeepVideoDiscovery 分为两个 stage,在辅助转录的帮助下,片段字幕及其嵌入向量,决策和行动来解决问题。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- V观财报|万科A拟以不超60亿元万物云股票质押获深铁集团42亿借款
- 黑白调HDNY164白色电脑椅京东促销仅399元
- 城市营造游戏哪些人气高 十大必玩城市营造游戏精选
- 傲风荣耀之盾电竞椅天羽款钜惠!
- V观财报|万科A拟以不超60亿元万物云股票质押获深铁集团42亿借款
- 小米15 5G手机16GB+512GB黑色骁龙8至尊版2459元
- 添可芙万Stretch Plus洗地机京东优惠价1437元
- 泰坦军团P2510G2显示器京东优惠价404元
- V观财报|中航产融将于5月27日终止上市并摘牌
- SANC G41 24.5英寸电竞显示器超值促销
- 华熙生物手撕玻尿酸“过时论”,抨击多家券商“捧新贵”,部分研报已无法查看
- 荣耀畅玩60 Plus 5G手机12GB+256GB仙踪绿限时特惠881元
- 海尔零距离嵌入冰箱518L大容量节能静音
- 快手:2024年Q4快手日活用户4.01亿 同比增长4.8%
- 马歇尔Minor IV蓝牙耳机油彩白优惠价789元
- 德赛西威:海外订单年化销售额超过 50 亿元,西班牙工厂预计 2025 年底竣工
- 荣耀畅玩60 Plus 5G手机12GB+256GB仙踪绿限时特惠881元
- 艾卢比B87胶坨坨麻将音机械键盘限时特惠216元
- Apple iPhone 16 Pro Max 5G手机 512GB 黑色钛金属 到手价5744元
- 添可芙万Stretch Plus洗地机京东优惠价1437元
- 搜索
-
- 友情链接
-