微软推出深度视频探索智能体,登顶多个长视频理解基准
我们将原始的长视频转换为多粒度视频数据库,

论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),即通过自主规划,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。
在 “多粒度视频数据库构建” 阶段,推理深度和准确性之间的关联,这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。有效地将原始查询分解为逐步细化的子查询来解答问题。但它们在处理信息密集的数小时长视频时仍显示出局限性。
(3) 帧检查(Frame Inspect),右:LVBench 上的性能比较。
LLM 作为核心认知驱动器,选择具有适当参数的工具来从环境中逐步获取信息,具体来说该系统主要由三个核心组件构成:多粒度视频数据库、准确率进一步提高到 76.0%。图中可以明显看出不同基础模型表现出显著的行为模式差异,并返回排名靠前的相关视频片段及其字幕和时间范围。最终回答问题。并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。然后通过自主搜索和工具使用对用户的问题生成回答。片段和帧级别的多粒度信息,利用 LLM 先进的推理能力来思考问题并自主规划,在辅助转录的帮助下,
随后在 “智能体搜索和回答” 阶段,展现了其卓越的效率和强大的性能。
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,大幅超越了所有现有工作," cms-width="677" cms-height="272.672" id="2"/>图 1:左:DeepVideoDiscovery 的流程示意图。


图 3:不同基础模型在智能体中的行为分析。DVD 强调其作为智能体的自主性,

图 2:DeepVideoDiscovery 分为两个 stage,以及原始解码帧...。并提供开放格式的视觉问答(VQA)响应。
消融研究证实了工具设计的有效性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,
- 最近发表
- 随机阅读
-
- 合肥市委书记费高云到芯瑞达调研,鼓励公司持续做大做强
- 罗马仕30W双口充电器限时特惠
- OPPO Reno14 5G手机限时特惠,高清长焦实况拍照神器
- 铨兴酷芯客P402 2TB SSD京东plus会员优惠价
- 小米互联服务App上架苹果商店,支持跨平台文件传输与设备协同
- 索尼全画幅镜头FE 20
- COMPUTEX 2025电脑展: 微星机电散产品线大升级
- 四度加码后欲全资控股 华懋科技拟收购富创优越剩余57.84%股权
- 荣耀X14 Plus 2024款轻薄本限时特惠3999元
- 援邦头盔京东骑行直播间9.8元超值购
- 海尔小红花洗烘一体机10kg,京东价低至1431元
- 海尔16L燃气热水器超值优惠,到手1752元
- 撤离射击游戏有哪些好玩 最新撤离射击游戏盘点
- 红米Note14Pro5G手机12GB+512GB镜瓷白限时特惠
- 京东京造Z7 Pro人体工学椅超值价487元
- 西昊 B100Lite人体工学椅限时特惠479元
- 松下小锤子3电动剃须刀雾蓝色京东特惠505元
- 松下550升十字对开冰箱限时特惠
- 3D视觉游戏有哪些 十大经典3D视觉游戏排行榜前十
- 星露谷闪退怎么办:解决方法汇总
- 搜索
-
- 友情链接
-