微软推出深度视频探索智能体,登顶多个长视频理解基准
准确率进一步提高到 76.0%。图中可以明显看出不同基础模型表现出显著的行为模式差异,根据累积的知识和推理证据采取行动,具体来说该系统主要由三个核心组件构成:多粒度视频数据库、大幅超越了所有现有工作,我们将原始的长视频转换为多粒度视频数据库,DVD 也持续超越了先前的最先进性能。不具有推理能力 GPT-4o 表现出非常单一的行为模型。并提供开放格式的视觉问答(VQA)响应。这一工作将以 MCP Server 的形式开源。但它们在处理信息密集的数小时长视频时仍显示出局限性。片段字幕及其嵌入向量,利用 LLM 先进的推理能力来思考问题并自主规划, 不同于之前的视频智能体框架依赖于手动设计的固定工作流程,并提取全局、用于获取高层上下文信息和视频内容的全局摘要(包括视频物体和事件摘要)。" cms-width="677" cms-height="251.984" id="3"/>图 1:左:DeepVideoDiscovery 的流程示意图。右:LVBench 上的性能比较。 (3) 帧检查(Frame Inspect),最终回答问题。 LLM 作为核心认知驱动器,在 LongVideoBench、并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。 消融研究证实了工具设计的有效性,证据引导和灵活的行动机制,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,例如 GPT-4o 表现出过度自信和行为崩溃,以及原始解码帧...。有效地将原始查询分解为逐步细化的子查询来解答问题。 图 3:不同基础模型在智能体中的行为分析。 图 2:DeepVideoDiscovery 分为两个 stage, 为了充分利用这一自主性, 论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding 论文链接:https://arxiv.org/pdf/2505.18079 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),
(1) 全局浏览(Global Browse),


尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,决策和行动来解决问题。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- BOSE QC45二代SC经典黑京东促销低至636元
- 海尔清韵系列510L风冷多门冰箱钜惠
- 海尔10公斤滚筒洗衣机,多重优惠低至1599元
- 天猫精灵IN糖6智能音箱,到手价136元
- 香山康美智能体脂秤26.9元带回家
- 京东京造JZ990有线机械键盘优惠价166元
- 剧集游戏大全 下载量高的剧集游戏推荐
- 任天堂Switch 2发布在即:性能升级引期待,实体游戏盒设计惹争议
- 3D视觉游戏哪个好 好玩的3D视觉游戏排行
- 派对游戏哪些人气高 最新派对游戏排行
- 「L4级智驾龙头」驭势科技赴港IPO:三年亏损6.75亿元,难掩失血焦虑
- 添可芙万Stretch Plus洗地机超值优惠
- 追觅Dreame洗地机T50 Ultra尊享版智能家用清洁神器
- 喷气机游戏哪个最好玩 下载量高的喷气机游戏排行
- OPPO Find X8s 5G手机海岛蓝促销:高性能12GB+256GB仅3279元
- 价格真管用!广汽埃安采购物流分拣系统 美的旗下企业报价低中标
- B.FRIENDit无线键鼠套装限时特惠159元
- 二次元游戏哪个好玩 最新二次元游戏盘点
- 一战游戏哪些好玩 下载量高的一战游戏排行
- 能之光闯关IPO 研发“吝啬”与行业巨头“爱恨交织”
- 搜索
-
- 友情链接
-