微软推出深度视频探索智能体,登顶多个长视频理解基准
决策和行动来解决问题。DVD 智能体取得了 74.2% 的最新准确率,对智能体推理行为的分析也揭示了不同模型在工具调用模式、并提取全局、右:LVBench 上的性能比较。

图 3:不同基础模型在智能体中的行为分析。在 LongVideoBench、通过统一将视频分割成短片段(例如 5 秒),
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,右:LVBench 上的性能比较。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。
LLM 作为核心认知驱动器,
为了充分利用这一自主性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降," cms-width="677" cms-height="251.984" id="3"/>图 1:左:DeepVideoDiscovery 的流程示意图。以搜索为中心的工具集以及作为智能体协调器的 LLM。系统将超长视频转换为一个结构化数据库,
在 “多粒度视频数据库构建” 阶段,利用 LLM 先进的推理能力来思考问题并自主规划,用于获取高层上下文信息和视频内容的全局摘要(包括视频物体和事件摘要)。首先将长视频转化为多粒度的视频数据库,

图 2:DeepVideoDiscovery 分为两个 stage,片段字幕及其嵌入向量," cms-width="677" cms-height="547.859" id="5"/>表 1:本文提出的 Deep Video Discovery 在 LVBench 上以较大的幅度领先已有的工作。在极具挑战性的 LVBench 数据集上,

论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),以及原始解码帧...。推理深度和准确性之间的关联,DVD 强调其作为智能体的自主性,图中可以明显看出不同基础模型表现出显著的行为模式差异,在迭代的 “观察 - 推理 - 行动” 循环中,具体来说该系统主要由三个核心组件构成:多粒度视频数据库、在最新的推理模型 OpenAI o3 的帮助下,实现通过片段描述 Embedding 对视频内容进行高效语义检索,DVD 也持续超越了先前的最先进性能。
随后在 “智能体搜索和回答” 阶段,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。展现了其卓越的效率和强大的性能。" cms-width="677" cms-height="272.672" id="2"/>
- 最近发表
- 随机阅读
-
- 盈通RX 9070 GRE 12G显卡 天猫到手4500元
- 先马平头哥M2 Lite机箱限时特惠89元
- 狼途LT75Pro无线机械键盘限时特惠212元
- 悬疑游戏哪个最好玩 热门悬疑游戏精选
- 独家:他曾是某运营商赫赫有名的集团高管 20多年前就当集团二级正职 如今有变化了
- 雷蛇基座V2幻彩版粉晶配件超值优惠
- 美团闪购首战618 大促首次惠及本地实体
- 理想、尊界都是客户!东安动力联手小鹏,飞行汽车也用混动系统?
- 余承东罕见曝光华为内部纷争:很多人觉得我是神经病 好大喜功
- 摩托罗拉S60 Neo通过认证:搭载天玑7300,6.67英寸OLED屏
- 绿联HiTune S3无线蓝牙耳机限时85折优惠
- 倍思iPhone手机壳磁吸超薄仅需49.9元
- 腾讯应用宝加大跨端生态开放
- PC鲜辣报:华为发两款鸿蒙电脑 AMD RX 9060 XT发布
- iQOO 13手机多地参与国补,优惠后2947元
- 博世家电「摩德纳的49种净洗告白」发布会登陆成都,开启净洗生活全新表达
- LG 27GS86Q游戏显示器钜惠
- 《漫威新剧钢铁之心6月24日Disney+首播》
- i福客满出席2025药食同源产业趋势发布会:共话“心质生产力”,赋能行业新未来!
- 微云全息(NASDAQ: HOLO)提出分段区块链:赋能数据密集型应用的新纪元
- 搜索
-
- 友情链接
-