微软推出深度视频探索智能体,登顶多个长视频理解基准
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。" cms-width="677" cms-height="547.859" id="5"/>表 1:本文提出的 Deep Video Discovery 在 LVBench 上以较大的幅度领先已有的工作。最终回答问题。通过统一将视频分割成短片段(例如 5 秒), (3) 帧检查(Frame Inspect),首先将长视频转化为多粒度的视频数据库,但它们在处理信息密集的数小时长视频时仍显示出局限性。 图 2:DeepVideoDiscovery 分为两个 stage,在极具挑战性的 LVBench 数据集上,以及原始解码帧...。右:LVBench 上的性能比较。用于获取高层上下文信息和视频内容的全局摘要(包括视频物体和事件摘要)。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,决策和行动来解决问题。系统将超长视频转换为一个结构化数据库,包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。DVD 智能体取得了 74.2% 的最新准确率,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。 (2) 片段搜索(Clip Search)工具,



论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),

图 3:不同基础模型在智能体中的行为分析。选择具有适当参数的工具来从环境中逐步获取信息,展现了其卓越的效率和强大的性能。
不同于之前的视频智能体框架依赖于手动设计的固定工作流程, DVD 以这一简洁有效的 agentic 框架在非常具有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。从而赋予智能体自主、
该系统在多个长视频基准测试上进行了全面评估,
为了充分利用这一自主性,在迭代的 “观察 - 推理 - 行动” 循环中,片段和帧级别的多粒度信息,
- 最近发表
- 随机阅读
-
- 安能物流一季度经调净利2.42亿元,同比增长15.9%
- 小米Xiaomi 鼠标X1有线无线双模轻量化游戏鼠标
- AMD锐龙CPU/华硕主板套装优惠价728元
- 董明珠孟羽童“520”和解 共同直播能否化解格力电器营收焦虑
- Apple iPhone 16 Pro 128GB 黑色钛金属 5G双卡手机 活动价3828元
- 宝马持续押注中国市场,新世代将推出中国专属车型
- 极光月狐数据发布:AI搜索发展洞察报告2025
- 朗科展出PCIe 5.0固态硬盘及磁吸移动硬盘
- 荣事达立式饮水机,京东107元可入手
- 红米K80 5G手机16GB+512GB玄夜黑仅1603元
- BLINBLIN琉金手机壳苹果多机型适用优惠价
- 海尔60L电热水器,多种优惠后1616元
- 大疆Osmo Pocket 3标准版天猫优惠价3499元
- 家用空气净化器除甲醛十大品牌,分解除甲醛机器排名
- 从创意到生产全面拥抱首发经济 上海安福路新晋潮流新地标亮相丨新经济观察
- 小米Xiaomi 鼠标X1有线无线双模轻量化游戏鼠标
- 独居老人也能轻松下厨?智慧「瀞」厨房的“隐形守护”让子女放宽心
- 小户型Gasket,7层消音填充,雷柏V700DIY
- OPPO A3i Plus 5G手机限时特惠934元
- 漫步者G1500电竞音箱限时直降
- 搜索
-
- 友情链接
-