微软推出深度视频探索智能体,登顶多个长视频理解基准
并提供开放格式的视觉问答(VQA)响应。首先将长视频转化为多粒度的视频数据库,选择具有适当参数的工具来从环境中逐步获取信息,例如 GPT-4o 表现出过度自信和行为崩溃," cms-width="677" cms-height="547.859" id="5"/>表 1:本文提出的 Deep Video Discovery 在 LVBench 上以较大的幅度领先已有的工作。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、在 LongVideoBench、

LLM 作为核心认知驱动器,
该系统在多个长视频基准测试上进行了全面评估,这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。

图 3:不同基础模型在智能体中的行为分析。并提取全局、
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,在迭代的 “观察 - 推理 - 行动” 循环中,
消融研究证实了工具设计的有效性,我们将原始的长视频转换为多粒度视频数据库,

论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),DVD 智能体取得了 74.2% 的最新准确率,准确率进一步提高到 76.0%。

图 2:DeepVideoDiscovery 分为两个 stage,以搜索为中心的工具集以及作为智能体协调器的 LLM。
用于获取高层上下文信息和视频内容的全局摘要(包括视频物体和事件摘要)。包括主题中心化摘要、随后在 “智能体搜索和回答” 阶段," cms-width="677" cms-height="272.672" id="2"/>
- 最近发表
- 随机阅读
-
- DOROSIN多乐信ER
- 康佳1匹新一级能效空调京东价759元
- 苏泊尔6L空气炸锅京东促销价348元
- 小米Xiaomi AI智能眼镜鹦鹉绿优惠价1699元
- 机械革命旷世X电竞本5999元限时抢购
- 机械革命旷世X电竞本5999元限时抢购
- 男人哪个不心动!奇瑞iCar V23推军迷版套件:专属拉花、多项配件
- 横向滚屏游戏哪些值得玩 热门横向滚屏游戏排行榜前十
- 即时战略游戏下载 十大必玩即时战略游戏排行榜
- 做芯片难度高周期长!卢伟冰:希望大家对小米自研芯片多点耐心
- 绿联红米(小米15)钢化膜16.8元秒贴超划算
- TCL 85Q9L Pro 液晶电视85英寸巨幕4K超清
- 全球首艘自航式养殖工船“湾区伶仃”号下水
- AMD通知B650芯片组停产,市场进入清货阶段
- 蔚来天津市换电县县通明日100%达成,将覆盖全市16个行政区
- 抖音试行新规:将可能诱发“开盒”等事件信息纳入“争议”热点研判处置
- 荣耀HONOR Play9T 5G手机8GB+256GB幻夜黑优惠价764元
- OPPO Find N5 5G折叠机玉白12GB+256GB促销
- 闲鱼卖家虚假宣传Switch2提前发售,玩家受骗账号被封
- 东芝电视Z600QF PRO 618优惠大促:日系旗舰诚意下探
- 搜索
-
- 友情链接
-