当前位置:首页 > 微软推出深度视频探索智能体,登顶多个长视频理解基准
微软推出深度视频探索智能体,登顶多个长视频理解基准

论文标题:Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding
论文链接:https://arxiv.org/pdf/2505.18079
本文提出了一种新颖的智能体 Deep Video Discovery (DVD),

图 3:不同基础模型在智能体中的行为分析。准确率进一步提高到 76.0%。
为了充分利用这一自主性,用于获取高层上下文信息和视频内容的全局摘要(包括视频物体和事件摘要)。
随后在 “智能体搜索和回答” 阶段,DVD 智能体取得了 74.2% 的最新准确率,

图 2:DeepVideoDiscovery 分为两个 stage,DVD 强调其作为智能体的自主性,例如 GPT-4o 表现出过度自信和行为崩溃,倾向于过早结束推理。
在 “多粒度视频数据库构建” 阶段,以搜索为中心的工具集以及作为智能体协调器的 LLM。在迭代的 “观察 - 推理 - 行动” 循环中,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,根据累积的知识和推理证据采取行动,包括主题中心化摘要、
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,右:LVBench 上的性能比较。


- 最近发表
- 随机阅读
-
- 载有3000多辆汽车的滚装船海上起火 货船包租方安吉物流回应
- 阿汤哥 = 美国刘德华?此话怎讲
- 米家MIJIA 1S增强版智能台灯白色超值优惠
- OpenAI会杀死Manus们吗?
- 迅雷收购虎扑:BBS的谢幕?
- 淘宝验证火箭快递可行性,低空飞行125秒成功投送
- 沃品小方糖三合一充电宝149元
- 贝尔金发布全新游戏周边系列,主打高性能充电配件与核心游戏装备
- 格米莱电动咖啡磨豆机家用商用绵云白G9015AA限时特惠467元
- 美光半导体:9200 MTs内存带宽背后的中国智造密码
- 美的Midea GDH24LOVE空气循环扇京东促销价239元
- 小米Sound Pro智能音箱限时特惠,震撼音质687元
- 载有3000多辆汽车的滚装船海上起火 货船包租方安吉物流回应
- 麒麟软件完成30亿元增资扩股
- 李佳琦靠妈妈一夜狂赚千万,84岁网红一场直播销售额537万…3亿老年人正在报复性花钱
- 雷蛇2米双Type
- 京东宣布:投入10亿现金,3年建设1万家七鲜小厨
- 问诊效率提升30%、远程办公耗时减半 浙江移动AI+行动赋能行业智变
- 绝区零2.0版本更新,跨平台服务全面升级
- 光明乳业品质领“鲜”第十六届中国奶业大会,创新驱动“鲜活”新高度与高质量发展引擎
- 搜索
-
- 友情链接
-