首个Agentic多模态检索大模型来了!清华团队让AI边推理边主动看图,准确率提升23%
创始人
2026-03-24 01:26:37
0

近年来,随着多模态大语言模型(MLLM)的快速发展,研究者们开始尝试将其应用于通用多模态检索任务。与此同时,思维链(Chain-of-Thought,CoT)推理被引入检索领域,通过增强模型的推理能力来改善候选结果的排序。

然而,一个重要问题始终未能得到解决:现有的推理过程本质上仍然是语言驱动的,模型无法在推理过程中主动获取和验证视觉细节,因此在面对相似的候选图片时容易“瞎猜”。

近日,清华大学联合、复旦大学、香港大学等机构,推出了首个基于“Interleaved Reasoning”的通用多模态检索框架 V-Retrver。该框架将传统检索重塑为智能体推理过程,让多模态大模型学会在检索时主动调用视觉工具来验证细节,而非仅凭静态的图像表征进行判断。目前,研究团队已将代码和模型权重开源。

(来源:arXiv)

“从 2025 年初开始,推理模型开始火起来,很多工作把推理模型用在下游任务,多模态检索就是其中之一。”团队成员向 DeepTech 表示,“但现在这些推理模型的 CoT 过程是从文本推理的。问题在于,多模态检索的输入是多张图像,你要从十张候选图片中找到最相关的那张,仅靠文本推理会产生幻觉。”

这种局限在视觉模糊的检索场景中尤为明显。尤其当候选图片在语义上高度相似,仅在细节上存在差异时。比如同样是白色沙发,只是抱枕纹理不同,模型往往无法准确区分。传统方法将视觉输入压缩成固定的特征向量或文本描述,迫使推理过程完全依赖语言来推断视觉差异,结果就是模型只能瞎猜。

(来源:论文)

更关键的是,现有模型看图是“一次性”的。用了一个形象的比喻:“传统模型看完图就凭印象做题,面对复杂的图文交错检索,它们无法在推理遇到瓶颈时主动去验证视觉细节。”这种走马观花式的视觉处理方式,导致模型在需要精细判断时表现不佳。

让模型学会“放大找细节”

V-Retrver 的核心理念是将多模态检索重新定义为一个“多模态思维链的推理过程”。与传统的单次推理不同,模型在推理过程中可以主动调用外部视觉工具来获取更多信息,就像人在看不清某个细节时会把图片放大仔细看一样。

团队表示,这是首个将交错推理(Interleaved Reasoning)应用于多模态图像检索的工作。此前的相关研究主要集中在简单的图像理解和视频理解任务上,例如单图问答场景。

论文作者之一以一个具体场景说明了这一过程:“假设输入是一段文字描述,需要从 10 张候选图片中找到最相关的一张。模型在分析过程中,如果发现某张图片的关键细节看不清楚,就会调用工具对该区域进行局部放大后再做判断。比如查询文本提到‘桌上放着某个物品’,而这个物品在图像中位置较小、较模糊,模型就需要放大查看才能做出准确判断。”

这种“边看边想”的过程与人类的认知方式很像,当我们在网购时遇到相似的商品,也会点开大图看买家秀细节来做出对比和判断。

这种“产生疑问→调取工具核实→得出结论”的逻辑闭环,正是 V-Retrver 区别于传统方法的关键所在。

三阶段训练:从“学会用工具”到“聪明地用工具”

让模型学会何时以及如何使用这些视觉工具,并非易事。V-Retrver 采用了三阶段的课程学习策略。

第一阶段是监督微调(SFT),目标是教会模型基本的工具调用能力。“我们使用 LLM 来合成训练数据,这批数据包含了检索过程中调用工具的示例,让模型学会何时以及如何调用工具。”作者表示,这个阶段的数据质量至关重要,也是整个训练过程中最具挑战性的环节之一。

SFT 阶段的训练量需要精心控制。作者指出,这里存在两个极端:训练过度会导致模型在强化学习阶段过度依赖工具,对每个样本都尝试调用;训练不足则会使模型无法掌握工具调用能力。

第二阶段是拒绝采样微调(RSFT),通过筛选高质量的推理轨迹来提升模型的推理可靠性和格式合规性,为后续的强化学习提供稳定的初始化。

第三阶段是证据对齐策略优化(EAPO),这是基于 GRPO 算法的强化学习过程。“我们设计了一个工具调用奖励机制,”作者解释道,“当模型在推理过程中合理调用工具时会获得正向奖励。我们希望模型能够适度使用工具进行验证,而非完全不用或过度依赖。”

(来源:论文)

经过强化学习训练后,模型能够实现自适应的工具调用。有些问题需要调用工具来验证细节,有些则不需要,模型会自主判断。

性能提升显著,泛化能力突出

在通用多模态检索基准 M-BEIR 上,V-Retrver-7B 取得了 69.7% 的平均召回率,相比此前最强的 U-MARVEL-7B 提升了近 5 个百分点,相对基础的 Qwen2.5-VL-7B 模型则提升了 23%。

(来源:论文)

值得注意的是,V-Retrver 在需要精细视觉判断的任务上表现尤为突出。在 FashionIQ 数据集上达到 51.2%,在 CIRR 数据集上达到 73.5%,分别比 U-MARVEL-7B 高出 13 个和 10 个百分点。这验证了多模态交错推理在处理细粒度视觉差异时的有效性。

在零样本泛化测试中,V-Retrver 同样表现优异。在从未见过的 CIRCO 数据集上取得了 48.2 的 MAP@5 成绩,显著超过 MM-Embed-7B 等专业检索模型。

消融实验进一步证实了视觉工具的价值:如果剥夺 V-Retrver 的视觉工具,只让它做纯文本的 CoT 推理,平均性能会从 67.2% 跌至 61.8%。

(来源:论文)

团队在论文中也坦诚地表明了当前工作的局限性。最明显的是推理成本问题:相比传统的 embedding 方法,V-Retrver 需要更多的计算资源和时间。“我们在这个工作中没有专门做权衡,这确实是一个问题,也是后续可以继续研究的方向。”

另一个局限是视觉工具的种类相对有限,目前只有 ZOOM-IN 和 SELECT-IMAGE 两种。研究团队计划在后续工作中引入更多类型的工具,其中包括网络搜索工具。

作者以一个例子说明了引入 web search 工具的潜在价值:假设检索目标是“穿着黄色衣服的拿破仑”,但候选图片中存在其他穿着相似服装且外貌接近的人物,仅凭服装颜色难以区分。此时模型可以通过网络搜索获取拿破仑的其他标志性特征,并将这些信息作为辅助依据,提升检索的准确性。

V-Retrver 的出现,标志着多模态检索研究从“静态编码 + 语言推理”向“动态感知 + 交错推理”的范式转变。它证明了一个朴素而重要的道理:在处理视觉任务时,模型不仅需要“想”,更需要“看”。而且要学会在需要的时候主动去“仔细看”。

参考资料

1.论文链接:https://arxiv.org/abs/2602.06034

2.项目地址:https://github.com/chendy25/V-Retrver

运营/排版:何晨龙

相关内容

穿越周期!半导体盈收出海双...
近期,全球存储芯片、MCU等核心半导体元器件迎来新一轮涨价热潮,直...
2026-04-06 16:55:24
梳理示波器供应企业哪家靠谱...
在电子测试测量领域,示波器是一种极为常用且关键的仪器,主要用于测量...
2026-04-06 16:54:59
电子信息类按专业方向划分,...
电子信息类按专业方向划分,可涵盖所有新一代产业集群和传统工作岗位。...
2026-04-06 16:54:14
恒生电子中标:浙江农村商业...
证券之星消息,根据天眼查APP-财产线索数据整理,根据浙江农村商业...
2026-04-06 16:52:44
一季度涨价1倍后,消息称三...
4月6日,据IT之家消息,韩媒ETNews报道,三星电子将在第二季...
2026-04-06 16:52:23
3661. “徘徊者”电子...
2026-04-06 16:51:50
商务部:推进高水平开放 共...
商务部4月6日消息,近日,商务部会同中央网信办、工业和信息化部、农...
2026-04-06 16:51:19
什么是光敏性皮炎 该如何预...
央视网消息:春季特别适合出游,可总有些皮肤敏感的人在皮肤暴露于紫外...
2026-04-06 13:16:40
清华系“芯片变形金刚”冲刺...
2026年3月,一家名为清微智能的AI芯片公司正式向北京证监局提交...
2026-04-06 13:15:34

热门资讯

揭秘实测!闽游麻将十三水透视开... 揭秘实测!闽游麻将十三水透视开挂辅助(有挂攻略)
程序实测!转运珠有辅助是真的吗... 程序实测!转运珠有辅助是真的吗(真的确实有挂)
3分钟学会!微乐石家庄麻将其实... 3分钟学会!微乐石家庄麻将其实是有辅助(拿好牌调胜率)
实测分享!八闽状元郎辅助(记者... 实测分享!八闽状元郎辅助(记者曝光内幕)
必备教程!柚子联盟开挂透视教程... 必备教程!柚子联盟开挂透视教程(哔哩哔哩)
共享实测!微乐家乡麻将是不是有... 共享实测!微乐家乡麻将是不是有挂确实有挂(实测确实真的有挂)
5分钟实测!可可娱乐的挂是真的... 5分钟实测!可可娱乐的挂是真的吗(真的有挂)
专业实测!随意玩游戏辅助(20... 专业实测!随意玩游戏辅助(2026已升级)
破解辅助插件!鹤格娱乐透视挂开... 破解辅助插件!鹤格娱乐透视挂开挂方法(真的有挂)
推荐实测!微乐河北麻将透视辅助... 推荐实测!微乐河北麻将透视辅助神器(知乎)