首个Agentic多模态检索大模型来了！清华团队让AI边推理边主动看图，准确率提升23%_微电子

首个Agentic多模态检索大模型来了！清华团队让AI边推理边主动看图，准确率提升23%

创始人

2026-03-24 01:26:37

0次

近年来，随着多模态大语言模型（MLLM）的快速发展，研究者们开始尝试将其应用于通用多模态检索任务。与此同时，思维链（Chain-of-Thought，CoT）推理被引入检索领域，通过增强模型的推理能力来改善候选结果的排序。

然而，一个重要问题始终未能得到解决：现有的推理过程本质上仍然是语言驱动的，模型无法在推理过程中主动获取和验证视觉细节，因此在面对相似的候选图片时容易“瞎猜”。

近日，清华大学联合、复旦大学、香港大学等机构，推出了首个基于“Interleaved Reasoning”的通用多模态检索框架 V-Retrver。该框架将传统检索重塑为智能体推理过程，让多模态大模型学会在检索时主动调用视觉工具来验证细节，而非仅凭静态的图像表征进行判断。目前，研究团队已将代码和模型权重开源。

（来源：arXiv）

“从 2025 年初开始，推理模型开始火起来，很多工作把推理模型用在下游任务，多模态检索就是其中之一。”团队成员向 DeepTech 表示，“但现在这些推理模型的 CoT 过程是从文本推理的。问题在于，多模态检索的输入是多张图像，你要从十张候选图片中找到最相关的那张，仅靠文本推理会产生幻觉。”

这种局限在视觉模糊的检索场景中尤为明显。尤其当候选图片在语义上高度相似，仅在细节上存在差异时。比如同样是白色沙发，只是抱枕纹理不同，模型往往无法准确区分。传统方法将视觉输入压缩成固定的特征向量或文本描述，迫使推理过程完全依赖语言来推断视觉差异，结果就是模型只能瞎猜。

（来源：论文）

更关键的是，现有模型看图是“一次性”的。用了一个形象的比喻：“传统模型看完图就凭印象做题，面对复杂的图文交错检索，它们无法在推理遇到瓶颈时主动去验证视觉细节。”这种走马观花式的视觉处理方式，导致模型在需要精细判断时表现不佳。

让模型学会“放大找细节”

V-Retrver 的核心理念是将多模态检索重新定义为一个“多模态思维链的推理过程”。与传统的单次推理不同，模型在推理过程中可以主动调用外部视觉工具来获取更多信息，就像人在看不清某个细节时会把图片放大仔细看一样。

团队表示，这是首个将交错推理（Interleaved Reasoning）应用于多模态图像检索的工作。此前的相关研究主要集中在简单的图像理解和视频理解任务上，例如单图问答场景。

论文作者之一以一个具体场景说明了这一过程：“假设输入是一段文字描述，需要从 10 张候选图片中找到最相关的一张。模型在分析过程中，如果发现某张图片的关键细节看不清楚，就会调用工具对该区域进行局部放大后再做判断。比如查询文本提到‘桌上放着某个物品’，而这个物品在图像中位置较小、较模糊，模型就需要放大查看才能做出准确判断。”

这种“边看边想”的过程与人类的认知方式很像，当我们在网购时遇到相似的商品，也会点开大图看买家秀细节来做出对比和判断。

这种“产生疑问→调取工具核实→得出结论”的逻辑闭环，正是 V-Retrver 区别于传统方法的关键所在。

三阶段训练：从“学会用工具”到“聪明地用工具”

让模型学会何时以及如何使用这些视觉工具，并非易事。V-Retrver 采用了三阶段的课程学习策略。

第一阶段是监督微调（SFT），目标是教会模型基本的工具调用能力。“我们使用 LLM 来合成训练数据，这批数据包含了检索过程中调用工具的示例，让模型学会何时以及如何调用工具。”作者表示，这个阶段的数据质量至关重要，也是整个训练过程中最具挑战性的环节之一。

SFT 阶段的训练量需要精心控制。作者指出，这里存在两个极端：训练过度会导致模型在强化学习阶段过度依赖工具，对每个样本都尝试调用；训练不足则会使模型无法掌握工具调用能力。

第二阶段是拒绝采样微调（RSFT），通过筛选高质量的推理轨迹来提升模型的推理可靠性和格式合规性，为后续的强化学习提供稳定的初始化。

第三阶段是证据对齐策略优化（EAPO），这是基于 GRPO 算法的强化学习过程。“我们设计了一个工具调用奖励机制，”作者解释道，“当模型在推理过程中合理调用工具时会获得正向奖励。我们希望模型能够适度使用工具进行验证，而非完全不用或过度依赖。”

（来源：论文）

经过强化学习训练后，模型能够实现自适应的工具调用。有些问题需要调用工具来验证细节，有些则不需要，模型会自主判断。

性能提升显著，泛化能力突出

在通用多模态检索基准 M-BEIR 上，V-Retrver-7B 取得了 69.7% 的平均召回率，相比此前最强的 U-MARVEL-7B 提升了近 5 个百分点，相对基础的 Qwen2.5-VL-7B 模型则提升了 23%。

（来源：论文）

值得注意的是，V-Retrver 在需要精细视觉判断的任务上表现尤为突出。在 FashionIQ 数据集上达到 51.2%，在 CIRR 数据集上达到 73.5%，分别比 U-MARVEL-7B 高出 13 个和 10 个百分点。这验证了多模态交错推理在处理细粒度视觉差异时的有效性。

在零样本泛化测试中，V-Retrver 同样表现优异。在从未见过的 CIRCO 数据集上取得了 48.2 的 MAP@5 成绩，显著超过 MM-Embed-7B 等专业检索模型。

消融实验进一步证实了视觉工具的价值：如果剥夺 V-Retrver 的视觉工具，只让它做纯文本的 CoT 推理，平均性能会从 67.2% 跌至 61.8%。

（来源：论文）

团队在论文中也坦诚地表明了当前工作的局限性。最明显的是推理成本问题：相比传统的 embedding 方法，V-Retrver 需要更多的计算资源和时间。“我们在这个工作中没有专门做权衡，这确实是一个问题，也是后续可以继续研究的方向。”

另一个局限是视觉工具的种类相对有限，目前只有 ZOOM-IN 和 SELECT-IMAGE 两种。研究团队计划在后续工作中引入更多类型的工具，其中包括网络搜索工具。

作者以一个例子说明了引入 web search 工具的潜在价值：假设检索目标是“穿着黄色衣服的拿破仑”，但候选图片中存在其他穿着相似服装且外貌接近的人物，仅凭服装颜色难以区分。此时模型可以通过网络搜索获取拿破仑的其他标志性特征，并将这些信息作为辅助依据，提升检索的准确性。

V-Retrver 的出现，标志着多模态检索研究从“静态编码 + 语言推理”向“动态感知 + 交错推理”的范式转变。它证明了一个朴素而重要的道理：在处理视觉任务时，模型不仅需要“想”，更需要“看”。而且要学会在需要的时候主动去“仔细看”。

参考资料

1.论文链接：https://arxiv.org/abs/2602.06034

2.项目地址：https://github.com/chendy25/V-Retrver

运营/排版：何晨龙

推理视觉 Agentic 主动过程团队模型 V-Retrver 工具检索论文模态

上一篇：北京大华无线电仪器申请基于双谐振控制器的虚拟阻抗控制方法专利，有效抑制电网电流谐波

下一篇：德冠新材：拟4.2亿元投建升级扩产项目加码电子及新能源膜材料

首个Agentic多模态检索大模型来了！清华团队让AI边推理边主动看图，准确率提升23%

相关内容

热门资讯