上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」

2026-01-16 15:56:29

AI奇点纪元

发布在

科普

阅读：1102

标题：上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」

正文：
多模态模型在感知与生成方面表现优异，但常因信息缺失或语义复杂而产生“幻觉”，即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖，导致模型在复杂场景中的可靠性受限。

上海科技大学何旭明教授团队提出了一种名为 DA-DPO 的框架，通过预训练模型估计样本难度，并动态调整训练权重，使模型更关注困难样本，从而缓解简单样本主导训练的偏差。该方法无需额外人工标注或复杂强化学习流程，成本低且效率高。实验表明，DA-DPO 不仅显著降低了幻觉发生率，还保持甚至提升了模型的整体能力。

研究团队在多个评测基准（如 AMBER、MMHalBench 等）上验证了 DA-DPO 的效果。结果显示，该方法在减少幻觉的同时，在复杂视觉推理和多轮对话等任务中表现稳健。进一步分析发现，DA-DPO 通过缩小简单与困难样本之间的奖励差距，有效抑制了细粒度幻觉。

为验证方法的普适性，团队采用多种模型（如 LLaVA v1.5）和数据集（如 BPO 和 VLFeedback），并设计了一种无需额外训练的难度估计机制。通过融合对比式和生成式模型的评分，团队实现了稳定且鲁棒的难度评估。此外，消融实验表明，联合使用两类模型的效果优于单一来源，而软加权方式比直接过滤简单样本更具优势。

这项研究揭示了传统偏好优化方法的难点偏置问题，并提出以样本难度为核心优化目标的新视角。DA-DPO 不仅适合工业级部署，还能提升模型在医疗影像、自动驾驶等高风险领域的可靠性。未来，团队计划探索领域自适应的难度估计方法，以应对目标领域与预训练语料差异较大的情况。

论文地址：https://arxiv.org/pdf/2601.00623v1

原文链接

本文链接：https://kx.umi6.com/article/31743.html

转载请注明文章出处

DA-DPO