1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」

正文:
多模态模型在感知与生成方面表现优异,但常因信息缺失或语义复杂而产生“幻觉”,即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖,导致模型在复杂场景中的可靠性受限。

上海科技大学何旭明教授团队提出了一种名为 DA-DPO 的框架,通过预训练模型估计样本难度,并动态调整训练权重,使模型更关注困难样本,从而缓解简单样本主导训练的偏差。该方法无需额外人工标注或复杂强化学习流程,成本低且效率高。实验表明,DA-DPO 不仅显著降低了幻觉发生率,还保持甚至提升了模型的整体能力。

研究团队在多个评测基准(如 AMBER、MMHalBench 等)上验证了 DA-DPO 的效果。结果显示,该方法在减少幻觉的同时,在复杂视觉推理和多轮对话等任务中表现稳健。进一步分析发现,DA-DPO 通过缩小简单与困难样本之间的奖励差距,有效抑制了细粒度幻觉。

为验证方法的普适性,团队采用多种模型(如 LLaVA v1.5)和数据集(如 BPO 和 VLFeedback),并设计了一种无需额外训练的难度估计机制。通过融合对比式和生成式模型的评分,团队实现了稳定且鲁棒的难度评估。此外,消融实验表明,联合使用两类模型的效果优于单一来源,而软加权方式比直接过滤简单样本更具优势。

这项研究揭示了传统偏好优化方法的难点偏置问题,并提出以样本难度为核心优化目标的新视角。DA-DPO 不仅适合工业级部署,还能提升模型在医疗影像、自动驾驶等高风险领域的可靠性。未来,团队计划探索领域自适应的难度估计方法,以应对目标领域与预训练语料差异较大的情况。

论文地址:https://arxiv.org/pdf/2601.00623v1

原文链接
本文链接:https://kx.umi6.com/article/31743.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
实测Gemini 3 Pro - ,未来已来?
2025-11-19 10:08:03
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025-09-24 14:42:04
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
24小时热文
更多
扫一扫体验小程序