南京大学和旷视研究院联手推出了一种革新性的无监督范式,无需人工标注或GPT-4参与,显著降低了视觉大模型的对齐成本。他们针对视觉语言模型(VLM)的偏好对齐问题,研发了Self-Supervised Visual Preference Alignment(SeVa)方法。SeVa通过自动化构建正负样本,解决了模型在理解和用户体验上的不足,如对指令的遵循、幻觉回答减少等。研究团队利用LLaVa-1.5模型进行实验,结果显示,仅用少量无监督数据就能提升模型性能,且整个过程成本低、效率高。SeVa不仅提高了模型的指令理解能力,还增强了回答的一致性和鲁棒性,使其输出更符合人类偏好。这项成果已在GitHub开源,为视觉模型的优化提供了新的可能性。
原文链接
本文链接:https://kx.umi6.com/article/1909.html
转载请注明文章出处
相关推荐
.png)
换一换
月薪5000,我给人形机器人当“老师”
2025-03-05 22:25:24
OpenAI的联合创始人,说未来的计算机长这样
2024-07-06 07:02:53
AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观
2025-04-22 13:17:55
447 文章
69882 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21