1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

卡内基梅隆大学(CMU)的研究团队提出了一种创新的“黑盒优化”策略,通过大语言模型自动调整自然语言提示词,提升视觉语言模型在多个下游任务中的表现,无需触及模型内部参数。

大多数视觉语言模型(如DALL-E 3、GPT-4o等)未公开模型权重,导致传统依赖反向传播的优化方式不再适用。然而,这些模型通常向用户开放了自然语言接口,使得通过优化提示词来提升模型表现成为可能。传统的提示词工程依赖工程师的经验和先验知识,而CMU团队则提出用大语言模型自动优化提示词,类似“爬山法”策略,通过正负反馈自动分析并调整提示词。

研究团队采用三步优化流程: 1. 提示词初始化:收集一批未经优化的初始提示词。 2. 提示词排序:对当前提示词进行表现评分,保留高分提示词,替换低分提示词。 3. 生成新提示词:通过大语言模型,根据提示词的表现生成新的候选提示词。

经过多轮迭代,最终返回得分最高的提示词作为优化结果。实验结果显示,CMU团队在多个小样本视觉识别数据集上取得了最佳准确性,甚至超越了传统的白盒提示词优化方法。该方法还适用于不同模型架构,并在多种模型上表现更优。在文生图任务中,ChatGPT优化提示词能显著提升生成图像的质量。

未来,黑盒优化有望应用于实时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模型的调优提供更灵活高效的解决方案。

团队由刘士弘(Shihong Liu)、林之秋(Zhiqiu Lin)和Deva Ramanan教授组成,他们的成果已被CVPR 2024接收。论文和代码已公开,供进一步研究。

原文链接
本文链接:https://kx.umi6.com/article/8370.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
亚马逊CEO专访:像创业公司一样自我进化,才能活下去
2025-05-16 14:37:05
被AI偷走声音的配音员,靠什么保住饭碗?
2024-05-27 09:07:59
2025年,值得关注的零售技术前瞻
2024-11-07 09:59:52
24小时热文
更多
扫一扫体验小程序