1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:上交大智能计算研究院论文:大模型如何真正学会运筹建模

正文:
在大语言模型向专业领域应用迈进的过程中,运筹优化(OR)成为一个既具吸引力又充满挑战的方向。尽管运筹优化问题具备清晰的数学结构和可验证的结果,但其建模过程高度依赖变量定义、约束设计与目标函数的一致性,推理步骤强耦合,远非仅算出正确答案所能涵盖。

当前研究暴露出一个核心困境:模型求解器得出正确结果,并不意味着建模过程正确。现有训练范式中,无论是基于最终结果的奖励,还是对中间步骤的局部监督,都难以准确刻画运筹建模这种长链条任务的真实质量。这种监督信号与任务本质的错位,可能导致建模错误被掩盖甚至强化,成为大模型应用于工业级运筹优化的关键瓶颈。

针对这一问题,上海交通大学智能计算研究院葛冬冬、林江浩团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。该研究从训练范式出发,提出了一种由策略模型与生成式过程奖励模型(GenPRM)协同进化的框架。通过将最终求解结果与全局推理过程评估结合,StepORLM引导模型学习构建一致、可靠的运筹优化模型,而不仅仅是生成可行解。

实验表明,StepORLM在6个代表性运筹优化基准数据集上表现优异,涵盖从线性规划到复杂工业级混合整数规划问题。即使仅有8B参数规模,StepORLM在平均准确率上显著超越DeepSeek-V3(671B)、Qwen2.5-72B等超大模型,尤其在高难度场景中优势更明显。此外,与现有专门微调的OR模型相比,StepORLM在多步骤推理任务中提升尤为突出,证明性能增益主要来自更高质量的监督信号。

进一步实验显示,将GenPRM引入推理阶段作为验证器,可使StepORLM的平均准确率提升至85.6%,并在复杂任务中取得显著增益。同时,GenPRM对其他运筹优化模型同样有效,表明其学到的是模型无关的推理判据。

研究还通过消融实验验证了各关键组件的必要性,并指出模型性能的提升是自进化迭代逐步累积的结果。

这项研究不仅解决了运筹建模中的可靠性问题,还为其他复杂推理任务提供了普适性思路。其强调的整体化、回顾式过程监督思想,可推广至数学证明、代码生成等领域,为解决强依赖推理场景中的监督信号失真问题提供了新方向。

论文地址:https://arxiv.org/abs/2509.22558

原文链接
本文链接:https://kx.umi6.com/article/32548.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
过去一年,哪些AI模式跑出来了?
2024-08-07 19:19:32
上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026
2026-02-03 23:02:59
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
英国格拉斯哥大学哲学研究人员谈“AI 幻觉”:用“胡说八道”来形容更准确
2024-06-12 11:12:49
蔡恒进:具备独立思考与问题解决能力的AI才是未来发展方向|直击2024外滩大会
2024-09-05 19:39:46
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
下一代 RAG 技术来了,微软正式开源 GraphRAG:大模型行业将迎来新的升级?
2024-07-04 18:52:32
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
大模型来了,你要裁员吗?
2024-07-12 08:41:18
24小时热文
更多
扫一扫体验小程序