1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:上交大智能计算研究院论文:大模型如何真正学会运筹建模

正文:
在大语言模型向专业领域应用迈进的过程中,运筹优化(OR)成为一个既具吸引力又充满挑战的方向。尽管运筹优化问题具备清晰的数学结构和可验证的结果,但其建模过程高度依赖变量定义、约束设计与目标函数的一致性,推理步骤强耦合,远非仅算出正确答案所能涵盖。

当前研究暴露出一个核心困境:模型求解器得出正确结果,并不意味着建模过程正确。现有训练范式中,无论是基于最终结果的奖励,还是对中间步骤的局部监督,都难以准确刻画运筹建模这种长链条任务的真实质量。这种监督信号与任务本质的错位,可能导致建模错误被掩盖甚至强化,成为大模型应用于工业级运筹优化的关键瓶颈。

针对这一问题,上海交通大学智能计算研究院葛冬冬、林江浩团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。该研究从训练范式出发,提出了一种由策略模型与生成式过程奖励模型(GenPRM)协同进化的框架。通过将最终求解结果与全局推理过程评估结合,StepORLM引导模型学习构建一致、可靠的运筹优化模型,而不仅仅是生成可行解。

实验表明,StepORLM在6个代表性运筹优化基准数据集上表现优异,涵盖从线性规划到复杂工业级混合整数规划问题。即使仅有8B参数规模,StepORLM在平均准确率上显著超越DeepSeek-V3(671B)、Qwen2.5-72B等超大模型,尤其在高难度场景中优势更明显。此外,与现有专门微调的OR模型相比,StepORLM在多步骤推理任务中提升尤为突出,证明性能增益主要来自更高质量的监督信号。

进一步实验显示,将GenPRM引入推理阶段作为验证器,可使StepORLM的平均准确率提升至85.6%,并在复杂任务中取得显著增益。同时,GenPRM对其他运筹优化模型同样有效,表明其学到的是模型无关的推理判据。

研究还通过消融实验验证了各关键组件的必要性,并指出模型性能的提升是自进化迭代逐步累积的结果。

这项研究不仅解决了运筹建模中的可靠性问题,还为其他复杂推理任务提供了普适性思路。其强调的整体化、回顾式过程监督思想,可推广至数学证明、代码生成等领域,为解决强依赖推理场景中的监督信号失真问题提供了新方向。

论文地址:https://arxiv.org/abs/2509.22558

原文链接
本文链接:https://kx.umi6.com/article/32548.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
我被AI骗了
2025-02-27 14:24:34
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
阿里蔡崇信最新发声!训练AI就像教育孩子 三四年就能赶超博士
2024-06-02 14:38:27
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
专家:会聊天≠会思考,大语言模型造不出通用人工智能
2025-11-30 11:06:37
下一代 RAG 技术来了,微软正式开源 GraphRAG:大模型行业将迎来新的升级?
2024-07-04 18:52:32
24小时热文
更多
扫一扫体验小程序