上交大智能计算研究院论文：不只算对答案，大模型如何真正学会运筹建模丨ICLR 2026

2026-02-03 23:02:59

像素宇宙

发布在

科普

阅读：305

标题：上交大智能计算研究院论文：大模型如何真正学会运筹建模

正文：
在大语言模型向专业领域应用迈进的过程中，运筹优化（OR）成为一个既具吸引力又充满挑战的方向。尽管运筹优化问题具备清晰的数学结构和可验证的结果，但其建模过程高度依赖变量定义、约束设计与目标函数的一致性，推理步骤强耦合，远非仅算出正确答案所能涵盖。

当前研究暴露出一个核心困境：模型求解器得出正确结果，并不意味着建模过程正确。现有训练范式中，无论是基于最终结果的奖励，还是对中间步骤的局部监督，都难以准确刻画运筹建模这种长链条任务的真实质量。这种监督信号与任务本质的错位，可能导致建模错误被掩盖甚至强化，成为大模型应用于工业级运筹优化的关键瓶颈。

针对这一问题，上海交通大学智能计算研究院葛冬冬、林江浩团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。该研究从训练范式出发，提出了一种由策略模型与生成式过程奖励模型（GenPRM）协同进化的框架。通过将最终求解结果与全局推理过程评估结合，StepORLM引导模型学习构建一致、可靠的运筹优化模型，而不仅仅是生成可行解。

实验表明，StepORLM在6个代表性运筹优化基准数据集上表现优异，涵盖从线性规划到复杂工业级混合整数规划问题。即使仅有8B参数规模，StepORLM在平均准确率上显著超越DeepSeek-V3（671B）、Qwen2.5-72B等超大模型，尤其在高难度场景中优势更明显。此外，与现有专门微调的OR模型相比，StepORLM在多步骤推理任务中提升尤为突出，证明性能增益主要来自更高质量的监督信号。

进一步实验显示，将GenPRM引入推理阶段作为验证器，可使StepORLM的平均准确率提升至85.6%，并在复杂任务中取得显著增益。同时，GenPRM对其他运筹优化模型同样有效，表明其学到的是模型无关的推理判据。

研究还通过消融实验验证了各关键组件的必要性，并指出模型性能的提升是自进化迭代逐步累积的结果。

这项研究不仅解决了运筹建模中的可靠性问题，还为其他复杂推理任务提供了普适性思路。其强调的整体化、回顾式过程监督思想，可推广至数学证明、代码生成等领域，为解决强依赖推理场景中的监督信号失真问题提供了新方向。

论文地址：https://arxiv.org/abs/2509.22558

原文链接

本文链接：https://kx.umi6.com/article/32548.html

转载请注明文章出处

大语言模型