标题:大模型的进化方向:从语言到世界的迁徙 | 对话商汤林达华
李飞飞团队的空间智能模型Cambrian-S,近日被国产开源AI模型SenseNova-SI超越。SenseNova-SI在多项空间智能基准测试中表现卓越,超越了包括Cambrian-S在内的多个模型,成为新晋SOTA(当前最优)。这一成果来自商汤科技团队,其联合创始人兼首席科学家林达华表示:“基于长期视觉积累,我们已走在世界前列。”但他强调,这不仅是技术竞争的胜利,更标志着AI范式正在发生深刻变革——单纯依赖参数规模的增长正面临瓶颈,行业站在了新的十字路口。
过去三年,AI行业经历了狂飙式发展,Scaling Law(规模定律)被视为金科玉律。然而,到了2024年,这种路径的边际效应开始递减。尽管榜单分数不断攀升,但模型对物理世界的理解能力和复杂逻辑的泛化能力并未实现质的飞跃。林达华指出:“旧路径虽将模型推至新高度,但也逐渐触碰天花板。”与此同时,OpenAI前首席科学家Ilya Sutskever提出的“回归实验室”理念与林达华的思考不谋而合。他认为,未来的AGI(通用人工智能)不应仅停留在语言层面,而是需要具备多模态感知和空间智能,真正理解物理世界。
目前的多模态模型仍存在显著局限。例如,即使是GPT-4或Grok等顶尖模型,在面对简单的三维空间推理任务时,如数手指或预测积木形状,往往表现不佳。这是因为传统架构中的视觉信号在转化为语言Token时被大幅降维,丢失了大量空间细节。为解决这一问题,商汤推出了NEO架构及SenseNova-SI模型。NEO采用原生多模态设计,从底层Transformer Block开始便同时处理视觉和语言信号,并引入跨视角预测训练方法,使模型能真正理解三维空间关系。SenseNova-SI仅用同类模型10%的数据量便达到SOTA水平,展现出惊人的数据效率。
然而,技术突破还需落地才能创造价值。林达华提出“工业红线”概念:任何技术若使用成本高于其创造的价值,则难以商业化。为此,商汤通过算法蒸馏等技术优化推理效率,将视频生成速度提升64倍,极大降低了成本。例如,实时语音驱动数字人产品SekoTalk可在消费级显卡上实现实时高质量视频生成,为直播、短视频等领域提供了规模化应用可能。
最后,林达华建议年轻人不要局限于大语言模型赛道,应关注具身智能、AI for Science等新兴领域。他强调:“智能不只有语言,AI的未来在于从读万卷书进化到行万里路。”中国拥有丰富的场景和完整的工业体系,是培育下一代AI的理想土壤。在这场从“Words to Worlds”的迁徙中,敢于回归实验室、勇闯无人区的年轻人,将定义AI的未来。
项目地址:
SenseNova-SI: https://github.com/OpenSenseNova/SenseNova-SI
NEO: https://github.com/EvolvingLMMs-Lab/NEO
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18