2026-01-16 14:36:37
全球首个开源“重思考”模型:美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA
阅读:927
2026年1月16日,美团LongCat团队发布并开源全球首个支持“重思考”模式的模型LongCat-Flash-Thinking-2601。该模型在工具调用、智能体搜索等核心评测中达到开源SOTA水平,尤其在复杂任务中的泛化能力超越Claude,显著降低新工具适配成本。其创新的“重思考”模式通过并行思考和总结归纳两阶段优化推理过程,确保决策可靠。评估显示,该模型在编程(LCB评分82.8)、数学推理(AIME满分)、工具调用(τ²-Bench评分88.2)及搜索能力(BrowseComp评分73.1)等方面表现领先。此外,美团设计全新自动化任务合成流程验证模型泛化能力,实验结果优异。模型已完整开源,支持在线免费体验,并提供GitHub、Hugging Face等多个平台访问链接。
原文链接
本文链接:https://kx.umi6.com/article/31726.html
转载请注明文章出处
相关推荐
换一换
智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%
2025-09-02 12:30:05
豆包大模型 1.6-vision 发布:家族首个能调用工具的视觉深度思考模型
2025-10-01 15:45:42
豆包大模型1.6-vision正式发布
2025-09-30 16:34:50
96GB显存运行230B大模型!七彩虹灵创K16笔记本评测:160W性能释放 AMD锐龙AI Max+ 395加持全能移动AI工作站
2026-06-06 15:54:30
当任何人都能用AI把公司告上法庭 法官们慌了
2026-06-03 17:29:26
CVPR 开幕式:全场泪目缅怀孙剑,广工本科生靠「古董显卡」逆袭 | CVPR 2026
2026-06-08 11:22:26
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局
2026-06-04 13:07:00
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
CVPR 2026完美落幕!D4RT封神最佳论文、牛津VGG两连冠,中国本科生泰坦显卡逆袭引爆全网
2026-06-08 16:37:30
《古墓丽影》新作封面被质疑使用AI 官方回应
2026-06-08 21:46:02
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
722 文章
616484 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08