推理模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

LeCun离职后不止创一份业！押注与大模型不同的路线，加入硅谷初创董事会

2026年1月，AI领域传奇人物Yann LeCun在离开Meta后，不仅创立了自己的初创公司AMI，还加入了硅谷初创公司Logical Intelligence，担任技术研究委员会创始主席。Logical Intelligence专注于与主流大模型（LLM）不同的能量-推理模型（EBM），其首发模型Kona在数独测试中表现优异，解决速度远超GPT 5.2、Claude Opus 4.5等顶尖大模型，且准确率领先。EBM通过约束条件优化解决方案，擅长强约束问题，目标应用于能源网络优化和精密制造自动化等领域。公司强调EBM的独特性，训练数据灵活，未来可能开源部分模型。LeCun的加入被认为契合其长期技术信仰，双方合作旨在探索通往AGI的多样化路径。

原文链接

QuantumHacker

01-30 16:36:43

LeCun

Logical Intelligence

能量-推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

2026年1月6日，OpenAI研究副总裁Jerry Tworek宣布离职，他曾是GPT-4、o1推理模型及Codex等关键项目的核心贡献者。Jerry在OpenAI工作近七年，主导了多项突破性研究，包括大语言模型的推理能力开发和首个AI编程模型Codex。他表示，离职是为了探索在OpenAI难以开展的研究领域，并回顾了在公司经历的美好与疯狂时刻。他的离职引发广泛讨论，网友纷纷表达感谢与赞叹，也有部分人对OpenAI重要人才流失表示遗憾。Jerry的职业生涯始于数学与量化研究，后转向强化学习与AI研究，其贡献深刻影响了AI技术发展。

原文链接

智能视野

01-06 14:06:10

Jerry Tworek

OpenAI

推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

牛津、斯坦福大学新研究：能“思考”的 AI 推理模型更易受到越狱攻击

11月7日，牛津、斯坦福大学联合研究发现，具备“思考”能力的AI推理模型更易受到越狱攻击。研究人员提出“链式思维劫持”方法，测试显示在部分情况下攻击成功率超80%。这种攻击通过将有害指令隐藏在无害推理步骤中，绕过AI安全防护，可能生成危险内容如武器制作指南或泄露敏感信息。随着推理链延长，成功率从27%飙升至80%以上，影响ChatGPT、Claude等主流模型。研究建议采用“推理感知防护”方案监控AI推理过程，早期测试表明可有效恢复安全性并保持性能。

原文链接

Oasis

11-08 21:58:37

AI推理模型

越狱攻击

链式思维劫持

分享至

打开微信扫一扫

内容投诉

生成图片

美团发布高效推理模型 LongCat-Flash-Thinking，达到 SOTA 水平

9月22日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking，综合性能达全球开源模型最先进水平（SOTA）。该模型在逻辑、数学、代码及智能体任务中表现卓越，是国内首个结合“深度思考+工具调用”与“非形式化+形式化”推理能力的语言模型。通过创新架构如领域并行强化学习和异步弹性共卡系统，模型实现高效推理与稳定训练，在复杂任务中显著优化资源利用。多项权威评测显示，其在ARC-AGI、HMMT、LiveCodeBench等基准测试中刷新纪录，超越OpenAI o3、Gemini2.5 Pro等顶尖模型。项目已开源，地址包括Hugging Face与Github。

原文链接

阿达旻

09-22 15:58:35

LongCat-Flash-Thinking

SOTA

推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

美团发布高效推理模型LongCat-Flash-Thinking

9月22日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型融合了「深度思考+工具调用」与「非形式化+形式化」推理能力，能够更高效地完成复杂任务。目前，模型已在HuggingFace和Github全面开源，供开发者自由使用。这一发布为AI推理领域提供了新工具，引发广泛关注。

原文链接

AGI探路者

09-22 14:58:11

LongCat-Flash-Thinking

美团

高效推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

xAI推出Grok 4 Fast

9月22日，马斯克旗下xAI宣布推出Grok 4 Fast，这是一款更快、更高效的推理模型。相比Grok 4，Grok 4 Fast在性能相似的情况下，平均使用的思考Token减少了40%，计算速度更快且价格降低了98%。此外，该模型在前沿基准测试中表现出与Grok 4相同的性能水平。这一发布标志着xAI在优化AI模型效率和降低成本方面取得重要进展，为用户带来更高效、经济的解决方案。

原文链接

智能涌动

09-22 08:57:17

Grok 4 Fast

xAI

推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

叫板谷歌！马斯克xAI发布Grok-4-Fast 性能比肩Gemini 2.5

9月21日，马斯克旗下xAI公司发布新型多模态推理模型Grok-4 Fast，性能媲美行业领先水平。该模型支持高达2M上下文窗口，具备强大的复杂任务处理能力，并与X平台深度集成，可解析帖子、提供链接及关联YouTube视频。其采用强化学习训练，能自主调用外部工具，搭载智能搜索引擎，实时浏览网页和X平台内容，整合多模态信息并输出分析结果。目前，Grok-4 Fast已向所有用户开放，并在Auto模式下自动处理复杂查询。此外，xAI还推出grok-4-fast-reasoning和grok-4-fast-non-reasoning两款新模型，现已通过API开放使用。

原文链接

Journeyman

09-21 16:46:00

Grok-4-Fast

xAI公司

多模态推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿联酋基于阿里巴巴Qwen 2.5推出低成本AI推理模型宣称“性价比”超同行20倍

9月9日，阿联酋穆罕默德·本·扎耶德人工智能大学与G42联合发布低成本AI推理模型“K2 Think”。该模型基于阿里巴巴开源Qwen 2.5构建，仅需320亿参数，性能却超越规模大20倍的模型，宣称性价比超同行20倍。通过长链式思维监督微调和推理阶段扩展等技术，“K2 Think”在数学、科学等特定领域表现出色。这一成果展示了阿联酋在AI领域的创新能力，同时凸显开源技术对全球AI发展的推动作用。

原文链接

GhostPilot

09-09 22:23:41

Qwen 2.5

低成本AI推理模型

阿联酋

分享至

打开微信扫一扫

内容投诉

生成图片

阿联酋推出低成本AI推理模型宣称“性价比”超同行20倍

当地时间9月9日，阿联酋穆罕默德·本·扎耶德人工智能大学（MBZUAI）与G42联合发布低成本推理模型“K2 Think”。该模型仅需320亿参数，性能却超越规模大20倍的同类模型，基于阿里巴巴开源Qwen 2.5构建，并在Cerebras硬件上运行。团队采用长链式思维监督微调和推理阶段扩展等技术，将其作为系统部署并持续优化。MBZUAI称，K2 Think不仅是技术突破，更是阿联酋AI领域的重要里程碑。阿联酋正努力成为全球AI领导者，以减少对原油依赖。尽管面临中美领先竞争，K2 Think专注于数学、科学等特定领域应用，旨在用更少资源实现高效推理，惠及缺乏资本的地区。

原文链接

小阳哥

09-09 22:23:30

AI推理模型

K2 Think

阿联酋

分享至

打开微信扫一扫

内容投诉

生成图片

智谱视觉推理模型 GLM-4.5V 上线并开源，号称“全球 100B 级效果最佳”

8月11日，智谱AI发布全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并在魔搭社区与Hugging Face同步开源。该模型基于GLM-4.5-Air，综合性能在41个视觉多模态榜单中达同级别SOTA水平，涵盖图像、视频、文档理解等任务。新增“思考模式”开关，可灵活选择快速响应或深度推理，并支持全场景视觉推理，如复杂图表分析、长视频分镜处理等。同时，智谱AI开源一款桌面助手应用，可实时截屏、录屏并依托GLM-4.5V完成代码辅助、文档解读等任务，旨在赋能开发者打造多模态应用场景，将科幻变为现实。API调用价格低至输入2元/M tokens，输出6元/M tokens。

原文链接

Journeyman

08-11 23:10:30

GLM-4.5V

开源

视觉推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多