编程模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

4月3日，全球权威大模型盲测榜单Code Arena发布最新排名，阿里新一代大语言模型Qwen 3.6-Plus位列全球第二，登顶中国最强编程模型。该榜单以真实复杂Web开发场景为测试核心，要求模型具备端到端工程能力。Qwen 3.6-Plus在React专项榜单中得分1452，仅次于Anthropic的Claude-Opus-4.6-Thinking（1540分），领先OpenAI的GPT-5.0-High（1448分）和Google的Gemini 3.1 Pro Preview（1440分）。作为4月2日发布的新模型，Qwen 3.6-Plus以更少参数实现更强性能，在多项评测中超越GLM-5、Kimi-K2.5等模型，成为国产编程能力标杆。阿里计划近期推出性能更强的Qwen3.6-Max，并开源其他尺寸模型。

原文链接

灵感Phoenix

04-03 11:15:19

分享至

打开微信扫一扫

内容投诉

生成图片

中国最强编程模型来了！阿里Qwen3.6-Plus性能直逼Claude，国产大模型杀入决赛圈

2026年4月，阿里发布新一代基座大模型Qwen3.6-Plus，编程与智能体能力显著提升，性能直逼全球领先的Claude系列。新模型支持1M上下文，具备任务拆解、路径规划和自测迭代等能力，同时优化了多模态理解和Vibe Coding功能。实测显示，Qwen3.6-Plus能通过简单提示词生成复杂交互网页、3D场景及游戏页面，并在真实编程任务中表现优异，超越部分2-3倍参数量的主流模型。目前，该模型已上线阿里云百炼平台并开放API服务，同时在悟空、千问APP等应用同步推出。此外，Qwen3.6-Max旗舰款预计近期发布，进一步提升性能与普惠化应用。

原文链接

未来编码者

04-02 16:05:09

分享至

打开微信扫一扫

内容投诉

生成图片

阿里发布新一代模型Qwen3.6-Plus 编程表现接近全球最强编程模型

4月2日，阿里发布新一代大语言模型Qwen3.6-Plus，具备原生多模态理解与推理能力，性能显著提升。在SWE-bench编程评测和Claw-Eval智能体任务中，其编程能力接近全球顶尖的Claude系列模型。实测中，Qwen3.6-Plus可自主完成前端开发、复杂任务规划等，展现‘氛围编程’新突破。该模型已上线阿里云百炼平台，输入价格低至每百万Tokens 2元，并同步登陆悟空、千问APP等应用。（记者黄心怡）

原文链接

超频思维站

04-02 12:58:45

分享至

打开微信扫一扫

内容投诉

生成图片

全球SOTA编程模型MiniMax M2.5上线

2月12日，MiniMax正式发布旗舰编程模型M2.5，对标Claude Opus 4.6。该模型支持PC、App及跨端应用开发，在Excel高阶处理、PPT制作等Office生产力场景中表现行业领先。M2.5激活参数量仅10B，显存占用和推理能效比优势显著，支持100 TPS超高吞吐量，推理速度超越国际顶尖模型，为开发者提供高效解决方案。（记者黄心怡）

原文链接

电子诗篇

02-12 14:30:28

分享至

打开微信扫一扫

内容投诉

生成图片

加量不加价：OpenAI 最强编程 AI 模型 API 开放，连续写代码可超 24 小时

12月5日，OpenAI宣布开放其最强编程模型GPT-5.1-Codex-Max的API访问权限，定价与GPT-5保持一致（输入1.25美元/百万token，输出10美元/百万token）。该模型专为长时间运行和复杂编程任务设计，支持超长上下文处理，可连续工作超24小时。性能方面，其在SWE-Bench Verified测试中得分77.9%，优于常规版的73.7%。此外，GPT-5.1-Codex-Max针对Windows环境优化，适合多平台开发者使用。目前，Cursor、GitHub Copilot等主流工具已完成集成，Pro及以上订阅用户可直接切换使用。

原文链接

灵感Phoenix

12-05 14:33:49

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 发布最强编程模型 GPT-5.1-Codex-Max：AI 程序员能“通宵”，性能跑分反超谷歌

11月19日，OpenAI发布全新编程模型GPT-5.1-Codex-Max，性能超越谷歌Gemini 3 Pro。新模型在多项编程基准测试中表现优异，例如SWE-Bench Verified准确率达77.9%，领先Gemini的76.2%；Terminal-Bench 2.0准确率为58.1%，高于Gemini的54.2%。其核心升级为“压缩”机制，可智能保留关键上下文信息，支持连续工作超24小时且效率提升30%。目前，该模型已集成至OpenAI多个开发工具，如Codex CLI和代码审查工具，但尚未开放公共API，需订阅ChatGPT Plus等付费计划使用。OpenAI内部数据显示，工程师使用Codex后提交的拉取请求增加70%。官方强调，Codex-Max旨在辅助而非替代开发者，并通过沙盒环境和详细日志确保安全性和透明性。

原文链接

LunarCoder

11-20 08:05:50

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 推出 GPT-5-Codex-Mini：“经济高效型”AI 编程模型

11月8日，OpenAI发布GPT-5-Codex-Mini，这是GPT-5-Codex的轻量版，专为经济高效编程设计。相比原版，Mini版性能小幅下降（SWE-bench测试得分71.3%，原版为74.5%），但开发者可获得约4倍使用额度。该模型适用于轻量级工程任务或接近速率上限场景，并已在CLI和IDE扩展中上线，API支持即将推出。此外，OpenAI优化了Codex后台，提升稳定性，避免流量波动影响体验。ChatGPT Plus等用户速率上限提高50%，Pro与Enterprise用户享有更快响应优先调度。

原文链接

梦境编程师

11-08 16:47:26

分享至

打开微信扫一扫

内容投诉

生成图片

全球最佳编程 AI 模型：Claude Sonnet 4.5 登场，自主写代码超 30 小时、更像“一位同事”

9月30日，Anthropic发布Claude Sonnet 4.5，称其为“全球最佳编程AI模型”。新模型突破性地支持“生产就绪级”应用开发，显著提升软件开发可靠性。Claude Sonnet 4.5在多项行业基准测试中表现领先，并能在企业试用中自主编程超30小时，完成复杂任务如数据库搭建和安全审计。科技巨头苹果、Meta等已采用Claude系列模型。面对OpenAI GPT-5的竞争压力，Anthropic推出配套智能体开发工具包（Claude Agent SDK），助力开发者定制AI智能体。行业合作伙伴评价该模型擅长处理长周期复杂任务，更像“一位同事”。

原文链接

数字墨迹

09-30 08:22:36

分享至

打开微信扫一扫

内容投诉

生成图片

Claude4.5刚刚发布，能连肝30多个小时，史上最卷AI 诞生

2025年9月30日，Anthropic正式发布Claude Sonnet 4.5，号称史上最强编程AI模型。在SWE-bench Verified测试中，该模型登顶业界第一，并在OSWorld基准测试中取得61.4%的成绩，远超此前记录。Claude 4.5能连续工作超30小时，可一次性生成1.1万行代码，大幅提升复杂任务处理能力。新增功能包括「检查点」保存、VS Code插件支持及Claude Agent SDK开放，助力开发者构建智能体。Anthropic强调其对齐度和安全性显著改进，减少不当行为和提示注入攻击风险。此外，临时功能「Imagine with Claude」允许实时生成软件代码，但仅对Max订阅用户开放五天。此次发布被视为与OpenAI等对手竞争的重要举措，同时旨在挽回此前因性能问题流失的用户。

原文链接

幻彩逻辑RainbowLogic

09-30 07:20:16

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问推出编程模型Qwen3-Coder-Flash

8月1日，阿里通义千问发布全新编程模型Qwen3-Coder-Flash。该模型具备卓越的Agent能力，在代理式编程、浏览器使用及工具调用等领域表现优异，超越当前顶级开源模型，仅稍逊于顶配版Qwen3-Coder-480B-A35B-Instruct以及Claude Sonnet-4、GPT4.1等领先闭源模型。这一发布进一步巩固了通义千问在AI编程领域的竞争力，为开发者提供更高效的解决方案。

原文链接