编程能力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GLM-5编程能力实测：新的全球第一能超越Opus 4.6

2026年2月11日，国产AI大模型GLM-5发布，其编程能力达全球领先水平。智谱推出的GLM-5参数量达7440亿，是上一代的两倍，在代理编程测试中以589分超越Claude Opus的585分，位列第一；非代理编程排名第三，仅次于Opus 4.6和Gemini 3 Pro，但优于Opus 4.5。海外AI博主@AICodeKing评价其兼容性强，适合构建复杂应用，且性价比极高，单次编程任务成本仅0.14美元，远低于Opus 4.6的6.39美元和Gemini 3 Pro的0.85美元。对国内开发者而言，GLM-5规避了国外工具的限制，更具吸引力。

原文链接

星际Code流浪者

02-11 21:44:31

GLM-5

国产AI大模型

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek V4爆料：春节档GPT/Claude编程危

据The Information报道，DeepSeek计划于2月中旬春节前后发布V4模型，主打编码能力。内部测试显示，其性能已超越Anthropic的Claude和OpenAI的GPT系列。V4在超长代码提示词处理与解析上实现突破，且训练全程数据模式理解能力无衰减，较前代显著提升。新模型生成的答案逻辑更清晰、结构更规整，深度推理能力增强，复杂任务可靠性更高。此外，DeepSeek-V3.2论文提到使用大模型竞技场平台进行人类偏好评估，用户可能提前在该平台测试V4。

原文链接

灵感Phoenix

01-10 10:03:27

DeepSeek V4

春节档

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek V4 大模型被曝春节前后发布：AI 编程能力超越 OpenAI GPT 及 Anthropic Claude

据IT之家1月9日报道，DeepSeek计划于2月春节前后发布新一代旗舰AI模型DeepSeek V4。内部测试显示，其编程能力有望超越OpenAI GPT和Anthropic Claude等领先产品，尤其在处理超长编码提示方面实现突破，为复杂软件开发提供优势。此前，DeepSeek于去年12月发布的V3.2模型已在部分基准测试中优于GPT-5和Gemini 3.0 Pro。此次V4的推出备受期待，或将进一步巩固DeepSeek在AI领域的竞争力。

原文链接

GhostPilot

01-10 00:42:03

AI编程能力

DeepSeek V4

春节前后发布

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic发布模型Opus 4.5，称其编程能力已超越人类工程师

11月24日，美国AI初创公司Anthropic发布最新模型Claude Opus 4.5，称其编程能力超越人类工程师。该模型在编码、智能代理及日常任务处理上表现卓越，并在测试中超越谷歌Gemini 3 Pro和OpenAI的GPT-5.1。Opus 4.5还通过了一项高难度软件工程测验，得分超过所有历史人类候选者。这是Anthropic两个月内发布的第三个重大版本，此前分别为9月的Sonnet 4.5和10月的Haiku 4.5。新模型将应用于专业开发者及知识型工作者，并成为Anthropic Pro、Max和Enterprise产品的默认模型。此外，公司推出多项更新，包括扩展工具Claude for Chrome、Claude for Excel以及桌面应用的新功能，进一步提升用户体验。

原文链接

LunarCoder

11-25 06:35:31

Anthropic

Opus 4.5

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

编程能力大幅提升，OpenAI 发布 GPT-5-Codex 新模型

9月16日，OpenAI发布全新GPT-5-Codex模型，现已在Codex编程助手中上线，并向ChatGPT Plus、Pro、Business等用户开放，未来计划通过API提供服务。该模型专为Agent编程优化，具备动态计算能力，可灵活分配任务“思考时间”，从数秒到七小时不等，显著提升复杂编程任务表现。相比以往依赖“路由”机制预判任务复杂度的方式，GPT-5-Codex可在任务中实时调整时间和算力，在SWE-bench Verified测试和大型代码库重构中优于标准GPT-5。此外，经过代码审查训练的GPT-5-Codex错误更少，能提供高质量评论，获得资深工程师认可。产品负责人称其动态思考能力在复杂问题上优势明显。

原文链接

未来笔触

09-16 09:08:45

GPT-5-Codex

动态计算能力

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

拜拜Claude！阿里最强万亿模型编程秒了Opus4，实测在此

2025年9月6日，阿里发布其迄今为止最大的万亿参数模型Qwen3-Max-Preview（Instruct），较前一代Qwen3（235B）参数量提升四倍。新模型在中英文理解、复杂指令遵循及工具调用等方面显著增强，并大幅减少知识幻觉，全面上线通义APP、Qwen Chat网页和阿里云API。实测显示，该模型在解答AIME数学竞赛题、编程生成互动动画、扫雷游戏及前端网页设计等任务中表现出色，所有尝试均一次成功，且生成速度达107+ token/秒。API采用阶梯计费，支持长上下文输入。阿里透露正式版即将推出，可能伴随推理版本，进一步扩展模型规模。

原文链接

智能涌动

09-06 12:37:03

Claude Opus 4

Qwen3-Max-Preview

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek V3.1 Base突袭上线！击败Claude 4编程爆表，全网在蹲R2和V4

2025年8月21日，DeepSeek官方发布V3.1版本，上下文长度扩展至128k，参数达685B，支持多种精度格式。新版本在编程能力上表现突出，Aider测试中得分71.6%，超越Claude 4 Opus，成本低至1美元。新增原生搜索和特殊Token功能，并优化推理速度和上下文支持。尽管未发布模型卡，V3.1已登上Hugging Face趋势榜第四。实测显示其性能显著提升，但在部分复杂任务上仍有改进空间。网友期待未来R2版本的发布。

原文链接

AI奇点纪元

08-21 10:27:32

DeepSeek V3.1

上下文长度

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

实测低调上线的DeepSeek新模型：编程比Claude4还能打，写作...还是算了吧

正文：2025年8月20日，DeepSeek低调上线并开源新模型DeepSeek-V3.1-Base，参数达6850亿，支持多种张量类型，上下文窗口拓展至128k。新模型在编程领域表现突出，Aider Polyglot测试得分71.6%，超越Claude 4 Opus，生成代码逻辑清晰且细节完整。但在写作和创意任务中仍有局限，叙事张力不足。此外，模型移除了深度思考模式的“R1”标识，并新增原生搜索功能优化。目前，该模型已在Hugging Face趋势榜跃居第二，引发广泛关注。

原文链接

智能涌动

08-20 17:25:07

DeepSeek-V3.1-Base

写作能力

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

实测DeepSeek V3.1，不止拓展上下文长度

2025年8月20日，DeepSeek V3.1发布，主要更新包括上下文长度拓展至128K和支持多种张量格式。实测显示，V3.1在编程能力、情境写作、数学理解、翻译水平等方面均有显著提升。例如，V3.1在处理GIF压缩任务时提供了更全面的代码说明和优化策略；情境写作中，风格从V3的理性转为更具文艺气息的表达；数学题解答逻辑清晰且正确；翻译表现对长难句的理解更强但偶有小失误。此外，V3.1在冷门知识问答中存在争议性回答。网友测试发现其在非推理模型基准上拿下SOTA成绩，性价比高，但部分线上API仍存在问题。目前，V3.1已可在网页端、APP及小程序使用，Base版本可从抱抱脸下载。

原文链接

虚拟微光

08-20 17:21:15

DeepSeek V3.1

上下文长度

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

2025年8月，OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题，但OpenAI自行删减23道，仅用477道题评估，导致结果存疑。若将删减题目默认为零分，GPT-5得分甚至低于Claude Opus 4.1，两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法，理由是部分题目无法在其基础设施运行。更讽刺的是，SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时，Anthropic明确指出其Claude 4系列模型基于完整500题测试，表现优于GPT-5。目前，最原始的SWE-bench榜单中，Claude 4 Opus仍居首位。

原文链接