综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月26日,全球权威编程榜单Code Arena发布,阿里最新旗舰模型Qwen3.7-Max以1541分位居全球第二,仅次于Claude系列。这一成绩超越GPT-5.5、Gemini-3.5-Flash等知名模型,标志着千问3.7跻身全球编程模型第一梯队。Code Arena由开发者出题,要求模型生成完整可交互的Web应用,并通过用户盲测投票排名,公信力极高。Qwen3.7-Max在复杂长程任务、编程能力等方面表现突出,可独立完成耗时两周的项目交付,甚至实现芯片内核的自我优化。发布后,其高效推理速度和低成本获开发者高度评价,被誉为‘真正能把事情做完的智能体基座模型’。来源:阿里云。
原文链接
4月17日,Anthropic发布Claude Opus 4.7,官方称其编程能力大幅提升,视觉能力增强3倍,记忆与指令遵循也有改进。然而,用户反馈却以负面为主,认为其编程能力倒退,甚至不如Opus 4.6,部分人怀疑4.7是4.6改版而来。国内外用户均在社交媒体上批评新版本提升不明显或出现退步。尽管官方数据表明长任务表现有所优化,但这些功能并非日常高频使用,导致用户体验差异明显。结合近期Opus 4.6的性能争议,Anthropic作为AI巨头似乎正面临算力和性能瓶颈,此次更新未能延续以往好评,被指跌落神坛。
原文链接
2026年3月,智谱AI推出GLM-5.1模型,面向GLM Coding Plan所有用户开放(包括Lite/Pro/Max)。新模型编程能力较上一代GLM-5提升近10分,与全球顶尖模型Claude Opus 4.6仅差2.6分,引发网友热议和抢购热潮,Coding Plan订阅瞬间售罄。实测显示,GLM-5.1在代码生成、空间结构理解及动态补全能力上表现优异,可完成交互式游戏开发、室内设计平面图等复杂任务。模型支持OpenAI Compatible接口,兼容性强,配置简单,适合开发者快速接入工作流。此次更新距GLM-5发布仅一个多月,官方称其为强化版本,优化了稳定性与执行效率。
原文链接
3月27日,智谱发布改进版AI大模型GLM-5.1,距离GLM-5.0发布仅一个多月。新版本强化了AI代码能力,评测得分从GLM-5.0的35.4提升至45.3,增幅超30%。与全球最强编码大模型Opus 4.6相比,GLM-5.1仅落后不到3分,两者能力接近。此外,GLM-5.1价格远低于Opus 4.6,费用低数倍,更适合程序员使用。不过,其实际编程能力还需结合用户反馈评估,与Claude系列等国际领先模型相比,国产大模型在数据积累和算力规模上仍有提升空间。
原文链接
2026年2月11日,国产AI大模型GLM-5发布,其编程能力达全球领先水平。智谱推出的GLM-5参数量达7440亿,是上一代的两倍,在代理编程测试中以589分超越Claude Opus的585分,位列第一;非代理编程排名第三,仅次于Opus 4.6和Gemini 3 Pro,但优于Opus 4.5。海外AI博主@AICodeKing评价其兼容性强,适合构建复杂应用,且性价比极高,单次编程任务成本仅0.14美元,远低于Opus 4.6的6.39美元和Gemini 3 Pro的0.85美元。对国内开发者而言,GLM-5规避了国外工具的限制,更具吸引力。
原文链接
据The Information报道,DeepSeek计划于2月中旬春节前后发布V4模型,主打编码能力。内部测试显示,其性能已超越Anthropic的Claude和OpenAI的GPT系列。V4在超长代码提示词处理与解析上实现突破,且训练全程数据模式理解能力无衰减,较前代显著提升。新模型生成的答案逻辑更清晰、结构更规整,深度推理能力增强,复杂任务可靠性更高。此外,DeepSeek-V3.2论文提到使用大模型竞技场平台进行人类偏好评估,用户可能提前在该平台测试V4。
原文链接
11月24日,美国AI初创公司Anthropic发布最新模型Claude Opus 4.5,称其编程能力超越人类工程师。该模型在编码、智能代理及日常任务处理上表现卓越,并在测试中超越谷歌Gemini 3 Pro和OpenAI的GPT-5.1。Opus 4.5还通过了一项高难度软件工程测验,得分超过所有历史人类候选者。这是Anthropic两个月内发布的第三个重大版本,此前分别为9月的Sonnet 4.5和10月的Haiku 4.5。新模型将应用于专业开发者及知识型工作者,并成为Anthropic Pro、Max和Enterprise产品的默认模型。此外,公司推出多项更新,包括扩展工具Claude for Chrome、Claude for Excel以及桌面应用的新功能,进一步提升用户体验。
原文链接
9月16日,OpenAI发布全新GPT-5-Codex模型,现已在Codex编程助手中上线,并向ChatGPT Plus、Pro、Business等用户开放,未来计划通过API提供服务。该模型专为Agent编程优化,具备动态计算能力,可灵活分配任务“思考时间”,从数秒到七小时不等,显著提升复杂编程任务表现。相比以往依赖“路由”机制预判任务复杂度的方式,GPT-5-Codex可在任务中实时调整时间和算力,在SWE-bench Verified测试和大型代码库重构中优于标准GPT-5。此外,经过代码审查训练的GPT-5-Codex错误更少,能提供高质量评论,获得资深工程师认可。产品负责人称其动态思考能力在复杂问题上优势明显。
原文链接
2025年9月6日,阿里发布其迄今为止最大的万亿参数模型Qwen3-Max-Preview(Instruct),较前一代Qwen3(235B)参数量提升四倍。新模型在中英文理解、复杂指令遵循及工具调用等方面显著增强,并大幅减少知识幻觉,全面上线通义APP、Qwen Chat网页和阿里云API。实测显示,该模型在解答AIME数学竞赛题、编程生成互动动画、扫雷游戏及前端网页设计等任务中表现出色,所有尝试均一次成功,且生成速度达107+ token/秒。API采用阶梯计费,支持长上下文输入。阿里透露正式版即将推出,可能伴随推理版本,进一步扩展模型规模。
原文链接
2025年8月21日,DeepSeek官方发布V3.1版本,上下文长度扩展至128k,参数达685B,支持多种精度格式。新版本在编程能力上表现突出,Aider测试中得分71.6%,超越Claude 4 Opus,成本低至1美元。新增原生搜索和特殊Token功能,并优化推理速度和上下文支持。尽管未发布模型卡,V3.1已登上Hugging Face趋势榜第四。实测显示其性能显著提升,但在部分复杂任务上仍有改进空间。网友期待未来R2版本的发布。
原文链接
加载更多
暂无内容