
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月5日,OpenAI宣布启动“Codex Alpha”抢先体验计划,邀请开发者和用户提前试用其最新AI编程模型。该计划在2025年度开发者日(DevDay 2025)前上线,提供两大系列共七个层级的模型,包括专注于编程任务的gpt-5-codex系列(低、中、高级别)和具备不同程度推理能力的gpt-5系列(极简至高配)。用户可通过该计划访问新版Codex,探索轻量级任务到复杂编程难题的解决方案。这一举措旨在收集反馈并优化模型性能,为正式发布做准备。
原文链接
9月30日,Anthropic发布Claude Sonnet 4.5,称其为“全球最佳编程AI模型”。新模型突破性地支持“生产就绪级”应用开发,显著提升软件开发可靠性。Claude Sonnet 4.5在多项行业基准测试中表现领先,并能在企业试用中自主编程超30小时,完成复杂任务如数据库搭建和安全审计。科技巨头苹果、Meta等已采用Claude系列模型。面对OpenAI GPT-5的竞争压力,Anthropic推出配套智能体开发工具包(Claude Agent SDK),助力开发者定制AI智能体。行业合作伙伴评价该模型擅长处理长周期复杂任务,更像“一位同事”。
原文链接
2025年9月30日,Anthropic正式发布Claude Sonnet 4.5,号称史上最强编程AI模型。在SWE-bench Verified测试中,该模型登顶业界第一,并在OSWorld基准测试中取得61.4%的成绩,远超此前记录。Claude 4.5能连续工作超30小时,可一次性生成1.1万行代码,大幅提升复杂任务处理能力。新增功能包括「检查点」保存、VS Code插件支持及Claude Agent SDK开放,助力开发者构建智能体。Anthropic强调其对齐度和安全性显著改进,减少不当行为和提示注入攻击风险。此外,临时功能「Imagine with Claude」允许实时生成软件代码,但仅对Max订阅用户开放五天。此次发布被视为与OpenAI等对手竞争的重要举措,同时旨在挽回此前因性能问题流失的用户。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
8月1日,阿里通义千问发布全新编程模型Qwen3-Coder-Flash。该模型具备卓越的Agent能力,在代理式编程、浏览器使用及工具调用等领域表现优异,超越当前顶级开源模型,仅稍逊于顶配版Qwen3-Coder-480B-A35B-Instruct以及Claude Sonnet-4、GPT4.1等领先闭源模型。这一发布进一步巩固了通义千问在AI编程领域的竞争力,为开发者提供更高效的解决方案。
原文链接
近日,网页编程能力排行榜迎来更新,DeepSeek-R1凭借出色表现超越Claude 4,荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型,但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示,DeepSeek-R1能够快速生成多种编程任务代码,例如34秒内完成带有交互功能的太阳系动画程序,以及23秒内生成现代化AGI主题网页代码。然而,其在复杂任务如俄罗斯方块开发中仍存不足,多次运行均出现bug及交互功能缺失问题。尽管如此,DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外,DeepSeek-R1还在多个开源模型榜单中名列前茅,MIT许可证加持下,其综合实力不容小觑。值得注意的是,Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录,挑战着现有编程模型的领先地位。
原文链接
5月15日,OpenAI正式推出GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款模型,优化编程支持与指令执行效率。GPT-4.1在SWE-bench测试中得分55%,远超GPT-4o的33%和GPT-4.5的38%。相比GPT-4.5,GPT-4.1虽知识深度稍逊,但在代码辅助和执行效率上表现更佳。此外,GPT-4.1 mini成为ChatGPT新默认模型,GPT-4.1 nano则以高速低成本适配高延迟需求任务。新模型已在ChatGPT界面开放选择,优先向Plus、Pro及团队用户开放,未来几周扩展至企业与教育版。值得注意的是,GPT-4.0 mini将被全面下架,API定价显示GPT-4.1基础版每百万token输入收费2美元,mini版0.4美元。OpenAI强调增强透明度,承诺更频繁公开安全评估结果。
原文链接
谷歌发布全新升级的Gemini 2.5 Pro Preview(I/O版),在文本、视觉、编码三方面全面碾压Claude 3.7,登顶LMAreana三冠王,成为地表最强编程模型。该版本不仅在代码转换、编辑及复杂AI工作流开发中表现出色,还支持从草图生成小程序,将自然图像转为代码表达。谷歌首席科学家Jeff Dean高度认可其性能,称其为史上最强编程模型。开发者可通过Google AI Studio和Vertex AI访问Gemini API,新模型已上线Gemini App,支持Canvas等功能。Gemini 2.5 Pro在视频理解方面亦表现优异,得分达84.8%。众多开发者利用其强大能力创造了多样化的Demo,包括3D太阳系、智能花园规划器及图书推荐应用等。此次更新于2025年5月6日发布,标志着AI编程领域的新一轮竞争升级。
原文链接
标题:最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o
Qwen2.5-Coder-32B正式发布,拿下多个主流基准测试SOTA,成为全球最强开源编程模型。在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,...
原文链接
加载更多

暂无内容