综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,OpenAI宣布开放其最强编程模型GPT-5.1-Codex-Max的API访问权限,定价与GPT-5保持一致(输入1.25美元/百万token,输出10美元/百万token)。该模型专为长时间运行和复杂编程任务设计,支持超长上下文处理,可连续工作超24小时。性能方面,其在SWE-Bench Verified测试中得分77.9%,优于常规版的73.7%。此外,GPT-5.1-Codex-Max针对Windows环境优化,适合多平台开发者使用。目前,Cursor、GitHub Copilot等主流工具已完成集成,Pro及以上订阅用户可直接切换使用。
原文链接
11月19日,OpenAI发布全新编程模型GPT-5.1-Codex-Max,性能超越谷歌Gemini 3 Pro。新模型在多项编程基准测试中表现优异,例如SWE-Bench Verified准确率达77.9%,领先Gemini的76.2%;Terminal-Bench 2.0准确率为58.1%,高于Gemini的54.2%。其核心升级为“压缩”机制,可智能保留关键上下文信息,支持连续工作超24小时且效率提升30%。目前,该模型已集成至OpenAI多个开发工具,如Codex CLI和代码审查工具,但尚未开放公共API,需订阅ChatGPT Plus等付费计划使用。OpenAI内部数据显示,工程师使用Codex后提交的拉取请求增加70%。官方强调,Codex-Max旨在辅助而非替代开发者,并通过沙盒环境和详细日志确保安全性和透明性。
原文链接
2025年11月,火山引擎推出全新代码模型Doubao-Seed-Code,主打Agentic编程任务优化。该模型性能登顶SWE-Bench Verified榜单,价格为国内最低,调用成本仅约0.34元,支持9.9元套餐。其原生兼容Anthropic API,迁移成本几乎为零,并适配多种主流IDE。实测显示,模型能高效完成从简单视觉效果到复杂工程化重构的任务,还能‘看图写代码’,根据UI设计稿生成高相似度前端代码。此外,模型支持256K长上下文,适合复杂场景开发。火山引擎依托千卡GPU集群和10万容器镜像库,确保高并发稳定性和企业级安全保障。目前,Doubao-Seed-Code已在字节内部广泛使用,月活用户超100万。
原文链接
11月11日,火山引擎正式发布豆包编程模型(Doubao-Seed-Code),专为Agentic编程任务优化,在SWE-Bench-Verified榜单中刷新SOTA记录,并兼容Anthropic API等主流开发环境。该模型综合使用成本较业界平均水平降低62.7%,为国内最低价。目前,豆包编程模型已通过火山方舟平台全量开放API,为开发者提供高效、低成本的解决方案。
原文链接
11月11日,火山引擎发布豆包编程模型(Doubao-Seed-Code),专为Agentic编程任务优化,在SWE-Bench-Verified榜单中刷新SOTA成绩,支持256K长上下文及视觉理解能力,兼容Anthropic API等主流开发环境。其综合使用成本较业界平均水平降低62.7%,国内最低价,并推出首月9.9元的个人开发者优惠套餐“Coding Plan”。同日,TRAE中国版接入该模型,企业版正式公测,提供大规模代码库支持、数据安全管控和灵活模型管理能力,公测期间首月免费。
原文链接
11月8日,OpenAI发布GPT-5-Codex-Mini,这是GPT-5-Codex的轻量版,专为经济高效编程设计。相比原版,Mini版性能小幅下降(SWE-bench测试得分71.3%,原版为74.5%),但开发者可获得约4倍使用额度。该模型适用于轻量级工程任务或接近速率上限场景,并已在CLI和IDE扩展中上线,API支持即将推出。此外,OpenAI优化了Codex后台,提升稳定性,避免流量波动影响体验。ChatGPT Plus等用户速率上限提高50%,Pro与Enterprise用户享有更快响应优先调度。
原文链接
10月5日,OpenAI宣布启动“Codex Alpha”抢先体验计划,邀请开发者和用户提前试用其最新AI编程模型。该计划在2025年度开发者日(DevDay 2025)前上线,提供两大系列共七个层级的模型,包括专注于编程任务的gpt-5-codex系列(低、中、高级别)和具备不同程度推理能力的gpt-5系列(极简至高配)。用户可通过该计划访问新版Codex,探索轻量级任务到复杂编程难题的解决方案。这一举措旨在收集反馈并优化模型性能,为正式发布做准备。
原文链接
9月30日,Anthropic发布Claude Sonnet 4.5,称其为“全球最佳编程AI模型”。新模型突破性地支持“生产就绪级”应用开发,显著提升软件开发可靠性。Claude Sonnet 4.5在多项行业基准测试中表现领先,并能在企业试用中自主编程超30小时,完成复杂任务如数据库搭建和安全审计。科技巨头苹果、Meta等已采用Claude系列模型。面对OpenAI GPT-5的竞争压力,Anthropic推出配套智能体开发工具包(Claude Agent SDK),助力开发者定制AI智能体。行业合作伙伴评价该模型擅长处理长周期复杂任务,更像“一位同事”。
原文链接
2025年9月30日,Anthropic正式发布Claude Sonnet 4.5,号称史上最强编程AI模型。在SWE-bench Verified测试中,该模型登顶业界第一,并在OSWorld基准测试中取得61.4%的成绩,远超此前记录。Claude 4.5能连续工作超30小时,可一次性生成1.1万行代码,大幅提升复杂任务处理能力。新增功能包括「检查点」保存、VS Code插件支持及Claude Agent SDK开放,助力开发者构建智能体。Anthropic强调其对齐度和安全性显著改进,减少不当行为和提示注入攻击风险。此外,临时功能「Imagine with Claude」允许实时生成软件代码,但仅对Max订阅用户开放五天。此次发布被视为与OpenAI等对手竞争的重要举措,同时旨在挽回此前因性能问题流失的用户。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
加载更多
暂无内容