1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
OpenAI 启动 Codex Alpha 计划,将邀用户体验前沿 AI 编程模型
10月5日,OpenAI宣布启动“Codex Alpha”抢先体验计划,邀请开发者和用户提前试用其最新AI编程模型。该计划在2025年度开发者日(DevDay 2025)前上线,提供两大系列共七个层级的模型,包括专注于编程任务的gpt-5-codex系列(低、中、高级别)和具备不同程度推理能力的gpt-5系列(极简至高配)。用户可通过该计划访问新版Codex,探索轻量级任务到复杂编程难题的解决方案。这一举措旨在收集反馈并优化模型性能,为正式发布做准备。
DreamCoder
10-06 11:35:29
AI编程模型
Codex Alpha
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
全球最佳编程 AI 模型:Claude Sonnet 4.5 登场,自主写代码超 30 小时、更像“一位同事”
9月30日,Anthropic发布Claude Sonnet 4.5,称其为“全球最佳编程AI模型”。新模型突破性地支持“生产就绪级”应用开发,显著提升软件开发可靠性。Claude Sonnet 4.5在多项行业基准测试中表现领先,并能在企业试用中自主编程超30小时,完成复杂任务如数据库搭建和安全审计。科技巨头苹果、Meta等已采用Claude系列模型。面对OpenAI GPT-5的竞争压力,Anthropic推出配套智能体开发工具包(Claude Agent SDK),助力开发者定制AI智能体。行业合作伙伴评价该模型擅长处理长周期复杂任务,更像“一位同事”。
数字墨迹
09-30 08:22:36
AI智能体
Claude Sonnet 4.5
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
Claude4.5刚刚发布,能连肝30多个小时,史上最卷AI 诞生
2025年9月30日,Anthropic正式发布Claude Sonnet 4.5,号称史上最强编程AI模型。在SWE-bench Verified测试中,该模型登顶业界第一,并在OSWorld基准测试中取得61.4%的成绩,远超此前记录。Claude 4.5能连续工作超30小时,可一次性生成1.1万行代码,大幅提升复杂任务处理能力。新增功能包括「检查点」保存、VS Code插件支持及Claude Agent SDK开放,助力开发者构建智能体。Anthropic强调其对齐度和安全性显著改进,减少不当行为和提示注入攻击风险。此外,临时功能「Imagine with Claude」允许实时生成软件代码,但仅对Max订阅用户开放五天。此次发布被视为与OpenAI等对手竞争的重要举措,同时旨在挽回此前因性能问题流失的用户。
幻彩逻辑RainbowLogic
09-30 07:20:16
Anthropic
Claude Sonnet 4.5
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍
2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
未来编码者
09-23 00:06:04
GPT-5
SWE-BENCH PRO
编程模型测评
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问推出编程模型Qwen3-Coder-Flash
8月1日,阿里通义千问发布全新编程模型Qwen3-Coder-Flash。该模型具备卓越的Agent能力,在代理式编程、浏览器使用及工具调用等领域表现优异,超越当前顶级开源模型,仅稍逊于顶配版Qwen3-Coder-480B-A35B-Instruct以及Claude Sonnet-4、GPT4.1等领先闭源模型。这一发布进一步巩固了通义千问在AI编程领域的竞争力,为开发者提供更高效的解决方案。
蝶舞CyberSwirl
08-01 09:24:35
Qwen3-Coder-Flash
编程模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
近日,网页编程能力排行榜迎来更新,DeepSeek-R1凭借出色表现超越Claude 4,荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型,但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示,DeepSeek-R1能够快速生成多种编程任务代码,例如34秒内完成带有交互功能的太阳系动画程序,以及23秒内生成现代化AGI主题网页代码。然而,其在复杂任务如俄罗斯方块开发中仍存不足,多次运行均出现bug及交互功能缺失问题。尽管如此,DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外,DeepSeek-R1还在多个开源模型榜单中名列前茅,MIT许可证加持下,其综合实力不容小觑。值得注意的是,Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录,挑战着现有编程模型的领先地位。
镜像现实MirageX
06-17 16:24:38
Claude 4
DeepSeek-R1
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4.1正式上线ChatGPT,网友辣评:4.1>4.5
5月15日,OpenAI正式推出GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款模型,优化编程支持与指令执行效率。GPT-4.1在SWE-bench测试中得分55%,远超GPT-4o的33%和GPT-4.5的38%。相比GPT-4.5,GPT-4.1虽知识深度稍逊,但在代码辅助和执行效率上表现更佳。此外,GPT-4.1 mini成为ChatGPT新默认模型,GPT-4.1 nano则以高速低成本适配高延迟需求任务。新模型已在ChatGPT界面开放选择,优先向Plus、Pro及团队用户开放,未来几周扩展至企业与教育版。值得注意的是,GPT-4.0 mini将被全面下架,API定价显示GPT-4.1基础版每百万token输入收费2美元,mini版0.4美元。OpenAI强调增强透明度,承诺更频繁公开安全评估结果。
未来编码者
05-16 14:34:48
GPT-4.1
OpenAI
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7
谷歌发布全新升级的Gemini 2.5 Pro Preview(I/O版),在文本、视觉、编码三方面全面碾压Claude 3.7,登顶LMAreana三冠王,成为地表最强编程模型。该版本不仅在代码转换、编辑及复杂AI工作流开发中表现出色,还支持从草图生成小程序,将自然图像转为代码表达。谷歌首席科学家Jeff Dean高度认可其性能,称其为史上最强编程模型。开发者可通过Google AI Studio和Vertex AI访问Gemini API,新模型已上线Gemini App,支持Canvas等功能。Gemini 2.5 Pro在视频理解方面亦表现优异,得分达84.8%。众多开发者利用其强大能力创造了多样化的Demo,包括3D太阳系、智能花园规划器及图书推荐应用等。此次更新于2025年5月6日发布,标志着AI编程领域的新一轮竞争升级。
代码编织者
05-07 17:12:34
ai
Gemini 2.5 Pro
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o
标题:最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o Qwen2.5-Coder-32B正式发布,拿下多个主流基准测试SOTA,成为全球最强开源编程模型。在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,...
量子思考者
11-12 13:03:56
Qwen2.5-Coder
开源模型
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序