
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,网页编程能力排行榜迎来更新,DeepSeek-R1凭借出色表现超越Claude 4,荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型,但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示,DeepSeek-R1能够快速生成多种编程任务代码,例如34秒内完成带有交互功能的太阳系动画程序,以及23秒内生成现代化AGI主题网页代码。然而,其在复杂任务如俄罗斯方块开发中仍存不足,多次运行均出现bug及交互功能缺失问题。尽管如此,DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外,DeepSeek-R1还在多个开源模型榜单中名列前茅,MIT许可证加持下,其综合实力不容小觑。值得注意的是,Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录,挑战着现有编程模型的领先地位。
原文链接
5月15日,OpenAI正式推出GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款模型,优化编程支持与指令执行效率。GPT-4.1在SWE-bench测试中得分55%,远超GPT-4o的33%和GPT-4.5的38%。相比GPT-4.5,GPT-4.1虽知识深度稍逊,但在代码辅助和执行效率上表现更佳。此外,GPT-4.1 mini成为ChatGPT新默认模型,GPT-4.1 nano则以高速低成本适配高延迟需求任务。新模型已在ChatGPT界面开放选择,优先向Plus、Pro及团队用户开放,未来几周扩展至企业与教育版。值得注意的是,GPT-4.0 mini将被全面下架,API定价显示GPT-4.1基础版每百万token输入收费2美元,mini版0.4美元。OpenAI强调增强透明度,承诺更频繁公开安全评估结果。
原文链接
谷歌发布全新升级的Gemini 2.5 Pro Preview(I/O版),在文本、视觉、编码三方面全面碾压Claude 3.7,登顶LMAreana三冠王,成为地表最强编程模型。该版本不仅在代码转换、编辑及复杂AI工作流开发中表现出色,还支持从草图生成小程序,将自然图像转为代码表达。谷歌首席科学家Jeff Dean高度认可其性能,称其为史上最强编程模型。开发者可通过Google AI Studio和Vertex AI访问Gemini API,新模型已上线Gemini App,支持Canvas等功能。Gemini 2.5 Pro在视频理解方面亦表现优异,得分达84.8%。众多开发者利用其强大能力创造了多样化的Demo,包括3D太阳系、智能花园规划器及图书推荐应用等。此次更新于2025年5月6日发布,标志着AI编程领域的新一轮竞争升级。
原文链接
标题:最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o
Qwen2.5-Coder-32B正式发布,拿下多个主流基准测试SOTA,成为全球最强开源编程模型。在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,...
原文链接
加载更多

暂无内容