综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年11月24日,Anthropic发布Claude Opus 4.5模型,在多项基准测试中表现卓越。这款AI不仅严格遵守规则,还能创造性地解决问题。例如,在航空客服测试中,它发现政策“后门”,通过升舱为客户实现航班改签,突破了传统限制。在前端项目测试中,Opus 4.5展现了超越代码生成的“产品思维”,如在记账本项目中实现数据持久化和删除功能,或为贪吃蛇游戏添加历史最高分纪录。相比Sonnet 4.5的高效执行,Opus 4.5更像一位懂技术的产品经理,能主动思考用户需求。这一进化标志着AI从“代码生成器”迈向“智能合作伙伴”,为开发者提供了更高层次的协作选择。
原文链接
2025年11月,Claude Opus 4.5正式发布,主打编码、Agent与电脑操作能力。新模型在2小时高强度工程测试中得分超越所有人类候选人,尤其在前端开发、视觉处理、推理及多语言编码任务中表现突出。相比前代Sonnet 4.5,Opus 4.5在复杂决策、漏洞修复和长时任务续航上显著提升,部分测试性能提高超10%。此外,新增‘努力度参数’优化资源消耗,支持多智能体协作和更长上下文管理。开发者可通过API调用,定价为每百万tokens输入5美元/输出25美元。同时,Claude系列产品全面升级,包括桌面端应用、Chrome扩展及Excel插件等功能拓展,现已向Max、Team用户开放测试权限。
原文链接
Anthropic于11月25日发布最新AI模型Claude Opus 4.5,强化编码、长任务处理及智能体操作能力。该模型在软件工程测试中超越所有人类候选人,并在视觉、推理与数学领域达到行业先进水平。Opus 4.5已在Anthropic应用、API及三大云平台开放使用,定价为输入5美元/百万tokens、输出25美元/百万tokens。新版支持更长时间运行的智能体工具,扩展了Excel、Chrome等场景应用,同时优化对话总结功能以支持无限长度交流。此外,模型对齐程度达行业领先,提升对提示注入攻击的防御能力。开发者平台新增effort参数,可灵活调节性能与成本,token消耗显著降低。产品更新包括Claude Code桌面版和多项消费者应用权限扩展。
原文链接
11月25日,Anthropic正式发布最新模型Claude Opus 4.5。微软宣布将在Microsoft Foundry、GitHub Copilot付费计划及Microsoft Copilot Studio中引入该模型。这一合作标志着Claude Opus 4.5在企业级应用中的进一步拓展,为开发者和企业用户提供更强大的AI支持。
原文链接
2025年9月,OpenAI发布名为GDPval的新基准测试,评估AI模型在真实经济任务中的表现。测试涵盖美国GDP贡献最大的9个行业、44种职业,年创收达3万亿美元。结果显示,Claude Opus 4.1以47.6%的胜率媲美人类专家,排名第一,超越GPT-5(38.8%)。OpenAI承认不同模型各有优势,如GPT-5在准确性上更优,而Claude在文件格式和美观性方面表现突出。研究还发现,模型性能可通过优化提示词和智能体框架显著提升。OpenAI开源了包含220项任务的子集,并提供自动评分服务。此外,微软正与Anthropic合作优化其AI助手,进一步认可Claude的价值。
原文链接
2025年9月6日,阿里发布其迄今为止最大的万亿参数模型Qwen3-Max-Preview(Instruct),较前一代Qwen3(235B)参数量提升四倍。新模型在中英文理解、复杂指令遵循及工具调用等方面显著增强,并大幅减少知识幻觉,全面上线通义APP、Qwen Chat网页和阿里云API。实测显示,该模型在解答AIME数学竞赛题、编程生成互动动画、扫雷游戏及前端网页设计等任务中表现出色,所有尝试均一次成功,且生成速度达107+ token/秒。API采用阶梯计费,支持长上下文输入。阿里透露正式版即将推出,可能伴随推理版本,进一步扩展模型规模。
原文链接
2025年9月,智谱开源模型GLM-4.5在伯克利工具调用榜单上超越Claude Opus 4.1,运行成本仅为1.4%。该模型采用MoE架构,在前端开发、跨文件修改等场景表现优异,编程能力接近Claude 4。通过CC-Bench评测体系对比,GLM-4.5在任务完成效果和工具调用可靠性方面表现出色。研究科学家Tim Dettmers称其推理速度比Opus 4.1快3倍、比GPT-5快5倍。此外,智谱推出Claude Code套餐,价格为Claude的1/7,适用于GLM-4.5及GLM-4.5-Air,进一步降低使用门槛。GLM-4.5已接入多款主流编程工具,支持全面开发流程,为开发者提供高性价比选择。
原文链接
2025年9月1日,Anthropic公司承认其最新发布的Claude Opus 4.1模型出现性能退化问题,并已回滚更新。用户反馈显示,该模型在上午10点至11点间推理性能显著下降,尤其在处理复杂任务时错误频发,但凌晨时段表现正常。推测问题源于白天使用1.58位量化技术,导致模型精度和稳定性不足。此外,用户还报告了使用时长限制不明确及API密钥暴露等问题。Anthropic官方迅速回应,承认推理堆栈调整失误,影响响应质量,并表示已修复问题,同时对受影响的Claude Opus 4.0版本进行同步处理。网友对官方坦诚态度表示认可。
原文链接
8月6日,谷歌、OpenAI、Anthropic等公司在AI大模型领域接连发布更新。谷歌推出Genie 3,首个支持实时交互的世界模型,可生成720p画面并保持数分钟一致性,突破性加入‘视觉记忆’功能,适用于游戏、机器人及自动驾驶场景。Anthropic发布Claude Opus 4.1,提升编码与推理能力,在SWE-bench测试中表现优于前代。OpenAI推出两款开放权重模型GPT-oss-120b和GPT-oss-20b,可在本地运行,并预告GPT-5即将发布。此外,Anthropic也计划未来几周内推出重大改进。国内方面,Kimi、智谱、Qwen3等公司相继迭代模型,强化Agent与推理能力。分析师指出,国内外大模型正拓展智能边界,开源与闭源策略并行,模型即Agent的范式逐渐显现。
原文链接
2025年8月6日,Anthropic正式发布Claude Opus 4.1,该版本在编程性能上再次突破,超越前代及竞品,拿下SOTA成绩。新模型在Agent任务和推理能力方面也显著提升,定价保持不变。实测显示其开发小游戏等任务表现稳定。官方透露未来几周将推出更大规模升级。客户反馈积极,GitHub和Rakuten Group均认可其改进,特别是在代码修复和跨文件重构上的表现。Anthropic还通过客户背书暗秀合作关系,与OpenAI形成鲜明对比。此外,Opus 4.1的System Card同步发布,明确其核心调整未改变模型尺寸或训练方法。无害回复率提升至99.06%。目前,Opus 4.1已向所有付费用户开放,并支持多种平台使用。
原文链接
加载更多
暂无内容