
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月6日,阿里发布其迄今为止最大的万亿参数模型Qwen3-Max-Preview(Instruct),较前一代Qwen3(235B)参数量提升四倍。新模型在中英文理解、复杂指令遵循及工具调用等方面显著增强,并大幅减少知识幻觉,全面上线通义APP、Qwen Chat网页和阿里云API。实测显示,该模型在解答AIME数学竞赛题、编程生成互动动画、扫雷游戏及前端网页设计等任务中表现出色,所有尝试均一次成功,且生成速度达107+ token/秒。API采用阶梯计费,支持长上下文输入。阿里透露正式版即将推出,可能伴随推理版本,进一步扩展模型规模。
原文链接
2025年8月21日,DeepSeek官方发布V3.1版本,上下文长度扩展至128k,参数达685B,支持多种精度格式。新版本在编程能力上表现突出,Aider测试中得分71.6%,超越Claude 4 Opus,成本低至1美元。新增原生搜索和特殊Token功能,并优化推理速度和上下文支持。尽管未发布模型卡,V3.1已登上Hugging Face趋势榜第四。实测显示其性能显著提升,但在部分复杂任务上仍有改进空间。网友期待未来R2版本的发布。
原文链接
正文:2025年8月20日,DeepSeek低调上线并开源新模型DeepSeek-V3.1-Base,参数达6850亿,支持多种张量类型,上下文窗口拓展至128k。新模型在编程领域表现突出,Aider Polyglot测试得分71.6%,超越Claude 4 Opus,生成代码逻辑清晰且细节完整。但在写作和创意任务中仍有局限,叙事张力不足。此外,模型移除了深度思考模式的“R1”标识,并新增原生搜索功能优化。目前,该模型已在Hugging Face趋势榜跃居第二,引发广泛关注。
原文链接
2025年8月20日,DeepSeek V3.1发布,主要更新包括上下文长度拓展至128K和支持多种张量格式。实测显示,V3.1在编程能力、情境写作、数学理解、翻译水平等方面均有显著提升。例如,V3.1在处理GIF压缩任务时提供了更全面的代码说明和优化策略;情境写作中,风格从V3的理性转为更具文艺气息的表达;数学题解答逻辑清晰且正确;翻译表现对长难句的理解更强但偶有小失误。此外,V3.1在冷门知识问答中存在争议性回答。网友测试发现其在非推理模型基准上拿下SOTA成绩,性价比高,但部分线上API仍存在问题。目前,V3.1已可在网页端、APP及小程序使用,Base版本可从抱抱脸下载。
原文链接
2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
2025年8月,OpenAI发布GPT-5,尽管因“路由”问题被质疑“降智”,其在编程、科研等领域展现强大潜力。医学家借助GPT-5重现“神之一手”时刻,验证其专家级能力。GPT-5在复杂代码生成和调试中表现突出,挑战Anthropic的Claude模型编程王座。OpenAI总裁透露,GPT-5通过合成数据突破互联网数据限制,并迈向“智能体式推理”时代。未来目标是提升模型理论创新能力,实现AI自我迭代与复杂任务监督。
原文链接
2025年8月8日凌晨1点,OpenAI正式发布GPT-5,这是继GPT-4之后时隔两年半的全新升级。GPT-5采用统一系统设计,包含智能快速模型(gpt-5-main)和深度推理模型(gpt-5-thinking),通过动态路由选择适配不同任务需求。相比前代,GPT-5大幅减少事实性幻觉,gpt-5-main的重大事实错误减少44%,gpt-5-thinking则减少78%。此外,GPT-5在编程能力上表现突出,尤其在复杂代码修改和生产级任务中超越竞品如Claude 4 Opus和Gemini 2.5 Pro。然而,在写作和情商方面,用户反馈其表现不如GPT-4.5,部分细节处理欠缺。定价方面,输入每百万token收费1.25美元,输出为10美元。尽管性能全面增强,但发布会图表错误引发吐槽,且未引入显著新功能。
原文链接
2025年8月8日,OpenAI正式发布GPT-5,称其为“历史上难以想象的AI模型”。新模型在编码、写作、数学和健康等领域显著提升,并采用全新统一系统设计,包括基础模型、深度推理模型和实时路由器。GPT-5在多项基准测试中刷新纪录,如编程能力达74.9%-88%,健康领域表现最佳。此外,GPT-5减少幻觉问题,事实错误率较GPT-4降低45%,并引入更安全的交互方式。免费用户也可使用,但有消息限制,超出后切换至精简版GPT-5 mini。同时,马斯克称其Grok 4在ARC-AGI测试中击败GPT-5,并预告Grok 5将在年底推出。
原文链接
2025年8月,OpenAI正式发布GPT-5,向所有用户免费开放,被称为“博士生水平的AI”。GPT-5在AIME 2025上取得满分成绩,编程能力超越Claude-opus-4.1,成为新王者,并在大模型竞技场中斩获最高分,全面领先Gemini-2.5-pro等竞品。新模型首次集成多模态与推理能力,内置基础模型、深度推理模块和实时路由模块,可智能调度处理复杂任务。GPT-5在网页开发、文本创作、长上下文任务等领域均表现优异,并支持个性化定制和外部服务链接。此外,OpenAI为千名研究人员发放高额奖金,医疗健康领域或成未来重点。马斯克等对其提出质疑,但GPT-5仍被视为划时代产品。
原文链接
GPT-5或将下周发布,整合GPT与o系列,具备多模态、推理能力及强大编程性能,上下文窗口达百万tokens。泄露信息显示其在微软Copilot、Cursor等平台已测试接入,可能免费开放。模型包括主版本(代号“nectarine/o3-alpha”)、mini版(代号“lobster”)和nano版(代号“starfish”),分别在高级编程、复杂推理及多模态任务中表现突出。然而,部分业内人士持怀疑态度,认为其可能存在幻觉问题及不可控性,且未必达到AGI水平。社区对多次‘泄露’炒作感到疲惫,期待官方尽快正式发布以验证真伪。
原文链接
加载更多

暂无内容