
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月14日,英伟达在AI Infra Summit上发布全新GPU——NVIDIA Rubin CPX,专为处理百万token级别的代码生成和生成式视频任务设计。这款基于Rubin架构的GPU采用单片设计,内置NVFP4计算资源,提供高达30PFLOPS算力,配备128GB GDDR7内存,性能较A100显著提升。Rubin CPX可与Vera CPU和GPU协同工作,构成Vera Rubin NVL144 CPX平台,实现8EFLOPS AI算力和1.7PB/s内存带宽,较现有系统提升7.5倍。其应用场景包括复杂软件项目优化、高质量生成式视频等。英伟达预计Rubin CPX将于2026年底正式推出,并将获得完整AI软件栈支持。行业专家认为该产品将在代码生产力和影像创作领域带来突破。
原文链接
9月13日,AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU,称其投资回报率可达50倍,远超以往产品,并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出,AI推理市场将远大于训练市场,且推理算力正被快速耗尽。数据显示,Google、微软和字节等大厂Token调用量呈爆发式增长,行业对长上下文需求激增。东吴证券认为,Rubin CPX推出标志着算力基建进入分工协作新阶段,硬件与软件耦合度提升,GPU、存储等相关厂商有望受益。
原文链接
2025年9月10日,英伟达宣布推出专为长上下文工作负载设计的GPU芯片Rubin CPX,显著提升AI推理效率,特别是在编程和视频生成等需要超长上下文的应用场景。Rubin CPX基于下一代顶级算力芯片Rubin开发,预计2026年底出货。新芯片将集成在NVIDIA Vera Rubin NVL144 CPX服务器中,性能较当前旗舰GB300 NVL72提升最多6.5倍,提供8exaFLOPs算力、100TB高速内存和1.7PB/s带宽。英伟达表示,部署价值1亿美元的新芯片可为客户带来50亿美元收入。Rubin CPX针对数百万tokens级别的长上下文优化,配备30petaFLOPs算力和128GB GDDR7内存,分离上下文与生成阶段计算负载,大幅提升资源利用率。
原文链接
8月25日,硅基流动宣布上线深度求索团队开源的DeepSeek-V3.1模型。该模型总参数达671B,激活参数37B,采用混合推理架构,思考效率更高,工具使用与智能体任务表现显著提升,性能在多项测试中比肩Claude 4 Sonnet等主流模型。新版本支持160K超长上下文,适用于长文档解析、多轮对话、复杂任务处理等场景,且成本仅为Claude 4 Sonnet输入的1/5、输出的1/9。此外,其最大支持500万TPM,可无损解析法律合同、学术文献等,并实现高精度RAG增强检索,大幅降低错误率。
原文链接
MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。
RL能否赋予模型新能力?
RL在有限上下文长度下能提升模型能力,通过改变输出分布优化性能。例如,预训练需10万token解决的问题,经RL可能仅需1万token。然而,Reward Modeling仍是核心瓶颈,尤其是非结...
原文链接
2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
Gemini 2.5 Pro模型在AI编程实践中,能够直接读取整个项目,带来全新的体验。长上下文能革新产品交互并开启全新应用场景。谷歌DeepMind的Nikolay Savinov指出,当前百万级token上下文质量尚未完美,盲目追求更大规模意义不大;随着成本下降,千万级token上下文将成为标准...
原文链接
MiniMax的好日子来了?
昨天凌晨,MiniMax正式开源了首个推理模型M1。尽管在基准测试中表现平平,但M1拥有业界最长的上下文能力:100万token输入与8万token输出。与此同时,MiniMax正在邀请用户测试其通用Agent。
错失先发优势后,这家曾被视为AI六小龙中最稳健的公司,正...
原文链接
OpenAI宣布GPT-4.1正式上线ChatGPT,Plus、Pro和Team用户现已可通过模型选择器访问。该模型具备强大的编码能力和指令遵循能力,知识截止日期更新至2024年6月。尽管表现优异,如高效完成复杂代码任务和准确推理问题,但许多用户对上下文窗口大小感到失望,ChatGPT中的GPT-4.1上下文长度仅为128k token,远低于API中的100万token。此外,部分用户反馈网页版运行特定提示词失败,而API Playground则成功执行。GPT-4.1在安全性评估中表现良好,但在越狱评估方面表现欠佳。有开发者认为其编码能力优于GPT-4.5,但仍期待GPT-5提供更多功能。时间:2025年5月16日。
原文链接
OpenAI推出GPT-4.1系列模型,主打性价比。该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本,均支持百万token上下文窗口。相比GPT-4.5,GPT-4.1在编码、指令遵循及长上下文理解等方面表现更优。例如,在SWE-bench Verified测试中,GPT-4.1得分54.6%,提升显著;在MMLU基准测试中,GPT-4.1 mini以87.5%的成绩超越GPT-4o的85.7%,且成本更低。此外,GPT-4.1在长上下文检索与多跳推理测试中亦表现优异。OpenAI计划用GPT-4.1取代GPT-4.5,后者将于2025年7月14日下架。尽管性价比提高,GPT-4.1仍逊于DeepSeek R1。
原文链接
加载更多

暂无内容