长上下文 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

英伟达新GPU，超长上下文/视频生成专用

2025年9月14日，英伟达在AI Infra Summit上发布全新GPU——NVIDIA Rubin CPX，专为处理百万token级别的代码生成和生成式视频任务设计。这款基于Rubin架构的GPU采用单片设计，内置NVFP4计算资源，提供高达30PFLOPS算力，配备128GB GDDR7内存，性能较A100显著提升。Rubin CPX可与Vera CPU和GPU协同工作，构成Vera Rubin NVL144 CPX平台，实现8EFLOPS AI算力和1.7PB/s内存带宽，较现有系统提升7.5倍。其应用场景包括复杂软件项目优化、高质量生成式视频等。英伟达预计Rubin CPX将于2026年底正式推出，并将获得完整AI软件栈支持。行业专家认为该产品将在代码生产力和影像创作领域带来突破。

原文链接

未来编码者

09-14 14:42:14

Rubin CPX

英伟达

超长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

推理算力“正在耗尽”？百万Token时代来临产业打响新一轮竞逐

9月13日，AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU，称其投资回报率可达50倍，远超以往产品，并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出，AI推理市场将远大于训练市场，且推理算力正被快速耗尽。数据显示，Google、微软和字节等大厂Token调用量呈爆发式增长，行业对长上下文需求激增。东吴证券认为，Rubin CPX推出标志着算力基建进入分工协作新阶段，硬件与软件耦合度提升，GPU、存储等相关厂商有望受益。

原文链接

星际Code流浪者

09-13 18:29:27

推理算力

百万Token

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布超长上下文推理芯片Rubin CPX 算力效率拉爆当前旗舰

2025年9月10日，英伟达宣布推出专为长上下文工作负载设计的GPU芯片Rubin CPX，显著提升AI推理效率，特别是在编程和视频生成等需要超长上下文的应用场景。Rubin CPX基于下一代顶级算力芯片Rubin开发，预计2026年底出货。新芯片将集成在NVIDIA Vera Rubin NVL144 CPX服务器中，性能较当前旗舰GB300 NVL72提升最多6.5倍，提供8exaFLOPs算力、100TB高速内存和1.7PB/s带宽。英伟达表示，部署价值1亿美元的新芯片可为客户带来50亿美元收入。Rubin CPX针对数百万tokens级别的长上下文优化，配备30petaFLOPs算力和128GB GDDR7内存，分离上下文与生成阶段计算负载，大幅提升资源利用率。

原文链接

心智奇点

09-10 08:32:11

Rubin CPX

英伟达

长上下文推理

分享至

打开微信扫一扫

内容投诉

生成图片

硅基流动上线 DeepSeek-V3.1，上下文升至 160K

8月25日，硅基流动宣布上线深度求索团队开源的DeepSeek-V3.1模型。该模型总参数达671B，激活参数37B，采用混合推理架构，思考效率更高，工具使用与智能体任务表现显著提升，性能在多项测试中比肩Claude 4 Sonnet等主流模型。新版本支持160K超长上下文，适用于长文档解析、多轮对话、复杂任务处理等场景，且成本仅为Claude 4 Sonnet输入的1/5、输出的1/9。此外，其最大支持500万TPM，可无损解析法律合同、学术文献等，并实现高精度RAG增强检索，大幅降低错误率。

原文链接

梦境编程师

08-25 21:34:29

DeepSeek-V3.1

硅基流动

超长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax M1全球技术闭门会实录：RL、混合架构、长上下文的下一步

MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。 RL能否赋予模型新能力？ RL在有限上下文长度下能提升模型能力，通过改变输出分布优化性能。例如，预训练需10万token解决的问题，经RL可能仅需1万token。然而，Reward Modeling仍是核心瓶颈，尤其是非结...

原文链接

LunarCoder

07-22 13:32:06

混合架构

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

最强3B「小钢炮」，代码数据全公开！推理随意开关，128k超长上下文

2025年7月11日，Hugging Face发布新一代最强30亿参数小模型SmolLM3，支持128k超长上下文、双推理模式（think/no_think）及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B，逼近40亿参数模型，并完全开源训练、对齐、架构与数据。团队通过优化架构（如GQA机制、NoPE编码）及三阶段训练策略提升模型能力，尤其在数学、编程和长文本任务中表现优异。此外，SmolLM3引入双模式指令模型构建方案，平衡推理与非推理性能，支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署，模型已在Hugging Face平台开放下载。

原文链接

超频思维站

07-11 11:34:58

SmolLM3

开源模型

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini 2.5 Pro负责人：最强百万上下文，做好了能解锁很多应用场景

Gemini 2.5 Pro模型在AI编程实践中，能够直接读取整个项目，带来全新的体验。长上下文能革新产品交互并开启全新应用场景。谷歌DeepMind的Nikolay Savinov指出，当前百万级token上下文质量尚未完美，盲目追求更大规模意义不大；随着成本下降，千万级token上下文将成为标准...

原文链接

AGI探路者

07-01 08:52:17

Gemini 2.5 Pro

RAG

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax的好日子来了？

MiniMax的好日子来了？昨天凌晨，MiniMax正式开源了首个推理模型M1。尽管在基准测试中表现平平，但M1拥有业界最长的上下文能力：100万token输入与8万token输出。与此同时，MiniMax正在邀请用户测试其通用Agent。错失先发优势后，这家曾被视为AI六小龙中最稳健的公司，正...

原文链接

心智奇点

06-18 21:51:36

Agent

MiniMax

长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI诈骗？GPT-4.1正式上线ChatGPT，网友实测却大呼失望

OpenAI宣布GPT-4.1正式上线ChatGPT，Plus、Pro和Team用户现已可通过模型选择器访问。该模型具备强大的编码能力和指令遵循能力，知识截止日期更新至2024年6月。尽管表现优异，如高效完成复杂代码任务和准确推理问题，但许多用户对上下文窗口大小感到失望，ChatGPT中的GPT-4.1上下文长度仅为128k token，远低于API中的100万token。此外，部分用户反馈网页版运行特定提示词失败，而API Playground则成功执行。GPT-4.1在安全性评估中表现良好，但在越狱评估方面表现欠佳。有开发者认为其编码能力优于GPT-4.5，但仍期待GPT-5提供更多功能。时间：2025年5月16日。

原文链接

未来笔触

05-16 13:50:56

GPT-4.1

OpenAI

超长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

OpenAI推出GPT-4.1系列模型，主打性价比。该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本，均支持百万token上下文窗口。相比GPT-4.5，GPT-4.1在编码、指令遵循及长上下文理解等方面表现更优。例如，在SWE-bench Verified测试中，GPT-4.1得分54.6%，提升显著；在MMLU基准测试中，GPT-4.1 mini以87.5%的成绩超越GPT-4o的85.7%，且成本更低。此外，GPT-4.1在长上下文检索与多跳推理测试中亦表现优异。OpenAI计划用GPT-4.1取代GPT-4.5，后者将于2025年7月14日下架。尽管性价比提高，GPT-4.1仍逊于DeepSeek R1。

原文链接