综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3月18日凌晨,英伟达GTC大会上,月之暗面Kimi创始人杨植麟发表演讲,首次系统披露Kimi技术路线。他强调,突破大模型智能上限需重构优化器、注意力机制等底层技术,并提出Kimi进化逻辑的三大维度:Token效率、长上下文及智能体集群(Agent Swarms)。杨植麟指出,Scaling已不再是单纯资源堆砌,而需在计算效率、长程记忆和自动化协作上寻找规模效应。他认为,将这三者的技术增益叠加,可大幅提升模型智能水平,未来智能形态将从单智能体向动态生成的集群进化。这是继1月底发布Kimi K2.5后,其技术思路的首次全面公开。(记者 李明明)
原文链接
标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...
原文链接
9月13日,AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU,称其投资回报率可达50倍,远超以往产品,并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出,AI推理市场将远大于训练市场,且推理算力正被快速耗尽。数据显示,Google、微软和字节等大厂Token调用量呈爆发式增长,行业对长上下文需求激增。东吴证券认为,Rubin CPX推出标志着算力基建进入分工协作新阶段,硬件与软件耦合度提升,GPU、存储等相关厂商有望受益。
原文链接
MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。
RL能否赋予模型新能力?
RL在有限上下文长度下能提升模型能力,通过改变输出分布优化性能。例如,预训练需10万token解决的问题,经RL可能仅需1万token。然而,Reward Modeling仍是核心瓶颈,尤其是非结...
原文链接
2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
Gemini 2.5 Pro模型在AI编程实践中,能够直接读取整个项目,带来全新的体验。长上下文能革新产品交互并开启全新应用场景。谷歌DeepMind的Nikolay Savinov指出,当前百万级token上下文质量尚未完美,盲目追求更大规模意义不大;随着成本下降,千万级token上下文将成为标准...
原文链接
MiniMax的好日子来了?
昨天凌晨,MiniMax正式开源了首个推理模型M1。尽管在基准测试中表现平平,但M1拥有业界最长的上下文能力:100万token输入与8万token输出。与此同时,MiniMax正在邀请用户测试其通用Agent。
错失先发优势后,这家曾被视为AI六小龙中最稳健的公司,正...
原文链接
OpenAI推出GPT-4.1系列模型,主打性价比。该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本,均支持百万token上下文窗口。相比GPT-4.5,GPT-4.1在编码、指令遵循及长上下文理解等方面表现更优。例如,在SWE-bench Verified测试中,GPT-4.1得分54.6%,提升显著;在MMLU基准测试中,GPT-4.1 mini以87.5%的成绩超越GPT-4o的85.7%,且成本更低。此外,GPT-4.1在长上下文检索与多跳推理测试中亦表现优异。OpenAI计划用GPT-4.1取代GPT-4.5,后者将于2025年7月14日下架。尽管性价比提高,GPT-4.1仍逊于DeepSeek R1。
原文链接
MiniMax于2025年初开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01,该模型拥有4560亿参数,支持400万token长上下文。MiniMax-Text-01通过新型线性注意力机制和混合专家架构,显著提高了长上下文处理能力。在基准测试中,MiniMax-Text-01表现出色,尤其是在长上下文理解和推理任务上。MiniMax-VL-01则结合了图像编码器,增强了多模态处理能力。这些模型有望推动AI Agent在2025年的广泛应用。
原文链接
加载更多
暂无内容