综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2026年4月,北大张牧涵团队提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文索引瓶颈,在DeepSeek-V3.2和GLM-5模型上实现2-4倍提速且几乎不丢精度。HISA通过块级粗过滤与块内精挑字符两步操作,将复杂度从O(L²)降至O(L²/B + L×m×B),大幅降低计算成本,同时支持即插即用无需重新训练。实验显示,HISA在64K长度文本下最高提速3.75倍,精度与原方法DSA持平,尤其在长文本理解与关键信息检索任务中表现优异。团队未来计划改进块划分方式并探索联合训练优化筛选精度。
原文链接
2026年2月,智谱AI的下一代旗舰大模型GLM-5架构细节被开源社区曝光,采用DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的两倍。GLM-5支持202K上下文窗口,复用DeepSeek架构使其可直接受益于现有推理框架优化。与此同时,OpenRouter平台上的匿名模型“Pony Alpha”因强劲编程与推理能力引发热议,91%用户认为其为GLM-5测试版。受此影响,智谱AI港股两日暴涨近60%。GLM-5预计春节前后发布,将与DeepSeek新模型、Qwen 3.5等同期上线,竞争激烈。
原文链接
小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。...
原文链接
标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...
原文链接
12月1日,DeepSeek发布两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。前者性能与GPT-5相当,后者更在多项基准测试中追平闭源模型天花板Gemini,并在IMO 2025、CMO 2025等竞赛中斩获金牌。此次更新通过稀疏注意力(DSA)优化长文本处理能力,显著降低计算成本,同时强化后训练阶段投入超10%总算力提升模型表现。此外,DeepSeek优化了工具调用逻辑,改进Agent能力,并推出支持深度思考的特殊版本Speciale。尽管其Token消耗量较高,但价格仅为Gemini的1/20,性价比突出。DeepSeek持续以算法创新缩小开源与闭源模型差距,展现技术巧思。
原文链接
2025年7月31日,DeepSeek与北京大学联合发表的论文《Native Sparse Attention》获ACL最佳论文奖。该研究提出一种新方法NSA(原生稀疏注意力),首次将稀疏注意力引入完整训练流程,性能不降反升,推理速度提升11倍。NSA通过“粗读摘要、精读重点、强记最近”三种策略动态分配注意力,在长文本处理中表现优异,如64k长度序列的信息检索准确率达100%。此技术已在27B模型上完成预训练验证,未来或大幅降低AI使用成本,提升效率。搭载NSA的下一代DeepSeek模型备受期待。
原文链接
加载更多
暂无内容