综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2026年2月,智谱AI公开GLM-5技术论文,全面解析其架构、训练方法及芯片适配能力。GLM-5引入DeepSeek同款稀疏注意力机制(DSA),大幅降低计算成本并提升长上下文处理能力,同时通过异步强化学习基础设施优化训练效率。此外,GLM-5完成与华为昇腾等国产芯片的全栈适配,引发国内外广泛关注。在多项评测中,GLM-5表现优异,尤其在SWE-bench Verified榜单上得分77.8%,成为开源模型中的新标杆。论文发布后,海外用户甚至将其作为教程学习,进一步验证中国AI技术实力。
原文链接
2026年2月21日,清华大学智能产业研究院AIR团队在《npj Artificial Intelligence》发表研究,揭示人类与智驾算法视觉注意力的本质差异。研究以自动驾驶为载体,通过“眼动追踪实验+算法对比验证”双轨设计,首次提出人类驾驶注意力的三阶段量化划分框架。研究表明,算法视觉理解的核心缺陷在于缺乏“语义显著性提取能力”。融入人类检查阶段的语义注意力,可经济高效地填补专业算法的“语义鸿沟”与大模型的“接地鸿沟”,无需依赖大规模预训练。这一成果为提升自动驾驶安全性提供了新思路。
原文链接
9B端侧开源模型跑通百万上下文,面壁智能推出全新稀疏-线性混合注意力架构SALA
近日,面壁智能发布了一种全新的稀疏-线性混合注意力架构SALA(Sparse Attention-Linear Attention),成功让9B参数量的端侧模型在消费级5090显卡上处理百万级上下文。基于该架构的模型M...
原文链接
2026年2月,智谱AI的下一代旗舰大模型GLM-5架构细节被开源社区曝光,采用DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的两倍。GLM-5支持202K上下文窗口,复用DeepSeek架构使其可直接受益于现有推理框架优化。与此同时,OpenRouter平台上的匿名模型“Pony Alpha”因强劲编程与推理能力引发热议,91%用户认为其为GLM-5测试版。受此影响,智谱AI港股两日暴涨近60%。GLM-5预计春节前后发布,将与DeepSeek新模型、Qwen 3.5等同期上线,竞争激烈。
原文链接
2026年2月9日,小米MiMo团队推出面向Agent时代的混合稀疏注意力架构HySparse,采用“极少全注意力+稀疏注意力”设计,为超长文本处理提供高效解决方案。随着Agent模型快速发展,精准处理超长上下文成为关键挑战,不仅需稳定检索与推理,还需快速响应。HySparse在7B和80B模型规模中均表现优异,在80B-A3BMoE实验中,仅保留5层全注意力即可提升性能并降低KV Cache存储近10倍。RULER测试显示其能稳定访问长距离信息,兼顾效果与效率。该架构是MiMo-V2-Flash的升级版,兼容且互补,未增加计算开销。小米MiMo计划进一步验证其潜力,推动学术与工业界研究。
原文链接
小米MiMo团队推出了一种名为HySparse的混合稀疏注意力架构,显著优化了AI模型的性能。HySparse通过仅保留少量全注意力(Full Attention)层进行“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层复用这些信息,从而高效处理长上下文建模。...
原文链接
标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...
原文链接
美团龙猫LongCat系列推出全新稀疏注意力机制LoZA(LongCat ZigZag Attention),显著提升长文本处理能力。新技术将上下文窗口扩展至1M,解码速度比之前快10倍,且在256K文本预加载时提速超50%。
全注意力机制因平方级计算复杂度(O(L²))难以高效处理长文本。LoZA...
原文链接
2025年12月,华为诺亚方舟实验室推出全新架构Nexus,革新Transformer核心机制。通过高阶注意力机制(Higher-Order Attention Mechanism),Nexus解决了传统Attention在多跳、多点逻辑推理中的不足,显著提升模型复杂推理能力。实验表明,Pythia-70M模型在SciQ数据集准确率提升7%,Qwen2.5系列在数学推理任务中表现更优,且无需增加参数量。Nexus采用递归框架与权重共享策略,实现高效表达密度提升,适用于小模型训练和大模型改造。研究团队计划将Nexus扩展至视觉与多模态任务,进一步优化其性能。论文已发布于arXiv。
原文链接
12月1日,DeepSeek发布两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。前者性能与GPT-5相当,后者更在多项基准测试中追平闭源模型天花板Gemini,并在IMO 2025、CMO 2025等竞赛中斩获金牌。此次更新通过稀疏注意力(DSA)优化长文本处理能力,显著降低计算成本,同时强化后训练阶段投入超10%总算力提升模型表现。此外,DeepSeek优化了工具调用逻辑,改进Agent能力,并推出支持深度思考的特殊版本Speciale。尽管其Token消耗量较高,但价格仅为Gemini的1/20,性价比突出。DeepSeek持续以算法创新缩小开源与闭源模型差距,展现技术巧思。
原文链接
加载更多
暂无内容