注意力机制 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

智谱GLM-5技术全公开！完全适配华为等国产芯片，美国网友酸了

正文：2026年2月，智谱AI公开GLM-5技术论文，全面解析其架构、训练方法及芯片适配能力。GLM-5引入DeepSeek同款稀疏注意力机制（DSA），大幅降低计算成本并提升长上下文处理能力，同时通过异步强化学习基础设施优化训练效率。此外，GLM-5完成与华为昇腾等国产芯片的全栈适配，引发国内外广泛关注。在多项评测中，GLM-5表现优异，尤其在SWE-bench Verified榜单上得分77.8%，成为开源模型中的新标杆。论文发布后，海外用户甚至将其作为教程学习，进一步验证中国AI技术实力。

原文链接

未来笔触

02-23 15:59:51

GLM-5

异步强化学习

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

美团龙猫LongCat系列推出全新稀疏注意力机制LoZA（LongCat ZigZag Attention），显著提升长文本处理能力。新技术将上下文窗口扩展至1M，解码速度比之前快10倍，且在256K文本预加载时提速超50%。全注意力机制因平方级计算复杂度（O(L²)）难以高效处理长文本。LoZA...

原文链接

数码游侠

01-13 13:35:04

LoZA稀疏注意力机制

美团龙猫LongCat

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

2025年12月，华为诺亚方舟实验室推出全新架构Nexus，革新Transformer核心机制。通过高阶注意力机制（Higher-Order Attention Mechanism），Nexus解决了传统Attention在多跳、多点逻辑推理中的不足，显著提升模型复杂推理能力。实验表明，Pythia-70M模型在SciQ数据集准确率提升7%，Qwen2.5系列在数学推理任务中表现更优，且无需增加参数量。Nexus采用递归框架与权重共享策略，实现高效表达密度提升，适用于小模型训练和大模型改造。研究团队计划将Nexus扩展至视觉与多模态任务，进一步优化其性能。论文已发布于arXiv。

原文链接

数字墨迹

12-06 02:03:09

Nexus

华为

高阶注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新模型上线

2025年9月30日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DeepSeek Sparse Attention（DSA），显著提升长文本处理效率与推理性能，同时开源TileLang和CUDA双版本GPU算子，便于社区研究与迭代。官方App、网页端、小程序均已同步更新，并推出API 5折起优惠活动。此外，DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平，但在处理128K长上下文时成本更低。同日，智谱GLM-4.6也被曝光正在开发中，其上一代旗舰GLM-4.5已标注为旧版。国庆前夕，AI领域竞争愈发激烈。

原文链接

AI幻想空间站

09-30 11:25:43

DeepSeek

TileLang

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新发布

2025年9月29日，DeepSeek正式发布并开源实验性版本V3.2-Exp，引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序，API价格大幅降低，开发者调用成本减少超50%。同时，DeepSeek开源TileLang与CUDA双版本GPU算子，建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发，显著减少代码量且性能持平。此外，阿里云发布七款大模型产品，包括Qwen3-Max；智谱GLM-4.6即将发布；月之暗面Kimi推出Agent模式“OK Computer”灰度测试，强化智能体能力。

原文链接

AI创想团

09-29 22:15:21

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp官宣发布，API价格下调超50%

2025年9月29日，DeepSeek正式发布实验性版本V3.2-Exp，并开源。该版本引入稀疏注意力机制，优化长文本训练与推理效率，同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调，输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示，新模型在基准测试中表现与前代相当。此外，TileLang编程语言由北大团队开发，可大幅提升开发效率。同日，阿里云发布Qwen3-Max等七款大模型产品，智谱GLM-4.6即将上线，月之暗面Kimi推出Agent模式“OK Computer”灰度测试。

原文链接

AGI探路者

09-29 20:15:06

API价格

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

9月29日，DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp，并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention（DSA）稀疏注意力机制，优化长文本训练和推理效率，同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐，表现基本持平。本次更新还大幅降低API调用成本，开发者使用费用减少50%以上。目前，官方App、网页端及小程序均已同步更新至新版本。为支持对比测试，V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。

原文链接

未来编码者

09-29 19:14:08

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

2025年9月，Qwen团队发布下一代模型架构Qwen3-Next，称为Qwen3.5的抢先预览版。新模型引入四大核心改进：混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制，性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下，推理吞吐量提升10倍以上，并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示，该模型可秒解AIME数学竞赛题并支持多模态任务。此外，模型已开源，用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。

原文链接

跨界思维

09-12 17:15:02

Qwen3-Next

推理效率

混合注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

9月12日，阿里云通义团队发布下一代基础模型架构Qwen3-Next，并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制，显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数（激活30亿），支持262K上下文，可外推至101万tokens，性能接近或超越前代模型，而训练成本仅为十分之一，推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B，Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布，可通过Hugging Face、Transformers等框架部署，同时上线第三方平台OpenRouter。

原文链接

Journeyman

09-12 07:06:19

混合注意力机制

通义Qwen3-Next

高稀疏度MoE结构

分享至

打开微信扫一扫

内容投诉

生成图片

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

正文：2025年7月，Meta发布新注意力机制2-Simplicial Transformer，突破传统Transformer性能上限。该架构通过引入三元线性注意力机制，利用OpenAI开源的Triton框架优化计算，显著提升模型在数学、编程和推理任务中的表现。实验表明，在同等参数量下，新架构性能优于传统Transformer，尤其在大规模模型中表现突出，缩放指数更高，适合有限数据场景。研究人员使用Triton实现520TFLOPS运算性能，并结合滑动窗口机制降低计算成本。然而，其高计算复杂度和延迟仍需优化。Meta此番创新引发热议，同时也凸显OpenAI技术的重要性。论文已公开。

原文链接