注意力 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek新模型上线

2025年9月30日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DeepSeek Sparse Attention（DSA），显著提升长文本处理效率与推理性能，同时开源TileLang和CUDA双版本GPU算子，便于社区研究与迭代。官方App、网页端、小程序均已同步更新，并推出API 5折起优惠活动。此外，DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平，但在处理128K长上下文时成本更低。同日，智谱GLM-4.6也被曝光正在开发中，其上一代旗舰GLM-4.5已标注为旧版。国庆前夕，AI领域竞争愈发激烈。

原文链接

AI幻想空间站

09-30 11:25:43

DeepSeek

TileLang

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新发布

2025年9月29日，DeepSeek正式发布并开源实验性版本V3.2-Exp，引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序，API价格大幅降低，开发者调用成本减少超50%。同时，DeepSeek开源TileLang与CUDA双版本GPU算子，建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发，显著减少代码量且性能持平。此外，阿里云发布七款大模型产品，包括Qwen3-Max；智谱GLM-4.6即将发布；月之暗面Kimi推出Agent模式“OK Computer”灰度测试，强化智能体能力。

原文链接

AI创想团

09-29 22:15:21

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp官宣发布，API价格下调超50%

2025年9月29日，DeepSeek正式发布实验性版本V3.2-Exp，并开源。该版本引入稀疏注意力机制，优化长文本训练与推理效率，同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调，输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示，新模型在基准测试中表现与前代相当。此外，TileLang编程语言由北大团队开发，可大幅提升开发效率。同日，阿里云发布Qwen3-Max等七款大模型产品，智谱GLM-4.6即将上线，月之暗面Kimi推出Agent模式“OK Computer”灰度测试。

原文链接

AGI探路者

09-29 20:15:06

API价格

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

9月29日，DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp，并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention（DSA）稀疏注意力机制，优化长文本训练和推理效率，同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐，表现基本持平。本次更新还大幅降低API调用成本，开发者使用费用减少50%以上。目前，官方App、网页端及小程序均已同步更新至新版本。为支持对比测试，V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。

原文链接

未来编码者

09-29 19:14:08

API降价

DeepSeek-V3.2-Exp

稀疏注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

2025年9月29日，DeepSeek发布最新模型DeepSeek-V3.2-Exp，引入全新稀疏注意力机制DSA，显著提升长文本处理效率与推理性能。官方同步开源TileLang和CUDA双版本GPU算子，并推出API 5折优惠活动。新模型基于上周发布的V3.1-Terminus改进，在稳定性及工具调用能力上进一步优化，尤其在128K长上下文推理中成本更低。此外，智谱AI的GLM-4.6模型也在开发中，其官网已将GLM-4.5标记为‘上一代旗舰’。国庆期间将迎来一波AI技术更新热潮，开发者可关注相关资源链接获取更多信息。

原文链接

元界筑梦师

09-29 19:13:01

DeepSeek

DSA稀疏注意力

TileLang

分享至

打开微信扫一扫

内容投诉

生成图片

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

2025年9月，Qwen团队发布下一代模型架构Qwen3-Next，称为Qwen3.5的抢先预览版。新模型引入四大核心改进：混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制，性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下，推理吞吐量提升10倍以上，并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示，该模型可秒解AIME数学竞赛题并支持多模态任务。此外，模型已开源，用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。

原文链接

跨界思维

09-12 17:15:02

Qwen3-Next

推理效率

混合注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

9月12日，阿里云通义团队发布下一代基础模型架构Qwen3-Next，并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制，显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数（激活30亿），支持262K上下文，可外推至101万tokens，性能接近或超越前代模型，而训练成本仅为十分之一，推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B，Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布，可通过Hugging Face、Transformers等框架部署，同时上线第三方平台OpenRouter。

原文链接

Journeyman

09-12 07:06:19

混合注意力机制

通义Qwen3-Next

高稀疏度MoE结构

分享至

打开微信扫一扫

内容投诉

生成图片

扎克伯格认输了，但他将用AI填满人类的空闲时间！

8月2日，美国科技媒体The Verge副主编亚历克斯·希思解析Meta首席执行官扎克伯格的《个人超级智能宣言》。扎克伯格承认Meta已放弃在ChatGPT核心领域竞争，转而聚焦于利用AI填补用户因生产力提升而获得的空闲时间。他认为，未来人类将减少使用生产力软件，更多时间用于创造和连接。Meta将专注于娱乐、社交和生活方式，强化其注意力经济优势。通过AI技术，Meta计划增强内容推荐、广告精准度和用户互动能力，延长用户停留时间。这一策略契合Meta的核心业务，但也带有反乌托邦色彩。值得注意的是，“个人超级智能”概念曾由Character.AI联合创始人提出，他曾考虑加入Meta。

原文链接

数据炼金师

08-02 23:26:48

个人超级智能

扎克伯格

注意力经济

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

在2025年ACL颁奖典礼上，DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获最佳论文奖。该研究提出原生稀疏注意力（NSA）机制，通过算法与硬件协同优化，使长文本处理速度提升11倍，性能超越传统全注意力模型。一作袁境阳透露，技术可扩展上下文至1百万tokens，或用于下一代DeepSeek-V4及R2模型。实验显示，NSA在多项基准测试中表现优异，尤其在复杂推理和代码理解任务中显著领先。此外，大会还评选出其他3篇最佳论文，分别来自北大、斯坦福等团队，涉及模型对齐弹性、公平性差异感知及生成采样机制研究。

原文链接

数据炼金师

08-01 17:03:23

ACL 2025

DeepSeek

原生稀疏注意力

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek NSA论文荣膺ACL桂冠，知乎答主热议一线科研成果

在ACL 2025颁奖礼上，DeepSeek与北京大学联合发表的论文荣获最佳论文奖，其提出的原生稀疏注意力（NSA）机制为自然语言处理效率突破提供了新思路。知乎答主热议这一技术，李明殊以购物比喻解释NSA机制，Nil-9和锤炼小助手从技术角度深入解析其原理。清华大学刘知远团队此前发布的InfLLM项目及微软亚研院、月之暗面的相关研究均推动了稀疏注意力的发展。知乎作为科技讨论平台，已聚集1600万AI学习者和356万创作者，成为开发者交流前沿成果的重要阵地。

原文链接