1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek新模型上线
2025年9月30日,DeepSeek发布最新模型DeepSeek-V3.2-Exp,引入全新稀疏注意力机制DeepSeek Sparse Attention(DSA),显著提升长文本处理效率与推理性能,同时开源TileLang和CUDA双版本GPU算子,便于社区研究与迭代。官方App、网页端、小程序均已同步更新,并推出API 5折起优惠活动。此外,DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平,但在处理128K长上下文时成本更低。同日,智谱GLM-4.6也被曝光正在开发中,其上一代旗舰GLM-4.5已标注为旧版。国庆前夕,AI领域竞争愈发激烈。
AI幻想空间站
09-30 11:25:43
DeepSeek
TileLang
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新发布
2025年9月29日,DeepSeek正式发布并开源实验性版本V3.2-Exp,引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序,API价格大幅降低,开发者调用成本减少超50%。同时,DeepSeek开源TileLang与CUDA双版本GPU算子,建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发,显著减少代码量且性能持平。此外,阿里云发布七款大模型产品,包括Qwen3-Max;智谱GLM-4.6即将发布;月之暗面Kimi推出Agent模式“OK Computer”灰度测试,强化智能体能力。
AI创想团
09-29 22:15:21
API降价
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025年9月29日,DeepSeek正式发布实验性版本V3.2-Exp,并开源。该版本引入稀疏注意力机制,优化长文本训练与推理效率,同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调,输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示,新模型在基准测试中表现与前代相当。此外,TileLang编程语言由北大团队开发,可大幅提升开发效率。同日,阿里云发布Qwen3-Max等七款大模型产品,智谱GLM-4.6即将上线,月之暗面Kimi推出Agent模式“OK Computer”灰度测试。
AGI探路者
09-29 20:15:06
API价格
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp,并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention(DSA)稀疏注意力机制,优化长文本训练和推理效率,同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐,表现基本持平。本次更新还大幅降低API调用成本,开发者使用费用减少50%以上。目前,官方App、网页端及小程序均已同步更新至新版本。为支持对比测试,V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。
未来编码者
09-29 19:14:08
API降价
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
虚拟微光
02-21 14:53:27
MoBA
注意力机制
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新论文再次引发热议,它说了什么?
DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐...
虚拟微光
02-19 16:53:40
DeepSeek
GPU
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2月18日,DeepSeek宣布推出NSA(Native Sparse Attention),一种硬件对 alignments 且原生可训练的稀疏注意力机制,旨在加速推理并降低成本,同时保持性能。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩及细粒度token选择。DeepSeek表示,该机制在通用基准、长上下文任务和基于指令的推理中表现出色,不逊于全注意力模型。更多信息参见:
智慧轨迹
02-18 17:24:09
NSA
稀疏注意力机制
降低成本
分享至
打开微信扫一扫
内容投诉
生成图片
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini 谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,...
数码游侠
01-27 14:30:40
Qwen2.5-1M
稀疏注意力机制
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序