
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月30日,DeepSeek发布最新模型DeepSeek-V3.2-Exp,引入全新稀疏注意力机制DeepSeek Sparse Attention(DSA),显著提升长文本处理效率与推理性能,同时开源TileLang和CUDA双版本GPU算子,便于社区研究与迭代。官方App、网页端、小程序均已同步更新,并推出API 5折起优惠活动。此外,DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平,但在处理128K长上下文时成本更低。同日,智谱GLM-4.6也被曝光正在开发中,其上一代旗舰GLM-4.5已标注为旧版。国庆前夕,AI领域竞争愈发激烈。
原文链接
2025年9月29日,DeepSeek正式发布并开源实验性版本V3.2-Exp,引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序,API价格大幅降低,开发者调用成本减少超50%。同时,DeepSeek开源TileLang与CUDA双版本GPU算子,建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发,显著减少代码量且性能持平。此外,阿里云发布七款大模型产品,包括Qwen3-Max;智谱GLM-4.6即将发布;月之暗面Kimi推出Agent模式“OK Computer”灰度测试,强化智能体能力。
原文链接
2025年9月29日,DeepSeek正式发布实验性版本V3.2-Exp,并开源。该版本引入稀疏注意力机制,优化长文本训练与推理效率,同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调,输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示,新模型在基准测试中表现与前代相当。此外,TileLang编程语言由北大团队开发,可大幅提升开发效率。同日,阿里云发布Qwen3-Max等七款大模型产品,智谱GLM-4.6即将上线,月之暗面Kimi推出Agent模式“OK Computer”灰度测试。
原文链接
9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp,并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention(DSA)稀疏注意力机制,优化长文本训练和推理效率,同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐,表现基本持平。本次更新还大幅降低API调用成本,开发者使用费用减少50%以上。目前,官方App、网页端及小程序均已同步更新至新版本。为支持对比测试,V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。
原文链接
2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
原文链接
DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐...
原文链接
2月18日,DeepSeek宣布推出NSA(Native Sparse Attention),一种硬件对 alignments 且原生可训练的稀疏注意力机制,旨在加速推理并降低成本,同时保持性能。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩及细粒度token选择。DeepSeek表示,该机制在通用基准、长上下文任务和基于指令的推理中表现出色,不逊于全注意力模型。更多信息参见:
原文链接
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,...
原文链接
加载更多

暂无内容